WO2015163684A1 - 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 - Google Patents

적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 Download PDF

Info

Publication number
WO2015163684A1
WO2015163684A1 PCT/KR2015/004010 KR2015004010W WO2015163684A1 WO 2015163684 A1 WO2015163684 A1 WO 2015163684A1 KR 2015004010 W KR2015004010 W KR 2015004010W WO 2015163684 A1 WO2015163684 A1 WO 2015163684A1
Authority
WO
WIPO (PCT)
Prior art keywords
semantic unit
improvement
semantic
unit set
captured
Prior art date
Application number
PCT/KR2015/004010
Other languages
English (en)
French (fr)
Inventor
김민철
Original Assignee
주식회사 큐키
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020140048315A external-priority patent/KR101651909B1/ko
Application filed by 주식회사 큐키 filed Critical 주식회사 큐키
Priority to CN201911020246.4A priority Critical patent/CN110675866B/zh
Priority to JP2016515299A priority patent/JP2016521383A/ja
Priority to CN201580000567.1A priority patent/CN105210147B/zh
Priority to US14/779,037 priority patent/US10395645B2/en
Publication of WO2015163684A1 publication Critical patent/WO2015163684A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/086Recognition of spelled words
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Definitions

  • the present invention relates to a method, an apparatus and a computer readable recording medium for improving the set of at least one semantic unit (hereinafter also referred to simply as "meaning unit").
  • the semantic unit set may be output as a digital voice corresponding to a specific language or expressed as text of a specific language.
  • the set of semantic units may be digital speech that is the result of analysis of analog speech, which is one of broad speech recognition, and in the latter case, the set of semantic units may be speech recognition text, which is the result of narrow speech recognition.
  • the semantic unit set obtained by the above attempt has some limitations in terms of quality. For example, myriads of different speech habits, indistinct pronunciations of some people, use of unspoken vocabulary or dialects, and ambient noise can create practical difficulties in deriving a set of semantic units depending on speech recognition technology. Was.
  • the present inventors have developed a new technique for improving the set of at least one semantic unit using an improvement voice (i.e., a voice uttered separately for improvement) so that a higher quality semantic unit set is obtained as a result.
  • an improvement voice i.e., a voice uttered separately for improvement
  • the semantic unit set to be improved by the improvement voice is not necessarily limited to that obtained by the speech recognition technology.
  • the set of semantic units to be improved may be originally input by the user as text (ie, may not be obtained by speech recognition technology).
  • the semantic unit set to be improved is obtained by the speech recognition technology, and in order to improve this, it can be assumed even when an improvement text is used instead of the improvement voice.
  • the present inventors also present new techniques that can be used in many of the above cases.
  • the present invention aims to solve all of the above-mentioned problems of the prior art.
  • Another object of the present invention is to improve the set of at least one semantic unit by using voice or text.
  • the set comprising at least one semantic unit may be a digital voice or text as a result of recognizing an analog voice of a person through a predetermined electronic device (not shown) or a predetermined electronic device (not shown).
  • TTS Text To Speech
  • According to the present invention can be improved by the voice for improvement. As an aspect of such improvement, correction of a speech recognition result, correction of a typo in the input and displayed text, etc. are mentioned.
  • a set including at least one semantic unit is a digital voice or text as a result of recognizing an analog voice of a person through a predetermined electronic device (not shown), according to the present invention described below. It may be improved by the text for improvement. As an aspect of such improvement, correction of a speech recognition result is mentioned.
  • a method for improving a set comprising at least one semantic unit wherein the set comprising the at least one semantic unit is a captured semantic unit collection, the method according to the user's speech Receiving a user voice, specifying a set of improvement semantic units based on the improvement voice, and based on an association with the set of improvement semantic units, an object of actual improvement within the captured semantic unit set is determined. Specifying a set of semantic units to be matched as a matched semantic unit set, and replacing the matched semantic unit set in the captured semantic unit set with the improvement semantic unit set.
  • a computer readable recording medium for recording another method for implementing the present invention, another apparatus, and a computer program for executing the method.
  • the set of at least one semantic unit can be improved by using voice or text.
  • the result of the text input can be easily and accurately improved.
  • FIG. 1 is a view schematically showing the appearance of a semantic unit improving device according to an embodiment of the present invention.
  • FIG. 2 is a block diagram conceptually illustrating an internal configuration of a semantic unit improving apparatus according to an embodiment of the present invention.
  • FIG. 3 is an exemplary flowchart of a matching method according to an embodiment of the present invention.
  • FIG. 4 is an exemplary flowchart of a semantic unit improvement method according to an embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating a digital voice comparison method according to an embodiment of the present invention.
  • FIG. 6 is a flowchart illustrating a text comparison method according to an embodiment of the present invention.
  • FIG. 1 is a view schematically showing the appearance of a semantic unit improving device according to an embodiment of the present invention.
  • the semantic unit improving apparatus 100 may include a display unit 110 (eg, a display panel) that displays visual information on a set of various semantic units, and the like, and a semantic unit improving apparatus.
  • the user can press or touch the button unit 120 (for example, the home button of the smart phone) that can be performed to perform a predetermined function, the meaning generated by the unit improvement device 100 Sound output unit 130 (for example, a speaker) capable of outputting sound, a sound sensor (in many cases, a microphone disposed near the bottom of the button unit 120) (not shown), and other known electric and electronic devices Components (not shown) and the like.
  • the semantic unit improvement device 100 is illustrated in FIG.
  • the semantic unit improvement device 100 is not limited thereto, but a desktop computer, a notebook computer, a workstation, a PDA, a web pad, a mobile phone (smart) Non-phone), various smart wearable devices (e.g., smart watches, smart bands, smart glasses, smart rings, etc.), which have a memory means and are equipped with a microprocessor, which is a digital device with computing power It can be adopted as the semantic unit improvement device 100 according to the invention.
  • the display 110 may further function as a known touch panel to receive a text input of a user.
  • the text input of the user may be performed by a keyboard (not shown) or a keypad (not shown) on the touch panel provided in software in conjunction with the touch panel.
  • the semantic unit improvement device 100 may include a separate hardware keyboard / keypad (not shown) to receive a text input of the user.
  • FIG. 2 is a block diagram conceptually illustrating an internal configuration of a semantic unit improving apparatus according to an embodiment of the present invention.
  • the semantic unit improving apparatus 100 may include a voice sensing unit 210, a speech processing unit 220, a semantic unit improving unit 230, a database 250, and The controller 260 may be included.
  • the voice detector 210, the voice processor 220, the semantic unit improver 230, the database 250, and the controller 260 perform a predetermined operation.
  • a program module for managing or communicating with other hardware components or software components may be included in the semantic unit improvement device 100 in the form of an operating system, an application program module or other program modules, and may be physically stored in various known storage devices.
  • program modules may be stored in a remote storage device (not shown) or even an external computing device (not shown) that can communicate with the semantic unit improvement device 100. Therefore, at least some of the functions of the semantic unit improving device 100 may be executed by an external computing device or the like according to the free choice of those skilled in the art.
  • program modules include, but are not limited to, routines, subroutines, programs, objects, components, data structures, etc. that perform particular tasks or execute particular abstract data types, described below, in accordance with the present invention.
  • the voice sensing unit 210 corresponds to a larger set of semantic units including a set of voices uttered by a user or the like, that is, a set of at least one semantic unit to be improved.
  • the user may perform a function of detecting a voice for improvement that may be further uttered by the user.
  • the voice sensing unit 210 may include the acoustic sensor as described above as a part thereof or at least communicate with the acoustic sensor.
  • Examples of such an acoustic sensor may include a noise sensor, a vibration sensor, an ultrasonic sensor, and the like, which can sense a voice signal having a small amplitude as well as a general acoustic sensor such as a microphone.
  • the acoustic sensor may include a voice detector 210, a chassis, a main board (not shown), a printed circuit board (PCB) (not shown), and an enclosure (not shown) of the semantic unit improvement device 100. And at least one portion thereof.
  • the voice detector 210 may transmit the analog signal of the detected voice to the voice processor 220 as described later.
  • the voice processing unit 220 may perform a function of converting an analog voice signal received from the voice sensing unit 210 into a digital signal.
  • the voice processor 220 may include a known analog-to-digital converter. Accordingly, the speech processing unit 220 performs at least one of sampling, quantization, and encoding processes, thereby corresponding to a larger set of semantic units including a set of semantic units to be improved. It is possible to convert an audio signal or an audio signal for improvement from an analog signal to a digital signal.
  • the voice processing unit 220 may amplify a voice signal, remove noise from the voice signal, selectively receive only a voice signal of a specific frequency band, or change a waveform of the voice signal as needed.
  • the speech processing unit 220 may include a known amplifier, noise filter, bandpass / band reject filter, Kalman filter, EMA filter, Savitzky-Golay filter, and the like. have.
  • the speech processing unit 220 may perform a process of converting a speech signal in the time domain into a frequency domain or vice versa.
  • the voice processor 220 may transmit the digital voice signal that is a result of the process to the semantic unit improver 230 as described later.
  • the semantic unit improving unit 230 includes a larger semantic unit set including a specific semantic unit set to be improved according to the digital voice signal received from the voice processing unit 220. Can be captured. This may be physically the digital voice itself or the result of conversion to text. For the latter case or for other speech recognition needs as described below, the semantic unit improving unit 230 may include or be linked to a known speech recognition module.
  • the semantic unit set as described above will be referred to as "captured semantic unit set".
  • the semantic unit improving unit 230 may also specify an improvement voice based on the digital voice signal received from the voice processing unit 220.
  • the semantic unit set corresponding to the above-described improvement voice will be referred to as an "improvement semantic unit set”. This may also be physically the digital voice itself or the result of conversion to text.
  • the semantic unit set captured by the semantic unit improving unit 230 need not necessarily originate from the digital audio signal. That is, for example, regardless of the occurrence of analog or digital voice, the semantic unit set corresponding to the text acquired by the user's key input, optical character reading, etc. may also be the captured semantic unit set as described above. have.
  • the predetermined improvement text may constitute a set of improvement semantic units.
  • the text input by the user via the keyboard may be a set of improvement semantic units.
  • the number of cases related to the correspondence between the semantic unit set and the semantic unit set for improvement according to the embodiments of the present invention may be as shown in Table 1 below.
  • the semantic unit improvement unit 230 compares the semantic unit set captured and the improvement semantic unit set, and sets the semantic unit that is the target of actual improvement, which has a high correlation with the semantic unit set for improvement from the semantic unit set captured. Can be extracted. Such extraction may also be called "matching" between the semantic unit set to be improved and the semantic unit set for improvement.
  • the comparison performed for such a match may be a comparison between digital voices, a comparison between texts, and a comparison between digital voices and texts, provided that in this case, one of the digital voices and the text is different from the other. May need to be pre-converted to the same format).
  • the matched set of improvement semantic units is referred to as " matched semantic unit set " for convenience. This may exist in one captured semantic unit set, but may exist in plural.
  • the semantic unit improving unit 230 may further utilize information by a user's input (ie, an input other than the speech of the improvement voice or the input of the improvement text) for matching. For example, if a plurality of relatively high semantic unit sets are extracted, a matched semantic unit set may be determined by allowing a user to manually select at least some of them.
  • the semantic unit improving unit 230 may improve the captured semantic unit set by the improvement semantic unit set. That is, the matched semantic unit set may be replaced with the improvement semantic unit set. This replacement may be to delete the matched set of semantic units that existed in the semantic set of captured semantic units, and instead insert the set of improvement semantic units in place. The result may be that the semantic unit set captured retains its physical form but its quality is improved. This result can be physically digital voice or text.
  • the database 250 may store information about the semantic unit captured, the semantic unit for improvement, and the matching.
  • the database 250 is illustrated as being included in the semantic unit improvement apparatus 100 in FIG. 2, according to the needs of those skilled in the art of implementing the present invention, the database 250 may be connected to the semantic unit improvement apparatus 100. It may be configured separately.
  • the database 250 in the present invention is a concept that includes a computer-readable recording medium, and may be a broad database including not only a negotiated database but also a file system based on a file system. If the set can be retrieved to extract the data, it can be the database 250 in the present invention.
  • the controller 260 provides a function of controlling the flow of data between the voice detector 210, the voice processor 220, the semantic unit improver 230, and the database 250. Can be done. That is, the controller 260 according to the present invention controls the data flow between the components of the semantic unit improving apparatus 100, thereby providing a voice sensing unit 210, a speech processing unit 220, a semantic unit improving unit 230, and the like. Each database 250 may control to perform a unique function.
  • 3 is an exemplary flowchart of a matching method according to an embodiment of the present invention.
  • the semantic unit improving unit 230 may perform step S1 of specifying a set of improvement semantic units.
  • the semantic unit improving unit 230 receives the voice of the digital signal received before or after (or immediately before or after) the user's predetermined instruction among the digital voice signals received from the voice processing unit 220. It may be specified as an improvement voice, that is, as a set of improvement semantic units (the above instruction may be a speech of a user's pre-promised word or input of a pre-promised key).
  • the digital voice corresponding to "error” or the text converted by speech recognition is displayed. It can be specified as a set of semantic units for improvement. This specification is the time interval between the speech portion corresponding to "error” (ie the speech portion for improvement) and the speech portion before it (ie the speech portion corresponding to "backspace” or the speech portion corresponding to "without backspace”). It may be based on the fact that it is above a predetermined threshold. On the other hand, in this example, a digital voice corresponding to "I can correct typing at all without backspace” or a set of semantic units in which the text converted by voice recognition may be captured.
  • the semantic unit improvement unit 230 may determine that the user has displayed, for example, text (ie, a set of captured semantic units) on the screen such as "I can correct typing at all without backspace". Even when the "error" is uttered before or after (or immediately before or after) a predetermined instruction with the intention of making an improvement, the set of improvement semantic units can be specified based on the corresponding digital voice. have.
  • text ie, a set of captured semantic units
  • the set of improvement semantic units can be specified based on the corresponding digital voice. have.
  • the semantic unit improving unit 230 for example, after the user utters a voice corresponding to "I can correct typing at all without backspace", sees it displayed on the screen, and then Even if a text for improvement such as "error” is input by the keyboard before or after (or immediately before or after) with the intention of making an improvement related to it, a set of improvement semantic units is specified based on this. can do.
  • the semantic unit improving unit 230 may perform the step S2 of specifying the semantic unit set to be the actual improvement in the captured semantic unit set based on the specified improvement semantic unit set. Can be.
  • a larger set of semantic units may be captured that contain a specific set of semantic units that are subject to substantial improvement.
  • This captured semantic unit set may be a semantic unit set of “I can correct typing at all without backspace”, as illustrated above.
  • the semantic unit improving unit 230 may determine the time interval or space between units in the semantic unit set captured and / or the length of the semantic unit set for improvement (for example, the duration of the corresponding digital voice signal, the length of the text, the word).
  • Number of words, number of words, number of syllables, number of letters, number of words, etc. for example, “I can”, “can correct”, “correct typing”, After dividing and expanding, such as “typing at”, “at all”, “all without”, “without backspace”, etc., you can see each part compared to the set of semantic units for improvement. Of course, you can divide it with “I”, “can”, “correct”, “typing”, “at”, “all”, “without”, “backspace”, or “cor” rather than "correct”.
  • each part may be compared with the semantic unit set for improvement together with one or more of them. While above and below, a description is made of dividing or extending the semantic unit set captured for comparison with the improvement semantic unit set, but as long as a part of the semantic unit set captured can be compared with the semantic unit set for improvement Any means other than separation (division) into parts of the set of semantic units or expansion of parts (ie, arrangement of parts to be overlapped) may be adopted.
  • This comparison may be a comparison of the characteristics of the digital voice in the time domain or the frequency domain when the comparison is between digital voices.
  • voice features may be feature points in the wave of the digital voice signal. That is, as more common feature points are found between two digital voice signals within the same reproduction time interval, the two digital voices may be regarded as having higher correlation with each other.
  • the characteristics (characteristics) of the digital voice under consideration may freely include one or more of the following.
  • LPCC linear prediction-based Cepstral Coefficients
  • PLP perceptual linear prediction
  • the above comparison may be a comparison between texts.
  • the text may be compared with respect to at least one of the word, word, syllable, letter and word.
  • One or more known text comparison algorithms may be employed for this comparison. For example, two texts having a high sequential similarity (for example, a similarity between a note value and a spelling) for each syllable may be defined as text having a high correlation with each other.
  • the semantic unit improving unit 230 may determine, as a matched semantic unit set, a portion indicating a high correlation with the semantic unit for improvement in the semantic unit set captured.
  • the digital voice or text corresponding to the "at all" part may be determined as a set of matched semantic units.
  • the semantic unit improving unit 230 eventually performs a comparison between digital voices or a comparison between texts. This is because even when a comparison is performed between digital voice and text, the format of the two sets of semantic units is unified to one of the digital voice and the text before the full comparison.
  • the semantic unit improving unit 230 may include or at least interwork with a known speech recognition module and / or a known TTS module.
  • FIG. 5 is a flowchart illustrating a digital voice comparison method according to an embodiment of the present invention.
  • the semantic unit improving unit 230 may measure the length of the digital voice corresponding to the set of improvement semantic units.
  • the unit of this length can usually be seconds.
  • the semantic unit improvement unit 230 may divide and expand the semantic unit set captured into various parts according to the length or the length in which the predetermined length is added to or subtracted from the length. For example, if the captured semantic unit set is a digital voice having a reproduction time of 10 seconds and the improvement semantic unit set is a digital voice having a reproduction time of 1 second, the captured semantic unit set has a corresponding reproduction time interval of 0 to 1 second, 0.1 to 1.1 seconds,... , 8.9 seconds to 9.9 seconds, and 9 seconds to 10 seconds. According to the performance of the semantic unit improving unit 230 or the semantic unit improving apparatus 100, the number of the above parts may be appropriately adjusted.
  • the semantic unit improving unit 230 may compare each part of the semantic unit set captured with the improvement semantic unit set.
  • the nature of the comparison may be a comparison of the characteristics of the digital speech signal.
  • Such a comparison may preferably include some association score calculation. For example, within a corresponding time interval, whenever the same or nearly similar feature points are found between two digital voice signals, the association score may be cumulatively increased. The association score determined accordingly may be given for that portion of the semantic unit set captured.
  • the correspondence or degree of correspondence of the various other characteristics as described above may be the basis of the correlation score calculation.
  • This step 503 may be performed repeatedly as necessary.
  • the semantic unit improving unit 230 is about all the parts of the semantic unit set captured or a part of which a predetermined association score has already been given.
  • Correlation score calculation by digital voice comparison may be performed repeatedly two or more times.
  • the captured semantic unit set portion given the highest association score (cumulative score or average score) after iterative association score calculation may be determined as the matched semantic unit set.
  • FIG. 6 is a flowchart illustrating a text comparison method according to an embodiment of the present invention.
  • the semantic unit improving unit 230 may measure the length of text corresponding to the set of improvement semantic units.
  • the length of the text may be generally expressed by the number of words, words, syllables, letters, or words.
  • the text corresponding to the set of refinement semantic units may be "error", which has a length of two syllables.
  • the semantic unit improvement unit 230 may divide and expand the semantic unit set captured into various parts according to the length or the length in which the predetermined length is added to or subtracted from the length. For example, if the captured semantic unit set is text such as "I can correct typing at all without backspace", then the divided and expanded portion of the captured semantic unit set is "I", “can", “correct”, May include variously “I can”, “can correct”, “I can correct”, “cor”, “rect”, and the like (as for the other parts of the semantic unit set captured above).
  • the parts which are most preferably divided and then expanded are "I can”, “can cor”, “correct”, “rect ty”, “typing”, “ping at”, “at all”, “all with”, It could be two syllables like "without", “out back”, “backspace”, etc.
  • the number of the above parts may be appropriately adjusted.
  • the semantic unit improving unit 230 may compare each part of the semantic unit set captured with the improvement semantic unit set.
  • the comparison may be a sequential comparison of at least one of the words, words, syllables, letters, and lexicons between the texts.
  • Such a comparison may preferably include some association score calculation. For example, at locations corresponding to each other, whenever the same or nearly similar syllables are found between two texts, the association score may be cumulatively increased. The association score determined accordingly may be given for that portion of the semantic unit set captured.
  • what is determined to be almost similar between the two texts may be similar syllables, but may be similar syllables.
  • the comparison may be an overall comparison based on a semantic association between texts.
  • Such associations can be found depending on whether two words, each corresponding to two texts, belong to the same category or have substantially similar meanings. (References for such categories or meanings of such words are well-known linguistic libraries.) Can be made). For example, if the semantic unit set captured is text of "I can do it this Saturday", and the text of the refinement semantic unit set is "may” or "Friday", the semantic unit set "may” is captured. Can be identified as having a semantic association (i.e., an English verb) with a part of the set of semantic units (although the phonetic or spelling is different), and the set of improvement semantic units "Friday" is captured.
  • the comparison may be a comparison based on key position association between texts.
  • This comparison sequentially compares the spelling of a piece of text belonging to the semantic unit set captured with the spelling of the text of the set of improvement semantic units, but not only when the same spellings are found. Even if it is determined that the images have been adjacent to each other, the comparison score may be given to the portion. For example, if a QWERTY keyboard is used, "wyw", which may be a piece of text within a set of semantic units captured, has a high association score with respect to the text "eye" of the set of enhancement semantic units whose pitch or spelling is completely different. It can be determined to have.
  • This step 603 may be performed repeatedly as necessary.
  • the semantic unit improving unit 230 is about all the parts of the semantic unit set captured or a part of which a predetermined association score has already been given.
  • Association score calculation by text comparison can be performed repeatedly two or more times.
  • the captured semantic unit set portion given the highest association score (cumulative score or average score) after iterative association score calculation may be determined as the matched semantic unit set.
  • association score calculation methods as described above may be adopted as necessary.
  • the value obtained by multiplying the correlation score and the corresponding weight according to one method may be summed with the value multiplied by the correlation score and the corresponding weight according to another method.
  • the association score derived accordingly may be a complex association score.
  • one part or several parts of the captured semantic unit set having a high complex association score may be a matched semantic unit set.
  • the weight multiplied for the association score according to one method may be determined differently according to the environment in which the semantic unit improvement device 100 is located or the intention of the user. For example, when the user repeatedly utters the improvement voice to generate the improvement semantic unit set, a higher weight may be given to the correlation score by the digital voice comparison. Alternatively, when a user writes text corresponding to a set of semantic units captured by a small touch panel that is easy to be misspelled, a higher weight is applied to the correlation score considering the key adjacency on the keyboard among the correlation scores by text comparison. Can be given.
  • 4 is an exemplary flowchart of a semantic unit improvement method according to an embodiment of the present invention.
  • the semantic unit improving unit 230 may perform a step (step T1) of replacing a matched semantic unit set with an improvement semantic unit set.
  • the result of the replacement may be that the captured semantic unit set includes the improvement semantic unit set instead of the matched semantic unit set.
  • the result of this replacement may be an improved speech recognition result or an improved text.
  • the improved speech recognition result or text may be "I can correct typing error without backspace". This may be the result that exactly matches the user's original intent.
  • the semantic unit improving unit 230 may perform a step (step T2) of giving the user a digital voice corresponding to the captured semantic unit set to be substituted after the improvement or displaying a text corresponding thereto.
  • step T2 the semantic unit improving unit 230 may perform a step (step T2) of giving the user a digital voice corresponding to the captured semantic unit set to be substituted after the improvement or displaying a text corresponding thereto.
  • what is heard or displayed to the user may be digital voice or text corresponding to a set of semantic units of "I can correct typing error without backspace".
  • the improvement voice may not guarantee sufficient improvement (in the case of the improvement text, there is almost no such problem). This may be due to a problem inherent in the user (e.g. pronunciation inaccuracies, dialect usage, etc.) that the quality of the improvement voice is not high enough in the first place, which is mistaken for a different set of semantic units, or an environmental problem (e.g. For example, due to the environment in which noise is involved, the low specification of the semantic unit improvement device 100, etc., the quality of the improvement voice is not very low, but in that particular process, it may be mistaken as being a different set of semantic units. Can be.
  • a problem inherent in the user e.g. pronunciation inaccuracies, dialect usage, etc.
  • an environmental problem e.g. For example, due to the environment in which noise is involved, the low specification of the semantic unit improvement device 100, etc., the quality of the improvement voice is not very low, but in that particular process, it may be mistaken as being a different set of semantic units. Can be.
  • the semantic unit improvement unit 230 can further refine the semantic unit set corresponding to the improvement voice based on this. Below we will look at several examples of additional information that make this possible.
  • the user may further utter "e”, "r”, and “r” in addition to "error” corresponding to the improvement voice in the above example.
  • the semantic unit improving unit 230 is preset for improvement (that is, for improvement corresponding to the set of improvement semantic units having a front part which sequentially matches a corresponding alphabet letter after a predetermined number of alphabet letters are uttered continuously). If the voice is uttered, the letters of the alphabet are all considered partial spelling of the set of improvement semantic units) or other machine learning techniques, so that "e", "r” and “r” are actually sets of improvement semantic units. It can be seen that this corresponds to partial spelling to further refine. Obviously this could be to ensure the precise specification of the set of semantic units for improvement.
  • the user may further utter “echo”, “romeo” and “romeo” in addition to "error” corresponding to the improvement voice in the above example.
  • the semantic unit improving unit 230 corresponds to a preset set of improvement semantic units having a front part which is preset (i.e., a predetermined number of military phonetic alphabets are sequentially uttered and then sequentially matches the letters of the alphabet). If the improvement voice is uttered, the letters of the alphabet are all considered partial spelling of the set of improvement semantics) or other machine learning techniques, so that "echo”, "romeo” and “romeo” actually mean improvement. You can see that this corresponds to partial spelling to further refine the set of units.
  • the partial spelling technique as described above in the Korean language, the full-speaking speech of the vowel vowel letters (eg, "development” "for” and “yi” sequential sequential speech for the set of improvement semantic units called In Japanese, so as not to be mistaken for a set of meaning units for improvement (e.g., " ⁇ ⁇ " ( ⁇ ⁇ ⁇ ) It can also be carried out by " ⁇ ⁇ " ( ⁇ ⁇ ⁇ ⁇ ).
  • the semantic unit improving unit 230 may set a preset (that is, a setting in which the word corresponding to the voice after the speech is a hint word when the "of" is uttered in the portion where the improvement voice is spoken) or other machine learning.
  • “erroneous” is actually a hint word for more precisely specifying the set of improvement semantic units (ie, words that have spelling that is at least in part identical or similar to the words of the set of correct improvement semantic units). You can see that this corresponds to. Obviously this could be to ensure the precise specification of the set of semantic units for improvement.
  • "of" which may be regarded as a reserved word, may be replaced with another word that is easy for the user to understand and low in recognition rate, such as "like”.
  • the semantic unit improving unit 230 may correct the set of improvement semantic units to include the alphabet of the hint word, that is, "Zoe”.
  • the semantic unit improvement unit 230 may Accordingly, the set of improvement semantic units can be corrected to include the letter "of” of the hint word “chair”, that is, to be "inside.”
  • the synonym with the reserved word “like” may be used to further utter words similar in meaning to the correct set of improvement semantic units (e.g., "error” to be a set of improvement semantic units).
  • the reserved word “like” to allow additional "mistake” to be uttered, or to allow additional parent words to be uttered (for example, "Kia” to be a set of semantic units for improvement).
  • the relational word “car company” may be further uttered, or the association word may be further uttered (e.g., with the reserved word “like” to make the "dog house” a set of semantic units for improvement.
  • the association word “database” may be additionally uttered with the reserved word “for” to enable additional association of "assholes” or “queries” to be a set of improved semantic units. Can be locked).
  • the semantic unit improvement unit 230 interprets the result and sets the improvement semantic unit corresponding to the improvement voice. It can be more precisely specified.
  • Embodiments according to the present invention described above can be implemented in the form of program instructions that can be executed by various computer components and recorded in a computer-readable recording medium.
  • the computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the computer-readable recording medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floptical disks. medium) and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device may be modified with one or more software modules to perform the processing according to the present invention, and vice versa.

Abstract

본 발명은 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다. 본 발명에 따르면, 적어도 하나의 의미 유닛의 집합을 음성이나 텍스트를 이용하여 개선할 수 있게 된다.

Description

적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
본 발명은 적어도 하나의 의미론적 유닛(이하에서는, 간략히 "의미 유닛"이라고도 칭하기로 함)의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
[연관 출원의 상호 참조]
본 출원은 본 발명자의 연관 발명에 관한 특허출원인 한국특허출원 제10-2014-0048315호 및 제10-2014-0077056호와 상호 참조의 관계에 있다. 여기서, 상기 출원들의 명세서는 그 전체로서 편입된 것으로 간주되어야 한다.
사람의 음성을 인식하여 이를 보다 표준적인 의미 유닛의 집합(즉, 의미론적인 유닛을 적어도 하나 포함하는 집합)으로 변환하기 위한 시도가 다수 행하여진 바 있다. 이러한 의미 유닛 집합은 특정 언어에 해당하는 디지털 음성으로 출력되거나 특정 언어의 텍스트로 표기될 수 있는 것이기도 하다. 전자의 경우, 의미 유닛 집합은 광의의 음성 인식 중 하나인 아날로그 음성의 분석에 따른 결과인 디지털 음성일 수 있고, 후자의 경우, 의미 유닛 집합은 협의의 음성 인식에 따른 결과인 음성 인식 텍스트일 수 있다.
그러나, 위와 같은 시도에 따라 획득되는 의미 유닛 집합은 품질의 측면에 있어서 어느 정도 한계가 있었다. 예컨대, 사람마다 무수히 다양한 발화 습관이나 일부 인물의 불명료한 발음, 사전에 없는 어휘나 방언의 사용, 주변의 잡음 등은 음성 인식 기술에 의존하여 의미 유닛의 집합을 도출하는 작업에 실질적인 어려움을 부과하는 것이었다.
따라서, 본 발명자는 적어도 하나의 의미 유닛의 집합을 개선용 음성(즉, 개선을 위하여 따로 발화되는 음성)을 이용하여 개선하여, 결과적으로 더 우수한 품질의 의미 유닛 집합이 획득되도록 하기 위한 새로운 기술을 여기서 제시하는 바이다.
한편, 개선용 음성에 의한 개선의 대상이 되는 의미 유닛 집합이 반드시 음성 인식 기술에 의하여 획득된 것에 한정되어야 하는 것도 아니다. 예컨대, 개선의 대상이 되는 의미 유닛 집합은 사용자에 의하여 애초에 텍스트로서 입력된 것일 수도 있다(즉, 음성 인식 기술에 의하여 획득된 것이 아닐 수도 있다).
그리고, 역으로, 개선의 대상이 되는 의미 유닛 집합이 음성 인식 기술에 의하여 획득된 것이고, 이것을 개선하기 위하여, 개선용 음성이 아닌 개선용 텍스트가 사용되는 경우까지도 상정할 수 있다.
본 발명자는 위와 같은 여러 경우에 있어서 사용될 수 있는 새로운 기술도 여기서 함께 제시하는 바이다.
본 발명은 전술한 종래 기술의 문제점을 모두 해결하는 것을 그 목적으로 한다.
본 발명은 적어도 하나의 의미 유닛의 집합을 음성이나 텍스트를 이용하여 개선하는 것을 다른 목적으로 한다.
본 발명은 음성 인식의 결과를 용이하게 그리고 정확하게 개선하는 것을 또 다른 목적으로 한다.
본 발명은 텍스트 입력의 결과를 용이하게 그리고 정확하게 개선하는 것을 또 다른 목적으로 한다.
적어도 하나의 의미 유닛을 포함하는 집합은, 그것이 소정의 전자 장치(미도시됨)를 통하여 사람의 아날로그적인 음성을 인식한 결과물로서의 디지털 음성이나 텍스트인지, 아니면 소정의 전자 장치(미도시됨)를 통하여 입력된 후에(예를 들면, 키보드나 키패드에 의하여 입력된 후에) TTS(Text To Speech) 기술에 의하여 출력되는 디지털 음성이나 마찬가지로 입력된 후에 화면 상에서 디스플레이되는 텍스트인지를 가리지 아니 하고, 아래에서 설명되는 본 발명에 따라 개선용 음성에 의하여 개선될 수 있다. 이러한 개선의 양태로서, 음성 인식 결과의 수정, 입력되어 디스플레이된 텍스트에 있어서의 오타의 수정 등을 들 수 있다.
한편, 적어도 하나의 의미 유닛을 포함하는 집합은, 그것이 소정의 전자 장치(미도시됨)를 통하여 사람의 아날로그적인 음성을 인식한 결과물로서의 디지털 음성이나 텍스트인 경우, 아래에서 설명되는 본 발명에 따라 개선용 텍스트에 의하여 개선될 수도 있다. 이러한 개선의 양태로서, 음성 인식 결과의 수정을 들 수 있다.
위와 같은 관점에서 상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 태양에 따르면, 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 포착된 의미 유닛 집함임 - 을 개선하기 위한 방법으로서, 사용자의 발화에 따라 개선용 음성을 수신하는 단계, 상기 개선용 음성에 기초하여 개선용 의미 유닛 집합을 특정하는 단계, 상기 개선용 의미 유닛 집합과의 연관성에 기초하여, 상기 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하는 단계, 및 상기 포착된 의미 유닛 집합 내의 상기 매칭된 의미 유닛 집합을 상기 개선용 의미 유닛 집합으로 교체하는 단계를 포함하는 방법이 제공된다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 장치 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명에 의하면, 적어도 하나의 의미 유닛의 집합을 음성이나 텍스트를 이용하여 개선할 수 있게 된다.
본 발명에 의하면, 음성 인식의 결과를 용이하게 그리고 정확하게 개선할 수 있게 된다.
본 발명에 의하면, 텍스트 입력의 결과를 용이하게 그리고 정확하게 개선할 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 외양을 개략적으로 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 내부 구성을 개념적으로 나타내는 블록도이다.
도 3은 본 발명의 실시예에 따른 매칭 방법에 관한 예시적인 흐름도이다.
도 4는 본 발명의 실시예에 따른 의미 유닛 개선 방법에 관한 예시적인 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 디지털 음성 비교 방법에 관하여 도시하는 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 텍스트 비교 방법에 관하여 도시하는 흐름도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
[본 발명의 바람직한 실시예]
장치의 구성
도 1은 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 외양을 개략적으로 나타내는 도면이다.
도 1에 도시된 바와 같이, 의미 유닛 개선 장치(100)는, 사용자에게 각종 의미 유닛 집합 등에 관한 시각적인 정보를 디스플레이하여 주는 디스플레이부(110)(예를 들면, 디스플레이 패널), 의미 유닛 개선 장치(100)의 종류에 따라 사용자가 누르거나 만지면 소정의 기능이 수행되도록 할 수 있는 버튼부(120)(예를 들면, 스마트 폰의 홈 버튼), 의미 유닛 개선 장치(100)에서 발생되는 음성이나 음향을 출력할 수 있는 음 출력부(130)(예를 들면, 스피커), 음향 센서(많은 경우, 버튼부(120)의 아래 부근에 배치되는 마이크)(미도시됨), 기타 공지의 전기전자 부품(미도시됨) 등을 포함할 수 있다. 도 1에서 의미 유닛 개선 장치(100)가 스마트 폰인 것처럼 도시되었으나, 의미 유닛 개선 장치(100)가 이에 제한되는 것은 전혀 아니고, 데스크탑 컴퓨터, 노트북 컴퓨터, 워크스테이션, PDA, 웹 패드, 이동 전화기(스마트 폰이 아닌 것), 각종 스마트 웨어러블 디바이스(예를 들면, 스마트 워치, 스마트 밴드, 스마트 글래스, 스마트 링 등) 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 의미 유닛 개선 장치(100)로서 채택될 수 있다.
한편, 디스플레이부(110)는 공지의 터치 패널로서 작용하여 사용자의 텍스트 입력을 수신하기 위한 기능을 더 수행할 수 있다. 이때, 사용자의 텍스트 입력은 터치 패널과 연동하여 소프트웨어적으로 제공되는 터치 패널 상의 키보드(미도시됨)나 키패드(미도시됨)에 의하여 이루어질 수 있다. 다만, 의미 유닛 개선 장치(100)는 별도의 하드웨어 키보드/키패드(미도시됨)를 포함하여 사용자의 텍스트 입력을 수신할 수도 있다.
아래에서는, 의미 유닛 개선 장치(100)의 내부 구성에 관하여 도 2를 참조하여 자세하게 살펴보기로 한다. 도 2는 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 내부 구성을 개념적으로 나타내는 블록도이다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 의미 유닛 개선 장치(100)는 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230), 데이터베이스(250) 및 제어부(260)를 포함할 수 있다. 본 발명의 일 실시예에 따르면, 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230), 데이터베이스(250) 및 제어부(260)는 그 중 적어도 일부가 소정의 연산을 수행하거나 다른 하드웨어 구성요소나 소프트웨어 구성요소를 관리하거나 이러한 구성요소와 통신하기 위한 프로그램 모듈일 수 있다.  이러한 프로그램 모듈은 운영 시스템, 응용 프로그램 모듈 또는 기타 프로그램 모듈의 형태로 의미 유닛 개선 장치(100)에 포함될 수 있고, 물리적으로는 여러 가지 공지의 기억 장치에 저장될 수 있다.  또한, 이러한 프로그램 모듈은 의미 유닛 개선 장치(100)와 통신 가능한 원격 기억 장치(미도시됨)나 심지어 외부의 연산 장치(미도시됨)에 저장될 수도 있다. 따라서, 의미 유닛 개선 장치(100)의 기능의 적어도 일부는 당업자의 자유로운 선택에 따라 외부 연산 장치 등에 의하여 실행될 수도 있다. 한편, 이러한 프로그램 모듈은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.
먼저, 본 발명의 일 실시예에 따른 음성 감지부(210)는, 사용자 등에 의하여 발화되는 음성, 즉, 개선의 대상이 되는 적어도 하나의 의미 유닛의 집합을 포함하는 더 큰 의미 유닛 집합에 해당하는 아날로그 음성이나, 위와 같은 개선을 위하여 사용자에 의하여 따로 더 발화될 수 있는 개선용 음성을 감지하는 기능을 수행할 수 있다.
이를 위하여, 음성 감지부(210)는 전술한 바와 같은 음향 센서를 그 일부로서 포함하거나 적어도 이러한 음향 센서와 통신할 수 있다. 이와 같은 음향 센서의 예에는, 마이크와 같은 일반적인 음향 센서는 물론, 진폭이 작은 음성 신호도 감지할 수 있는 소음 센서와 진동 센서, 초음파 센서 등이 포함될 수 있다.
음향 센서는 의미 유닛 개선 장치(100)의 음성 감지부(210), 섀시(chassis), 메인 보드(미도시됨), PCB(Printed Circuit Board)(미도시됨), 인클로저(enclosure)(미도시됨) 등 중에서 적어도 어느 한 부분에 배치될 수 있다.
그리고, 음성 감지부(210)는 감지된 음성의 아날로그 신호를 후술하는 바와 같은 음성 처리부(220)로 전달할 수 있다.
다음으로, 본 발명의 일 실시예에 따른 음성 처리부(220)는 음성 감지부(210)로부터 전달 받은 아날로그 음성 신호를 디지털 신호로 변환하는 기능을 수행할 수 있다.
음성 처리부(220)는 공지의 아날로그-디지털 컨버터를 포함할 수 있다. 따라서, 음성 처리부(220)는 표본화(sampling), 양자화(quantization) 및 부호화(encoding)의 프로세스 중 적어도 하나를 수행함으로써, 개선의 대상이 되는 의미 유닛 집합을 포함하는 더 큰 의미 유닛 집합에 해당하는 음성이나 개선용 음성의 신호를 아날로그 신호로부터 디지털 신호로 변환할 수 있다.
또한, 음성 처리부(220)는, 필요에 따라, 음성 신호를 증폭시키거나, 음성 신호로부터 소음을 제거하거나, 특정 주파수 대역의 음성 신호만을 선별적으로 수신하거나, 음성 신호의 파형을 변경하거나 할 수 있다. 이를 위하여, 음성 처리부(220)는 공지의 증폭기, 소음 필터, 밴드패스/밴드리젝트 필터, 칼만(Kalman) 필터, EMA 필터, 사비츠키-골레이(Savitzky-Golay) 필터 등을 포함할 수 있다. 또한, 음성 처리부(220)는 시간 도메인의 음성 신호를 주파수 도메인의 것으로 변환하는 처리나 그 역의 처리를 수행할 수도 있다.
그리고, 음성 처리부(220)는 처리의 결과물인 디지털 음성 신호를 후술하는 바와 같은 의미 유닛 개선부(230)로 전달할 수 있다.
다음으로, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는 음성 처리부(220)로부터 전달 받은 디지털 음성 신호에 따른, 개선의 대상이 되는 특정 의미 유닛 집합을 포함하는 더 큰 의미 유닛 집합을 포착할 수 있다. 이것은 물리적으로는 해당 디지털 음성 자체이거나 그 텍스트로의 변환 결과일 수 있다. 후자의 경우나 후술하는 바와 같은 다른 음성 인식 니즈를 위하여, 의미 유닛 개선부(230)는 공지의 음성 인식 모듈을 포함하거나 이와 연동할 수 있다. 이하에서는, 위와 같은 의미 유닛 집합을 "포착된 의미 유닛 집합"이라고 칭하기로 한다.
한편, 의미 유닛 개선부(230)는 역시 음성 처리부(220)로부터 전달 받은 디지털 음성 신호에 따른 개선용 음성을 특정할 수 있다. 이하에서는, 위와 같이 특정된 개선용 음성에 해당하는 의미 유닛 집합을 "개선용 의미 유닛 집합"이라고 칭하기로 한다. 이것 역시 물리적으로는 해당 디지털 음성 자체이거나 그 텍스트로의 변환 결과일 수 있다.
또 한편, 의미 유닛 개선부(230)에서 다루어지는 포착된 의미 유닛 집합은 반드시 디지털 음성 신호로부터 유래할 필요도 없다. 즉, 예를 들어, 아날로그적이거나 디지털적인 음성의 발생과는 무관하게, 사용자의 키 입력, 광학 문자 판독 등에 의하여 획득된 텍스트에 해당하는 의미 유닛 집합 역시 상기와 같은 포착된 의미 유닛 집합이 될 수 있다.
또 한편, 소정의 개선용 텍스트가 개선용 의미 유닛 집합을 구성할 수도 있다. 예를 들면, 사용자가 키보드에 의하여 입력한 텍스트가 바로 개선용 의미 유닛 집합이 될 수도 있다.
요약하면, 본 발명의 실시예들에 따른 포착된 의미 유닛 집합과 개선용 의미 유닛 집합의 대응 관계에 관한 경우의 수는 다음의 표 1에서와 같을 수 있다.
표 1
Figure PCTKR2015004010-appb-T000001
그리고, 의미 유닛 개선부(230)는 포착된 의미 유닛 집합과 개선용 의미 유닛 집합을 비교하여, 포착된 의미 유닛 집합으로부터 개선용 의미 유닛 집합과 높은 연관성을 나타내는, 실제적인 개선의 대상이 되는 의미 유닛 집합을 추출할 수 있다. 이러한 추출을 개선의 대상이 되는 의미 유닛 집합과 개선용 의미 유닛 집합 사이의 "매칭"이라고도 칭할 수 있다. 이러한 매칭을 위하여 수행되는 상기 비교는 디지털 음성 간의 비교일 수도 있고, 텍스트 간의 비교일 수도 있으며, 디지털 음성과 텍스트 간의 비교일 수도 있다(다만, 이 경우에는, 디지털 음성과 텍스트 중 하나가 다른 하나와 같은 형식의 것으로 사전에 변환되는 것이 필요할 수 있다). 매칭된 개선 대상 의미 유닛 집합은 편의상 "매칭된 의미 유닛 집합"이라고 칭하기로 한다. 이것은 하나의 포착된 의미 유닛 집합 내에 하나만 존재할 수도 있지만, 복수 개 존재할 수도 있다.
한편, 의미 유닛 개선부(230)는 매칭을 위하여 사용자의 입력(즉, 개선용 음성의 발화나 개선용 텍스트의 입력 외의 다른 입력)에 의한 정보를 더 활용할 수도 있다. 예를 들어, 비교적 높은 연관성의 의미 유닛 집합이 복수 개 추출되면, 사용자가 이 중 적어도 일부를 수동적으로 선택하도록 함으로써 매칭된 의미 유닛 집합을 결정할 수도 있다.
본 발명에 따른 매칭에 관하여는 아래에서 더 상술하기로 한다.
다음으로, 의미 유닛 개선부(230)는 포착된 의미 유닛 집합을 개선용 의미 유닛 집합에 의하여 개선할 수 있다. 즉, 매칭된 의미 유닛 집합이 개선용 의미 유닛 집합으로 교체될 수 있다. 이러한 교체는 포착된 의미 유닛 집합 내에 존재하던 매칭된 의미 유닛 집합을 삭제하고, 대신 그 자리에 개선용 의미 유닛 집합을 삽입하는 것일 수 있다. 그 결과물은 포착된 의미 유닛 집합이 물리적 형식은 유지하되 그 품질은 개선된 것일 수 있다. 이러한 결과물은 물리적으로는 디지털 음성이거나 텍스트일 수 있다.
본 발명에 따른 의미 유닛 집합의 개선에 관하여는 아래에서 더 상술하기로 한다.
다음으로, 본 발명의 일 실시예에 따른 데이터베이스(250)에는, 포착된 의미 유닛 집합, 개선용 의미 유닛 집합 그리고 매칭에 관한 정보가 저장될 수 있다. 비록 도 2에서 데이터베이스(250)가 의미 유닛 개선 장치(100)에 포함되어 구성되는 것으로 도시되어 있지만, 본 발명을 구현하는 당업자의 필요에 따라, 데이터베이스(250)는 의미 유닛 개선 장치(100)와 별개로 구성될 수도 있다. 한편, 본 발명에서의 데이터베이스(250)는, 컴퓨터 판독 가능한 기록 매체를 포함하는 개념으로서, 협의의 데이터베이스뿐만 아니라 파일 시스템에 기반을 둔 데이터 기록 등을 포함하는 광의의 데이터베이스일 수도 있으며, 단순한 로그의 집합이라도 이를 검색하여 데이터를 추출할 수 있다면 본 발명에서의 데이터베이스(250)가 될 수 있다.
마지막으로, 본 발명의 일 실시예에 따른 제어부(260)는 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230) 및 데이터베이스(250) 간의 데이터의 흐름을 제어하는 기능을 수행할 수 있다. 즉, 본 발명에 따른 제어부(260)는 의미 유닛 개선 장치(100)의 각 구성요소 간의 데이터 흐름을 제어함으로써, 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230) 및 데이터베이스(250)에서 각각 고유 기능을 수행하도록 제어할 수 있다.
매칭
아래에서는, 도 3을 참조하여, 위에서 약술한 바와 같은 매칭에 관하여 자세하게 살펴보기로 한다. 도 3은 본 발명의 실시예에 따른 매칭 방법에 관한 예시적인 흐름도이다.
먼저, 의미 유닛 개선부(230)는 개선용 의미 유닛 집합을 특정하는 단계(S1)를 수행할 수 있다.
일 실시예에 따르면, 의미 유닛 개선부(230)는 음성 처리부(220)로부터 전달 받은 디지털 음성 신호 중에서 사용자의 소정의 지시의 전이나 후에(또는, 직전이나 직후에) 전달 받은 디지털 신호의 음성을 개선용 음성으로서, 즉, 개선용 의미 유닛 집합으로서 특정할 수 있다(위와 같은 지시는 사용자의 미리 약속된 단어의 발화나 미리 약속된 키의 입력일 수 있다).
예를 들어, 사용자가 "I can correct typing at all without backspace error"에 해당하는 음성을 발화하고 나서 소정의 지시를 내린 경우, "error"에 해당하는 디지털 음성이나 그것이 음성 인식에 의하여 변환된 텍스트가 개선용 의미 유닛 집합으로서 특정될 수 있다. 이러한 특정은 "error"에 해당하는 음성 부분(즉, 개선용 음성)과 그 앞의 음성 부분(즉, "backspace"에 해당하는 음성 부분이나 "without backspace"에 해당하는 음성 부분) 사이의 시간 간격이 소정의 임계치 이상이라는 점에 근거할 수 있다. 한편, 이 예에서는, "I can correct typing at all without backspace"에 해당하는 디지털 음성이나 그것이 음성 인식에 의하여 변환된 텍스트가 포착된 의미 유닛 집합이 될 수 있다.
다른 실시예에 따르면, 의미 유닛 개선부(230)는, 예를 들어, 사용자가 "I can correct typing at all without backspace"와 같은 텍스트(즉, 포착된 의미 유닛 집합)가 화면에 디스플레이된 것에 대하여 개선을 하는 것을 의도하여 소정의 지시를 내리면서 그 전이나 후에(또는, 직전이나 직후에) "error"를 발화한 경우에도, 이에 해당하는 디지털 음성에 기초하여 개선용 의미 유닛 집합을 특정할 수 있다.
또 다른 실시예에 따르면, 의미 유닛 개선부(230)는, 예를 들어, 사용자가 "I can correct typing at all without backspace"에 해당하는 음성을 발화하고 나서, 이것이 화면에 디스플레이된 것을 본 후 이에 관한 개선을 의도하여 소정의 지시를 내리면서 그 전이나 후에(또는, 직전이나 직후에) "error"와 같은 개선용 텍스트를 키보드에 의하여 입력한 경우에도, 이에 기초하여 개선용 의미 유닛 집합을 특정할 수 있다.
다음으로, 의미 유닛 개선부(230)는, 특정된 개선용 의미 유닛 집합에 근거하여, 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 특정하는 단계(S2)를 수행할 수 있다.
상기 단계의 수행 전에, 전술한 바와 같이, 실제적인 개선의 대상이 되는 특정 의미 유닛 집합을 포함하는 더 큰 의미 유닛 집합이 포착되어 있을 수 있다. 이러한 포착된 의미 유닛 집합은, 위에서 예시된 바와 같은, "I can correct typing at all without backspace"의 의미 유닛 집합일 수 있다.
의미 유닛 개선부(230)는 포착된 의미 유닛 집합 내의 유닛 간의 시간 간격이나 스페이스 그리고/또는 개선용 의미 유닛 집합의 길이(예를 들면, 그에 해당하는 디지털 음성 신호의 지속 시간, 텍스트의 길이, 어절의 수, 단어의 수, 음절의 수, 글자의 수, 어소의 수 등)에 기초하여, 포착된 의미 유닛 집합을, 예를 들면, "I can", "can correct", "correct typing", "typing at", "at all", "all without", "without backspace" 등의 부분들과 같이, 나누고 확장한 후에, 각 부분을 개선용 의미 유닛 집합과 비교하여 볼 수 있다. 물론, "I", "can", "correct", "typing", "at", "all", "without", "backspace" 등의 부분들과 같이 나누거나, "correct"가 아닌 "cor", "rect" 등과 같이 나누는 것도 또한 가능하다. 이러한 경우, 각 부분은 그 중 하나 이상이 함께, 개선용 의미 유닛 집합과 비교될 수 있다. 이상에서 그리고 이하에서, 포착된 의미 유닛 집합을 개선용 의미 유닛 집합과의 비교를 위하여 나누거나 확장하는 것에 관하여 설명하지만, 포착된 의미 유닛 집합의 부분이 개선용 의미 유닛 집합과 비교될 수 있는 이상, 포착된 의미 유닛 집합의 부분들로의 분리(나눔)나 부분들의 확장(즉, 부분들의 배열이 중첩적으로 되도록 하는 것) 외의 다른 방식도 얼마든지 채택될 수 있다.
이러한 비교는, 디지털 음성 간의 비교인 경우에는, 시간 도메인이나 주파수 도메인에서의 디지털 음성의 특징의 비교일 수 있다. 이러한 음성 특징 중에서 전형적으로 사용되는 것은 디지털 음성 신호의 파(wave)에 있어서의 특징점일 수 있다. 즉, 동일한 재생 시간 구간 내에서 두 디지털 음성 신호 간에 더 많은 공통의 특징점이 발견될수록, 두 디지털 음성이 서로 더 높은 연관성을 갖는 것으로 볼 수 있다. 다만, 디지털 음성 간의 비교를 위하여는 다양한 알고리즘이 사용될 수 있으므로, 고려 대상이 되는 디지털 음성의 특징(특성)은 아래의 것들 중 하나 이상을 자유롭게 포함할 수 있다.
(1) 시간 도메인에서의 음성 신호의 특성
최대 진폭, 평균 진폭, 평균 주파수, 평균치, 표준 편차, 전체적인(overall) 진폭에 의하여 노멀라이징된 표준 편차, 분산(variance), 스큐니스(skewness), 커토시스(Kurtosis), 합, 절대 합, 실효치(Root Mean Square; RMS), 크레스트 팩터, 분산(dispersion), 엔트로피(entropy), 파워 섬(power sum), 질량 중심(center of mass), 변동 계수(coefficients of variation), 상호 상관성(cross correlation), 제로 크로싱(zero-crossings), 반복성(seasonality), DC 바이어스, 또는 상기 음성 신호의 1차, 2차, 3차 또는 그 이상의 차수의 데리버티브(derivative)에 대해 계산된 위와 같은 특성
(2) 주파수 도메인에서의 음성 신호의 특성
스펙트럴 센트로이드(spectral centroid), 스펙트럴 덴시티(spectral density), 구면 조화 함수(spherical harmonics), 총 평균 스펙트럴 에너지(total average spectral energy), 매 옥타브에서의 대역 에너지 비율(band energy ratio for every octave), 로그 스펙트럴 대역 비율(log spectral band ratio), 선형 예측 기반의 셉스트럴 계수(Linear Prediction-based Cepstral Coefficients; LPCC), 지각 선형 예측(Perceptual Linear Prediction; PLP) 셉스트럴 계수, 멜-주파수 셉스트럴 계수, 주파수 위상, 또는 상기 음성 신호의 주파수 도메인 표현의 1차, 2차, 3차 또는 그 이상의 차수의 데리버티브에 대해 계산된 위와 같은 특성
한편, 위와 같은 비교는 텍스트 간의 비교일 수도 있다. 이 경우, 텍스트는 그 어절, 단어, 음절, 글자 및 어소 중 적어도 한 가지에 관하여 비교될 수 있다. 이러한 비교를 위하여 공지의 텍스트 비교 알고리즘이 하나 이상 채용될 수 있다. 예를 들어, 음절마다의 순차적인 유사도(예를 들면, 음가나 스펠링의 유사도)가 높은 두 개의 텍스트는 상호 간에 높은 연관성을 갖는 텍스트로 규정될 수 있다.
비교의 결과, 의미 유닛 개선부(230)는 포착된 의미 유닛 집합 내에서 개선용 의미 유닛 집합과 높은 연관성을 나타내는 부분을 매칭된 의미 유닛 집합으로 결정할 수 있다. 위의 예에서는 결국, "at all" 부분에 해당하는 디지털 음성이나 텍스트가 매칭된 의미 유닛 집합으로 결정될 수 있다.
구체적인 비교 방법
여기에서는 의미 유닛 개선부(230)에 의하여 수행되는 위와 같은 비교의 방법에 관하여 더 구체적으로 살펴보기로 한다. 여기서 예시되는 다양한 연관성 점수 연산 방법은, 포착된 의미 유닛 집합의 부분과 개선용 의미 유닛 집합 사이의 최선의 비교를 위하여, 그 적어도 하나 이상이 당업자에 의하여 자유롭게 채택될 수 있음에 유의하여야 한다.
의미 유닛 개선부(230)는 위에서 설명된 경우 1 내지 8 중 어느 경우에 있어서나 결국 디지털 음성 간의 비교나 텍스트 간의 비교를 수행하게 된다. 왜냐하면, 디지털 음성과 텍스트 사이에서 비교를 수행하게 되는 때에도, 본격적인 비교 전에, 두 가지 의미 유닛 집합의 형식을 디지털 음성과 텍스트 중 하나로 통일하게 되기 때문이다. 이를 위하여, 의미 유닛 개선부(230)는 공지의 음성 인식 모듈 및/또는 공지의 TTS 모듈을 포함하거나 적어도 이것과 연동할 수 있다.
먼저, 디지털 음성 간의 비교가 수행되는 경우에 관하여 도 5를 참조하여 살펴보기로 한다. 도 5는 본 발명의 일 실시예에 따른 디지털 음성 비교 방법에 관하여 도시하는 흐름도이다.
단계 501에서는, 의미 유닛 개선부(230)가 개선용 의미 유닛 집합에 해당하는 디지털 음성의 길이를 측정할 수 있다. 이러한 길이의 단위는 보통 시간(초)일 수 있다.
단계 502에서는, 의미 유닛 개선부(230)가 포착된 의미 유닛 집합을 상기 길이 또는 상기 길이에 소정의 길이가 가산되거나 감산된 길이에 따라 여러 부분으로 나누고 확장할 수 있다. 예를 들면, 포착된 의미 유닛 집합이 재생 시간이 10초인 디지털 음성이고 개선용 의미 유닛 집합이 재생 시간이 1초인 디지털 음성이라면, 포착된 의미 유닛 집합은 해당 재생 시간 구간이 0초 내지 1초, 0.1초 내지 1.1초, … , 8.9초 내지 9.9초, 및 9초 내지 10초인 91개의 부분들로 나누어지고 확장될 수 있다. 의미 유닛 개선부(230)나 의미 유닛 개선 장치(100)의 성능에 따라, 위와 같은 부분들의 개수는 적절하게 조절될 수 있다.
단계 503에서는, 의미 유닛 개선부(230)가 포착된 의미 유닛 집합의 각 부분을 개선용 의미 유닛 집합과 비교할 수 있다. 비교의 본질은 디지털 음성 신호의 특성의 비교일 수 있다. 이러한 비교는 바람직하게는 소정의 연관성 점수 연산을 포함할 수 있다. 예를 들면, 서로 대응되는 시간 구간 내에서, 두 디지털 음성 신호 간에 동일하거나 거의 유사한 특징점이 발견되는 때마다, 연관성 점수가 누적적으로 증가하게끔 할 수 있다. 이에 따라 결정되는 연관성 점수는 포착된 의미 유닛 집합의 해당 부분에 대하여 부여될 수 있다. 물론, 당업자의 선택에 따라, 전술한 바와 같은 여러 다른 특성(주파수 도메인에서의 특성을 포함함)의 일치성 여부나 일치성 정도가 연관성 점수 연산의 근거가 될 수도 있다.
이러한 단계 503은 필요에 따라 반복적으로 수행될 수도 있다. 즉, 사용자가 같은 취지의 개선용 음성을 2회 이상 발화하도록 유도된 뒤에, 의미 유닛 개선부(230)가 포착된 의미 유닛 집합의 부분들의 전부 또는 이미 소정의 연관성 점수가 부여되어 있는 일부에 관하여 디지털 음성 비교에 의한 연관성 점수 연산을 2회 이상 반복적으로 수행할 수 있다. 반복적인 연관성 점수 연산 후에 가장 높은 연관성 점수(누적 점수 또는 평균 점수)를 부여 받은 포착된 의미 유닛 집합 부분이 매칭된 의미 유닛 집합으로 결정될 수 있다.
다음으로, 텍스트 간의 비교가 수행되는 경우에 관하여 도 6을 참조하여 살펴보기로 한다. 도 6은 본 발명의 일 실시예에 따른 텍스트 비교 방법에 관하여 도시하는 흐름도이다.
단계 601에서는, 의미 유닛 개선부(230)가 개선용 의미 유닛 집합에 해당하는 텍스트의 길이를 측정할 수 있다. 이러한 텍스트의 길이는 보통 어절, 단어, 음절, 글자, 어소 등의 개수로 표현될 수 있다. 예를 들면, 개선용 의미 유닛 집합에 해당하는 텍스트는 "error"일 수 있는데, 이것은 두 개의 음절이라는 길이를 갖는다.
단계 602에서는, 의미 유닛 개선부(230)가 포착된 의미 유닛 집합을 상기 길이 또는 상기 길이에 소정의 길이가 가산되거나 감산된 길이에 따라 여러 부분으로 나누고 확장할 수 있다. 예를 들면, 포착된 의미 유닛 집합이 "I can correct typing at all without backspace"와 같은 텍스트라면, 포착된 의미 유닛 집합의 나누어지고 나서 확장된 부분은 "I", "can", "correct", "I can", "can correct", "I can correct", "cor", "rect" 등을 다양하게 포함할 수 있다(위의 포착된 의미 유닛 집합의 다른 부분들에 관하여도 마찬가지이다). 다만, 가장 바람직하게 나누어지고 나서 확장된 부분들은 "I can", "can cor", "correct", "rect ty", "typing", "ping at", "at all", "all with", "without", "out back", "backspace" 등과 같이 두 개의 음절을 갖는 것들이 될 수 있을 것이다. 의미 유닛 개선부(230)나 의미 유닛 개선 장치(100)의 성능에 따라, 위와 같은 부분들의 개수는 적절하게 조절될 수 있다.
단계 603에서는, 의미 유닛 개선부(230)가 포착된 의미 유닛 집합의 각 부분을 개선용 의미 유닛 집합과 비교할 수 있다. 비교는, 텍스트 간의, 어절, 단어, 음절, 글자 및 어소 중 적어도 한 가지에 관한 순차적인 비교일 수 있다. 이러한 비교는 바람직하게는 소정의 연관성 점수 연산을 포함할 수 있다. 예를 들면, 서로 대응되는 위치에서, 두 개의 텍스트 간에 동일하거나 거의 유사한 음절이 발견되는 때마다, 연관성 점수가 누적적으로 증가하게끔 할 수 있다. 이에 따라 결정되는 연관성 점수는 포착된 의미 유닛 집합의 해당 부분에 대하여 부여될 수 있다. 여기서, 두 개의 텍스트 사이에서 거의 유사한 것으로 판단되는 것은 스펠링이 유사한 음절일 수도 있지만, 오히려 음가가 유사한 음절일 수도 있다. 예를 들면, 포착된 의미 유닛 집합의 하나의 부분에 해당하는 텍스트가 "at all"이고 개선용 의미 유닛 집합에 해당하는 텍스트가 "error"인 경우, 같은 유음인 "l"과 "r"을 각각 포함하는 음절들인 "all"과 "or"이 서로 거의 유사한 것으로 판단될 수 있다. 이것은 필연적으로 포착된 의미 유닛 집합의 부분들 중에서 "at all" 부분의 연관성 점수의 증가를 야기할 수 있다.
한편, 비교는, 텍스트 간의, 의미적인 연관 관계에 기초한 전체적인 비교일 수도 있다. 이러한 연관 관계는 두 개의 텍스트에 각각 해당하는 두 개의 단어가 동일한 카테고리에 속하는 것인지, 사실상 유사한 의미를 나타내는 것인지 등에 따라 발견될 수 있다(이와 같은 단어의 카테고리나 의미에 관한 참조는 공지의 어학적인 라이브러리에 대하여 이루어질 수 있다). 예를 들어, 포착된 의미 유닛 집합이 "I can do it this Saturday"의 텍스트이고, 개선용 의미 유닛 집합의 텍스트가 "may"이거나 "Friday"인 경우, 개선용 의미 유닛 집합 "may"는 포착된 의미 유닛 집합의 부분인 "can"과 의미적인 연관 관계(즉, 영어 조동사)를 갖는 것으로 파악될 수 있고(비록 음가나 스펠링이 전혀 다름에도 이러함), 개선용 의미 유닛 집합 "Friday"는 포착된 의미 유닛 집합의 부분인 "Saturday"와 의미적인 연관 관계(즉, 요일 카테고리)를 갖는 것으로 파악될 수 있다(비록 음가나 스펠링이 앞 부분에 있어서 전혀 다름에도 이러함). 발견되는 연관 관계는 그에 해당하는 포착된 의미 유닛 집합의 부분의 연관성 점수를 증가시키는 요인이 될 수 있다.
또 한편, 비교는, 텍스트 간의, 키 위치 연관 관계에 기초한 비교일 수도 있다. 이러한 비교는 포착된 의미 유닛 집합에 속하는 한 부분의 텍스트의 스펠링과 개선용 의미 유닛 집합의 텍스트의 스펠링을 순차적으로 비교하되, 비교 결과, 서로 같은 스펠링이 발견된 경우뿐만 아니라, 서로 다른 스펠링이 키보드 상에서 서로 인접하여 있던 것으로 판단된 경우에도, 연관성 점수를 상기 부분에 대하여 부여하는 비교일 수 있다. 예를 들면, QWERTY 키보드가 사용된 경우, 포착된 의미 유닛 집합 내의 한 부분의 텍스트일 수 있는 "wyw"는 그 음가나 스펠링이 전혀 다른 개선용 의미 유닛 집합의 텍스트 "eye"에 관하여 높은 연관성 점수를 갖는 것으로 판단될 수 있다.
이러한 단계 603은 필요에 따라 반복적으로 수행될 수도 있다. 즉, 사용자가 같은 취지의 개선용 음성을 2회 이상 발화하도록 유도된 뒤에, 의미 유닛 개선부(230)가 포착된 의미 유닛 집합의 부분들의 전부 또는 이미 소정의 연관성 점수가 부여되어 있는 일부에 관하여 텍스트 비교에 의한 연관성 점수 연산을 2회 이상 반복적으로 수행할 수 있다. 반복적인 연관성 점수 연산 후에 가장 높은 연관성 점수(누적 점수 또는 평균 점수)를 부여 받은 포착된 의미 유닛 집합 부분이 매칭된 의미 유닛 집합으로 결정될 수 있다.
본 발명의 일 실시예에 따르면, 연관성 점수를 보다 합리적으로 도출하기 위하여, 필요에 따라, 전술한 바와 같은 연관성 점수 연산 방법이 두 가지 이상 함께 채택될 수 있다. 이러한 경우, 한 가지의 방법에 따른 연관성 점수와 해당 가중치가 곱하여진 값이, 다른 한 가지의 방법에 따른 연관성 점수와 해당 가중치가 곱하여진 값과 합산될 수 있다. 이에 따라 도출된 연관성 점수는 복합적인 연관성 점수가 될 수 있다. 이 경우 역시, 복합적인 연관성 점수가 높은, 포착된 의미 유닛 집합의 하나의 부분 또는 몇 개의 부분들이 매칭된 의미 유닛 집합이 될 수 있다.
한 가지의 방법에 따른 연관성 점수에 대하여 곱하여지는 가중치는 의미 유닛 개선 장치(100)가 처한 환경이나 사용자의 의도에 따라 다르게 결정될 수 있다. 예를 들면, 사용자가 개선용 의미 유닛 집합을 생성하기 위하여 개선용 음성을 반복적으로 발화한 경우, 디지털 음성 비교에 의한 연관성 점수에 대하여 보다 높은 가중치가 부여될 수 있다. 또는, 사용자가 포착된 의미 유닛 집합에 해당하는 텍스트를 작성하되, 오타가 나기 쉬운 작은 터치 패널에 의하여 작성한 경우, 텍스트 비교에 의한 연관성 점수 중에서도 키보드 상의 키 인접 관계를 고려한 연관성 점수에 보다 높은 가중치가 부여될 수 있다.
의미 유닛 집합의 개선
아래에서는, 도 4를 참조하여, 위에서 약술한 바와 같은 의미 유닛 집합의 개선에 관하여 자세하게 살펴보기로 한다. 도 4는 본 발명의 실시예에 따른 의미 유닛 개선 방법에 관한 예시적인 흐름도이다.
먼저, 의미 유닛 개선부(230)는 매칭된 의미 유닛 집합을 개선용 의미 유닛 집합으로 교체하는 단계(단계 T1)를 수행할 수 있다. 이 경우, 교체의 결과물은 포착된 의미 유닛 집합이 매칭된 의미 유닛 집합 대신에 개선용 의미 유닛 집합을 포함하게 된 것일 수 있다. 이러한 교체의 결과물은 개선된 음성 인식 결과일 수도 있고 개선된 텍스트일 수도 있다. 위의 예에 따르면, 개선된 음성 인식 결과 내지 텍스트는 "I can correct typing error without backspace"가 될 수 있다. 이는 사용자의 원래의 의도에 정확히 부합하는 결과일 수 있다.
다음으로, 의미 유닛 개선부(230)는 개선 후에 대용될 포착된 의미 유닛 집합에 해당하는 디지털 음성을 사용자에게 들려 주거나 그에 해당하는 텍스트를 디스플레이하여 주는 단계(단계 T2)를 수행할 수 있다. 따라서, 위의 예에 따르면, 사용자에게 들리거나 디스플레이되는 것은 "I can correct typing error without backspace"의 의미 유닛 집합에 해당하는 디지털 음성이나 텍스트가 될 수 있다.
그런데, 경우에 따라, 개선용 음성은 충분한 개선을 담보하지 못할 수 있다(개선용 텍스트의 경우에는 이런 문제가 거의 없다). 이는 사용자에게 내재된 문제(예를 들면, 발음의 부정확, 방언의 사용 등)로 인하여 개선용 음성의 품질이 애초에 충분히 높지 않아서 그것이 다른 의미 유닛 집합에 해당하는 것으로 오인식되거나, 환경적인 문제(예를 들면, 잡음이 개입되는 환경, 의미 유닛 개선 장치(100)의 낮은 사양 등)로 인하여 개선용 음성의 품질이 그다지 낮지 않음에도 불구하고 그 특정 과정에서 그것이 다른 의미 유닛 집합에 해당하는 것으로 오인식되기 때문일 수 있다. 이와 같은 경우, 사용자에게 들리거나 디스플레이되는 것은, 개선 시도 후에도, 예를 들면, "I can correct typing error without backspace"의 의미 유닛 집합에 해당하는 디지털 음성이나 텍스트가 아니라, 여전히 "I can correct typing at all without backspace"의 의미 유닛 집합에 해당하는 디지털 음성이나 텍스트가 되거나 "I can correct typing era without backspace"의 의미 유닛 집합에 해당하는 디지털 음성이나 텍스트가 될 수 있다. 이는 사용자에게 상당히 실망스러운 결과일 수 있다.
따라서, 본 발명의 일 실시예에 따르면, 아래와 같은 부가적인 단계가 더 수행될 수 있다.
전형적으로는 단계 T2의 수행 후에, 대안적으로는 단계 T1의 수행 후 단계 T2의 수행 전이나 단계 T1의 수행 전에, 개선용 음성과 함께 소정의 부가 정보가 더 사용되면, 의미 유닛 개선부(230)가 이에도 기초하여 개선용 음성에 해당하는 의미 유닛 집합을 더 정교하게 특정할 수 있다. 아래에서는 이것이 가능하게 하는 부가 정보의 여러 가지 예에 관하여 살펴보기로 한다.
1-1. 부분 스펠링
예를 들어, 사용자는 위의 예에서 개선용 음성에 해당하는 "error" 외에 "e", "r" 및 "r"을 순차적으로 더 발화할 수 있다. 이 경우, 의미 유닛 개선부(230)는 사전 설정(즉, 소정의 개수의 알파벳 글자가 연속으로 발화되고 나서 해당 알파벳 글자와 순차적으로 일치하는 앞 부분을 갖는 개선용 의미 유닛 집합에 해당하는 개선용 음성이 발화되면 상기 알파벳 글자는 모두 개선용 의미 유닛 집합의 부분 스펠링으로 간주하는 설정)이나 기타 머신 러닝 기법에 기초하여, "e", "r" 및 "r"이 사실은 개선용 의미 유닛 집합을 더 정교하게 특정하기 위한 부분 스펠링에 해당함을 파악할 수 있다. 이는 자명하게도 개선용 의미 유닛 집합의 정교한 특정을 담보하는 것이 될 수 있다.
1-2. 군용 음성 알파벳
예를 들어, 사용자는 위의 예에서 개선용 음성에 해당하는 "error" 외에 "echo", "romeo" 및 "romeo"를 순차적으로 더 발화할 수 있다. 이 경우, 의미 유닛 개선부(230)는 사전 설정(즉, 소정의 개수의 군용 음성 알파벳이 연속으로 발화되고 나서 해당 알파벳의 글자와 순차적으로 일치하는 앞 부분을 갖는 개선용 의미 유닛 집합에 해당하는 개선용 음성이 발화되면 상기 알파벳 글자는 모두 개선용 의미 유닛 집합의 부분 스펠링으로 간주하는 설정)이나 기타 머신 러닝 기법에 기초하여, "echo", "romeo" 및 "romeo"가 사실은 개선용 의미 유닛 집합을 더 정교하게 특정하기 위한 부분 스펠링에 해당함을 파악할 수 있다.
한편, 위와 같은 부분 스펠링 기법은, 한국어에 있어서는, 특정이 어려운 편인 복모음 글자의 풀이식 발화(예를 들면, "계발"이라는 개선용 의미 유닛 집합을 위한 "여" 및 "이"의 순차적인 발화)에 의하여 실행될 수도 있고, 일본어에 있어서는, 한자의 변에 관한 발화(예를 들면, "嶋田"(しまだ)라는 개선용 의미 유닛 집합이 자칫 "島田"(しまだ)로 오인되지 않도록 하기 위한 "山編"(やまへん)의 추가 발화)에 의하여 실행될 수도 있다.
2. 힌트 단어
예를 들어, 사용자는 위의 예에서 개선용 음성에 해당하는 "error" 외에 "of" 및 "erroneous"를 순차적으로 더 발화할 수 있다. 이 경우, 의미 유닛 개선부(230)는 사전 설정(즉, 개선용 음성이 발화되는 부분에서 "of"가 발화되면 그 뒤의 음성에 해당하는 단어를 힌트 단어로 간주하는 설정)이나 기타 머신 러닝 기법에 기초하여, "erroneous"가 사실은 개선용 의미 유닛 집합을 더 정교하게 특정하기 위한 힌트 단어(즉, 적어도 그 일부에 있어서 옳은 개선용 의미 유닛 집합의 단어와 동일하거나 유사한 스펠링을 갖는 단어)에 해당함을 파악할 수 있다. 이는 자명하게도 개선용 의미 유닛 집합의 정교한 특정을 담보하는 것이 될 수 있다. 여기서, 예약어에 해당한다고 볼 수 있는 "of"는 "like" 등과 같이 사용자가 이해하기 쉽고 오인식률이 낮은 다른 단어로 대체될 수도 있다.
한편, 위의 예 외에도, 사용자가 개선용 음성으로서 "Zoe"를 발화하였으나 그것이 "Joe"로 인식되어 잘못된 개선이 이루어진 경우, 사용자는 "Zoe"를 다시 한 번 발화하면서, "Z of Zebra"와 같이, 옳은 개선용 의미 유닛 집합에 포함되어야 하는 알파벳을 강조하기 위한 힌트 단어를 해당 알파벳 및 예약어와 함께 더 발화할 수 있다. 이에 따라, 의미 유닛 개선부(230)는 개선용 의미 유닛 집합을 상기 힌트 단어의 상기 알파벳을 포함하도록, 즉, "Zoe"가 되도록 정정할 수 있다.
한국어의 경우에도, "안쪽의"가 "안쪽에"로 오인식된 경우, 사용자가 다시 한 번 "안쪽의"를 발화하면서 "의자의 의"를 더 발화하면, 의미 유닛 개선부(230)가 이에 따라 개선용 의미 유닛 집합을 힌트 단어 "의자"의 글자 "의"를 포함하도록, 즉, "안쪽의"가 되도록 정정할 수 있다.
일본어의 경우에도, "感じ"(かんじ)가 "漢字"(かんじ)로 오인식된 것을 정정하기 위하여, "感動の感"(かんどうのかん)이 추가 발화될 수 있도록 하거나, "買いに"(かいに)가 "海に"(かいに)로 오인식된 것을 정정하기 위하여, "買い物の買い"(かいもののかい)가 추가 발화될 수 있도록 할 수 있다.
한편, 언어와 무관하게, 옳은 개선용 의미 유닛 집합과 의미가 유사한 단어가 추가 발화될 수 있도록 하거나(예를 들면, "error"가 개선용 의미 유닛 집합이 되도록 하기 위하여 예약어인 "like"와 함께 유의어인 "mistake"가 추가 발화될 수 있도록 하거나), 상하위 관계에 있는 단어가 추가 발화될 수 있도록 하거나(예를 들면, "Kia"가 개선용 의미 유닛 집합이 되도록 하기 위하여 예약어인 "like"와 함께 관계어인 "car company"가 추가 발화될 수 있도록 하거나), 연상어가 추가 발화될 수 있도록 할 수도 있다(예를 들면, "개집"이 개선용 의미 유닛 집합이 되도록 하기 위하여 예약어인 "like"와 함께 연상어인 "멍멍"이 추가 발화될 수 있도록 하거나, "queries"가 개선용 의미 유닛 집합이 되도록 하기 위하여 예약어인 "for"와 함께 연상어인 "database"가 추가 발화될 수 있도록 할 수 있다).
즉, 의미 유닛 개선부(230)는, 사용자가 개선용 음성의 부근에서 예약어와 함께 힌트 단어(또는, 힌트 글자)를 더 발화하면, 이를 해석하여 개선용 음성에 해당하는 개선용 의미 유닛 집합이 보다 더 정교하게 특정되도록 할 수 있다.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (13)

  1. 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 포착된 의미 유닛 집함임 - 을 개선하기 위한 방법으로서,
    사용자의 발화에 따라 개선용 음성을 수신하는 단계,
    상기 개선용 음성에 기초하여 개선용 의미 유닛 집합을 특정하는 단계,
    상기 개선용 의미 유닛 집합과의 연관성에 기초하여, 상기 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하는 단계, 및
    상기 포착된 의미 유닛 집합 내의 상기 매칭된 의미 유닛 집합을 상기 개선용 의미 유닛 집합으로 교체하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 개선용 의미 유닛 집합 특정 단계는, 상기 개선용 의미 유닛 집합의 길이를 측정하는 단계를 포함하는 방법.
  3. 제2항에 있어서,
    상기 매칭된 의미 유닛 집합 특정 단계는, 상기 포착된 의미 유닛 집합을 유닛 간의 간격이나 상기 개선용 의미 유닛 집합의 상기 길이에 기초하여 다수의 부분으로 나누고 확장하는 단계를 포함하는 방법.
  4. 제3항에 있어서,
    상기 매칭된 의미 유닛 집합 특정 단계는, 상기 포착된 의미 유닛 집합의 상기 다수의 부분의 각각과 상기 개선용 의미 유닛 집합을 비교하는 단계를 더 포함하는 방법.
  5. 제4항에 있어서,
    상기 비교 단계는, 상기 포착된 의미 유닛 집합의 상기 다수의 부분의 각각에 해당하는 디지털 음성 신호의 특징과 상기 개선용 의미 유닛 집합에 해당하는 디지털 음성 신호의 특징을 비교하는 단계를 포함하는 방법.
  6. 제4항에 있어서,
    상기 비교 단계는, 상기 포착된 의미 유닛 집합의 상기 다수의 부분의 각각에 해당하는 텍스트와 상기 개선용 의미 유닛 집합에 해당하는 텍스트를 비교하는 단계를 포함하는 방법.
  7. 제6항에 있어서,
    상기 텍스트 비교 단계는, 상기 두 개의 텍스트를 음가나 스펠링에 관하여 순차적으로 비교하는 단계를 포함하는 방법.
  8. 제6항에 있어서,
    상기 텍스트 비교 단계는, 상기 두 개의 텍스트가 동일한 카테고리에 속하는지 또는 유사한 의미를 나타내는지를 비교하는 단계를 포함하는 방법.
  9. 제6항에 있어서,
    상기 텍스트 비교 단계는, 상기 두 개의 텍스트를 키 위치 연관 관계에 기초하여 비교하는 단계를 포함하는 방법.
  10. 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따른 음성으로부터 포착된 의미 유닛 집함임 - 을 개선하기 위한 방법으로서,
    사용자의 개선용 텍스트의 입력을 수신하는 단계,
    상기 개선용 텍스트에 기초하여 개선용 의미 유닛 집합을 특정하는 단계,
    상기 개선용 의미 유닛 집합과의 연관성에 기초하여, 상기 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하는 단계, 및
    상기 포착된 의미 유닛 집합 내의 상기 매칭된 의미 유닛 집합을 상기 개선용 의미 유닛 집합으로 교체하는 단계
    를 포함하는 방법.
  11. 제1항 및 제10항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체.
  12. 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 포착된 의미 유닛 집함임 - 을 개선하기 위한 장치로서,
    사용자의 발화에 따라 개선용 음성을 수신하는 음성 감지부, 및
    상기 개선용 음성에 기초하여 개선용 의미 유닛 집합을 특정하고, 상기 개선용 의미 유닛 집합과의 연관성에 기초하여, 상기 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하며, 상기 포착된 의미 유닛 집합 내의 상기 매칭된 의미 유닛 집합을 상기 개선용 의미 유닛 집합으로 교체하는 의미 유닛 개선부
    를 포함하는 장치.
  13. 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따른 음성으로부터 포착된 의미 유닛 집함임 - 을 개선하기 위한 장치로서,
    사용자의 개선용 텍스트의 입력을 수신하는 수단, 및
    상기 개선용 텍스트에 기초하여 개선용 의미 유닛 집합을 특정하고, 상기 개선용 의미 유닛 집합과의 연관성에 기초하여, 상기 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하며, 상기 포착된 의미 유닛 집합 내의 상기 매칭된 의미 유닛 집합을 상기 개선용 의미 유닛 집합으로 교체하는 의미 유닛 개선부
    를 포함하는 장치.
PCT/KR2015/004010 2014-04-22 2015-04-22 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 WO2015163684A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201911020246.4A CN110675866B (zh) 2014-04-22 2015-04-22 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
JP2016515299A JP2016521383A (ja) 2014-04-22 2015-04-22 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
CN201580000567.1A CN105210147B (zh) 2014-04-22 2015-04-22 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
US14/779,037 US10395645B2 (en) 2014-04-22 2015-04-22 Method, apparatus, and computer-readable recording medium for improving at least one semantic unit set

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2014-0048315 2014-04-22
KR1020140048315A KR101651909B1 (ko) 2014-04-22 2014-04-22 음성 인식 텍스트 수정 방법 및 이 방법을 구현한 장치
KR1020140077056 2014-06-24
KR10-2014-0077056 2014-06-24

Publications (1)

Publication Number Publication Date
WO2015163684A1 true WO2015163684A1 (ko) 2015-10-29

Family

ID=54332775

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/004010 WO2015163684A1 (ko) 2014-04-22 2015-04-22 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Country Status (4)

Country Link
US (1) US10395645B2 (ko)
JP (1) JP2016521383A (ko)
CN (2) CN110675866B (ko)
WO (1) WO2015163684A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101704501B1 (ko) * 2015-10-30 2017-02-09 주식회사 큐키 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR101830210B1 (ko) * 2016-04-28 2018-02-21 네이버 주식회사 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US20210280178A1 (en) * 2016-07-27 2021-09-09 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102217292B1 (ko) * 2015-02-26 2021-02-18 네이버 주식회사 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US10503467B2 (en) * 2017-07-13 2019-12-10 International Business Machines Corporation User interface sound emanation activity classification
CN108962228B (zh) * 2018-07-16 2022-03-15 北京百度网讯科技有限公司 模型训练方法和装置
CN110827799B (zh) * 2019-11-21 2022-06-10 百度在线网络技术(北京)有限公司 用于处理语音信号的方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000105597A (ja) * 1998-09-29 2000-04-11 Atr Interpreting Telecommunications Res Lab 音声認識誤り訂正装置
KR20120110751A (ko) * 2011-03-30 2012-10-10 포항공과대학교 산학협력단 음성 처리 장치 및 방법
KR20130008663A (ko) * 2011-06-28 2013-01-23 엘지전자 주식회사 사용자 인터페이스 방법 및 장치
KR101381101B1 (ko) * 2013-11-13 2014-04-02 주식회사 큐키 문자열 사이의 연관성 판단을 통한 오타 수정 방법

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3663758A (en) * 1970-03-24 1972-05-16 Teaching Complements Inc Speech pattern recognition system
JPH01237597A (ja) * 1988-03-17 1989-09-22 Fujitsu Ltd 音声認識訂正装置
JP2000010586A (ja) * 1998-06-22 2000-01-14 Nec Corp 音声認識応答装置及び認識結果確認方法
US6302698B1 (en) * 1999-02-16 2001-10-16 Discourse Technologies, Inc. Method and apparatus for on-line teaching and learning
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
JP3689670B2 (ja) * 1999-10-28 2005-08-31 キヤノン株式会社 パターン整合方法及び装置
US6868383B1 (en) * 2001-07-12 2005-03-15 At&T Corp. Systems and methods for extracting meaning from multimodal inputs using finite-state devices
CN1235188C (zh) * 2001-09-17 2006-01-04 皇家飞利浦电子股份有限公司 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本
JP3762327B2 (ja) * 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
US8793127B2 (en) * 2002-10-31 2014-07-29 Promptu Systems Corporation Method and apparatus for automatically determining speaker characteristics for speech-directed advertising or other enhancement of speech-controlled devices or services
TWI226600B (en) * 2003-03-12 2005-01-11 Leadtek Research Inc Nasal detection method and device thereof
US20060229878A1 (en) * 2003-05-27 2006-10-12 Eric Scheirer Waveform recognition method and apparatus
US20050071170A1 (en) 2003-09-30 2005-03-31 Comerford Liam D. Dissection of utterances into commands and voice data
US20060004570A1 (en) 2004-06-30 2006-01-05 Microsoft Corporation Transcribing speech data with dialog context and/or recognition alternative information
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US20060057545A1 (en) * 2004-09-14 2006-03-16 Sensory, Incorporated Pronunciation training method and apparatus
JP4784120B2 (ja) * 2005-03-23 2011-10-05 日本電気株式会社 音声書き起こし支援装置及びその方法ならびにプログラム
US20060292531A1 (en) * 2005-06-22 2006-12-28 Gibson Kenneth H Method for developing cognitive skills
US20070016421A1 (en) * 2005-07-12 2007-01-18 Nokia Corporation Correcting a pronunciation of a synthetically generated speech object
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
WO2008021512A2 (en) 2006-08-17 2008-02-21 Neustar, Inc. System and method for handling jargon in communication systems
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7904298B2 (en) * 2006-11-17 2011-03-08 Rao Ashwin P Predictive speech-to-text input
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
WO2009040790A2 (en) * 2007-09-24 2009-04-02 Robert Iakobashvili Method and system for spell checking
US8332212B2 (en) * 2008-06-18 2012-12-11 Cogi, Inc. Method and system for efficient pacing of speech for transcription
WO2009158581A2 (en) * 2008-06-27 2009-12-30 Adpassage, Inc. System and method for spoken topic or criterion recognition in digital media and contextual advertising
US8782556B2 (en) * 2010-02-12 2014-07-15 Microsoft Corporation User-centric soft keyboard predictive technologies
US10522133B2 (en) 2011-05-23 2019-12-31 Nuance Communications, Inc. Methods and apparatus for correcting recognition errors
US8645825B1 (en) 2011-08-31 2014-02-04 Google Inc. Providing autocomplete suggestions
US8515751B2 (en) * 2011-09-28 2013-08-20 Google Inc. Selective feedback for text recognition systems
US9715489B2 (en) 2011-11-10 2017-07-25 Blackberry Limited Displaying a prediction candidate after a typing mistake
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
KR20130135410A (ko) * 2012-05-31 2013-12-11 삼성전자주식회사 음성 인식 기능을 제공하는 방법 및 그 전자 장치
US8606577B1 (en) 2012-06-25 2013-12-10 Google Inc. Visual confirmation of voice recognized text input
US8909526B2 (en) * 2012-07-09 2014-12-09 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9292621B1 (en) 2012-09-12 2016-03-22 Amazon Technologies, Inc. Managing autocorrect actions
WO2014042878A1 (en) * 2012-09-12 2014-03-20 Lingraphicare America Incorporated Method, system, and apparatus for treating a communication disorder
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
US9489372B2 (en) 2013-03-15 2016-11-08 Apple Inc. Web-based spell checker
JP5893588B2 (ja) * 2013-07-09 2016-03-23 京セラ株式会社 携帯端末、編集誘導プログラムおよび編集誘導方法
US9653073B2 (en) * 2013-11-26 2017-05-16 Lenovo (Singapore) Pte. Ltd. Voice input correction
CN103645876B (zh) * 2013-12-06 2017-01-18 百度在线网络技术(北京)有限公司 语音输入方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000105597A (ja) * 1998-09-29 2000-04-11 Atr Interpreting Telecommunications Res Lab 音声認識誤り訂正装置
KR20120110751A (ko) * 2011-03-30 2012-10-10 포항공과대학교 산학협력단 음성 처리 장치 및 방법
KR20130008663A (ko) * 2011-06-28 2013-01-23 엘지전자 주식회사 사용자 인터페이스 방법 및 장치
KR101381101B1 (ko) * 2013-11-13 2014-04-02 주식회사 큐키 문자열 사이의 연관성 판단을 통한 오타 수정 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101704501B1 (ko) * 2015-10-30 2017-02-09 주식회사 큐키 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR101830210B1 (ko) * 2016-04-28 2018-02-21 네이버 주식회사 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US20210280178A1 (en) * 2016-07-27 2021-09-09 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof

Also Published As

Publication number Publication date
CN105210147B (zh) 2020-02-07
JP2016521383A (ja) 2016-07-21
US10395645B2 (en) 2019-08-27
CN110675866B (zh) 2023-09-29
CN110675866A (zh) 2020-01-10
US20170032778A1 (en) 2017-02-02
CN105210147A (zh) 2015-12-30

Similar Documents

Publication Publication Date Title
WO2015163684A1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
WO2020145439A1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
CN109686383B (zh) 一种语音分析方法、装置及存储介质
TW201337911A (zh) 電子裝置以及語音識別方法
WO2019208860A1 (ko) 음성 인식 기술을 이용한 다자간 대화 기록/출력 방법 및 이를 위한 장치
JP2018045001A (ja) 音声認識システム、情報処理装置、プログラム、音声認識方法
Yarra et al. Indic TIMIT and Indic English lexicon: A speech database of Indian speakers using TIMIT stimuli and a lexicon from their mispronunciations
WO2016137071A1 (ko) 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN112346696A (zh) 虚拟助理的语音比较
EP3241123B1 (en) Voice recognition-based dialing
JP2015087544A (ja) 音声認識装置及び音声認識プログラム
KR100868709B1 (ko) 불리한 환경에서 동양 문자를 위한 하이브리드키패드/음성 인식 테크닉
CN110890095A (zh) 语音检测方法、推荐方法、装置、存储介质和电子设备
JP6849977B2 (ja) テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
CN113096667A (zh) 一种错别字识别检测方法和系统
WO2020096078A1 (ko) 음성인식 서비스를 제공하기 위한 방법 및 장치
EP3742301A1 (en) Information processing device and information processing method
WO2019208859A1 (ko) 발음 사전 생성 방법 및 이를 위한 장치
Dodiya et al. Speech Recognition System for Medical Domain
KR102476497B1 (ko) 언어 대응 화상 출력 장치, 방법 및 시스템
JP3259734B2 (ja) 音声認識装置
JP2016191740A (ja) 音声処理装置、音声処理方法およびプログラム
JPH11338862A (ja) 電子辞書検索装置、電子辞書検索方法およびその方法を記録した記録媒体

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 14779037

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2016515299

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15782945

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 17/02/2017)

122 Ep: pct application non-entry in european phase

Ref document number: 15782945

Country of ref document: EP

Kind code of ref document: A1