WO2016036163A2 - 오디오 신호를 학습하고 인식하는 방법 및 장치 - Google Patents

오디오 신호를 학습하고 인식하는 방법 및 장치 Download PDF

Info

Publication number
WO2016036163A2
WO2016036163A2 PCT/KR2015/009300 KR2015009300W WO2016036163A2 WO 2016036163 A2 WO2016036163 A2 WO 2016036163A2 KR 2015009300 W KR2015009300 W KR 2015009300W WO 2016036163 A2 WO2016036163 A2 WO 2016036163A2
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
similarity
template
frame
template vector
Prior art date
Application number
PCT/KR2015/009300
Other languages
English (en)
French (fr)
Other versions
WO2016036163A3 (ko
Inventor
정재훈
이승열
황인우
고병섭
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US15/507,433 priority Critical patent/US20170287505A1/en
Priority to KR1020177003990A priority patent/KR101904423B1/ko
Publication of WO2016036163A2 publication Critical patent/WO2016036163A2/ko
Publication of WO2016036163A3 publication Critical patent/WO2016036163A3/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Definitions

  • the present invention relates to a method and apparatus for learning an audio signal to obtain information for recognizing the audio signal and for recognizing the audio signal using the information for recognizing the audio signal.
  • the sound recognition technology relates to a method of generating training data by learning a sound to be recognized in advance and recognizing a sound based on the training data. For example, if the doorbell sound is learned by the user in the terminal device and then the same sound as the learned doorbell sound is input to the terminal device, the terminal device may perform an operation indicating that the doorbell sound is recognized.
  • the terminal device In order for the terminal device to recognize a specific sound, it is necessary to perform a learning process for generating training data. If the learning process is complicated and takes a long time, the learning process may not be properly performed as the user feels uncomfortable. Therefore, since the error is likely to occur in the learning process, the performance of the sound recognition function may be lowered.
  • the present invention relates to a method and apparatus for more simply generating learning data for recognizing an audio signal and recognizing the audio signal using the learning data.
  • the number of inputs of an audio signal including the same sound may be minimized, and thus a process of learning sound may be performed more simply.
  • FIG. 1 is a block diagram illustrating an internal structure of a terminal device learning an audio signal according to an exemplary embodiment.
  • FIG. 2 is a flowchart illustrating a method of learning an audio signal according to an exemplary embodiment.
  • FIG. 3 is a diagram illustrating an example of similarity between an audio signal and an audio signal according to an exemplary embodiment.
  • FIG. 4 is a diagram illustrating an audio signal in a frequency domain according to an embodiment.
  • FIG. 5 is a diagram illustrating an example of obtaining similarity between audio signals of a frequency domain belonging to an adjacent frame according to an embodiment.
  • FIG. 6 is a block diagram illustrating an internal structure of a terminal device recognizing an audio signal according to an exemplary embodiment.
  • FIG. 7 is a flowchart illustrating a method of recognizing an audio signal according to an exemplary embodiment.
  • FIG. 8 is a block diagram illustrating an example of obtaining a template vector and a sequence of the template vector according to an embodiment.
  • FIG. 9 is an exemplary diagram illustrating an example of obtaining a template vector according to an embodiment.
  • FIG. 10 is a block diagram illustrating an internal structure of a terminal device learning an audio signal according to an exemplary embodiment.
  • FIG. 11 is a block diagram illustrating an internal structure of a terminal device recognizing an audio signal according to an exemplary embodiment.
  • a method of learning an audio signal comprising: obtaining at least one audio signal in a frequency domain including a plurality of frames; Dividing the audio signal in the frequency domain into at least one block using interframe similarity; Obtaining a template vector corresponding to each block; Acquiring a sequence of the obtained template vectors, corresponding to at least one frame included in each block; And generating training data including the obtained template vectors and an order of the template vectors.
  • the dividing may include dividing at least one frame having the similarity greater than or equal to a reference value into the at least one block.
  • Acquiring the template vector may include acquiring at least one frame included in the block; And obtaining the template vector by obtaining a representative value for the obtained frame.
  • the order of the template vectors is indicated by allocating identification information of the template vector to the at least one frame included in each block.
  • the dividing may include dividing a frequency band into a plurality of sections; Obtaining similarity between frames in each of the sections; Determining a section in which noise is included in the plurality of sections based on the similarity in each section; Obtaining similarity between audio signals of the frequency domain belonging to the adjacent frame based on the similarity in the remaining sections except for the determined section.
  • a method of recognizing an audio signal comprising: obtaining at least one audio signal in a frequency domain consisting of a plurality of frames; Obtaining training data comprising template vectors and an order of the template vectors; Determining a template vector corresponding to each frame based on a similarity between the audio signal of the frequency domain and the template vector; And recognizing the audio signal based on a similarity between the determined order of the template vectors and the order of the training data.
  • the determining of the template vector corresponding to each frame may include obtaining similarities between the audio signal of the frequency domain of each frame and the template vector, respectively; And determining the template vector as a template vector corresponding to each frame when the similarity is equal to or greater than a reference value.
  • a terminal apparatus for learning an audio signal comprising: a receiver configured to receive at least one audio signal in a frequency domain including a plurality of frames; By using the similarity between frames, the audio signal of the frequency domain is divided into at least one block, a template vector corresponding to each block is obtained, and corresponding to the at least one frame included in each block, the acquisition A controller configured to obtain an order of the extracted template vectors and to generate training data including the obtained template vectors and the order of the template vectors; And a storage unit for storing the learning data.
  • a terminal apparatus for recognizing an audio signal comprising: a receiver configured to receive at least one audio signal in a frequency domain including a plurality of frames; Obtain training data including template vectors and the sequence of the template vectors, determine a template vector corresponding to each frame based on the similarity between the audio signal of the frequency domain and the template vector, and determine the determined template vector A controller that recognizes the audio signal based on a similarity between the order of the signals and the order of the training data; And an output unit configured to output a result of recognizing the audio signal.
  • any part of the specification is to “include” any component, this means that it may further include other components, except to exclude other components unless otherwise stated.
  • a part is “connected” with another part, this includes not only the case where it is “directly connected” but also the case where it is “electrically connected” with another element between them.
  • part refers to a hardware component, such as software, FPGA or ASIC, and “part” plays certain roles. However, “part” is not meant to be limited to software or hardware.
  • the “unit” may be configured to be in an addressable storage medium and may be configured to play one or more processors.
  • a “part” refers to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, procedures, Subroutines, segments of program code, drivers, firmware, microcode, circuits, data, databases, data structures, tables, arrays and variables.
  • the functionality provided within the components and “parts” may be combined into a smaller number of components and “parts” or further separated into additional components and “parts”.
  • FIG. 1 is a block diagram illustrating an internal structure of a terminal device learning an audio signal according to an exemplary embodiment.
  • the terminal device 100 learning the audio signal may learn the input audio signal and generate learning data.
  • the audio signal that can be learned by the terminal device 100 may be a signal including a sound to be registered by the user.
  • the training data generated by the terminal device may be used to recognize a sound registered in advance. For example, the terminal device may determine whether the audio signal input through the microphone includes a sound registered in advance using the training data.
  • the terminal device may generate training data by extracting statistical features from an audio signal including a sound to be registered.
  • training data it may be necessary to input an audio signal including the same sound to the terminal device several times. For example, it may be necessary to input the audio signal to the terminal device several times depending on what statistical feature is needed from the audio signal.
  • a user may feel troublesome and inconvenient in learning a sound, and thus the sound recognition performance of the terminal device may be degraded.
  • the training data for the pre-registered audio signal may include an order of at least one template vector and a template vector.
  • the template vector may be determined for each block determined according to the similarity between audio signals of adjacent frames. Therefore, even if noise is included in the audio signal or a slight variation in sound occurs, the template vector and the sequence that can be obtained from the audio signal may hardly change as the template vector is determined block by block. Since the learning data may be generated even if the audio signal is not input several times in the learning process, the terminal device can more simply perform the process of learning the audio signal. For example, the terminal device may generate learning data without receiving an audio signal including the same sound in consideration of the possibility of variation of the audio signal even if the audio signal including the sound to be registered is input only once.
  • a terminal device for learning an audio signal may include a converter 110, a block divider 120, and a learner 130.
  • the terminal device 100 learning an audio signal may be a terminal device that can be used by a user.
  • the terminal device 100 may include a smart television (television), an ultra high definition (UHD) TV, a monitor, a personal computer (PC), a notebook computer, a mobile phone, a tablet PC, a navigation terminal, Smart phones, personal digital assistants (PDAs), portable multimedia players (PMPs), and digital broadcast receivers.
  • the terminal device 100 may include various types of devices.
  • the converter 110 may convert an audio signal of a time domain input to the terminal device 100 into an audio signal of a frequency domain.
  • the converter 110 may frequency convert the audio signal in units of frames.
  • an audio signal of a frequency domain corresponding to each frame may be generated.
  • the converter 110 may frequency-convert the audio signal in the time domain in various time units.
  • the audio signal is processed on a frame basis.
  • the audio signal in the frequency domain may also be referred to as frequency spectrum or vector.
  • the block divider 120 may divide an audio signal of a frequency domain composed of a plurality of frames into at least one block. The user can distinguish between different sounds according to the frequency of the sounds. Therefore, the block dividing unit 120 may divide the block by using the audio signal of the frequency domain. The block divider 120 may divide a block for obtaining a template vector according to similarity between adjacent frames. The block dividing unit 120 may divide a block according to whether it can be recognized as a single sound by a user, and obtain a template vector representing an audio signal included in each block.
  • the block dividing unit 120 may obtain similarity between audio signals of frequency domains belonging to an adjacent frame, and determine a frame section in which the similarity value is equal to or greater than a predetermined reference value.
  • the block dividing unit 120 may divide the audio signal of the time domain into one or more blocks according to whether the similarity value is constantly maintained in a frame section in which similarity is equal to or greater than a predetermined reference value. For example, the block dividing unit 120 may determine a section in which a similarity value equal to or greater than a reference value is kept as one block.
  • the learner 130 may generate training data from the audio signal divided into one or more blocks by the block divider 120.
  • the learner 120 may obtain a template vector for each block and obtain an order of the template vector.
  • the template vector may be determined from an audio signal of the frequency domain included in the block.
  • the template vector may be determined as a representative value such as an average value, a median value, and a mode value for the audio signal included in the block.
  • the template vector may include a representative value of the audio signal determined for each frequency band.
  • the template vector may be the same value as the frequency spectrum in which the magnitude value exists for each frequency band.
  • the learner 120 may allocate identification information to at least one template vector determined by the block divider 120.
  • the learner 120 may assign identification information to each template vector according to whether template vector values are the same or similarity between the template vectors is equal to or greater than a predetermined reference value.
  • the same template identification information may be assigned to template vectors determined to be the same template vector.
  • the learner 120 may obtain an order of the template vector using the identification information allocated for each template vector.
  • the order of the template vector may be obtained in a frame unit or various time units.
  • the order of the template vector may include identification information of the template vector for each frame of the audio signal.
  • the order of the template vector and the template vector acquired by the learner 120 may be output as learning data of the audio signal.
  • the training data may include as many template vectors as the number of blocks and information about the order of the template vectors.
  • the learning data may be stored in a storage space of the terminal device 100 and then used to recognize an audio signal.
  • FIG. 2 is a flowchart illustrating a method of learning an audio signal according to an exemplary embodiment. The method illustrated in FIG. 2 may be performed by the terminal device 100 illustrated in FIG. 1 described above.
  • the terminal device 100 may convert an audio signal into a signal in a frequency domain to obtain at least one audio signal in a frequency domain composed of a plurality of frames.
  • the terminal device 100 may generate training data about the audio signal from the audio signal in the frequency domain.
  • the audio signal of step S210 may include a sound that the user wants to register in advance.
  • the terminal device 100 may divide the audio signal of the frequency domain into at least one block based on the similarity of the audio signal between frames.
  • the similarity determined for each frame may be determined from the similarity between the audio signal of the frequency domain belonging to each frame and the adjacent frame. For example, the similarity may be determined from the similarity between the audio signal of each frame and the audio signal belonging to the next or previous frame.
  • the terminal device 100 may divide the audio signal into one or more blocks according to whether the similarity value is constant in a section in which similarity in each frame is equal to or greater than a predetermined reference value. For example, in a section in which similarity is equal to or greater than a predetermined reference value, the terminal device 100 may divide the audio signal into blocks according to the degree of change in the similarity value.
  • the similarity between audio signals in the frequency domain may be calculated according to a method of measuring the similarity between two signals.
  • the similarity r may be obtained by the following method.
  • a and B are vector values each representing an audio signal in the frequency domain.
  • the similarity value may have a value from 0 to 1, and as two signals are similar, the similarity may have a value close to one.
  • the terminal device 100 may obtain a sequence of the template vector and the template vector based on the audio signal of the frequency domain included in the block.
  • the terminal device 100 can obtain a template vector from audio signals of one or more frequency domains included in the block.
  • the template vector may be determined as a representative value of the vectors included in the block.
  • the aforementioned vector means an audio signal in the frequency domain.
  • the terminal device 100 may assign different identification information for distinguishing the template vector according to the degree of similarity or similarity between the template vectors.
  • the terminal device 100 may determine the order of the template vector using the identification information assigned to each template vector.
  • the order of the template vector may be determined in order according to the time order of the template vector determined for each block.
  • the order of the template vector may be determined in units of frames.
  • the terminal device 100 may generate training data including the sequence of the template vector and the template vector obtained in operation S230.
  • the training data may be used as data for recognizing an audio signal.
  • FIG. 3 is a diagram illustrating an example of similarity between an audio signal and an audio signal according to an exemplary embodiment.
  • 310 is a graph illustrating an example of an audio signal of a time domain that may be input to the terminal device 100.
  • the input audio signal includes two different sounds such as a doorbell sound, for example, 'ding dong', it may appear as a graph of 310.
  • a 'ding' sound may appear from a time point when the 'ding' rings (311) to a time (312) when the 'dong' rings, and a 'dong' sound may appear from the time (312) when the 'dong' rings.
  • the 'ding' sound and the 'dong' sound may be recognized as different sounds by the user as the frequency spectrum is different.
  • the terminal device 100 may divide the audio signal shown in 310 into a frame and obtain an audio signal of a frequency domain for each frame.
  • 320 is a graph illustrating the similarity between audio signals of a frequency domain in which 310 audio signals belonging to an adjacent frame are frequency converted.
  • the section 324 before the 'ding' sound appears contains irregular noise, so the similarity in this section 324 may have a value close to zero.
  • the similarity between the frequency spectrums may be high as the sound of the same height continues.
  • the interval 322 in which the similarity value is kept constant may be allocated to one block.
  • the similarity value may be reduced by overlapping with the 'ding' sound previously displayed. As the ding sound disappears, the similarity value may rise again. In the section 323 in which the 'dong' sound appears, the similarity between the frequency spectrums may be high as the sound of the same height continues.
  • the interval 323 in which the similarity value is kept constant may be allocated to one block.
  • the terminal device 100 obtains a template vector corresponding to each block based on an audio signal belonging to each block, obtains an order of the template vectors, and generates learning data. Can be.
  • the order of the template vector may be determined in units of frames. For example, it is assumed that an audio signal includes two template vectors, and a template vector corresponding to section 322 is referred to as a template vector corresponding to sections T1 and 323. If the lengths of the sections 322 and 323 are 5 frames and 7 frames, respectively, and the lengths of the 323 sections with low similarity values are 2 frames, the order of the template vectors is in units of frames.
  • T2 T2 T2 T2 T2 T2 T2 '. -1 indicates a section not included in the block because the similarity value is lower than the reference value. The section not included in the block may be represented as -1 in the order of the template vector since the template vector does not exist.
  • FIG. 4 is a diagram illustrating an audio signal in a frequency domain according to an embodiment.
  • the terminal device 100 may frequency-convert the input audio signal to obtain audio signals of different frequency domains in units of frames.
  • the audio signal of the frequency domain may have a different magnitude value according to the frequency band, and the magnitude according to the frequency band may be displayed in the z-axis direction in FIG. 4.
  • FIG. 5 is a diagram illustrating an example of obtaining similarity between audio signals of a frequency domain belonging to an adjacent frame according to an embodiment.
  • the terminal device 100 obtains the similarity between frames for each frequency section by dividing the frequency domain into k sections, and then represents representative values such as an average value, a median value, and the like of the similarity values in the frame n and the frame n + 1.
  • a similarity value of a belonging audio signal may be obtained.
  • the terminal device 100 may obtain a similarity value of the audio signal except for a similarity value that is relatively lower than other similarity values among similarity values obtained for each frequency section.
  • the similarity value of the frequency domain including the noise may have a lower value than the similarity value of the other frequency domain. Accordingly, the terminal device 100 may determine that a section including a similarity value that is relatively low compared to the similarity value of another frequency domain includes noise.
  • the terminal device 100 may obtain the similarity value of the audio signal robustly to the noise by obtaining the similarity value of the audio signal based on the similarity in the remaining sections except for the section in which the noise is included.
  • the terminal device 100 includes the frequency domain f2. Except for the similarity value, the similarity value of the audio signal belonging to the frame n and the frame n + 1 can be obtained.
  • the terminal device 100 may calculate the similarity between frames based on the similarity value of the audio signal for the remaining sections except for the section determined to include noise.
  • the terminal device 100 determines that the terminal device 100 has a relatively low similarity value over a predetermined frame period continuously in a section determined to include a relatively low similarity value, the terminal device 100 is determined in the next frame.
  • the similarity value of the audio signal is obtained, the similarity between frames may be obtained without excluding the similarity value of the corresponding section having a relatively low similarity value.
  • the terminal device 100 may determine that the audio signal in the corresponding frequency region does not include noise. Accordingly, the terminal device 100 can obtain a similarity value for the next frame without excluding similarity values of the corresponding section.
  • FIG. 6 is a block diagram illustrating an internal structure of a terminal device recognizing an audio signal according to an exemplary embodiment.
  • the terminal device 600 recognizing the audio signal may recognize the audio signal using the learning data and output a recognition result.
  • the training data may include template vector acquired by the terminal device 100 learning the audio signal and information about the order.
  • the terminal device 600 may determine whether the input audio signal is one of the sounds pre-registered by the user, based on the learning data which is information about the sound pre-registered by the user.
  • the terminal device 600 recognizing an audio signal may be a terminal device that can be used by a user.
  • the terminal device 600 may include a smart television (television), an ultra high definition (UHD) TV, a monitor, a personal computer (PC), a notebook computer, a mobile phone, a tablet PC, a navigation terminal, Smart phones, personal digital assistants (PDAs), portable multimedia players (PMPs), and digital broadcast receivers.
  • the terminal device 600 may include various types of devices. The terminal device 600 may be included in the same device together with the terminal device 100 learning the above-described audio signal.
  • the converter 610 may convert an audio signal of a time domain input to the terminal device 600 into an audio signal of a frequency domain.
  • the converter 610 may frequency-convert the audio signal on a frame-by-frame basis to obtain at least one audio signal in a frequency domain composed of a plurality of frames.
  • the converter 610 may frequency-convert the audio signal in the time domain in various time units.
  • the template vector acquirer 620 may obtain a template vector most similar to the vector of each frame.
  • Vector refers to an audio signal in the frequency domain.
  • the template vector acquirer 620 may obtain a template vector most similar to a vector of each frame by obtaining a similarity between the at least one template vector and the vector to be compared.
  • the template vector acquirer 620 may determine that there is no template vector for the vector.
  • the template vector obtaining unit 620 may obtain the order of the template vector on a frame basis, based on the acquired identification information of the template vector.
  • the recognition unit 630 may determine whether the input audio signal includes a pre-registered sound based on the sequence of the template vector acquired by the template vector acquirer 620. The recognition unit 630 may obtain a similarity between the order of the template vector acquired by the template vector acquirer 620 and the order of the template vector included in the prestored learning data. The recognition unit 630 may recognize the audio signal by determining whether the input audio signal includes a pre-registered sound based on the similarity. If the similarity value is greater than or equal to the reference value, the recognition unit 630 may recognize that the input audio signal includes the sound of the corresponding training data.
  • the terminal device 600 may recognize the audio signal in consideration of the order of the template vector as well as the template vector. Accordingly, the terminal device 600 may recognize the audio signal using relatively little learning data.
  • FIG. 7 is a flowchart illustrating a method of recognizing an audio signal according to an exemplary embodiment.
  • the terminal device 600 recognizing an audio signal may acquire at least one audio signal of a frequency domain composed of a plurality of frames.
  • the terminal device 600 may convert an audio signal in the time domain into a signal in the frequency domain.
  • the audio signal described above may include sound recorded through a microphone.
  • the terminal device 600 may determine whether the audio signal includes a pre-registered sound by using previously stored learning data.
  • the terminal device 600 may acquire training data including the sequence of the template vector and the template vector.
  • the training data including the template vector and the sequence of the template vector may be stored in a memory of the terminal device 600.
  • the terminal device 600 may obtain a template vector corresponding to each frame based on the similarity between the audio signal of the frequency domain and the template vector.
  • the terminal device 600 may obtain a similarity between the at least one template vector obtained in operation S720 and the vector of each frame, and determine the template vector most similar to each vector. However, when the similarity value is less than or equal to the reference value, the terminal device 600 may process that a template vector similar to the corresponding vector does not exist.
  • step S740 the terminal device 600 determines whether the input audio signal includes a pre-learned audio signal based on the similarity between the order of the template vector obtained in step S730 and the order of the template vector obtained in step S720.
  • the audio signal can be recognized.
  • the terminal device 600 may determine the order of the template vector having the highest similarity among the orders of the at least one template vector. When the maximum similarity value is greater than or equal to the reference value, the terminal device 600 may determine that the input audio signal includes the audio signal in the order of the template vector. However, when the maximum similarity value is less than or equal to the reference value, the terminal device 600 may determine that the pre-learned audio signal is not included in the input audio signal.
  • an edit distance algorithm may be used as a method for calculating similarity between the sequences of the template vectors.
  • the edit distance algorithm is an algorithm that determines how similar two sequences are. The smaller the value of the last cell, the higher the similarity may be determined.
  • the editing distance is as shown in Table 1 below.
  • the final distance can be obtained through an algorithm.
  • the order of the template vector if there is no template vector similar to the vector of the corresponding frame, it may be represented by -1.
  • the characters displayed in bold can be determined by the following rule.
  • the upper left value of the diagonal line is written as it is, and in another case, the value of 1, which is the smallest value of the upper left, left, and upper diagonal lines, may be written.
  • the final distance in Table 1 is 2, which is located in the last cell.
  • FIG. 8 is a block diagram illustrating an example of obtaining a template vector and a sequence of the template vector according to an embodiment.
  • the terminal device 600 includes a template vector for signals v [1], ..., v [i], ..., v [n] in the frequency domain for each frame of the audio signal.
  • the similarity of can be found. If the signal in the frequency domain for each frame is referred to as a vector, in 810 to 830, a similarity between the vector 1, the vector i, the vector n, and the at least one template vector may be obtained.
  • the terminal device 600 may obtain a template vector having the highest similarity with each vector and an order of the template vector.
  • vector i, and vector n are T1, T1, and T2, respectively, the order of the template vectors is T1 [1], ..., T1 [i],. ... can be obtained with T2 [n].
  • FIG. 9 is an exemplary diagram illustrating an example of obtaining a template vector according to an embodiment.
  • 910 is a graph illustrating an example of an audio signal of a time domain that may be input to the terminal device 600.
  • the terminal device 600 may divide the audio signal shown in 910 into frames, and obtain an audio signal of a frequency domain for each frame.
  • 920 is a graph showing the similarity between the audio signal of the frequency domain in which the audio signal of 910 is frequency-converted and at least one template vector. The maximum value of the similarity value between the audio signal and the template vector of the frequency domain of each frame may be illustrated at 920.
  • a template vector for each frame may be determined in a section in which the similarity value is greater than or equal to the reference value 921.
  • FIG. 10 is a block diagram illustrating an internal structure of a terminal apparatus 1000 for learning an audio signal according to an exemplary embodiment.
  • the terminal device 1000 may correspond to the terminal device 100 learning the above-described audio signal.
  • the terminal device 1000 may include a receiver 1010, a controller 1020, and an output unit 1030.
  • the controller 1020 may convert an audio signal of the time domain obtained by the receiver 1010 into an audio signal of the frequency domain, and divide the audio signal into one or more blocks based on the similarity between frames. In addition, the controller 1020 may obtain a template vector for each block and obtain an order of template vectors corresponding to each frame.
  • the storage unit 1030 may store the template vector of the audio signal obtained by the controller 1020 and the sequence of the template vector as learning data for the audio signal.
  • the stored training data can be used to recognize the audio signal.
  • FIG. 11 is a block diagram illustrating an internal structure of a terminal device recognizing an audio signal according to an exemplary embodiment.
  • the terminal device 1000 may correspond to the terminal device 600 that recognizes the above-described audio signal.
  • the terminal device 1100 may include a receiver 1110, a controller 1120, and an output unit 1030.
  • the receiver 1110 may acquire an audio signal to be recognized.
  • the receiver 1110 may acquire an audio signal input through a microphone.
  • the controller 1120 may convert the audio signal input by the receiver 1110 into an audio signal of the frequency domain, and obtain a similarity between the audio signal of the frequency domain and the template vector of the training data in units of frames.
  • the template vector having the maximum similarity may be determined as the template vector corresponding to the vector of the corresponding frame.
  • the controller 1120 may obtain an order of the template vector determined based on the similarity, and obtain a similarity with the order of the template vector stored in the training data.
  • the controller 1120 may determine that the audio signal input by the receiver 1110 includes the audio signal of the corresponding training data.
  • the output unit 1130 may output a result of recognizing the audio signal input by the controller 1120. For example, the output unit 1130 may output identification information of the recognized audio signal to a display screen or a speaker. When the input audio signal is recognized as the doorbell sound, the output unit 1130 may output a display screen indicating that the doorbell sound is recognized or output a notification sound.
  • the number of inputs of an audio signal including the same sound may be minimized, and thus a process of learning sound may be performed more simply.
  • the method according to some embodiments may be embodied in the form of program instructions that may be executed by various computer means and recorded on a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.

Abstract

복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득하고, 프레임 간 유사도를 이용하여, 주파수 도메인의 오디오 신호를 적어도 하나의 블록으로 분할하고, 각 블록에 대응하는 템플릿 벡터를 획득하고, 각 블록에 포함된 적어도 하나의 프레임에 대응하여, 획득된 템플릿 벡터들의 순서를 획득하고, 획득된 템플릿 벡터들 및 템플릿 벡터들의 순서를 포함하는 학습 데이터를 생성하는, 오디오 신호를 학습하는 방법이 개시된다.

Description

오디오 신호를 학습하고 인식하는 방법 및 장치
본 발명은 오디오 신호를 학습하여 오디오 신호의 인식을 위한 정보를 획득하고, 오디오 신호의 인식을 위한 정보를 이용하여 오디오 신호를 인식하는 방법 및 장치에 대한 것이다.
소리 인식 기술은 인식하고자 하는 소리를 미리 학습하여 학습 데이터를 생성하고, 학습 데이터에 기초하여 소리를 인식하는 방법에 관한 것이다. 예를 들면, 사용자에 의해 단말 장치에서 초인종 소리가 학습된 후, 학습된 초인종 소리와 동일한 소리가 단말 장치에 입력되면, 단말 장치는 초인종 소리가 인식됨을 나타내는 동작을 수행할 수 있다.
단말 장치가 특정 소리를 인식하기 위하여는 학습 데이터 생성을 위한 학습 과정을 수행하는 것이 필요하다. 학습 과정이 복잡하고 오래 걸리는 경우, 사용자가 불편함을 느낌에 따라 학습 과정이 제대로 수행되지 않을 수 있다. 따라서, 학습 과정에서 오류가 생길 가능성이 높으므로 소리 인식 기능의 성능이 낮아질 수 있다.
본 발명은 보다 간단하게 오디오 신호의 인식을 위한 학습 데이터를 생성하고, 학습 데이터를 이용하여 오디오 신호를 인식하는 방법 및 장치에 대한 것이다.
일 실시 예에 의하면, 동일한 소리를 포함하는 오디오 신호의 입력 횟수가 최소화될 수 있어 보다 간단하게 소리를 학습하는 과정이 수행될 수 있다.
도 1은 일 실시 예에 의한 오디오 신호를 학습하는 단말 장치의 내부 구조를 나타낸 블록도이다.
도 2는 일 실시 예에 의한 오디오 신호를 학습하는 방법을 나타낸 순서도이다.
도 3은 일 실시 예에 의한 오디오 신호 및 오디오 신호 간의 유사도에 대한 일 예를 나타낸 예시 도면이다.
도 4는 일 실시 예에 의한 주파수 도메인의 오디오 신호를 나타낸 예시 도면이다.
도 5는 일 실시 에에 의한 인접한 프레임에 속하는 주파수 도메인의 오디오 신호 간 유사도를 획득하는 일 예를 나타낸 도면이다.
도 6은 일 실시 예에 의한 오디오 신호를 인식하는 단말 장치의 내부 구조를 나타낸 블록도이다.
도 7은 일 실시 예에 의한 오디오 신호를 인식하는 방법을 나타낸 순서도이다.
도 8은 일 실시 예에 의한 템플릿 벡터 및 템플릿 벡터의 순서를 획득하는 일 예를 나타낸 블록도이다.
도 9는 일 실시 예에 의한 템플릿 벡터를 획득하는 일 예를 나타낸 예시 도면이다.
도 10은 일 실시 예에 의한 오디오 신호를 학습하는 단말 장치의 내부 구조를 나타낸 블록도이다.
도 11은 일 실시 예에 의한 오디오 신호를 인식하는 단말 장치의 내부 구조를 나타낸 블록도이다.
일 실시 예에 의한 오디오 신호를 학습하는 방법에 있어서, 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득하는 단계; 프레임 간 유사도를 이용하여, 상기 주파수 도메인의 오디오 신호를 적어도 하나의 블록으로 분할하는 단계; 상기 각 블록에 대응하는 템플릿 벡터를 획득하는 단계; 상기 각 블록에 포함된 적어도 하나의 프레임에 대응하여, 상기 획득된 템플릿 벡터들의 순서(sequence)를 획득하는 단계; 및 상기 획득된 템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 생성하는 단계를 포함한다.
상기 분할하는 단계는 상기 유사도가 기준값 이상인 적어도 하나의 프레임을 상기 적어도 하나의 블록으로 분할하는 단계를 포함한다.
상기 템플릿 벡터를 획득하는 단계는 상기 블록에 포함된 적어도 하나의 프레임을 획득하는 단계; 및 상기 획득된 프레임에 대한 대표값을 구함으로써, 상기 템플릿 벡터를 획득하는 단계를 포함한다.
상기 템플릿 벡터들의 순서는 각 블록에 포함되는 상기 적어도 하나의 프레임에 대하여 상기 템플릿 벡터의 식별 정보를 할당하여 표시한다.
상기 분할하는 단계는 주파수 대역을 복수 개의 구간으로 분할하는 단계; 상기 각 구간에서, 프레임 간 유사도를 구하는 단계; 상기 각 구간에서의 유사도에 기초하여, 상기 복수 개의 구간 중 노이즈가 포함되어 있는 구간을 결정하는 단계; 상기 결정된 구간을 제외한, 나머지 구간에서의 유사도에 기초하여 상기 인접한 프레임에 속한 상기 주파수 도메인의 오디오 신호들 간 유사도를 구하는 단계를 포함한다.
일 실시 예에 의한 오디오 신호를 인식하는 방법에 있어서, 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득하는 단계; 템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 획득하는 단계; 상기 주파수 도메인의 오디오 신호와 상기 템플릿 벡터간의 유사도에 기초하여, 상기 각 프레임과 대응되는 템플릿 벡터를 결정하는 단계; 및 상기 결정된 템플릿 벡터들의 순서와 상기 학습 데이터의 순서간의 유사도에 기초하여, 상기 오디오 신호를 인식하는 단계를 포함한다.
상기 각 프레임과 대응되는 템플릿 벡터를 결정하는 단계는 상기 각 프레임의 주파수 도메인의 오디오 신호와 상기 템플릿 벡터간의 유사도를 각각 구하는 단계; 및 상기 유사도가 기준값 이상인 경우, 상기 템플릿 벡터를 상기 각 프레임과 대응되는 템플릿 벡터로 결정하는 단계를 포함한다.
일 실시 예에 의한 오디오 신호를 학습하는 단말 장치에 있어서, 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 수신하는 수신부; 프레임 간 유사도를 이용하여, 상기 주파수 도메인의 오디오 신호를 적어도 하나의 블록으로 분할하고, 상기 각 블록에 대응하는 템플릿 벡터를 획득하고, 상기 각 블록에 포함된 적어도 하나의 프레임에 대응하여, 상기 획득된 템플릿 벡터들의 순서를 획득하고, 상기 획득된 템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 생성하는 제어부; 및 상기 학습 데이터를 저장하는 저장부를 포함한다.
일 실시 예에 의한 오디오 신호를 인식하는 단말 장치에 있어서, 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 수신하는 수신부; 템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 획득하고, 상기 주파수 도메인의 오디오 신호와 상기 템플릿 벡터간의 유사도에 기초하여, 상기 각 프레임과 대응되는 템플릿 벡터를 결정하고, 상기 결정된 템플릿 벡터들의 순서와 상기 학습 데이터의 순서간의 유사도에 기초하여, 상기 오디오 신호를 인식하는 제어부; 및 상기 오디오 신호가 인식된 결과를 출력하는 출력부를 포함한다.
이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.
이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 본 발명은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되어지지 않는다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 설명한다.
도 1 내지 도 5를 참조하여, 오디오 신호를 학습하는 장치 및 방법에 대해 자세히 설명하기로 한다.
도 1은 일 실시 예에 의한 오디오 신호를 학습하는 단말 장치의 내부 구조를 나타낸 블록도이다.
오디오 신호를 학습하는 단말 장치(100)는, 입력된 오디오 신호를 학습하여 학습 데이터를 생성할 수 있다. 단말 장치(100)에 의해 학습될 수 있는 오디오 신호는 사용자가 등록하고자 하는 소리를 포함하는 신호일 수 있다. 단말 장치에 의해 생성된 학습 데이터는 미리 등록된 소리를 인식하는데 이용될 수 있다. 예를 들면, 단말 장치는 학습 데이터를 이용하여 마이크를 통해 입력된 오디오 신호가 미리 등록된 소리를 포함하는지 여부를 판단할 수 있다.
단말 장치가 소리 인식을 위한 학습 과정을 수행하기 위해서는 등록하고자 하는 소리를 포함하는 오디오 신호로부터 통계적인 특징을 뽑음으로써 학습 데이터를 생성할 수 있다. 학습 데이터 생성을 위한 충분한 데이터가 수집될 수 있도록, 단말 장치에 동일한 소리를 포함하는 오디오 신호가 여러 번 입력되는 것이 필요할 수 있다. 예를 들면, 오디오 신호로부터 어떤 통계적 특징이 필요한가에 따라 오디오 신호가 단말 장치에 여러 번 입력되는 것이 필요할 수 있다. 그러나, 오디오 신호가 단말 장치에 입력되어야 하는 횟수가 늘어날수록 사용자는 소리를 학습하는 과정에서 번거로움과 불편함을 느낄 수 있어 단말 장치의 소리 인식 성능이 저하될 수 있다.
한편, 일 실시 예에 의하면, 미리 등록된 오디오 신호에 대한 학습 데이터는 적어도 하나의 템플릿 벡터와 템플릿 벡터의 순서를 포함할 수 있다. 템플릿 벡터는 인접한 프레임의 오디오 신호간 유사도에 따라 결정된 블록 별로 결정될 수 있다. 따라서, 오디오 신호에 노이즈가 포함되거나 소리의 변이가 약간 발생되더라도 템플릿 벡터가 블록별로 결정됨에 따라 오디오 신호로부터 획득될 수 있는 템플릿 벡터 및 순서는 거의 변하지 않을 수 있다. 학습 과정에서 오디오 신호가 여러 번 입력되지 않아도 학습 데이터가 생성될 수 있으므로, 단말 장치는 오디오 신호를 학습하는 과정을 보다 간단하게 수행할 수 있다. 예를 들면, 단말 장치는 등록하고자 하는 소리를 포함하는 오디오 신호를 한번만 입력 받아도 오디오 신호의 변이 가능성을 고려하여 추가로 동일한 소리를 포함하는 오디오 신호를 입력받을 필요 없이 학습 데이터를 생성할 수 있다.
도 1을 참조하면, 오디오 신호를 학습하는 단말 장치는 변환부(110), 블록 분할부(120) 및 학습부(130)를 포함할 수 있다.
일 실시 예에 의한 오디오 신호를 학습하는 단말 장치(100)는, 사용자에 의해 이용될 수 있는 단말 장치일 수 있다. 예를 들면, 단말 장치(100)는 스마트 TV(television), UHD(ultra high definition) TV, 모니터, PC(Personal Computer), 노트북 컴퓨터, 휴대폰(mobile phone), 태블릿 PC, 내비게이션(navigation) 단말기, 스마트폰(smart phone), PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 및 디지털방송 수신기를 포함할 수 있다. 상술된 예에 한하지 않고, 단말 장치(100)는 다양한 종류의 장치를 포함할 수 있다.
변환부(110)는 단말 장치(100)에 입력된 시간 도메인의 오디오 신호를 주파수 도메인의 오디오 신호로 변환할 수 있다. 변환부(110)는 프레임 단위로 오디오 신호를 주파수 변환할 수 있다. 변환부(110)에 의해, 각 프레임에 대응되는 주파수 도메인의 오디오 신호가 생성될 수 있다. 이에 한하지 않고, 변환부(110)는 다양한 시간 단위로 시간 도메인의 오디오 신호를 주파수 변환할 수 있다. 이하 설명에서는 프레임 단위로 오디오 신호를 처리하는 것을 기준으로 설명하기로 한다. 또한, 주파수 도메인의 오디오 신호는 주파수 스펙트럼 또는 벡터로 지칭될 수도 있다.
블록 분할부(120)는 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나의 블록으로 분할할 수 있다. 사용자는 소리의 주파수에 따라 서로 다른 소리인지를 구별할 수 있다. 따라서, 블록 분할부(120)는 주파수 도메인의 오디오 신호를 이용하여 블록을 분할할 수 있다. 블록 분할부(120)는 인접한 프레임 간 유사도(correlation)에 따라 템플릿 벡터를 구하기 위한 블록을 분할할 수 있다. 블록 분할부(120)는 사용자에 의해 하나의 소리로 인식될 수 있는지에 따라 블록을 분할하고, 각 블록에 포함된 오디오 신호를 대표하는 템플릿 벡터를 구할 수 있다.
블록 분할부(120)는 인접한 프레임에 속하는 주파수 도메인의 오디오 신호들의 유사도를 구하고, 유사도 값이 미리 정해진 기준값 이상인 프레임 구간을 결정할 수 있다. 그리고, 블록 분할부(120)는 유사도가 미리 정해진 기준값 이상인 프레임 구간에서 유사도 값이 일정하게 유지되는지에 따라, 시간 도메인의 오디오 신호를 하나 이상의 블록으로 분할할 수 있다. 예를 들면, 블록 분할부(120)는 기준값 이상의 유사도 값이 일정하게 유지되는 구간을 하나의 블록으로 정할 수 있다.
학습부(130)는 블록 분할부(120)에 의해 하나 이상의 블록으로 분할된 오디오 신호로부터 학습 데이터를 생성할 수 있다. 학습부(120)는 각 블록에 대한 템플릿 벡터를 구하고, 템플릿 벡터의 순서를 획득할 수 있다.
템플릿 벡터는 블록에 포함된 주파수 도메인의 오디오 신호로부터 결정될 수 있다. 예를 들면, 템플릿 벡터는 블록에 포함된 오디오 신호에 대한 평균값, 중간값, 최빈값 등의 대표값으로 결정될 수 있다. 템플릿 벡터는 주파수 대역별로 결정된 오디오 신호의 대표값을 포함할 수 있다. 템플릿 벡터는 주파수 대역별로 크기 값이 존재하는 주파수 스펙트럼과 같은 값일 수 있다.
학습부(120)는 블록 분할부(120)에 의해 결정된 적어도 하나의 템플릿 벡터에 대하여 각각 식별 정보를 할당할 수 있다. 학습부(120)는 템플릿 벡터 값들이 서로 동일하거나 템플릿 벡터간 유사도가 소정 기준 값 이상인지에 따라서, 각 템플릿 벡터에 식별 정보를 부여할 수 있다. 서로 동일한 템플릿 벡터인 것으로 판단된 템플릿 벡터들에는 서로 동일한 식별 정보가 할당될 수 있다.
학습부(120)는 각 템플릿 벡터에 대하여 할당된 식별 정보를 이용하여 템플릿 벡터의 순서를 구할 수 있다. 템플릿 벡터의 순서는 프레임 단위 또는 다양한 시간 단위로 획득될 수 있다. 예를 들면, 템플릿 벡터의 순서는 오디오 신호의 각 프레임에 대한 템플릿 벡터의 식별 정보를 포함할 수 있다.
학습부(120)에 의해 획득된 템플릿 벡터 및 템플릿 벡터의 순서는 오디오 신호의 학습 데이터로 출력될 수 있다. 예를 들면, 학습 데이터는 블록 개수만큼의 템플릿 벡터와, 템플릿 벡터의 순서에 관한 정보를 포함할 수 있다. 학습 데이터는 단말 장치(100)의 저장 공간에 저장되어, 이후 오디오 신호를 인식하는데 이용될 수 있다.
도 2는 일 실시 예에 의한 오디오 신호를 학습하는 방법을 나타낸 순서도이다. 도 2에 도시된 방법은, 상술된 도 1에 도시된 단말 장치(100)에 의해 수행될 수 있다.
도 2를 참조하면, 단계 S210에서, 단말 장치(100)는 오디오 신호를 주파수 도메인의 신호로 변환하여, 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득할 수 있다. 단말 장치(100)는 주파수 도메인의 오디오 신호로부터, 오디오 신호에 대한 학습 데이터를 생성할 수 있다. 단계 S210의 오디오 신호는 사용자가 미리 등록하고자 하는 소리를 포함할 수 있다.
단계 S220에서, 단말 장치(100)는 프레임 간 오디오 신호의 유사도에 기초하여, 주파수 도메인의 오디오 신호를 적어도 하나의 블록으로 분할할 수 있다. 각 프레임에 대해 결정된 유사도는 각 프레임 및 인접한 프레임에 속한 주파수 도메인의 오디오 신호 간 유사도로부터 결정될 수 있다. 예를 들면, 유사도는 각 프레임의 오디오 신호와 다음 또는 이전 프레임에 속한 오디오 신호 간 유사도로부터 결정될 수 있다. 단말 장치(100)는 각 프레임에서의 유사도가 소정 기준값 이상인 구간에서, 유사도 값이 일정하게 유지되는지에 따라, 오디오 신호를 하나 이상의 블록으로 분할할 수 있다. 예를 들면, 유사도가 소정 기준값 이상인 구간에서, 단말 장치(100)는 유사도 값의 변화 정도에 따라 오디오 신호를 블록으로 분할할 수 있다.
주파수 도메인의 오디오 신호 간 유사도는 두 개의 신호 간 유사도를 측정하는 방법에 따라 구해질 수 있다. 예를 들면, 유사도 r은 이하 수학식 1과 같은 방법으로 획득될 수 있다. 수학식 1에서, A, B는 각각 주파수 도메인의 오디오 신호를 나타내는 벡터 값이다. 유사도 값은 0에서 1까지의 값을 가질 수 있으며, 두 신호가 유사할 수록 유사도는 1에 가까운 값을 가질 수 있다.
수학식 1
Figure PCTKR2015009300-appb-M000001
단계 S230에서, 단말 장치(100)는 블록에 포함된 주파수 도메인의 오디오 신호에 기초하여 템플릿 벡터 및 템플릿 벡터의 순서를 획득할 수 있다. 단말 장치(100)는 블록에 포함된 하나 이상의 주파수 도메인의 오디오 신호로부터 템플릿 벡터를 구할 수 있다. 예를 들면, 템플릿 벡터는 블록에 포함된 벡터들의 대표 값으로 결정될 수 있다. 상술된 벡터는 주파수 도메인의 오디오 신호를 의미한다.
또한, 단말 장치(100)는 템플릿 벡터 간 동일성 또는 유사 정도에 따라 템플릿 벡터를 구별하기 위한 서로 다른 식별 정보를 부여할 수 있다. 단말 장치(100)는 각 템플릿 벡터에 대하여 부여된 식별 정보를 이용하여 템플릿 벡터의 순서를 결정할 수 있다. 템플릿 벡터의 순서는, 각 블록에 대해 결정된 템플릿 벡터의 시간 순서에 따라 차례대로 결정될 수 있다. 템플릿 벡터의 순서는 프레임 단위로 결정될 수 있다.
단계 S240에서, 단말 장치(100)는 단계 S230에서 획득된 템플릿 벡터 및 템플릿 벡터의 순서를 포함하는 학습 데이터를 생성할 수 있다. 학습 데이터는 오디오 신호를 인식하기 위한 데이터로 이용될 수 있다.
이하 도 3 내지 도 4를 참조하여, 오디오 신호를 학습하는 방법을 예시 도면을 참조하여 더 자세히 설명하기로 한다.
도 3은 일 실시 예에 의한 오디오 신호 및 오디오 신호 간의 유사도에 대한 일 예를 나타낸 예시 도면이다.
310은, 단말 장치(100)에 입력될 수 있는 시간 도메인의 오디오 신호의 일 예를 나타낸 그래프이다. 입력된 오디오 신호가 초인종 소리, 예를 들면 '딩동'과 같이 두 개의 서로 다른 음을 포함하는 경우, 310의 그래프와 같이 나타날 수 있다. '딩'이 울리는 시점(311)부터 '동'이 울리는 시점(312)까지 '딩' 소리가 나타나고, '동'이 울리는 시점(312)부터 '동' 소리가 나타날 수 있다. '딩' 소리와 '동' 소리는 주파수 스펙트럼이 서로 다름에 따라 사용자에 의해 각각 다른 음으로 인식될 수 있다. 단말 장치(100)는 310에 도시된 오디오 신호를 프레임으로 분할하고, 각 프레임에 대한 주파수 도메인의 오디오 신호를 획득할 수 있다.
320은, 인접한 프레임에 속하는 310의 오디오 신호가 주파수 변환된 주파수 도메인의 오디오 신호간의 유사도를 나타낸 그래프이다. '딩' 소리가 나타나기 전 구간(324)에는 불규칙적인 노이즈가 포함되어 있어, 이 구간(324)에서의 유사도는 0에 가까운 값을 가질 수 있다.
'딩' 소리가 나타나는 구간(322)에서는 동일한 높이의 음이 지속됨에 따라 주파수 스펙트럼 간 유사도가 높게 나타날 수 있다. 유사도 값이 일정하게 유지되는 구간(322)은 하나의 블록으로 할당될 수 있다.
유사도 값이 일시적으로 변화하는 구간(323)은 '동' 소리가 나타남에 따라 이전에 나타난 '딩' 소리와 겹쳐 유사도 값이 하락할 수 있다. '딩'소리가 소멸됨에 따라 유사도 값은 다시 상승할 수 있다. '동' 소리가 나타나는 구간(323)에서는 동일한 높이의 음이 지속됨에 따라 주파수 스펙트럼 간 유사도가 높게 나타날 수 있다. 유사도 값이 일정하게 유지되는 구간(323)은 하나의 블록으로 할당될 수 있다.
블록으로 할당된 구간(322,323)에 대하여, 단말 장치(100)는 각 블록에 속한 오디오 신호에 기초하여, 각 블록과 대응되는 템플릿 벡터를 구하고, 템플릿 벡터의 순서를 획득하여, 학습 데이터를 생성할 수 있다.
템플릿 벡터의 순서는, 프레임 단위로 결정될 수 있다. 예를 들면, 오디오 신호가 2개의 템플릿 벡터를 포함하고, 322 구간과 대응되는 템플릿 벡터가 T1, 323 구간과 대응되는 템플릿 벡터가 T2로 지칭된다고 가정한다. 322 구간 및 323 구간의 길이가 각각 5 프레임, 7 프레임이고, 유사도 값이 낮은 323 구간의 길이가 2 프레임인 경우, 템플릿 벡터의 순서는 프레임 단위로, 'T1 T1 T1 T1 T1 -1 -1 T2 T2 T2 T2 T2 T2 T2'로 결정될 수 있다. -1은 유사도 값이 기준값보다 낮아 블록에 포함되지 않은 구간을 나타낸다. 블록에 포함되지 않은 구간은 템플릿 벡터가 존재하지 않아 템플릿 벡터의 순서에서 -1로 표시될 수 있다.
도 4는 일 실시 예에 의한 주파수 도메인의 오디오 신호를 나타낸 예시 도면이다.
도 4와 같이, 단말 장치(100)는 입력된 오디오 신호를 주파수 변환하여 프레임 단위로 서로 다른 주파수 도메인의 오디오 신호를 획득할 수 있다. 주파수 도메인의 오디오 신호는 주파수 대역에 따라 서로 다른 크기 값을 가질 수 있으며, 주파수 대역에 따른 크기는 도 4에서 z축 방향으로 표시될 수 있다.
도 5는 일 실시 에에 의한 인접한 프레임에 속하는 주파수 도메인의 오디오 신호 간 유사도를 획득하는 일 예를 나타낸 도면이다.
도 5를 참조하면, 단말 장치(100)는 주파수 영역을 k개의 구간으로 나누어서 주파수 구간별로 프레임 간 유사도를 구한 후, 유사도 값들의 평균값, 중간 값 등의 대표값을 프레임 n과 프레임 n+1 에 속한 오디오 신호의 유사도 값으로 획득할 수 있다.
또한, 단말 장치(100)는 주파수 구간별로 획득된 유사도 값 중 다른 유사도 값에 비해 상대적으로 낮은 유사도 값을 제외하고, 오디오 신호의 유사도 값을 획득할 수 있다. 특정 주파수 영역의 오디오 신호에 노이즈가 포함되어 있는 경우, 노이즈가 포함된 주파수 영역의 유사도 값은 다른 주파수 영역의 유사도 값에 비해 상대적으로 낮은 값을 가질 수 있다. 따라서, 단말 장치(100)는 다른 주파수 영역의 유사도 값에 비해 상대적으로 낮은 유사도 값이 포함된 구간은 노이즈가 포함되어 있는 것으로 판단할 수 있다. 단말 장치(100)는 노이즈가 포함되어 있는 구간을 제외하고, 나머지 구간에서의 유사도에 기초하여 오디오 신호의 유사도 값을 획득함으로써, 잡음에 강인하게 오디오 신호의 유사도 값을 획득할 수 있다. 예를 들면, 단말 장치(100)는 주파수 영역 f2에서, 프레임 n과 프레임 n+1에 속한 오디오 신호의 유사도 값이 나머지 주파수 영역의 유사도 값에 비해 상대적으로 낮은 값을 가지는 경우, 주파수 영역 f2의 유사도 값은 제외하고 프레임 n과 프레임 n+1 에 속한 오디오 신호의 유사도 값을 구할 수 있다.
단말 장치(100)는 노이즈가 포함되어 있는 것으로 판단된 구간은 제외하고 나머지 구간에 대한 오디오 신호의 유사도 값에 기초하여, 프레임 간 유사도를 구할 수 있다.
한편, 단말 장치(100)는 상대적으로 낮은 유사도 값을 포함하는 것으로 판단된 구간에서, 연속적으로 소정 프레임 구간 이상 상대적으로 낮은 유사도 값을 가지는 것으로 판단하는 경우, 단말 장치(100)는 다음 프레임에서의 오디오 신호의 유사도 값을 구할 때, 해당 구간의 유사도 값이 상대적으로 낮은 유사도 값을 가져도 제외하지 않고 프레임 간 유사도를 구할 수 있다. 상대적으로 낮은 유사도 값이 특정 주파수 영역에서 연속적으로 획득되는 경우, 단말 장치(100)는 해당 주파수 영역의 오디오 신호에 노이즈가 포함되어 있지 않은 것으로 판단할 수 있다. 따라서, 단말 장치(100)는 해당 구간의 유사도 값을 제외하지 않고 다음 프레임에 대한 유사도 값을 구할 수 있다.
이하 도 6 내지 도 9를 참조하여, 오디오 신호를 인식하는 장치 및 방법에 대해 자세히 설명하기로 한다.
도 6은 일 실시 예에 의한 오디오 신호를 인식하는 단말 장치의 내부 구조를 나타낸 블록도이다.
오디오 신호를 인식하는 단말 장치(600)는, 학습 데이터를 이용하여 오디오 신호를 인식하고, 인식 결과를 출력할 수 있다. 학습 데이터는 오디오 신호를 학습하는 단말 장치(100)에 의해 획득된 템플릿 벡터 및 순서에 관한 정보를 포함할 수 있다. 단말 장치(600)는 사용자에 의해 미리 등록된 소리에 관한 정보인 학습 데이터에 기초하여, 입력된 오디오 신호가 사용자에 의해 미리 등록된 소리 중 하나인지 여부를 결정할 수 있다.
일 실시 예에 의한 오디오 신호를 인식하는 단말 장치(600)는 사용자에 의해 이용될 수 있는 단말 장치일 수 있다. 예를 들면, 단말 장치(600)는 스마트 TV(television), UHD(ultra high definition) TV, 모니터, PC(Personal Computer), 노트북 컴퓨터, 휴대폰(mobile phone), 태블릿 PC, 내비게이션(navigation) 단말기, 스마트폰(smart phone), PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 및 디지털방송 수신기를 포함할 수 있다. 상술된 예에 한하지 않고, 단말 장치(600)는 다양한 종류의 장치를 포함할 수 있다. 단말 장치(600)는 상술된 오디오 신호를 학습하는 단말 장치(100)와 함께 동일한 장치 내에 포함될 수 있다.
변환부(610)는 단말 장치(600)에 입력된 시간 도메인의 오디오 신호를 주파수 도메인의 오디오 신호로 변환할 수 있다. 변환부(610)는 프레임 단위로 오디오 신호를 주파수 변환하여, 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득할 수 있다. 이에 한하지 않고, 변환부(610)는 다양한 시간 단위로 시간 도메인의 오디오 신호를 주파수 변환할 수 있다.
템플릿 벡터 획득부(620)는 각 프레임의 벡터와 가장 유사한 템플릿 벡터를 획득할 수 있다. 벡터는 주파수 도메인의 오디오 신호를 의미한다. 템플릿 벡터 획득부(620)는 비교하고자 하는 적어도 하나의 템플릿 벡터와 벡터 간 유사도를 구하여, 각 프레임의 벡터와 가장 유사한 템플릿 벡터를 획득할 수 있다.
다만, 템플릿 벡터 획득부(620)는 유사도 값의 최대 값이 기준값 이하인 경우, 해당 벡터에 대한 템플릿 벡터는 존재하지 않는 것으로 결정할 수 있다.
또한, 템플릿 벡터 획득부(620)는 획득된 템플릿 벡터의 식별 정보에 기초하여, 프레임 단위로 템플릿 벡터의 순서를 획득할 수 있다.
인식부(630)는 템플릿 벡터 획득부(620)에 의해 획득된 템플릿 벡터의 순서에 기초하여 입력된 오디오 신호가 미리 등록된 소리를 포함하고 있는지 여부를 결정할 수 있다. 인식부(630)는 템플릿 벡터 획득부(620)에 의해 획득된 템플릿 벡터의 순서와 미리 저장된 학습 데이터에 포함된 템플릿 벡터의 순서 간 유사도를 획득할 수 있다. 인식부(630)는 유사도에 기초하여, 입력된 오디오 신호가 미리 등록된 소리를 포함하고 있는지 여부를 결정함으로써, 오디오 신호를 인식할 수 있다. 유사도 값이 기준값 이상인 경우, 인식부(630)는 입력된 오디오 신호가 해당 학습 데이터의 소리를 포함하는 것으로 인식할 수 있다.
일 실시 예에 의한 단말 장치(600)는 템플릿 벡터뿐만 아니라 템플릿 벡터의 순서를 고려하여 오디오 신호를 인식할 수 있다. 따라서, 단말 장치(600)는 상대적으로 적은 학습 데이터를 이용하여 오디오 신호를 인식할 수 있다.
도 7은 일 실시 예에 의한 오디오 신호를 인식하는 방법을 나타낸 순서도이다.
도 7을 참조하면, 오디오 신호를 인식하는 단말 장치(600)는 단계 S710에서, 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득할 수 있다. 단말 장치(600)는 시간 도메인의 오디오 신호를 주파수 도메인의 신호로 변환할 수 있다. 상술된 오디오 신호는 마이크를 통해 녹음된 소리를 포함할 수 있다. 단말 장치(600)는 미리 저장된 학습 데이터를 이용하여 오디오 신호가 미리 등록된 소리를 포함하는지 여부를 판단할 수 있다.
단계 S720에서, 단말 장치(600)는 템플릿 벡터 및 템플릿 벡터의 순서를 포함하는 학습 데이터를 획득할 수 있다. 템플릿 벡터 및 템플릿 벡터의 순서를 포함하는 학습 데이터는 단말 장치(600)의 메모리에 저장되어 있을 수 있다.
단계 S730에서, 단말 장치(600)는 주파수 도메인의 오디오 신호와 템플릿 벡터간 유사도에 기초하여, 각 프레임과 대응되는 템플릿 벡터를 획득할 수 있다. 단말 장치(600)는 단계 S720에서 획득한 적어도 하나의 템플릿 벡터와 각 프레임의 벡터 간 유사도를 구하여, 각 벡터와 가장 유사한 템플릿 벡터를 결정할 수 있다. 다만, 유사도 값이 기준 값 이하인 경우, 단말 장치(600)는 해당 벡터와 유사한 템플릿 벡터는 존재하지 않는 것으로 처리할 수 있다.
단계 S740에서, 단말 장치(600)는 단계 S730에서 획득된 템플릿 벡터의 순서와 단계 S720에서 획득된 템플릿 벡터의 순서 간 유사도에 기초하여, 입력된 오디오 신호가 미리 학습된 오디오 신호를 포함하는지 결정함으로써, 오디오 신호를 인식할 수 있다. 단말 장치(600)는 적어도 하나의 템플릿 벡터의 순서 중 유사도가 가장 높은 템플릿 벡터의 순서를 결정할 수 있다. 단말 장치(600)는 최대 유사도 값이 기준값 이상인 경우, 입력된 오디오 신호가 해당 템플릿 벡터의 순서의 오디오 신호를 포함하는 것으로 결정할 수 있다. 다만, 최대 유사도 값이 기준 값 이하인 경우, 단말 장치(600)는 입력된 오디오 신호에 미리 학습된 오디오 신호는 포함되어 있지 않은 것으로 판단할 수 있다.
템플릿 벡터의 순서 간 유사도를 구하는 방법으로 예를 들면, 편집 거리(edit distance) 알고리즘이 이용될 수 있다. 편집 거리 알고리즘은 두 개의 시퀀스가 얼마나 유사한지를 알아내는 알고리즘으로, 마지막 칸의 값이 작을수록, 유사도가 높은 것으로 결정될 수 있다.
학습 데이터로 저장된 템플릿 벡터의 순서가 [T1 T1 -1 -1 T2 T2] 이고, 인식하고자 하는 오디오 신호의 템플릿 벡터의 순서가 [T1 T1 T1 -1 -1 T2]이면 이하 표 1과 같이 편집 거리 알고리즘을 통해 최종 거리가 구해질 수 있다. 템플릿 벡터의 순서에서, 해당 프레임의 벡터와 유사한 템플릿 벡터가 존재하지 않는 경우, -1로 표시될 수 있다.
편집 거리 알고리즘에 의하면, 표 1에서, 굵게 표시된 문자들은 다음과 같은 규칙으로 결정될 수 있다. 비교하는 문자가 같은 경우, 대각선 왼쪽 위의 값이 그대로 기입되고, 다른 경우, 대각선 왼쪽 위, 좌측, 위의 문자 중 가장 작은 값에 1을 더한 값이 기입될 수 있다. 위의 방식으로 각 칸이 채워지면, 표 1에서의 최종 거리는 맨 마지막 칸에 위치한 2 이다.
표 1
T1 T1 -1 -1 T2 T2
0 1 2 3 4 5 6
T1 1 0 1 2 3 4 5
T1 2 1 0 1 2 3 4
T1 3 2 1 1 2 3 4
-1 4 3 2 1 1 2 3
-1 5 4 3 2 1 2 3
T2 6 5 4 3 2 1 2
도 8은 일 실시 예에 의한 템플릿 벡터 및 템플릿 벡터의 순서를 획득하는 일 예를 나타낸 블록도이다.
도 8을 참조하면, 단말 장치(600)는 오디오 신호의 각 프레임에 대한 주파수 도메인의 신호 v[1], ..., v[i], ..., v[n]에 대하여 템플릿 벡터와의 유사도를 구할 수 있다. 각 프레임에 대한 주파수 도메인의 신호를 벡터라 지칭하면, 810 내지 830에서, 벡터 1, 벡터 i, 벡터 n과 적어도 하나의 템플릿 벡터와의 유사도가 획득될 수 있다.
그리고, 840에서, 단말 장치(600)는 각 벡터와 유사도가 가장 높은 템플릿 벡터와, 템플릿 벡터의 순서를 획득할 수 있다. 벡터 1, 벡터 i, 벡터 n과 유사도가 가장 높은 템플릿 벡터가 각각 T1, T1, T2인 경우, 템플릿 벡터의 순서는, 도시된 것과 같이 T1[1], ..., T1[i], ..., T2[n]로 획득될 수 있다.
도 9는 일 실시 예에 의한 템플릿 벡터를 획득하는 일 예를 나타낸 예시 도면이다.
910은 단말 장치(600)에 입력될 수 있는 시간 도메인의 오디오 신호의 일 예를 나타낸 그래프이다. 단말 장치(600)는 910에 도시된 오디오 신호를 프레임으로 분할하고, 각 프레임에 대한 주파수 도메인의 오디오 신호를 획득할 수 있다. 920은 910의 오디오 신호가 주파수 변환된 주파수 도메인의 오디오 신호와 적어도 하나의 템플릿 벡터와의 유사도를 나타낸 그래프이다. 920에는 각 프레임의 주파수 도메인의 오디오 신호와 템플릿 벡터 간 유사도 값 중 최대값이 도시될 수 있다.
유사도 값이 기준 값(921) 이하인 경우, 해당 프레임에 대한 템플릿 벡터는 존재하지 않는 것으로 결정될 수 있다. 따라서, 920에서, 유사도 값이 기준값(921) 이상인 구간에서 각 프레임에 대한 템플릿 벡터가 결정될 수 있다.
이하 도 10 및 도 11을 참조하여, 상술된 오디오 신호를 학습하는 단말 장치(100) 및 오디오 신호를 인식하는 단말 장치(600)의 내부 구조에 대하여 더 자세히 설명하기로 한다.
도 10은 일 실시 예에 의한 오디오 신호를 학습하는 단말 장치(1000)의 내부 구조를 나타낸 블록도이다. 단말 장치(1000)는 상술된 오디오 신호를 학습하는 단말 장치(100)와 대응될 수 있다.
도 10을 참조하면, 단말 장치(1000)는 수신부(1010), 제어부(1020) 및 출력부(1030)를 포함할 수 있다.
수신부(1010)는 학습하고자 하는 시간 도메인의 오디오 신호를 획득할 수 있다. 예를 들면, 수신부(1010)는 사용자의 입력에 따라 마이크를 통해 오디오 신호를 수신할 수 있다.
제어부(1020)는 수신부(1010)에 의해 획득된 시간 도메인의 오디오 신호를 주파수 도메인의 오디오 신호로 변환하고, 프레임 간 유사도에 기초하여 오디오 신호를 하나 이상의 블록으로 분할할 수 있다. 또한, 제어부(1020)는 블록별로 템플릿 벡터를 구하고, 각 프레임과 대응되는 템플릿 벡터들의 순서를 획득할 수 있다.
저장부(1030)는 제어부(1020)에 의해 획득된 오디오 신호의 템플릿 벡터 및 템플릿 벡터의 순서를 오디오 신호에 대한 학습 데이터로 저장할 수 있다. 저장된 학습 데이터는 오디오 신호를 인식하는데 이용될 수 있다.
도 11은 일 실시 예에 의한 오디오 신호를 인식하는 단말 장치의 내부 구조를 나타낸 블록도이다. 단말 장치(1000)는 상술된 오디오 신호를 인식하는 단말 장치(600)와 대응될 수 있다.
도 11을 참조하면 단말 장치(1100)는 수신부(1110), 제어부(1120) 및 출력부(1030)를 포함할 수 있다.
수신부(1110)는 인식하고자 하는 오디오 신호를 획득할 수 있다. 예를 들면, 수신부(1110)는 마이크를 통해 입력된 오디오 신호를 획득할 수 있다.
제어부(1120)는 수신부(1110)에 의해 입력된 오디오 신호를 주파수 도메인의 오디오 신호로 변환하고, 주파수 도메인의 오디오 신호와 학습 데이터의 템플릿 벡터 간 유사도를 프레임 단위로 획득할 수 있다. 최대 유사도를 가지는 템플릿 벡터가 해당 프레임의 벡터와 대응되는 템플릿 벡터로 결정될 수 있다. 또한, 제어부(1120)는 유사도에 기초하여 결정된 템플릿 벡터의 순서를 획득하여, 학습 데이터에 저장된 템플릿 벡터의 순서와의 유사도를 획득할 수 있다. 템플릿 벡터의 순서 간 유사도가 기준값 이상인 경우, 제어부(1120)는 수신부(1110)에 의해 입력된 오디오 신호는 해당 학습 데이터의 오디오 신호를 포함하는 것으로 판단할 수 있다.
출력부(1130)는 제어부(1120)에 의해 입력된 오디오 신호가 인식된 결과를 출력할 수 있다. 예를 들면, 출력부(1130)는 인식된 오디오 신호의 식별 정보를 디스플레이 화면 또는 스피커로 출력할 수 있다. 입력된 오디오 신호가 초인종 소리인 것으로 인식된 경우, 출력부(1130)는 초인종 소리가 인식됨을 알리는 디스플레이 화면을 출력하거나 알림 소리를 출력할 수 있다.
일 실시 예에 의하면, 동일한 소리를 포함하는 오디오 신호의 입력 횟수가 최소화될 수 있어 보다 간단하게 소리를 학습하는 과정이 수행될 수 있다.
일부 실시 예에 의한 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
비록 상기 설명이 다양한 실시예들에 적용되는 본 발명의 신규한 특징들에 초점을 맞추어 설명되었지만, 본 기술 분야에 숙달된 기술을 가진 사람은 본 발명의 범위를 벗어나지 않으면서도 상기 설명된 장치 및 방법의 형태 및 세부 사항에서 다양한 삭제, 대체, 및 변경이 가능함을 이해할 것이다. 따라서, 본 발명의 범위는 상기 설명에서보다는 첨부된 특허청구범위에 의해 정의된다. 특허청구범위의 균등 범위 안의 모든 변형은 본 발명의 범위에 포섭된다.

Claims (14)

  1. 오디오 신호를 학습하는 방법에 있어서,
    복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득하는 단계;
    프레임 간 유사도를 이용하여, 상기 주파수 도메인의 오디오 신호를 적어도 하나의 블록으로 분할하는 단계;
    상기 각 블록에 대응하는 템플릿 벡터를 획득하는 단계;
    상기 각 블록에 포함된 적어도 하나의 프레임에 대응하여, 상기 획득된 템플릿 벡터들의 순서(sequence)를 획득하는 단계; 및
    상기 획득된 템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 생성하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 분할하는 단계는
    상기 유사도가 기준값 이상인 적어도 하나의 프레임을 상기 적어도 하나의 블록으로 분할하는 단계를 포함하는, 방법.
  3. 제1항에 있어서, 상기 템플릿 벡터를 획득하는 단계는
    상기 블록에 포함된 적어도 하나의 프레임을 획득하는 단계; 및
    상기 획득된 프레임에 대한 대표값을 구함으로써, 상기 템플릿 벡터를 획득하는 단계를 포함하는, 방법.
  4. 제1항에 있어서, 상기 템플릿 벡터들의 순서는 각 블록에 포함되는 상기 적어도 하나의 프레임에 대하여 상기 템플릿 벡터의 식별 정보를 할당하여 표시하는, 방법.
  5. 제1항에 있어서, 상기 분할하는 단계는
    주파수 대역을 복수 개의 구간으로 분할하는 단계;
    상기 각 구간에서, 프레임 간 유사도를 구하는 단계;
    상기 각 구간에서의 유사도에 기초하여, 상기 복수 개의 구간 중 노이즈가 포함되어 있는 구간을 결정하는 단계;
    상기 결정된 구간을 제외한, 나머지 구간에서의 유사도에 기초하여 상기 프레임 간 유사도를 구하는 단계를 포함하는, 방법.
  6. 오디오 신호를 인식하는 방법에 있어서,
    복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득하는 단계;
    템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 획득하는 단계;
    상기 주파수 도메인의 오디오 신호와 상기 템플릿 벡터간의 유사도에 기초하여, 상기 각 프레임과 대응되는 템플릿 벡터를 결정하는 단계; 및
    상기 결정된 템플릿 벡터들의 순서와 상기 학습 데이터의 순서간의 유사도에 기초하여, 상기 오디오 신호를 인식하는 단계를 포함하는, 방법.
  7. 제6항에 있어서, 상기 각 프레임과 대응되는 템플릿 벡터를 결정하는 단계는
    상기 각 프레임의 주파수 도메인의 오디오 신호와 상기 템플릿 벡터간의 유사도를 각각 구하는 단계; 및
    상기 유사도가 기준값 이상인 경우, 상기 템플릿 벡터를 상기 각 프레임과 대응되는 템플릿 벡터로 결정하는 단계를 포함하는, 방법.
  8. 오디오 신호를 학습하는 단말 장치에 있어서,
    복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 수신하는 수신부;
    프레임 간 유사도를 이용하여, 상기 주파수 도메인의 오디오 신호를 적어도 하나의 블록으로 분할하고, 상기 각 블록에 대응하는 템플릿 벡터를 획득하고, 상기 각 블록에 포함된 적어도 하나의 프레임에 대응하여, 상기 획득된 템플릿 벡터들의 순서를 획득하고, 상기 획득된 템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 생성하는 제어부; 및
    상기 학습 데이터를 저장하는 저장부를 포함하는, 단말 장치.
  9. 제8항에 있어서, 상기 제어부는
    상기 유사도가 기준값 이상인 적어도 하나의 프레임을 상기 적어도 하나의 블록으로 분할하는, 단말 장치.
  10. 제8항에 있어서, 상기 제어부는
    상기 블록에 포함된 적어도 하나의 프레임을 획득하고, 상기 획득된 프레임에 대한 대표값을 구함으로써, 상기 템플릿 벡터를 획득하는, 단말 장치.
  11. 제8항에 있어서, 상기 제어부는
    주파수 대역을 복수 개의 구간으로 분할하고, 상기 각 구간에서, 프레임 간 유사도를 구하고, 상기 각 구간에서의 유사도에 기초하여, 상기 복수 개의 구간 중 노이즈가 포함되어 있는 구간을 결정하고, 상기 결정된 구간을 제외한, 나머지 구간에서의 유사도에 기초하여 상기 인접한 프레임에 속한 상기 주파수 도메인의 오디오 신호들 간 유사도를 구하는, 단말 장치.
  12. 오디오 신호를 인식하는 단말 장치에 있어서,
    복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 수신하는 수신부;
    템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 획득하고, 상기 주파수 도메인의 오디오 신호와 상기 템플릿 벡터간의 유사도에 기초하여, 상기 각 프레임과 대응되는 템플릿 벡터를 결정하고, 상기 결정된 템플릿 벡터들의 순서와 상기 학습 데이터의 순서간의 유사도에 기초하여, 상기 오디오 신호를 인식하는 제어부; 및
    상기 오디오 신호가 인식된 결과를 출력하는 출력부를 포함하는, 단말 장치.
  13. 제12항에 있어서, 상기 제어부는
    상기 각 프레임의 주파수 도메인의 오디오 신호와 상기 템플릿 벡터간의 유사도를 각각 구하고, 상기 유사도가 기준값 이상인 경우, 상기 템플릿 벡터를 상기 각 프레임과 대응되는 템플릿 벡터로 결정하는, 단말 장치.
  14. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
PCT/KR2015/009300 2014-09-03 2015-09-03 오디오 신호를 학습하고 인식하는 방법 및 장치 WO2016036163A2 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/507,433 US20170287505A1 (en) 2014-09-03 2015-09-03 Method and apparatus for learning and recognizing audio signal
KR1020177003990A KR101904423B1 (ko) 2014-09-03 2015-09-03 오디오 신호를 학습하고 인식하는 방법 및 장치

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201462045099P 2014-09-03 2014-09-03
US62/045,099 2014-09-03

Publications (2)

Publication Number Publication Date
WO2016036163A2 true WO2016036163A2 (ko) 2016-03-10
WO2016036163A3 WO2016036163A3 (ko) 2016-04-21

Family

ID=55440469

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/009300 WO2016036163A2 (ko) 2014-09-03 2015-09-03 오디오 신호를 학습하고 인식하는 방법 및 장치

Country Status (3)

Country Link
US (1) US20170287505A1 (ko)
KR (1) KR101904423B1 (ko)
WO (1) WO2016036163A2 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102650138B1 (ko) * 2018-12-14 2024-03-22 삼성전자주식회사 디스플레이장치, 그 제어방법 및 기록매체

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4763278A (en) * 1983-04-13 1988-08-09 Texas Instruments Incorporated Speaker-independent word recognizer
US4860358A (en) * 1983-09-12 1989-08-22 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition arrangement with preselection
US4780906A (en) * 1984-02-17 1988-10-25 Texas Instruments Incorporated Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
JP2815579B2 (ja) * 1987-03-10 1998-10-27 富士通株式会社 音声認識における単語候補削減装置
US4984275A (en) * 1987-03-13 1991-01-08 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
EP0302614B1 (en) * 1987-07-16 1993-03-10 Fujitsu Limited Speech recognition device
JP3065088B2 (ja) * 1989-08-31 2000-07-12 沖電気工業株式会社 音声認識装置
JP2879989B2 (ja) * 1991-03-22 1999-04-05 松下電器産業株式会社 音声認識方法
JP3061912B2 (ja) * 1991-10-04 2000-07-10 富士通株式会社 音声認識装置
JP3129164B2 (ja) * 1995-09-04 2001-01-29 松下電器産業株式会社 音声認識方法
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JPH11168727A (ja) * 1997-12-02 1999-06-22 Mitsubishi Electric Corp 動きベクトル検出装置
JP3289670B2 (ja) * 1998-03-13 2002-06-10 松下電器産業株式会社 音声認識方法および音声認識装置
US6055499A (en) * 1998-05-01 2000-04-25 Lucent Technologies Inc. Use of periodicity and jitter for automatic speech recognition
US7423983B1 (en) * 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
CA2722110C (en) * 1999-08-23 2014-04-08 Panasonic Corporation Apparatus and method for speech coding
US7194752B1 (en) * 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US7920697B2 (en) * 1999-12-09 2011-04-05 Broadcom Corp. Interaction between echo canceller and packet voice processing
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US6832194B1 (en) * 2000-10-26 2004-12-14 Sensory, Incorporated Audio recognition peripheral system
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
GB2387008A (en) * 2002-03-28 2003-10-01 Qinetiq Ltd Signal Processing System
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
US7574409B2 (en) * 2004-11-04 2009-08-11 Vericept Corporation Method, apparatus, and system for clustering and classification
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
MY145497A (en) * 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
EP3683768B1 (en) * 2007-05-03 2023-06-28 Sony Group Corporation Method and system for initializing templates of moving objects
US8385557B2 (en) * 2008-06-19 2013-02-26 Microsoft Corporation Multichannel acoustic echo reduction
US8433564B2 (en) * 2009-07-02 2013-04-30 Alon Konchitsky Method for wind noise reduction
US20110320201A1 (en) * 2010-06-24 2011-12-29 Kaufman John D Sound verification system using templates
WO2012025579A1 (en) * 2010-08-24 2012-03-01 Veovox Sa System and method for recognizing a user voice command in noisy environment
KR20120059827A (ko) * 2010-12-01 2012-06-11 삼성전자주식회사 다중 음원 위치추적장치 및 그 위치추적방법
US9364669B2 (en) * 2011-01-25 2016-06-14 The Board Of Regents Of The University Of Texas System Automated method of classifying and suppressing noise in hearing devices
JP6004792B2 (ja) * 2011-07-06 2016-10-12 本田技研工業株式会社 音響処理装置、音響処理方法、及び音響処理プログラム
US9178553B2 (en) * 2012-01-31 2015-11-03 Broadcom Corporation Systems and methods for enhancing audio quality of FM receivers
WO2013133768A1 (en) * 2012-03-06 2013-09-12 Agency For Science, Technology And Research Method and system for template-based personalized singing synthesis
US8843367B2 (en) * 2012-05-04 2014-09-23 8758271 Canada Inc. Adaptive equalization system
US8886539B2 (en) * 2012-12-03 2014-11-11 Chengjun Julian Chen Prosody generation using syllable-centered polynomial representation of pitch contours
PL2959480T3 (pl) * 2013-02-22 2016-12-30 Sposoby i urządzenia do ramek hangover transmisji przerywanej w kodowaniu dźwięku
RU2648604C2 (ru) * 2013-02-26 2018-03-26 Конинклейке Филипс Н.В. Способ и аппаратура для генерации сигнала речи
IN2013KO01130A (ko) * 2013-09-30 2015-04-03 Siemens Ag
US9286902B2 (en) * 2013-12-16 2016-03-15 Gracenote, Inc. Audio fingerprinting

Also Published As

Publication number Publication date
US20170287505A1 (en) 2017-10-05
KR20170033869A (ko) 2017-03-27
WO2016036163A3 (ko) 2016-04-21
KR101904423B1 (ko) 2018-11-28

Similar Documents

Publication Publication Date Title
WO2014107076A1 (en) Display apparatus and method of controlling a display apparatus in a voice recognition system
WO2011081379A2 (en) Display device and control method thereof
WO2015152661A1 (ko) 오디오 오브젝트를 렌더링하는 방법 및 장치
WO2016089049A1 (ko) 스피커의 위치 정보에 기초하여, 오디오 신호를 출력하는 방법 및 디바이스
WO2014069943A1 (en) Method of providing information-of-users' interest when video call is made, and electronic apparatus thereof
WO2023282520A1 (ko) 목소리 개인정보 보호 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템
WO2014058270A1 (en) Voice converting apparatus and method for converting user voice thereof
WO2014200216A1 (en) Method for cancelling noise and electronic device thereof
WO2016137042A1 (ko) 사용자 인식을 위한 특징 벡터를 변환하는 방법 및 디바이스
WO2018012729A1 (ko) 디스플레이 장치 및 디스플레이 장치의 텍스트 인식 방법
WO2020159140A1 (ko) 전자 장치 및 이의 제어 방법
WO2016190472A1 (ko) 크로마키를 이용한 증강현실 영상 제작 장치 및 방법
WO2013187688A1 (en) Method for processing audio signal and audio signal processing apparatus adopting the same
WO2016036163A2 (ko) 오디오 신호를 학습하고 인식하는 방법 및 장치
WO2016148322A1 (ko) 영상 정보를 기반으로 음성 구간을 검출하는 방법 및 장치
WO2022097944A1 (ko) 전자 장치 및 이의 오디오 신호 처리 방법
WO2015056893A1 (en) Image processing apparatus and control method thereof
WO2015046764A1 (en) Method for recognizing content, display apparatus and content recognition system thereof
WO2015084017A1 (en) Method of processing data by touch screen, storage medium, and electronic device
WO2018117660A1 (en) Security enhanced speech recognition method and device
WO2020130461A1 (en) Electronic apparatus and control method thereof
WO2016167464A1 (ko) 스피커 정보에 기초하여, 오디오 신호를 처리하는 방법 및 장치
WO2014077616A1 (en) Display apparatus and method for delivering message thereof
WO2023096085A1 (ko) 전자 장치 및 제어 방법
WO2015190851A1 (en) Electronic device and file storing method thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15838147

Country of ref document: EP

Kind code of ref document: A2

ENP Entry into the national phase

Ref document number: 20177003990

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15507433

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15838147

Country of ref document: EP

Kind code of ref document: A2