KR20190042928A - Semiconductor device processing sound signal and microphone including the same - Google Patents
Semiconductor device processing sound signal and microphone including the same Download PDFInfo
- Publication number
- KR20190042928A KR20190042928A KR1020170134598A KR20170134598A KR20190042928A KR 20190042928 A KR20190042928 A KR 20190042928A KR 1020170134598 A KR1020170134598 A KR 1020170134598A KR 20170134598 A KR20170134598 A KR 20170134598A KR 20190042928 A KR20190042928 A KR 20190042928A
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- unit
- output
- signal processing
- processing unit
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R19/00—Electrostatic transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/003—Mems transducers or their use
Abstract
Description
본 발명은 소리 신호를 처리하는 반도체 장치와 이를 포함하는 마이크 장치에 관한 것이다.The present invention relates to a semiconductor device for processing a sound signal and a microphone device including the same.
도 1은 종래의 마이크 장치의 일예를 도시한다.Fig. 1 shows an example of a conventional microphone device.
종래의 마이크 장치는 기판(30), 기판 위에 부착된 트랜스듀서(10)와 반도체 장치(20) 및 케이스(40)를 포함한다.A conventional microphone device includes a
트랜스듀서(10)와 반도체 장치(20), 반도체 장치(20)와 기판(30)은 도선(21, 22)을 통해 전기적으로 연결된다.The
트랜스듀서(10)는 막 또는 판(11)을 구비하며 내부 공간(12)이 형성된다.The
종래의 마이크 장치는 케이스(40)에 통로(41)가 형성된다.In the conventional microphone device, the passage (41) is formed in the case (40).
종래의 마이크 장치는 케이스(40)에 형성된 통로(41)에서 유입된 공기가 트랜스듀서(10)의 막 또는 판(11)에 진동을 일으키고 막 또는 판의 움직임을 전기 신호로 변환한다. The conventional microphone device vibrates the membrane or
전기 신호는 반도체 장치(20)에서 처리되어 외부로 출력된다.The electrical signal is processed in the
최근 소리 신호를 인식하는 기술과 같은 다양한 신호 처리 기술이 사용되고 있다.Recently, various signal processing techniques such as a technique of recognizing a sound signal have been used.
예를 들어 종래의 마이크 장치는 반도체 장치(20)에서 처리된 아날로그 또는 디지털 신호만을 외부로 출력하므로 인식 기능을 수행하기 위해서는 외부의 시스템이 필요하다.For example, in a conventional microphone device, only an analog or digital signal processed in the
이에 따라 종래에는 신호 처리 기능을 수행하기 위한 전체 시스템의 크기, 소비 전력, 비용 등이 증가하는 문제가 있다. Accordingly, there has been a problem that the size, power consumption, cost, and the like of the entire system for performing the signal processing function increase in the related art.
본 발명은 소리 신호를 처리하는 반도체 장치와 이를 포함하는 마이크 장치를 제공한다.The present invention provides a semiconductor device for processing a sound signal and a microphone device including the semiconductor device.
본 발명의 일 실시예에 의한 반도체 장치는 입력 신호를 디지털 신호로 변환하는 아날로그 디지털 변환기; 디지털 신호를 외부에서 입력된 동작 파라미터의 영향을 받아 처리하는 신호 처리부; 및 아날로그 디지털 변환기의 출력 또는 신호 처리부의 출력을 외부에 제공하는 인터페이스를 포함한다.A semiconductor device according to an embodiment of the present invention includes an analog-to-digital converter for converting an input signal into a digital signal; A signal processing unit for processing a digital signal under the influence of an externally input operation parameter; And an interface for providing the output of the analog-to-digital converter or the output of the signal processing unit to the outside.
본 발명의 일 실시예에 의한 마이크 장치는 공기의 흐름에 대응하는 소리 신호를 생성하는 트랜스듀서; 소리 신호를 디지털 신호로 변환하되 디지털 신호를 외부에서 입력된 동작 파라미터의 영향을 받아 처리하는 반도체 장치; 트랜스듀서와 반도체 장치가 장착되는 기판; 및 기판에 장착되어 트랜스듀서와 반도체 장치가 그 내부에 포함되도록 공간을 형성하는 케이스를 포함한다.According to an aspect of the present invention, there is provided a microphone device including: a transducer for generating a sound signal corresponding to a flow of air; A semiconductor device which converts a sound signal into a digital signal and processes the digital signal under the influence of an externally input operation parameter; A substrate on which a transducer and a semiconductor device are mounted; And a case mounted on the substrate and defining a space so that the transducer and the semiconductor device are contained therein.
본 발명은 마이크 장치에서 자체적으로 인식 기능 등과 같이 외부에서 요구하는 신호 처리 기능을 수행하고 그 결과를 외부에 함께 제공함으로써 전체 시스템의 구성을 간소화하고 면적, 소비 전력, 비용 등의 부담을 줄일 수 있다.In the present invention, the microphone device performs a signal processing function required externally, such as a recognition function, and provides the result to the outside, thereby simplifying the configuration of the entire system and reducing the burden of area, power consumption, and cost .
본 발명은 신호 처리에 필요한 동작 파라미터를 외부에서 미리 학습하여 준비하고 필요에 따라 변경하여 사용할 수 있어 반도체 장치 및 마이크의 기능을 손쉽게 변경할 수 있다.The present invention can preliminarily learn operation parameters necessary for signal processing from outside and prepare and use it by changing it as needed, so that the functions of the semiconductor device and the microphone can be easily changed.
도 1은 종래의 마이크 장치의 단면도.
도 2는 본 발명의 일 실시예에 의한 반도체 장치를 나타내는 블록도.
도 3은 본 발명의 다른 실시예에 의한 반도체 장치를 나타내는 블록도.
도 4는 도 2의 신호 처리부의 상세 블록도.
도 5는 도 3의 특징 추출부의 상세 블록도.
도 6은 도 4의 인식부를 구현하는 신경망의 설명도.
도 7 내지 9는 도 2의 신호 처리부의 다른 실시예를 나타내는 상세 블록도.1 is a sectional view of a conventional microphone device;
2 is a block diagram showing a semiconductor device according to an embodiment of the present invention;
3 is a block diagram showing a semiconductor device according to another embodiment of the present invention;
FIG. 4 is a detailed block diagram of the signal processing unit of FIG. 2;
FIG. 5 is a detailed block diagram of the feature extraction unit of FIG. 3;
FIG. 6 is an explanatory diagram of a neural network that implements the recognition unit of FIG. 4;
Figs. 7 to 9 are detailed block diagrams showing another embodiment of the signal processing unit of Fig. 2; Fig.
이하에서는 첨부한 도면을 참조하여 본 발명의 실시예를 개시한다.Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings.
도 2는 본 발명의 일 실시예에 의한 반도체 장치를 나타내는 블록도이다.2 is a block diagram showing a semiconductor device according to an embodiment of the present invention.
본 발명의 일 실시예에 의한 반도체 장치(100)는 트랜스듀서(10)에서 출력된 신호에 따라 디지털 데이터를 출력한다.The
본 실시예에서 트랜스듀서(10)는 멤스 기술로 제조된 것일 수 있으며 소리 신호를 아날로그 전기 신호로 변환하여 출력한다.In the present embodiment, the
트랜스듀서(10)와 반도체 장치(100)는 도 1과 같은 형태의 마이크 장치에 포함될 수 있다.The
다만 마이크 장치가 도 1과 같은 구조를 가지는 것으로 한정되는 것은 아니고, 트랜스듀서(10)와 트랜스듀서(10)의 신호를 처리하여 출력하는 반도체 장치(100)를 포함하는 것이라면 충분하다.However, the microphone device is not limited to the structure shown in FIG. 1, and it is sufficient that the microphone device includes a
본 발명의 일 실시예에 의한 반도체 장치(100)는 아날로그 디지털 변환기(110)를 포함한다.A
본 실시예에서 아날로그 디지털 변환기(110)는 시그마 델타 변조기(111)와 데시메이터(112)를 포함하나 이에 한정되는 것은 아니다.In this embodiment, the analog-to-
반도체 장치(100)는 입력 신호를 증폭하여 시그마 델타 변조기(110)에 제공하는 증폭기(120)를 더 포함할 수 있다.The
다른 실시예에서 증폭기(120)는 반도체 장치(100)의 외부에 별도의 구성으로 존재할 수도 있다.In another embodiment, the
본 발명의 일 실시예에 의한 반도체 장치(100)는 아날로그 디지털 변환기(110)의 출력을 디지털 신호 처리하는 신호 처리부(200)를 포함한다.The
본 발명에서 신호 처리부(200)는 동작 파라미터를 이용하여 입력 신호에 대해서 신호 처리를 수행한다.In the present invention, the
신호 처리의 종류는 실시예에 따라 달라질 수 있다.The type of signal processing may vary depending on the embodiment.
예를 들어 소리 인식 기능, 음향의 종류를 구별하는 기능, 잡음 신호를 줄이고 음성 신호를 강화하는 기능 등과 같이 다양한 기능을 수행할 수 있다.For example, it can perform various functions such as a sound recognition function, a function to distinguish a kind of sound, a function to reduce a noise signal and a voice signal.
동작 파라미터는 신호 처리부(200)의 자체적인 학습으로 생성되는 것이 아니라 외부에서 입력 받는다.The operation parameters are not generated by the own learning of the
예를 들어 신호 처리부(200)가 기계학습(Machine Learning)의 한 가지 구현 방법 중 하나인 신경망(Neural Network)을 포함하는 경우 신경망의 시냅스 가중치와 바이어스와 같이 학습을 통해 생성되어야 하는 정보들이 동작 파라미터에 포함될 수 있다.For example, when the
본 발명에서 신호 처리부(200)는 자체적으로 학습을 진행하지 않고 외부에서 미리 학습을 진행하여 얻은 동작 파라미터를 제공받는다.In the present invention, the
이러한 방식을 통해 신호 처리부(200)의 구성을 더욱 간단하게 할 수 있으며 이에 따라 회로의 면적과 소비 전력을 줄일 수 있다.In this way, the configuration of the
신호 처리부(200)의 동작이 달라지는 경우 이에 부합하도록 미리 학습된 동작 파라미터를 새로운 입력으로 제공받아 신호 처리부(200)의 동작을 간편하게 변경할 수 있는 장점이 있다.When the operation of the
다른 실시예에서는 신경망 이외에도 GMM(Gaussian Mixture Model), SVM(Support Vector Machine) 등의 기계 학습 기술을 이용하는 신호 처리부를 구현할 수 있다.In another embodiment, a signal processing unit using a machine learning technique such as GMM (Gaussian Mixture Model) or SVM (Support Vector Machine) may be implemented in addition to the neural network.
본 발명의 일 실시예에 의한 반도체 장치(100)는 아날로그 디지털 변환기(110)의 출력 또는 신호 처리부(200)의 출력을 외부에 출력하는 인터페이스(130)를 더 포함할 수 있다.The
인터페이스(130)는 신호 처리부(200)의 출력과 아날로그 디지털 변환기(110)의 출력을 함께 외부에 출력할 수도 있다.The
이때 인터페이스(130)는 아날로그 디지털 변환기(110)와 신호 처리부(200)에서 출력되는 신호를 다양한 방식으로 혼합하여 출력할 수 있다.At this time, the
규정된 프로토콜에 따라 신호를 혼합하는 것은 통상의 기술자가 용이하게 설계 변경이 가능한 것이므로 이에 대한 구체적인 설명은 생략한다.Mixing of signals according to a prescribed protocol can be easily changed by a person skilled in the art, so a detailed description thereof will be omitted.
도 3은 본 발명의 다른 실시예에 의한 반도체 장치(100-1)를 나타내는 블록도이다.3 is a block diagram showing a semiconductor device 100-1 according to another embodiment of the present invention.
도 3의 실시예는 도 2의 실시예와는 달리 동작 파라미터가 인터페이스(130-1)를 통해 신호 처리부(200-1)에 입력되는 점에서 차이가 있다.The embodiment of FIG. 3 differs from the embodiment of FIG. 2 in that operation parameters are input to the signal processor 200-1 through the interface 130-1.
반도체 장치(100) 외부에서 동작 파라미터를 제어하고자 하는 경우에는 도 3과 같이 인터페이스를 통해 정해진 프로토콜에 의해 동작 파라미터를 변경할 수 있는 구조를 채택하는 것이 바람직할 수 있다.When it is desired to control operation parameters outside the
도 4는 도 2의 신호 처리부(200)의 일 예를 나타내는 블록도이다.4 is a block diagram showing an example of the
도 4에서 신호 처리부(200)는 소리 인식 기능을 수행한다.In FIG. 4, the
신호 처리부(200)는 아날로그 디지털 변환기(110)에서 출력된 신호에서 특징 벡터를 추출하는 특징 추출부(210), 특징 벡터를 입력 벡터로 수신하고 인식 결과가 반영된 출력 벡터를 생성하는 인식부(220), 출력 벡터를 이용하여 최종 출력 신호를 생성하는 디코더(230)를 포함한다.The
본 실시예에서 인식부(220)는 외부에서 미리 학습하여 준비한 동작 파라미터를 입력받는다.In this embodiment, the
인식부(220)는 신경망 등의 기계 학습 기술을 이용하여 구현될 수 있다. The
도 5는 본 발명의 일 실시예에 의한 특징 추출부(210)를 나타내는 블록도이다.5 is a block diagram showing a
도 5의 블록도는 하드웨어, 소프트웨어 또는 이들의 조합을 이용하여 구현될 수 있으며 어느 한 가지로 제한되는 것은 아니다.The block diagram of FIG. 5 may be implemented using hardware, software, or a combination thereof, and is not limited to any one.
인식부가 신경망을 이용하여 음성 인식을 수행하는 경우 디지털 신호로부터 특징 벡터를 추출한 후 이를 신경망에 입력하게 된다.When the recognition unit performs speech recognition using the neural network, the feature vector is extracted from the digital signal and then input to the neural network.
이때 특징 추출부(210)는 아날로그 디지털 변환기(110)에서 제공되는 디지털 신호로부터 특징 벡터를 추출한다.At this time, the
도 5는 소리 인식 분야에서 널리 사용되는 MFCC(Mel Frequency Cepstral Coefficient) 알고리즘을 구현한 블록이다.5 is a block implementing a Mel Frequency Cepstral Coefficient (MFCC) algorithm widely used in the field of sound recognition.
해밍 윈도우(211)는 입력되는 디지털 신호를 일정한 크기의 프레임으로 잘라낸다.The hamming
이때 각 프레임이 하나의 샘플을 구성하는데 이러한 샘플을 일정한 개수를 확보하여 다음 동작을 진행한다.At this time, each frame constitutes one sample, and a certain number of these samples are secured, and the next operation proceeds.
FFT 연산부(212)는 각 프레임에 대해서 FFT 연산을 수행하여 각 프레임에 대해서 전력 스펙트럼을 얻는다.The
멜 필터 뱅크(213)는 전력 스펙트럼을 멜 필터 뱅크의 각 필터에 적용한 후 각 필터의 출력을 포함하는 필터 뱅크 에너지를 산출한다.The
로그 연산부(214)는 멜 필터 뱅크(213)의 출력에 로그 연산을 수행한다.The
DCT 연산부(215)는 로그 연산부(214)의 출력에 DCT 연산을 수행한다.The
이후 DCT 연산부(215)의 출력을 이용하여 특징 벡터를 생성한다.Then, the feature vector is generated using the output of the
특징 벡터는 DCT 연산 결과 얻어지는 계수들 중 일부를 이용하여 생성할 수 있다.The feature vector can be generated using some of the coefficients obtained as a result of the DCT operation.
도 5의 특징 추출부는 일 실시예에 불과하며 통상의 기술자는 다양한 기술을 적용하여 설계 변경할 수 있다.The feature extracting unit of FIG. 5 is only an embodiment, and a typical technician can design change by applying various techniques.
도 6은 신경망을 이용하여 구현한 인식부(220)를 나타내는 설명도이다.6 is an explanatory diagram showing a
신경망은 입력 계층(221), 은닉 계층(222), 출력 계층(223)을 포함한다.The neural network includes an
은닉 계층(222)은 입력 계층(221)과 출력 계층(223) 사이에 존재하며 그 내부에 다수의 계층을 포함할 수 있다.The hidden layer 222 exists between the
본 실시예에서는 제 1 은닉 계층(222-1), 제 2 은닉 계층(222-2) 두 개의 계층이 존재하는 것으로 가정한다.In this embodiment, it is assumed that there are two layers: a first hidden layer 222-1 and a second hidden layer 222-2.
각 계층은 하나 또는 둘 이상의 뉴런을 포함하고, 인접한 계층의 뉴런들은 시냅스를 통해 연결되며, 각 시냅스는 가중치 값을 가진다.Each layer contains one or more neurons, neurons in adjacent layers are connected via a synapse, and each synapse has a weight value.
입력 계층(221)의 뉴런 개수는 입력 벡터의 원소 개수와 매칭이 되며 각 뉴런에는 대응하는 값이 입력된다.The number of neurons in the
본 실시예에서 입력 벡터는 특징 추출부(210)에서 출력되는 특징 벡터와 동일하다.In this embodiment, the input vector is the same as the feature vector output from the
제 1 은닉 계층(222-1)의 각 뉴런의 값들은 입력 계층(221)의 뉴런 값들과 이와 연결되는 시냅스의 가중치의 값(Wij, i,j는 인덱스)을 이용하여 곱셈 및 덧셈 연산을 수행함으로써 정해진다.The values of each neuron in the first hidden layer 222-1 are multiplied and added using the neuron values of the
이때 각 뉴런들은 바이어스(Bij, i,j는 인덱스) 값을 가질 수 있다. 바이어스 값은 위의 곱셈 및 덧셈을 통해 정해진 값에 곱해져 뉴런의 최종 값을 결정할 수 있다.At this time, each neuron may have a bias (Bij, i, j is an index) value. The bias value can be multiplied by a predetermined value through the above multiplication and addition to determine the final value of the neuron.
이러한 연산이 순차적으로 진행되어 출력 계층(223)의 뉴런 값들이 정해지고 각 뉴런 값들을 원소로 하는 출력 벡터가 출력된다.These operations are sequentially performed to determine the neuron values of the
출력 벡터에서 특정 원소의 값은 크고 나머지는 작은 값을 가질 수 있다.The value of a particular element in the output vector can be large and the remainder small.
디코더(230)는 이러한 크기 차이를 식별하여 신경망의 인식 결과를 디지털 신호로 출력할 수 있다.The
시냅스의 가중치 값들이나 뉴런의 바이어스 값들은 학습을 통해 결정되는 값으로서 이들이 동작 파라미터에 포함될 수 있다.The weight values of the synapses or the bias values of the neurons are values determined through learning and they can be included in the operation parameters.
본 발명에서는 외부에서 미리 수행된 학습을 통해 얻은 동작 파라미터 즉 시냅스의 가중치와 뉴런의 바이어스 값들을 제공받으므로 학습을 위해 필요한 하드웨어/소프트웨어의 복잡한 구성을 제거할 수 있다.In the present invention, since the operation parameters obtained through externally performed learning, that is, the weights of the synapses and the bias values of the neurons, are provided, it is possible to eliminate the complicated hardware / software configuration required for learning.
또한 다양하게 학습된 동작 파라미터 셋을 미리 준비해두고 상황에 맞는 동작 파라미터를 외부에서 제공받음으로써 인식 기능을 간편하게 수정할 수 있다.Also, it is possible to easily modify the recognition function by preparing various learned operation parameter sets in advance and receiving operating parameters suitable for the situation from the outside.
이와 같이 본 발명에서는 시스템의 구성을 간단하게 하여 면적과 소비 전력을 동시에 기능의 확장성을 도모할 수 있는 장점이 있다.As described above, the present invention has an advantage in that the structure of the system can be simplified, and the expandability of the function can be achieved simultaneously with the area and the power consumption.
도 7은 도 2의 신호 처리부의 다른 실시예를 나타내는 상세 블록도이다.FIG. 7 is a detailed block diagram showing another embodiment of the signal processing unit of FIG. 2. FIG.
도 7의 실시예는 도 4의 실시예에 종료점 탐지부(240)와 활성화 제어부(250)를 더 포함한다.The embodiment of FIG. 7 further includes an
종료점 탐지부(240)는 특징 추출부(210)에서 제공되는 특징 벡터들을 관찰하여 종료점을 탐지한다.The end
활성화 제어부(250)는 종료점 탐지부(240)의 종료점 탐지 결과에 따라 인식부(220) 및 디코더(230)의 활성화 여부를 제어한다.The
활성화 제어부(250)의 동작에 파라미터를 요구하는 실시예의 경우 해당 파라미터는 동작 파라미터의 일부로 포함되어 외부에서 제공될 수 있다.In an embodiment requiring a parameter for the operation of the
일 예로 활성화 제어부(250)는 신경망을 통해 구현될 수도 있다. 이때 해당 신경망에 사용되는 가중치와 바이어스는 동작 파라미터의 일부로 포함되어 외부에서 제공될 수 있다.For example, the
예를 들어 종료점 탐지부(240)에서 종료점이 탐지되면 인식부(220)와 디코더(230)를 활성화하여 종료점 이전에 출력된 특징 벡터를 이용하여 인식 기능을 수행할 수 있다.For example, if an end point is detected by the end
인식 기능을 수행한 결과 얻어진 신호를 인터페이스(130)에 출력한 후 인식부(220)와 디코더(230)를 비활성화하여 소비 전력을 줄일 수 있다.It is possible to reduce the power consumption by outputting the signal obtained as a result of performing the recognition function to the
도 8은 도 2의 신호 처리부의 다른 예를 나타내는 상세 블록도이다.8 is a detailed block diagram showing another example of the signal processing unit of FIG.
도 8의 신호 처리부(200-3)는 소리 신호를 일정한 기준으로 분류한다.The signal processing unit 200-3 of FIG. 8 classifies the sound signal into a certain reference.
특징 추출부(210)는 전술한 바와 실질적으로 동일한 구성을 가질 수 있다.The
분류부(220-3)는 외부에서 미리 학습되어 입력된 동작 파라미터의 영향을 받아 동작한다.The classification unit 220-3 is operated under the influence of operation parameters previously learned and input from the outside.
본 실시예에서 분류부(220-3)는 특징 추출부에서 출력된 특징 벡터로부터 음향 신호의 종류를 나타내는 분류 신호를 출력한다. In this embodiment, the classifying unit 220-3 outputs a classifying signal indicating the type of the acoustic signal from the feature vector output from the feature extracting unit.
본 실시예에서 분류부(220-3)는 인식부로 지칭될 수 있으며 신경망을 이용하여 구현될 수 있다.In this embodiment, the classifying unit 220-3 may be referred to as a recognizing unit and may be implemented using a neural network.
후처리부(230-3)는 분류부(220-3)에서 출력된 분류 신호를 후처리하여 분류 결과를 출력한다. 본 실시예에서 후처리부(220-3)는 디코더로 지칭될 수 있다.The post-processing unit 230-3 post-processes the classification signal output from the classification unit 220-3 and outputs the classification result. In this embodiment, the post-processing unit 220-3 may be referred to as a decoder.
도 8의 신호 처리부(200-3)는 마이크 장치 주변에서 발생하는 소리 이벤트를 동작 파라미터의 영향을 받아 분류부(220-3)에서 분류하고 그 결과를 외부에 출력할 수 있다.The signal processing unit 200-3 of FIG. 8 may classify the sound event occurring in the vicinity of the microphone device in the classifying unit 220-3 under the influence of the operation parameter, and output the result to the outside.
도 9는 소리 신호 중 음성 신호를 강화하는 신호 처리부(200-4)의 일 예를 나타낸다.9 shows an example of a signal processing unit 200-4 for enhancing a voice signal in a sound signal.
본 실시예에서 음성 강화는 잡음 신호와 음성 신호가 함께 입력되는 경우 잡음 신호의 세기를 줄이고 음성 신호의 세기를 키우는 동작을 의미한다.In the present embodiment, voice enhancement means an operation of reducing the strength of a noise signal and increasing the strength of a voice signal when a noise signal and a voice signal are input together.
본 실시예에서 특징 추출부(210)의 구성 및 동작은 전술한 바와 같다.The configuration and operation of the
마스킹부(220-4)는 특징 벡터로부터 음성 신호를 마스킹하여 추출한다.The masking unit 220-4 masks and extracts the speech signal from the feature vector.
마스킹부(220-4)는 NMF(Non-negative Matrix Factorization) 기술을 이용하여 구현될 수 있다.The masking unit 220-4 may be implemented using a non-negative matrix factorization (NMF) technique.
NMF 알고리즘 자체는 잘 알려진 기술이므로 구체적인 설명을 생략한다.Since the NMF algorithm itself is a well-known technology, a detailed description is omitted.
NMF 알고리즘을 적용하는 경우 학습에 의해 얻어지는 파라미터를 필요로 하는데 본 발명에서는 외부에서 미리 학습된 동작 파라미터를 이용한다.In the case of applying the NMF algorithm, a parameter obtained by learning is needed. In the present invention, an operation parameter previously learned in advance is used.
마스킹부(220-4)는 음성 신호와 잡음 신호로 구별되는 특징 벡터를 출력한다.The masking unit 220-4 outputs a feature vector distinguished by a speech signal and a noise signal.
재구성부(230-4)는 음성 신호와 잡음 신호에 대한 특징 벡터를 조합하되 음성 신호의 세기가 더 커지도록 한다.The reconstructing unit 230-4 combines the feature vectors of the speech signal and the noise signal so that the strength of the speech signal is increased.
이에 따라 신호 처리부(200-4)에서 출력되는 신호는 음성 신호가 강화된 신호에 해당한다.Accordingly, the signal output from the signal processing unit 200-4 corresponds to a signal in which the voice signal is enhanced.
이상에서 본 발명의 실시예를 개시하였으나 이상의 개시에 의하여 본 발명의 권리범위가 한정되는 것은 아니다. Although the embodiments of the present invention have been disclosed above, the scope of the present invention is not limited by the foregoing disclosure.
본 발명의 권리범위는 특허청구범위에 문언적으로 기재된 범위와 그 균등범위에 따라 해석되어야 한다.The scope of the present invention should be construed in accordance with the scope of the claims and equivalents thereof.
10: 트랜스듀서
100: 반도체 장치
110: 아날로그 디지털 변환기
111: 시그마 델타 변조기
112: 데시메이터
120: 증폭기
130: 인터페이스
200: 신호 처리부
210: 특징 추출부
220: 인식부
230: 디코더
240: 종료점 탐지부
250: 활성화 제어부10: Transducer
100: semiconductor device
110: analog-to-digital converter
111: sigma delta modulator
112: decimator
120: Amplifier
130: Interface
200: Signal processor
210: Feature extraction unit
220:
230: decoder
240: end point detection unit
250:
Claims (19)
상기 디지털 신호를 외부에서 입력된 동작 파라미터의 영향을 받아 처리하는 신호 처리부; 및
상기 아날로그 디지털 변환기의 출력 또는 상기 신호 처리부의 출력을 외부에 제공하는 인터페이스
를 포함하는 반도체 장치.An analog-to-digital converter for converting an input signal into a digital signal;
A signal processing unit for processing the digital signal under the influence of an externally inputted operation parameter; And
An interface for providing the output of the analog-to-digital converter or the output of the signal processing unit to the outside
.
상기 디지털 신호에서 특징 벡터를 생성하는 특징 추출부;
상기 동작 파라미터의 영향을 받아 상기 특징 벡터에 대해서 소리 인식 기능을 수행하여 출력 벡터를 생성하는 인식부; 및
상기 출력 벡터를 디코딩하여 인식 결과를 출력하는 디코더
를 포함하는 반도체 장치.The signal processing apparatus according to claim 1,
A feature extraction unit for generating a feature vector from the digital signal;
A recognition unit for performing a sound recognition function on the feature vector under the influence of the operation parameter to generate an output vector; And
A decoder for decoding the output vector and outputting a recognition result;
.
상기 디지털 신호에서 특징 벡터를 생성하는 특징 추출부;
상기 동작 파라미터의 영향을 받아 상기 특징 벡터로부터 음향 신호의 종류를 나타내는 분류 신호를 출력하는 분류부; 및
상기 분류 신호를 후처리하여 분류 결과를 출력하는 후처리부
를 포함하는 반도체 장치.The signal processing apparatus according to claim 1,
A feature extraction unit for generating a feature vector from the digital signal;
A classification unit for receiving a classification signal indicating the type of acoustic signal from the feature vector under the influence of the operation parameter; And
A post-processing unit for post-processing the classification signal and outputting a classification result;
.
상기 디지털 신호에서 특징 벡터를 생성하는 특징 추출부;
상기 동작 파라미터의 영향을 받아 상기 특징 벡터에 대해서 노이즈 신호와 음성 신호를 구별하는 마스킹부; 및
상기 마스킹부의 출력으로부터 음성 신호가 강화된 신호를 출력하는 재구성부
를 포함하는 반도체 장치.The signal processing apparatus according to claim 1,
A feature extraction unit for generating a feature vector from the digital signal;
A masking unit for distinguishing between the noise signal and the speech signal with respect to the feature vector under the influence of the operation parameter; And
And a reconstruction unit for outputting a signal enhanced with a voice signal from the output of the masking unit,
.
상기 소리 신호를 디지털 신호로 변환하되 상기 디지털 신호를 외부에서 입력된 동작 파라미터의 영향을 받아 처리하는 반도체 장치;
상기 트랜스듀서와 상기 반도체 장치가 장착되는 기판; 및
상기 기판에 장착되어 상기 트랜스듀서와 상기 반도체 장치가 그 내부에 포함되도록 공간을 형성하는 케이스
를 포함하는 마이크 장치.A transducer for generating a sound signal corresponding to the air flow; And
A semiconductor device for converting the sound signal into a digital signal and processing the digital signal under the influence of an externally inputted operation parameter;
A substrate on which the transducer and the semiconductor device are mounted; And
A case which is mounted on the substrate and forms a space so that the transducer and the semiconductor device are contained therein;
.
상기 소리 신호를 상기 디지털 신호로 변환하는 아날로그 디지털 변환기;
상기 디지털 신호를 외부에서 입력된 상기 동작 파라미터의 영향을 받아 처리하는 신호 처리부; 및
상기 아날로그 디지털 변환기의 출력 또는 상기 신호 처리부의 출력을 외부에 제공하는 인터페이스
를 포함하는 마이크 장치.11. The semiconductor device according to claim 10,
An analog-to-digital converter for converting the sound signal into the digital signal;
A signal processing unit for processing the digital signal under the influence of the operation parameter input from the outside; And
An interface for providing the output of the analog-to-digital converter or the output of the signal processing unit to the outside
.
상기 디지털 신호에서 특징 벡터를 생성하는 특징 추출부;
상기 동작 파라미터의 영향을 받아 상기 특징 벡터에 대해서 소리 인식 기능을 수행하여 출력 벡터를 생성하는 인식부; 및
상기 출력 벡터를 디코딩하여 인식 결과를 출력하는 디코더
를 포함하는 마이크 장치.12. The apparatus of claim 11, wherein the signal processing unit
A feature extraction unit for generating a feature vector from the digital signal;
A recognition unit for performing a sound recognition function on the feature vector under the influence of the operation parameter to generate an output vector; And
A decoder for decoding the output vector and outputting a recognition result;
.
상기 디지털 신호에서 특징 벡터를 생성하는 특징 추출부;
상기 동작 파라미터의 영향을 받아 상기 특징 벡터로부터 음향 신호의 종류를 나타내는 분류 신호를 출력하는 분류부; 및
상기 분류 신호를 후처리하여 분류 결과를 출력하는 후처리부
를 포함하는 마이크 장치.12. The apparatus of claim 11, wherein the signal processing unit
A feature extraction unit for generating a feature vector from the digital signal;
A classification unit for receiving a classification signal indicating the type of acoustic signal from the feature vector under the influence of the operation parameter; And
A post-processing unit for post-processing the classification signal and outputting a classification result;
.
상기 디지털 신호에서 특징 벡터를 생성하는 특징 추출부;
상기 동작 파라미터의 영향을 받아 상기 특징 벡터에 대해서 노이즈 신호와 음성 신호를 구별하는 마스킹부; 및
상기 마스킹부의 출력으로부터 음성 신호가 강화된 신호를 출력하는 재구성부
를 포함하는 마이크 장치.12. The apparatus of claim 11, wherein the signal processing unit
A feature extraction unit for generating a feature vector from the digital signal;
A masking unit for distinguishing between the noise signal and the speech signal with respect to the feature vector under the influence of the operation parameter; And
And a reconstruction unit for outputting a signal enhanced with a voice signal from the output of the masking unit,
.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170134598A KR20190042928A (en) | 2017-10-17 | 2017-10-17 | Semiconductor device processing sound signal and microphone including the same |
PCT/KR2018/012142 WO2019078567A1 (en) | 2017-10-17 | 2018-10-16 | Semiconductor apparatus for processing sound signal and microphone apparatus including same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170134598A KR20190042928A (en) | 2017-10-17 | 2017-10-17 | Semiconductor device processing sound signal and microphone including the same |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190042928A true KR20190042928A (en) | 2019-04-25 |
Family
ID=66174163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170134598A KR20190042928A (en) | 2017-10-17 | 2017-10-17 | Semiconductor device processing sound signal and microphone including the same |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20190042928A (en) |
WO (1) | WO2019078567A1 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2528297B2 (en) | 1985-12-17 | 1996-08-28 | ハミルトン・ボナド−ツ・アクチエンゲゼルシヤフト | Pipette and pipette device |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR940007768B1 (en) * | 1992-01-21 | 1994-08-25 | 조병관 | Method of peeling nut |
JP3410756B2 (en) * | 1993-03-18 | 2003-05-26 | シャープ株式会社 | Voice recognition device |
KR101082837B1 (en) * | 2008-12-22 | 2011-11-11 | 한국전자통신연구원 | Method and apparatus for reduction of noise |
KR101452396B1 (en) * | 2013-04-08 | 2014-10-27 | 싸니코전자 주식회사 | Mems microphone having multiple sound pass hole |
-
2017
- 2017-10-17 KR KR1020170134598A patent/KR20190042928A/en not_active Application Discontinuation
-
2018
- 2018-10-16 WO PCT/KR2018/012142 patent/WO2019078567A1/en active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2528297B2 (en) | 1985-12-17 | 1996-08-28 | ハミルトン・ボナド−ツ・アクチエンゲゼルシヤフト | Pipette and pipette device |
Also Published As
Publication number | Publication date |
---|---|
WO2019078567A1 (en) | 2019-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3819903B1 (en) | Audio data processing method and apparatus, device and storage medium | |
US10504539B2 (en) | Voice activity detection systems and methods | |
CN109326302B (en) | Voice enhancement method based on voiceprint comparison and generation of confrontation network | |
JP7407580B2 (en) | system and method | |
Kurzekar et al. | A comparative study of feature extraction techniques for speech recognition system | |
US9881616B2 (en) | Method and systems having improved speech recognition | |
AU2010204470B2 (en) | Automatic sound recognition based on binary time frequency units | |
CN112331218B (en) | Single-channel voice separation method and device for multiple speakers | |
WO1996010818A1 (en) | Method and system for recognizing a boundary between sounds in continuous speech | |
EP1429314A1 (en) | Correction of energy as input feature for speech processing | |
WO2000077772A2 (en) | Speech and voice signal preprocessing | |
KR102270954B1 (en) | Apparatus and method for speech detection based on a multi-layer structure of a deep neural network and a recurrent neural netwrok | |
CN110728993A (en) | Voice change identification method and electronic equipment | |
JPH02298998A (en) | Voice recognition equipment and method thereof | |
JP7360814B2 (en) | Audio processing device and audio processing program | |
KR20190042928A (en) | Semiconductor device processing sound signal and microphone including the same | |
KR20210000802A (en) | Artificial intelligence voice recognition processing method and system | |
KR101361034B1 (en) | Robust speech recognition method based on independent vector analysis using harmonic frequency dependency and system using the method | |
Sailor et al. | Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection. | |
JP2002229592A (en) | Speech recognizer | |
JP4364493B2 (en) | Signal extraction system, signal extraction method, and signal extraction program | |
KR20000032269A (en) | Voice recognizing apparatus of sound equipment | |
Bernal-Ruiz et al. | Microcontroller implementation of a voice command recognition system for human-machine interface in embedded systems | |
KR20180087038A (en) | Hearing aid with voice synthesis function considering speaker characteristics and method thereof | |
Li et al. | Dynamic-attention based encoder-decoder model for speaker extraction with anchor speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |