KR20170095644A - 구간 가중치 검출을 이용한 오디오 인식 장치 및 방법 - Google Patents
구간 가중치 검출을 이용한 오디오 인식 장치 및 방법 Download PDFInfo
- Publication number
- KR20170095644A KR20170095644A KR1020160017348A KR20160017348A KR20170095644A KR 20170095644 A KR20170095644 A KR 20170095644A KR 1020160017348 A KR1020160017348 A KR 1020160017348A KR 20160017348 A KR20160017348 A KR 20160017348A KR 20170095644 A KR20170095644 A KR 20170095644A
- Authority
- KR
- South Korea
- Prior art keywords
- recognition
- audio
- neural network
- weight
- network
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims description 35
- 230000005236 sound signal Effects 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 23
- 238000006243 chemical reaction Methods 0.000 abstract description 9
- 239000000284 extract Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
본 발명에 따른 구간 가중치 검출을 이용한 오디오 인식 장치는 신경망(뉴럴 네트워크)를 이용한 오디오 인식 장치로서, 오디오 입력에 구간별 가중치 검출 알고리즘을 적용하여 가중치를 다르게 적용하여 오디오 신호를 인식한다. 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치는 수신된 오디오 신호를 분석하여 2차원 데이터로 변환하는 2차원 신호 변환부, 변환된 2차원 신호에 대해서 컨벌루션 신경망을 통해 인식 네트워크를 구성하는 신경망 구성부, 주요도 검출 알고리즘을 통해 가중치를 추출하는 구간 가중치 검출부 및 인식 네트워크 및 가중치에 기초하여 인식 결과를 판단하는 분류 처리부를 포함한다.
Description
본 발명은 오디오 인식에 관한 것으로, 보다 상세하게는 뉴럴 네트워크 분석을 통해 오디오를 인식하는 기술에 관한 것이다.
딥 러닝(Deep Learning)이란 인공 신경망의 종류 중 하나로 선형 근사(linear fitting)과 비선형 변환(nonlinear transformation or activation) 등을 반복하여 수행함으로써 기계를 학습하고 이 결과를 통해 분류, 인식등에 사용되는 방법이다. 기존에 존재하던 인공 신경망은 최적화의 어려움 등을 이유로 오랜기간 연구가 발전되어 오지 못했으나 최근 전처리 과정, 최적화 방법, 오버피팅 등의 문제를 해결할 수 있는 다양한 알고리즘들이 등장하였고, 빅데이터, GPU연산, 다양한 뉴럴 네트워크(Neural Network)의 등장 등으로 인해 많이 연구되고 있다. 무엇보다도 성능 면에서 기존의 연구결과들을 혁신적으로 뛰어넘는 결과를 보여줌으로써 현재 많은 태스크(task)에서 각광받고 있는 기계학습 방법이다.
어떠한 데이터가 있을 때 이를 컴퓨터가 알아 들을 수 있는 형태(예를 들어 이미지의 경우는 픽셀정보를 열벡터로 표현하는 등)로 표현하고 이를 학습에 적용하기 위해 많은 연구가 진행되고 있으며, 이러한 노력의 결과로 심층 신경망(Deep Neural Network, DNN), 컨벌루션 신경망(Convolutional Neural Network, CNN), Deep Belief Network(DBN), 순환형 신경망(Recurrent Neural Network, RNN)와 같은 다양한 딥 러닝 기법들이 컴퓨터 비전, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용되어 최첨단의 결과들을 보여주고 있다.
종래의 컨벌루션 신경망은 이미지 인식분야에서 주로 활용되어 왔지만 최근에는 그 높은 인식 성능으로 인해 다른 태스크에서도 이 방법을 적용하는 연구들이 수행되고 있다. 그러나 이러한 방법은 주요한 구간만이 아닌 주기적인 구간에서 또는 랜덤하게 입력 값을 가져온다. 때문에 불 필요한 구간에서도 입력 값을 가져오는 작용을 하고 최종적으로 하나의 오디오 클립에 대해 메이저 보팅(major voting)등과 같은 방법을 이용하여 최종 판단을 내릴 때, 불 필요한 정보들이 입력으로 들어와 그 성능이 떨어지게 된다.
본 발명이 해결하고자 하는 과제는 오디오 입력에 구간별 가중치 검출 알고리즘을 적용하여 해당 입력에 대한 가중치를 다르게 적용하고 오디오 신호를 인식함으로써, 오디오 데이터 인식 성능을 향상시키는 구간 가중치 검출을 이용한 오디오 인식 장치 및 방법을 제공하는 것이다.
본 발명에 따른 구간 가중치 검출을 이용한 오디오 인식 장치는 신경망(뉴럴 네트워크)를 이용한 오디오 인식 장치로서, 오디오 입력에 구간별 가중치 검출 알고리즘을 적용하여 가중치를 다르게 적용하여 오디오 신호를 인식한다.
본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치는 수신된 오디오 신호를 분석하여 2차원 데이터로 변환하는 2차원 신호 변환부, 변환된 2차원 신호에 대해서 컨벌루션 신경망을 통해 인식 네트워크를 구성하는 신경망 구성부, 주요도 검출 알고리즘을 통해 가중치를 추출하는 구간 가중치 검출부 및 인식 네트워크 및 가중치에 기초하여 인식 결과를 판단하는 분류 처리부를 포함한다.
2차원 신호 변환부는 고속 퓨리에 변환(Fast Fourier Transformer, FFT), 콘스턴트 Q 변환(Constant Q Transform, CQT) 및 파형요소변환(Wavelet Transform)을 활용하여 1차원 오디오 신호를 2차원 신호(데이터)로 변환할 수 있다.
신경망 구성부는 변환된 2차원 신호에 기초하여 하나 이상의 레이어로 구성된 컨벌루션 신경망을 통해 인식 네트워크 구조를 형성한다. 입력 2차원 이미지는 프레임 길이, 주파수 해상도, 사용자 입력 등에 따라 자유로운 크기로 구성된다. 그리고 일례로서, 네트워크는 컨벌루션, 서브 샘플링, 액티베이션(Activation), 드롭 아웃(Drop Out), 소프트맥스(softmax) 및 정규화 등 다양한 방법을 포함할 수 있다.
구간 가중치 검출부는 주요도 검출 알고리즘을 통해 수신된 오디오 신호로부터 가중치를 추출한다. 구간 가중치 검출부는 수신된 오디오 신호의 프레임 또는 주변구간, 음성 구간, 주요도 검출 알고리즘 등 다양한 방법을 기반으로 하여 해당 입력의 가중치를 추출한다.
분류 처리부는 컨벌루션 신경망의 인식 네트워크 구조 및 추출된 가중치에 기초하여 오디오 신호 인식을 판단한다. 분류 처리부는 컨벌루션 신경망을 구성하는 다수의 레이어 중에서 가중치에 기초하여 분류 및 선택하여 수신된 오디오 신호에 대한 오디오 인식 결과를 출력한다.
본 발명에 따른 구간 가중치 검출을 이용한 오디오 인식 장치 및 방법은 2차원 데이터 인식에 있어서 가장 우수한 성능을 보이는 컨벌루션 신경망에 입력 구간 별로 추출된 가중치 알고리즘을 적용하여 오디오를 인식함으로써, 불필요한 정보(가중치가 낮은 정보)를 인식 과정에서 배제하거나 상대적으로 적게 반영하여 신경망의 오디오 인식 성능을 향상시킨다.
도 1은 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)의 오디오 인식 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)의 실험 결과의 일례를 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 방법의 순서도이다.
도 2는 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)의 오디오 인식 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)의 실험 결과의 일례를 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 방법의 순서도이다.
이하, 본 발명의 실시예를 첨부된 도면들을 참조하여 상세하게 설명한다. 본 명세서에서 사용되는 용어 및 단어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 발명의 의도 또는 관례 등에 따라 달라질 수 있다. 따라서 후술하는 실시예에서 사용된 용어는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)의 구성도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)는 신경망(뉴럴 네트워크)를 이용한 오디오 인식 장치로서, 오디오 입력에 구간별 가중치 검출 알고리즘을 적용하여 가중치를 다르게 적용하여 오디오 신호를 인식한다. 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)는 2차원 신호 변환부(110), 신경망 구성부(120), 구간 가중치 검출부(130) 및 분류 처리부(140)를 포함한다.
2차원 신호 변환부(110)는 수신된 오디오 신호를 분석하여 2차원 데이터로 변환한다. 2차원 신호 변환부(110)는 1차원인 오디오 신호가 수신되면, 오디오 신호를 프레임 단위로 분석하여 2차원 데이터로 변환한다. 일례로서, 2차원 신호 변환부(110)는 고속 퓨리에 변환(Fast Fourier Transformer, FFT), 콘스턴트 Q 변환(Constant Q Transform, CQT) 및 파형요소변환(Wavelet Transform)을 활용하여 1차원 오디오 신호를 2차원 신호(데이터)로 변환할 수 있으며, 2차원 신호로 표현하는 방법은 어느 방법이든 사용될 수 있다.
신경망 구성부(120)는 2차원 신호 변환부(110)에서 변환된 2차원 신호에 기초하여 컨벌루션 신경망(Convolution Neural Network)을 형성하여 인식 네트워크를 구성한다. 컨벌루션 신경망이란 이미지 인식 분야에 주로 사용되고 있는 네트워크로 고정 된 마스크로 컨벌루션을 수행함으로써 특징을 추출한다. 이 방법은 필기체 인식을 위해 처음 제안 되었고, 이미지 인식 분야에서 뛰어난 성능을 보이며 그 활용 분야가 점차 확대되고 있다.
신경망의 가장 큰 강점 중 한 가지는 기존의 수동 특징(Hand crafted feature) 추출 기반의 인식 방법들과 다르게 사람이 임의적으로 추출한 특징값들(MFCC, ZCR등)을 이용하는 것이 아닌 특징(feature) 추출부터 인식까지의 모든 과정을 하나의 네트워크 내에서 수행한다는 것이다. 이를 통해 낮은 인식 성능을 갖는 수동 특징(Hand crafted feature) 대신 네트워크가 추출한 특징(feature)들을 학습하게 된다.
컨벌루션 신경망은 컨벌루션(Convolution)과 서브 샘플링(Sub-Sampling)등의 동작을 번갈아 수행함으로써 각각의 레이어들이 구성되고 최종적으로 완전 연결층(Fully Connected Layer)를 생성함으로서 분류를 수행하는 방법이 일반적이다.
신경망 구성부(120)는 상술한 바와 같이, 변환된 2차원 신호에 기초하여 하나 이상의 레이어로 구성된 컨벌루션 신경망을 통해 인식 네트워크 구조를 형성한다. 입력 2차원 이미지는 프레임 길이, 주파수 해상도, 사용자 입력 등에 따라 자유로운 크기로 구성된다. 그리고 일례로서, 네트워크는 컨벌루션, 서브 샘플링, 액티베이션(Activation), 드롭 아웃(Drop Out), 소프트맥스(softmax) 및 정규화 등 다양한 방법을 포함할 수 있다.
구간 가중치 검출부(130)는 주요도 검출 알고리즘을 통해 수신된 오디오 신호로부터 가중치를 추출한다. 구간 가중치 검출부(130)는 2차원 신호 변환부(110)로부터 수신된 오디오 신호(입력값)의 프레임 또는 주변구간, 음성 구간, 주요도 검출 알고리즘 등 다양한 방법을 기반으로 하여 해당 입력의 가중치를 추출한다.
분류 처리부(140)는 신경망 구성부(120)에서 생성된 신경망의 인식 네트워크 구조 및 구간 가중치 검출부(130)에서 추출된 가중치에 기초하여 오디오 신호 인식을 판단한다. 분류 처리부(140)는 컨벌루션 신경망을 구성하는 다수의 레이어 중에서 가중치에 기초하여 분류 및 선택하여 수신된 오디오 신호에 대한 오디오 인식 결과를 출력한다.
이와 같은 과정을 통해, 본 발명은 컨벌루션 신경망의 인식 네트워크 구조에 추출된 가중치를 반영하여 오디오를 인식함으로써, 불필요한 정보(가중치가 낮은 정보)를 인식 과정에서 배제하거나 상대적으로 적게 반영하여 오디오 인식 성능을 향상시킨다.
도 2는 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)의 오디오 인식 과정을 설명하기 위한 도면이다.
도 1 및 도 2를 참조하면, 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)에서 2차원 신호 변환부(110)는 수신된 오디오 신호(201)를 프레임 단위로 분석하여 2차원 신호로 변환한다. 그리고 신경망 구성부(120)는 변환된 2차원 신호에 기초하여 다수의 레이어로 구성된 컨벌루션 신경망(202)을 형성한다.
구간 가중치 검출부(130)는 2차원 신호 변환부(110)로부터 수신된 오디오 신호(201)의 프레임 또는 주변구간, 음성 구간, 주요도 검출 알고리즘 등 다양한 방법을 기반으로 하여 해당 입력의 가중치(203)를 추출한다. 그리고 분류 처리부(140)는 컨벌루션 신경망(202)의 네트워크 구조 및 추출된 가중치(203)에 기초하여, 컨벌루션 신경망을 구성하는 다수의 레이어 중에서 가중치에 기초하여 분류(204)하여 수신된 오디오 신호에 대한 오디오 인식 결과를 출력한다.
도 3은 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)의 실험 결과의 일례를 나타내는 도면이다.
도 1 및 도 3을 참조하면, 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)로 수신된 오디오 신호(301)는 1차원 신호이다. 가중치 검출을 이용한 오디오 인식 장치(100)는 수신된 오디오 신호(301)로부터 가중치(302)를 추출한다. 추출된 가중치(302)는 생성된 컨벌루션 신경망의 인식 네트워크 구조에 반영되어, 다수의 레이어 중에서 가중치에 기초하여 분류 및 선택하여 수신된 오디오 신호에 대한 오디오 인식 결과를 출력한다.
도 4는 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 방법의 순서도이다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 방법은 먼저, 수신된 오디오 신호를 프레임 단위로 분석하여 2차원 데이터로 변환한다(S401). 일례로서, 2차원 신호 변환부(110)는 고속 퓨리에 변환(FFT), 콘스턴트 Q 변환(CQT) 및 파형요소변환(Wavelet Transform)을 활용하여 1차원 오디오 신호를 2차원 신호(데이터)로 변환할 수 있다.
수신된 오디오 신호가 2차원 신호로 변환되면, 변환된 2차원 신호에 기초하여 컨벌루션 신경망을 형성한다(S402). 보다 구체적으로, 변환된 2차원 신호에 기초하여 하나 이상의 레이어로 구성된 컨벌루션 신경망을 통해 인식 네트워크 구조를 형성한다. 이 때, 입력 2차원 이미지는 프레임 길이, 주파수 해상도, 사용자 입력 등에 따라 자유로운 크기로 구성될 수 있으며, 네트워크는 컨벌루션, 서브 샘플링, 액티베이션(Activation), 드롭 아웃(Drop Out), 소프트맥스(softmax) 및 정규화 등 다양한 방법을 포함할 수 있다.
컨벌루션 신경망이란 이미지 인식 분야에 주로 사용되고 있는 네트워크로 고정 된 마스크로 컨벌루션을 수행함으로써 특징을 추출한다. 컨벌루션 신경망의 가장 큰 강점 중 한 가지는 기존의 수동 특징(Hand crafted feature) 추출 기반의 인식 방법들과 다르게 사람이 임의적으로 추출한 특징값들(MFCC, ZCR등)을 이용하는 것이 아닌 특징(feature) 추출부터 인식까지의 모든 과정을 하나의 네트워크 내에서 수행한다는 것이다. 이를 통해 낮은 인식 성능을 갖는 수동 특징(Hand crafted feature) 대신 네트워크가 추출한 특징(feature)들을 학습하게 된다.
다음으로, 수신된 오디오 신호(원본)의 프레임 또는 주변구간, 음성 구간, 주요도 검출 알고리즘 등 다양한 방법을 기반으로 하여 해당 입력의 가중치를 추출한다(S403). S403 단계는 S401 및 S402 단계의 전 또는 후에 수행될 수 있다.
그리고 생성된 컨벌루션 신경망의 인식 네트워크 구조 및 추출된 가중치에 기초하여 2차원 신호를 구성하는 다수의 레이어를 분류한다(S404). 이와 같은 과정을 통해, 본 발명은 컨벌루션 신경망의 인식 네트워크 구조에 추출된 가중치를 반영하여 오디오를 인식함으로써, 불필요한 정보(가중치가 낮은 정보)를 인식 과정에서 배제하거나 상대적으로 적게 반영하여 오디오 인식 성능을 향상시킨다.
상술한 내용을 포함하는 본 발명은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체 또는 정보저장매체에 저장되고, 컴퓨터에 의하여 판독되고 실행함으로써 본 발명의 방법을 구현할 수 있다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체를 포함한다.
이상 바람직한 실시예를 들어 본 발명을 상세하게 설명하였으나, 본 발명은 전술한 실시예에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당분야에서 통상의 지식을 가진자에 의하여 여러 가지 변형이 가능하다.
100: 가중치 검출을 이용한 오디오 인식 장치
110: 2차원 신호 변환부
120: 신경망 구성부
130: 구간 가중치 검출부
140: 분류 처리부
110: 2차원 신호 변환부
120: 신경망 구성부
130: 구간 가중치 검출부
140: 분류 처리부
Claims (1)
- 신경망(Neural Network)를 이용한 오디오 인식 방법 및 장치에 있어서,
수신된 오디오 신호를 분석하여 2차원 데이터로 변환하는 2차원 신호 변환부;
변환된 2차원 신호에 대해서 컨벌루션 신경망을 통해 인식 네트워크를 구성하는 신경망 구성부;
주요도 검출 알고리즘을 통해 가중치를 추출하는 구간 가중치 검출부; 및
상기 인식 네트워크 및 상기 가중치에 기초하여 인식 결과를 판단하는 분류 처리부;
를 포함하는 가중치 검출을 이용한 오디오 인식 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160017348A KR20170095644A (ko) | 2016-02-15 | 2016-02-15 | 구간 가중치 검출을 이용한 오디오 인식 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160017348A KR20170095644A (ko) | 2016-02-15 | 2016-02-15 | 구간 가중치 검출을 이용한 오디오 인식 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20170095644A true KR20170095644A (ko) | 2017-08-23 |
Family
ID=59759483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160017348A KR20170095644A (ko) | 2016-02-15 | 2016-02-15 | 구간 가중치 검출을 이용한 오디오 인식 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20170095644A (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190110939A (ko) * | 2018-03-21 | 2019-10-01 | 한국과학기술원 | 합성곱 신경망 기반 환경음 인식 방법 및 시스템 |
KR20190132023A (ko) * | 2018-05-18 | 2019-11-27 | 한국항공대학교산학협력단 | 기계 상태 모니터링 장치 및 방법 |
KR20210068774A (ko) * | 2019-12-02 | 2021-06-10 | 아이브스 주식회사 | 인공지능 기반의 이상음원 인식 장치, 그 방법 및 이를 이용한 관제시스템 |
-
2016
- 2016-02-15 KR KR1020160017348A patent/KR20170095644A/ko unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190110939A (ko) * | 2018-03-21 | 2019-10-01 | 한국과학기술원 | 합성곱 신경망 기반 환경음 인식 방법 및 시스템 |
KR20190132023A (ko) * | 2018-05-18 | 2019-11-27 | 한국항공대학교산학협력단 | 기계 상태 모니터링 장치 및 방법 |
KR20210068774A (ko) * | 2019-12-02 | 2021-06-10 | 아이브스 주식회사 | 인공지능 기반의 이상음원 인식 장치, 그 방법 및 이를 이용한 관제시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109409222B (zh) | 一种基于移动端的多视角人脸表情识别方法 | |
US10937438B2 (en) | Neural network generative modeling to transform speech utterances and augment training data | |
CN108804453B (zh) | 一种视音频识别方法及装置 | |
CN105976809A (zh) | 基于语音和面部表情的双模态情感融合的识别方法及系统 | |
KR20170095582A (ko) | 뉴럴 네트워크를 이용한 오디오 인식 장치 및 방법 | |
CN113643723A (zh) | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 | |
Wei et al. | A method of underwater acoustic signal classification based on deep neural network | |
Kembuan et al. | Convolutional neural network (CNN) for image classification of indonesia sign language using tensorflow | |
Asha et al. | Kannada handwritten document recognition using convolutional neural network | |
CN114722812A (zh) | 一种多模态深度学习模型脆弱性的分析方法和系统 | |
Shinde et al. | Real time two way communication approach for hearing impaired and dumb person based on image processing | |
KR20170096083A (ko) | 신경망을 이용한 음원분리 장치 및 방법 | |
KR20170095644A (ko) | 구간 가중치 검출을 이용한 오디오 인식 장치 및 방법 | |
Prasanna et al. | Machine and deep‐learning techniques for text and speech processing | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 | |
Ahammad et al. | Recognizing Bengali sign language gestures for digits in real time using convolutional neural network | |
Kadyrov et al. | Speaker recognition from spectrogram images | |
KR102564570B1 (ko) | 멀티모달 감성 분석 시스템 및 방법 | |
Surekha et al. | Hand Gesture Recognition and voice, text conversion using | |
Zhu et al. | Emotion Recognition of College Students Based on Audio and Video Image. | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
Swathi et al. | Ensemble Integration of Deep Learning Models for Gender-Based Speech Emotion Recognition | |
Dewi et al. | Detection of class regularity with support vector machine methods | |
Kumar et al. | Sign language detection and conversion to text using CNN and OpenCV | |
Sushma et al. | Emotion analysis using signal and image processing approach by implementing deep neural network |