KR20240035003A - 점진적 머신 러닝 기법을 이용한 cnn 기반 음원 인식 시스템 및 방법 - Google Patents

점진적 머신 러닝 기법을 이용한 cnn 기반 음원 인식 시스템 및 방법 Download PDF

Info

Publication number
KR20240035003A
KR20240035003A KR1020220113925A KR20220113925A KR20240035003A KR 20240035003 A KR20240035003 A KR 20240035003A KR 1020220113925 A KR1020220113925 A KR 1020220113925A KR 20220113925 A KR20220113925 A KR 20220113925A KR 20240035003 A KR20240035003 A KR 20240035003A
Authority
KR
South Korea
Prior art keywords
sound source
data
classification model
embedded terminal
cnn
Prior art date
Application number
KR1020220113925A
Other languages
English (en)
Inventor
김성권
Original Assignee
서울과학기술대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울과학기술대학교 산학협력단 filed Critical 서울과학기술대학교 산학협력단
Priority to KR1020220113925A priority Critical patent/KR20240035003A/ko
Publication of KR20240035003A publication Critical patent/KR20240035003A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Traffic Control Systems (AREA)

Abstract

본 발명은 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 시스템 및 방법에 관한 것이다.
본 발명에 따른 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 방법은, 차량 내부에 설치된 임베디드 단말이 차량 내외부에 설치된 마이크를 통해 음원을 획득하고, 획득된 음원을 멜-스펙트로그램(Mel-Spectrogram)으로 변환하는 단계; 임베디드 단말이 변환된 음원 데이터를 사전에 학습된 음원 분류 모델을 이용하여 분류한 후, 획득된 음원과 음원 분류 모델에 의해 분류된 음원과의 오차가 허용 오차 범위를 벗어나는지 판별하는 단계; 획득된 음원과 분류된 음원과의 오차가 허용 오차 범위를 벗어나는 경우, 임베디드 단말이 표시부에 경고를 표시하고 획득된 음원을 분류 결과로 라벨링해 데이터화하는 단계; 임베디드 단말이 음원을 분류한 결과를 표시부를 통해 실시간으로 표시하는 단계; 및 임베디드 단말이 라벨링된 데이터가 일정량 누적되면 배치(batch) 학습을 진행하여 음원 분류 모델의 가중치와 편향치를 업데이트하는 단계를 포함한다.

Description

점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 시스템 및 방법{CNN(Convolutional Neural Network) based audio source recognition system and method using incremental machine learning scheme}
본 발명은 음원 인식 시스템 및 방법에 관한 것으로서, 더 상세하게는 차량 내외부의 마이크로부터 획득되는 1차원 음원 데이터를 2차원으로 변환하여 사전에 학습된 음원 분류 모델을 이용하여 음원을 판단하고, 획득된 음원이 설정 범위를 벗어날 경우 경고를 해주는 점진적 머신 러닝 기법을 이용한 CNN(Convolutional Neural Network) 기반 음원 인식 시스템 및 방법에 관한 것이다.
자율주행 자동차의 기술은 크게 인지(Sense), 판단(Think), 제어(Act) 등의 3단계로 구분된다. 현재 자율주행 자동차의 센서 기술은 레이더, 카메라, 라이다 기술을 중심으로 물체의 이미지 및 물체와의 거리를 측정하는 시각적인 기술 위주로 발전해 왔다.
센서 기술은 시각적인 데이터만을 주로 분석하고 센서 범위 안의 물체에 대한 이동 경로, 차량과의 거리 등 비교적 단순한 정보만을 획득한다. 이에 따라 자율주행 자동차의 모든 주변 환경을 판단하기 위한 정보는 부족하다.
또한, 비전 센서 기반 정보 획득은 자율주행차량의 센서 정보에 의존할 수밖에 없고, 악천후 등의 외부 조건에 의해 센서의 신뢰도가 떨어져, 자율주행의 안전도가 급격히 낮아질 수 있다.
자동차에서 음원을 인식하기 위하여, 도 1에 도시된 바와 같이 자동차의 외부에 마이크(mic1∼mic4)를 설치하여 마이크에서의 소리의 도착 시간 차이 및 소리의 세기로 음원의 방향을 추적한다. 하지만, 자동차가 고속으로 주행 시 바람의 영향으로 자동차 외부의 마이크가 음원을 제대로 획득하지 못할 수 있다. 또한, 기상의 영향으로 마이크가 쉽게 고장날 수도 있다. 또한, 자동차 외부의 마이크로는 차량 내부의 소리를 감지하여 차량의 고장 요소를 예측하기 어렵다.
따라서, 차량의 내부에 마이크를 설치하여 차량 내부의 소리를 감지해 차량의 고장 요소를 예측하는 방식이 사용되기도 한다. 하지만, 차량 내부의 소리에는 라디오 소리, 대화소리, 차량 고장 요소에 의한 소리 등이 혼재되어 있어, 차량의 고장 요소에 의한 소리를 구분해서 예측하는 것이 어려울 수 있다. 또한, 차량의 내부에 설치된 마이크로는 차량의 외부에서 들려오는 음원을 감지하여 차량 외부의 위험 요소의 접근을 예측하는 것이 어렵다.
한편, 한국 공개특허공보 제10-2022-0102946호(특허문헌 1)에는 "비언어적 음성에 기초한 음성 인식 방법 및 장치"가 개시되어 있는 바, 이에 따른 비언어적 음성에 기초한 음성 인식 방법은, 오디오 데이터를 수신하여 음성에 대한 음성 신호 및 비언어적 음성에 대한 비언어적 음성 신호로 분리하고, 비언어적 음성 신호에 기초하여 하나 이상의 비언어적 음성에 대한 메타데이터를 출력하며, 음성 신호에 기초하여 음성에 대한 인식 결과를 출력하는 것을 특징으로 한다.
이상과 같은 특허문헌 1의 경우, 주변 환경 소음 내에 어떤 비언어적 음성이 있는지 탐지하여 이를 검출하는 기술과, 탐지된 비언어적 음성을 이용하여 음성 인식 성능을 향상시키는 기술을 제공할 수 있는 장점이 있기는 하나, 비언어적 음성 신호와 음성 신호의 분리를 바탕으로 각각의 결과를 출력하는 것에 그치고 있어, 차량의 운행 중에 차량의 내외부로부터 발생하는 각종 음원에 대해 정확히 분석하여 차량의 고장이나 외부로부터의 위험 요소를 감지하여 차량의 운전자에게 알려주는 기능을 기대하기는 어렵다.
한국 공개특허공보 제10-2022-0102946호(2022.07.21.)
본 발명은 상기와 같은 사항을 종합적으로 감안하여 창출된 것으로서, 차량 내외부의 마이크로부터 획득되는 1차원 음원 데이터를 2차원 데이터로 변환하여 사전에 학습된 음원 분류 모델을 이용하여 음원을 판단하고, 판단 결과 획득된 음원과 사전에 학습된 음원 분류 모델에 의해 분류된 음원과의 오차가 허용 오차 범위를 벗어나는 경우, 경고를 해주는 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 시스템 및 방법을 제공함에 그 목적이 있다.
상기의 목적을 달성하기 위하여 본 발명에 따른 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 시스템은,
차량의 내부 및 외부에 각각 설치되며, 차량의 외부 객체로부터 발생하는 소리의 음원과 차량의 내부에서 발생하는 소리의 음원을 각각 획득하는 복수의 마이크;
차량의 내부에 설치되어 상기 복수의 마이크와 각각 전기적으로 연결되며, 상기 복수의 마이크를 통해 획득된 음원을 멜-스펙트로그램(Mel-Spectrogram)으로 변환하고, 상기 변환된 음원 데이터를 사전에 학습된 음원 분류 모델을 이용하여 분류한 후, 상기 획득된 음원과 상기 음원 분류 모델에 의해 분류된 음원과의 오차가 허용 오차 범위를 벗어나는지 판별하여, 상기 획득된 음원과 상기 분류된 음원과의 오차가 허용 오차 범위를 벗어나는 경우, 표시부에 경고를 표시하고 상기 획득된 음원을 분류 결과로 라벨링해 데이터화하며, 상기 음원을 분류한 결과를 상기 표시부를 통해 실시간으로 표시하고, 상기 라벨링된 데이터가 일정량 누적되면 배치(batch) 학습을 진행하여 상기 음원 분류 모델의 가중치와 편향치를 업데이트하는 임베디드 단말; 및
상기 임베디드 단말로부터의 명령에 따라 경고를 표시함과 아울러 음원을 분류한 결과를 실시간으로 표시하는 표시부를 포함하는 점에 그 특징이 있다.
여기서, 상기 임베디드 단말이 상기 마이크를 통해 1차원 음원 데이터를 획득하고, 획득된 1차원 음원 데이터를 멜-스펙트로그램(Mel-Spectrogram)으로 2차원 이미지 데이터로 변환하며, 상기 변환된 음원 데이터를 음원 분류 모델을 이용하여 분류함에 있어서, 상기 변환된 2차원 이미지 데이터를 바탕으로 상기 음원 분류 모델로서의 CNN(Convolutional Neural Network) 알고리즘을 이용하여 소리의 종류를 분류할 수 있다.
또한, 상기 표시부는 차량의 기존의 계기판으로 대체될 수 있다.
또한, 상기의 목적을 달성하기 위하여 본 발명에 따른 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 방법은,
a) 차량 내부에 설치된 임베디드 단말이 차량 내외부에 설치된 마이크를 통해 음원을 획득하고, 획득된 음원을 멜-스펙트로그램(Mel-Spectrogram)으로 변환하는 단계;
b) 상기 임베디드 단말이 상기 변환된 음원 데이터를 사전에 학습된 음원 분류 모델을 이용하여 분류한 후, 상기 획득된 음원과 상기 음원 분류 모델에 의해 분류된 음원과의 오차가 허용 오차 범위를 벗어나는지 판별하는 단계;
c) 상기 판별에서, 상기 획득된 음원과 상기 분류된 음원과의 오차가 허용 오차 범위를 벗어나는 경우, 상기 임베디드 단말이 표시부에 경고를 표시하고 상기 획득된 음원을 분류 결과로 라벨링해 데이터화하는 단계;
d) 상기 임베디드 단말이 상기 음원을 분류한 결과를 상기 표시부를 통해 실시간으로 표시하는 단계; 및
e) 상기 임베디드 단말이 상기 라벨링된 데이터가 일정량 누적되면 배치 (batch) 학습을 진행하여 상기 음원 분류 모델의 가중치와 편향치를 업데이트하는 단계를 포함하는 점에 그 특징이 있다.
여기서, 상기 단계 a)에서 상기 임베디드 단말이 상기 마이크를 통해 1차원 음원 데이터를 획득하고, 획득된 1차원 음원 데이터를 멜-스펙트로그램(Mel-Spectrogram)으로 2차원 이미지 데이터로 변환할 수 있다.
또한, 상기 단계 b)에서 상기 임베디드 단말이 상기 변환된 음원 데이터를 음원 분류 모델을 이용하여 분류함에 있어서, 상기 변환된 2차원 이미지 데이터를 바탕으로 상기 음원 분류 모델로서의 CNN(Convolutional Neural Network) 알고리즘을 이용하여 소리의 종류를 분류할 수 있다.
이와 같은 본 발명에 의하면, 차량 내외부의 마이크로부터 획득되는 1차원 음원 데이터를 2차원 데이터로 변환하여 사전에 학습된 음원 분류 모델을 이용하여 음원을 판단하고, 판단 결과 획득된 음원과 음원 분류 모델에 의해 분류된 음원과의 오차가 허용 오차 범위를 벗어나는 경우 경고를 해줌으로써, 운전자가 차량의 고장 또는 외부의 위험을 인지하여 미리 대처할 수 있는 장점이 있다.
도 1은 종래의 자동차에서의 음원 인식 방식의 일 예를 나타낸 도면이다.
도 2는 본 발명에 따른 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 시스템의 구성을 개략적으로 나타낸 도면이다.
도 3은 본 발명에 따른 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 방법의 실행 과정을 나타낸 흐름도이다.
도 4는 1차원의 음원 데이터를 멜-스펙트로그램으로 2차원의 이미지 데이터로 변환한 것을 나타낸 도면이다.
도 5는 본 발명에 채용되는 음원 분류 모델로서의 인공지능 CNN 알고리즘의 학습 및 분류 과정을 나타낸 도면이다.
도 6은 일반적인 딥 러닝 모델을 단순화한 모식도이다.
도 7은 도 6에 도시된 딥 러닝 모델을 구성하는 각 뉴런들의 동작을 수학적으로 나타낸 도면이다.
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정되어 해석되지 말아야 하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈", "장치" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 2는 본 발명의 실시예에 따른 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 시스템의 구성을 개략적으로 나타낸 도면이다.
도 2를 참조하면, 본 발명에 따른 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 시스템(100)은 복수의 마이크(110), 임베디드 단말(120) 및 표시부(130)를 포함하여 구성된다.
마이크(110)는 차량(90)의 내부 및 외부에 각각 설치되며, 차량의 외부 객체(예를 들면, 자동차, 오토바이, 사람 등)로부터 발생하는 소리의 음원과 차량의 내부에서 발생하는 소리(엔진음, 에어콘 가동음, 라디오 소리, 탑승객 대화소리 등)의 음원을 각각 획득한다. 이와 같은 마이크(110)는 도시된 바와 같이, 차량 (90)의 내부 및 외부에 각각 복수개(도 2에서는 차량의 내부 및 외부에 각각 4개씩의 마이크가 설치된 상태를 예시함)가 설치된다.
임베디드 단말(120)은 차량(90)의 내부에 설치되어 상기 복수의 마이크(110)와 각각 전기적으로 연결되며, 상기 복수의 마이크(110)를 통해 획득된 음원을 멜-스펙트로그램(Mel-Spectrogram; Mel scaled Spectrogram으로 연속적인 음원 신호를 주파수로 변환하여 시각화하는 것을 의미함)으로 변환하고, 상기 변환된 음원 데이터를 사전에 학습된 음원 분류 모델(120m)을 이용하여 분류한 후, 상기 획득된 음원과 상기 음원 분류 모델(120m)에 의해 분류된 음원과의 오차가 허용 오차 범위를 벗어나는지 판별하여, 상기 획득된 음원과 상기 분류된 음원과의 오차가 허용 오차 범위를 벗어나는 경우, 후술하는 표시부(130)에 경고를 표시하고 상기 획득된 음원을 분류 결과로 라벨링해 데이터화하며, 상기 음원을 분류한 결과를 상기 표시부(130)를 통해 실시간으로 표시하고, 상기 라벨링된 데이터가 일정량 누적되면 배치(batch) 학습을 진행하여 상기 음원 분류 모델(120m)의 가중치와 편향치를 업데이트한다. 여기서, 이와 같은 임베디드 단말(120)이 상기 마이크(110)를 통해 1차원 음원 데이터를 획득하고, 획득된 1차원 음원 데이터를 멜-스펙트로그램(Mel-Spectrogram)으로 2차원 이미지 데이터로 변환하며, 상기 변환된 음원 데이터를 음원 분류 모델(120m)을 이용하여 분류함에 있어서, 상기 변환된 2차원 이미지 데이터를 바탕으로 상기 음원 분류 모델(120m)로서의 CNN(Convolutional Neural Network) 알고리즘을 이용하여 소리의 종류를 분류할 수 있다. 이와 같은 임베디드 단말(120)은 마이크로프로세서나 마이크로콘트롤러 등으로 구성될 수 있고, 차량 내부의 기존의 전자제어장치(Electronic Control Unit, ECU)와 연결되어 전체적으로 하나의 제어 시스을 구축할 수도 있다. 여기서, 또한 상기 획득된 음원과 상기 음원 분류 모델(120m)에 의해 분류된 음원과의 오차가 허용 오차 범위를 벗어나는지 판별하여, 획득된 음원과 분류된 음원과의 오차가 허용 오차 범위를 벗어나는 경우, 상기 획득된 음원을 분류 결과로 라벨링해 데이터화하는 것과, 상기 라벨링된 데이터가 일정량 누적되면 배치(batch) 학습을 진행하여 상기 음원 분류 모델(120m)의 가중치와 편향치를 업데이트하는 것과 관련해서는 뒤에서 설명하기로 한다.
표시부(130)는 상기 임베디드 단말(120)로부터의 명령에 따라 경고를 표시함과 아울러 음원을 분류한 결과를 실시간으로 표시한다. 여기서, 이와 같은 표시부(130)는 차량의 대시보드에 마련되어 있는 기존의 계기판으로 대체될 수 있다. 그렇게 될 경우, 임베디드 단말(120)은 기존의 계기판과 전기적으로 연결된다.
그러면, 이하에서는 이상과 같은 구성을 가지는 본 발명에 따른 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 시스템을 바탕으로 한 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 방법에 대해 설명해 보기로 한다.
도 3은 본 발명의 실시예에 따른 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 방법의 실행 과정을 나타낸 흐름도이다.
도 3을 참조하면, 본 발명에 따른 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 방법은, 먼저 차량(90) 내부에 설치된 임베디드 단말(120)이 차량 내외부에 설치된 마이크(110)를 통해 음원(차량의 외부에서 발생한 음원 및 차량의 내부에서 발생한 음원)을 획득하고, 획득된 음원을 각각 멜-스펙트로그램(Mel-Spectrogram)으로 변환한다(단계 S301). 여기서, 이와 같은 임베디드 단말(120)은 상기 마이크(110)를 통해 도 4의 (a)와 같이 1차원 음원 데이터를 획득하고, 획득된 각 1차원 음원 데이터를 도 4의 (b)와 같이 멜-스펙트로그램(Mel-Spectrogram)으로 각각 2차원 이미지 데이터로 변환할 수 있다.
이렇게 하여, 획득된 음원을 멜-스펙트로그램(Mel-Spectrogram)으로 변환한 후, 임베디드 단말(120)은 상기 변환된 음원 데이터를 사전에 학습된 음원 분류 모델(120m)을 이용하여 분류한 후, 상기 획득된 음원과 상기 음원 분류 모델(120m)에 의해 분류된 음원과의 오차가 허용 오차 범위를 벗어나는지 판별한다(단계 S302). 여기서, 상기 임베디드 단말(120)이 상기 변환된 음원 데이터를 음원 분류 모델(120m)을 이용하여 분류함에 있어서, 상기 변환된 2차원 이미지 데이터를 바탕으로, 도 5에 도시된 바와 같이, 상기 음원 분류 모델(120m)로서의 CNN(Convolutional Neural Network) 알고리즘을 이용하여 소리의 종류를 분류할 수 있다.
한편, 상기 판별에서, 상기 획득된 음원과 상기 분류된 음원과의 오차가 허용 오차 범위를 벗어나는 경우, 상기 임베디드 단말(120)은 표시부(130)에 경고(경고 문구나 경광등(아이콘) 표시 중 적어도 어느 하나)를 표시하고 상기 획득된 음원을 분류 결과로 라벨링해 데이터화한다(단계 S303).
또한, 상기 임베디드 단말(120)은 상기 음원을 분류한 결과를 상기 표시부(130)를 통해 실시간으로 표시한다(단계 S304).
그리고 상기 임베디드 단말(120)은 상기 라벨링된 데이터가 일정량 누적되면 배치(batch) 학습을 진행하여 상기 음원 분류 모델(120m)의 가중치와 편향치를 업데이트한다(단계 S305).
이상과 같은 본 발명에 따른 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 방법에 있어서, 상기 단계 S302에서의 상기 획득된 음원과 상기 음원 분류 모델(120m)에 의해 분류된 음원과의 오차(즉, 일치도 정도)가 허용 오차 범위를 벗어나는지 판별하는 것과, 단계 S303에서의 획득된 음원을 분류 결과로 라벨링해 데이터화하는 것과, 단계 S305에서의 라벨링된 데이터가 일정량 누적되면 배치(batch) 학습을 진행하여 음원 분류 모델(120m)의 가중치와 편향치를 업데이트하는 것과 관련하여 부연 설명을 해보기로 한다.
본 발명에서 이용하는 점진적 머신 러닝 기법에 사용하는 학습 방식은 지도학습 방식이다. 지도 학습이란 학습하는 데이터에 정답 혹은 목표값이 함께 짝지어져 있는(라벨링된) 것을 의미한다. 다시 말해 학습 데이터가 입력값, 정답값의 묶음으로 구성된 것인데, 차량에서 수집한 음원 데이터는 정답값이 없는 데이터이다. 점진적 학습을 위해서는 이 데이터에 정답을 라벨링해 주어야 하는데, 단계 S303에서의 획득된 음원을 분류 결과로 라벨링해 데이터화한다는 것은 정답값을 '수집된 음원을 기존에 학습 완료된 모델에 투입하여 분류 결과로 나온 값'으로 사용한다는 것을 의미한다. 예를 들어, 사이렌 소리가 수집되었는데 이것이 사이렌 소리인지 분류하기 위해서 기존의 모델(음원 분류 모델)에 입력값으로 넣고, 그 결과가 사이렌 소리로 나온다면 이 음원 데이터는 '사이렌 소리'라고 라벨링해서 점진적 학습에 사용하는 것이다.
획득된 음원과 상기 음원 분류 모델(120m)에 의해 분류된 음원과의 오차(즉, 일치도 정도)와 관련해서는 수집되는 모든 음원이 어느 특정 소리라고 분류되지만, 학습된 모델(음원 분류 모델)이 모든 종류의 소리를 분류하는 것이 아니기 때문에 맞지 않는 분류가 존재할 수밖에 없다. 따라서, 학습된 모델에서 수집된 음원을 분류하고, 수집된 음원과 분류된 음원의 오차를 계산하게 되는데, 이 오차가 크면 정확한 분류가 되지 않았다고 판단해 점진적 학습의 데이터로는 사용하지 않는다. 예를 들면, 정체불명의 음원이 수집되었을 때 이 음원의 라벨링을 위해 기존 모델에 입력값으로 투입해서 그 결과가 차량 경적 소리라고 분류되었는데, 오차가 크게 나타난다면 이 음원은 경적소리가 아니라고 판단하여 점진적 학습에 사용하지 않는 것이다.
또한, 단계 S305에서의 "라벨링된 데이터가 일정량 누적되면 배치(batch) 학습을 진행하여..."에서의 배치 학습은 정확히는 미니 배치 학습을 의미한다. 이와 같은 배치 학습은 딥 러닝(deep learning)에서 학습의 효율과 정확도를 높이기 위해 사용하는 방식이다. 데이터가 하나 생성될 때마다 점진적 학습을 진행해 모델(음원 분류 모델)을 업데이트 하는 것이 아니라, 데이터가 일정량(예를 들어, 100개의 데이터) 누적될 때마다 업데이트를 1회 진행하는 방식이다.
또한, 단계 S305의 "음원 분류 모델(120m)의 가중치와 편향치를 업데이트한다."와 관련하여 가중치와 편향치에 대해 도 6 및 도 7을 참조하여 설명해 보기로 한다.
도 6은 일반적인 딥 러닝 모델을 단순화한 모식도이고, 도 7은 도 6에 도시된 딥 러닝 모델을 구성하는 각 뉴런들의 동작을 수학적으로 나타낸 도면이다.
도 6에 도시된 바와 같이, 딥 러닝 모델은 일반적으로 입력층, 은닉층, 출력층으로 구성되는 구조인데, 도 6의 예시는 1개의 입력층과, 2개의 은닉층, 1개의 출력층으로 구성되어 있는 경우를 보여준다.
입력층, 은닉층, 출력층의 각 층에는 원으로 표시된 뉴런(혹은 노드)들이 포함되어 있으며, 이 원 하나가 신경세포(뉴런)의 역할을 하고 이것들이 연결되어 신경망을 이루고 있다.
도 6에서 볼 수 있는 바와 같이, 이웃한 층의 뉴런들끼리 선으로 연결되어 있는데, 이 연결선을 통해 입력층에서 출력층까지 데이터 값이 흘러가면서 값이 계산되고 최종 출력을 내보내게 된다. 이와 같은 일련의 과정에서 각각의 뉴런들은 도 7에 도시된 바와 같은 동작을 한다.
즉, 앞에 위치하는 층의 뉴런들로부터 값(x1, x2, ..., xn)을 받는데, 이때 값을 그대로 받는 것이 아니고 각각의 값을 가중치(w1, w2, ..., wn)와 곱해서 받게된다. 그리고 받은 값을 모두 합하고 거기에 각 뉴런마다 배정된 bias(편향치, b)까지 더한 값을 정해진 활성화 함수(f)에 입력하고, 활성화 함수의 출력을 다음 층의 뉴런들에게 내보내게 된다.
여기서, 가중치란 뉴런을 연결하는 연결선마다 하나씩 존재하는 값이고, 편향치는 각 뉴런마다 하나씩 존재하는 값이다. 가중치는 뉴런과 뉴런 사이의 연결 강도를 의미하는 것이라 볼 수 있고, 편향치는 각 뉴런의 활성화 정도를 나타내는 값이라 볼 수 있다.
CNN 알고리즘은 도 6과 같이 단순한 구조로 되어 있는 것은 아니지만, 각 층에 노드(뉴런)들이 존재하고 이웃한 층의 노드들이 연결되어 있는 것은 같다. 여기서도 노드간 연결마다 가중치가 있고 노드마다 편향치가 있다.
딥 러닝에서 학습을 진행할 때 학습 데이터를 입력해서 가중치와 편향치를 통해 계산이 이루어진 후, 최종 출력값을 해당 학습 데이터의 정답(라벨링된 값)과 비교해서 오차함수(비용함수)를 계산한 다음, 역전파 학습을 통해 가중치와 편향치를 업데이트하게 된다.
모델에 따라 다르지만 한 모델당 수 만개 이상의 가중치와 편향치가 존재하는데 이는 모두 모델 내부의 값이고, 학습하면서 알고리즘에 의해 자동으로 정해지기 때문에 외부에서 이 값들을 확인하거나 간섭할 수는 없다. 따라서, 가중치와 편향치를 업데이트한다는 의미는 모델의 학습을 진행한다는 것과 동일한 의미라고 할 수 있다.
이상의 설명과 같이, 본 발명에 따른 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 시스템 및 방법은, 차량 내외부의 마이크로부터 획득되는 1차원 음원 데이터를 2차원 데이터로 변환하여 사전에 학습된 음원 분류 모델을 이용하여 음원을 판단하고, 판단 결과 획득된 음원과 음원 분류 모델에 의해 분류된 음원과의 오차가 허용 오차 범위를 벗어나는 경우 경고를 해줌으로써, 운전자가 차량의 고장 또는 외부의 위험을 인지하여 미리 대처할 수 있는 장점이 있다.
또한, 점진적 머신 러닝 기법을 이용함에 따라 본 발명의 음원 인식 시스템을 사용할수록 차량에서 수집되는 음원에 대한 분류를 정확하게 할 수 있고, 수집된 데이터를 활용하여 주변 환경에 대한 정보를 고정밀도로 도출할 수 있는 장점이 있다.
이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
100:(본 발명)점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 시스템
110: 복수의 마이크 120: 임베디드 단말
120m: 음원 분류 모델 130: 표시부(차량 계기판)

Claims (5)

  1. 차량의 내부 및 외부에 각각 설치되며, 차량의 외부 객체로부터 발생하는 소리의 음원과 차량의 내부에서 발생하는 소리의 음원을 각각 획득하는 복수의 마이크;
    차량의 내부에 설치되어 상기 복수의 마이크와 각각 전기적으로 연결되며, 상기 복수의 마이크를 통해 획득된 음원을 멜-스펙트로그램(Mel-Spectrogram)으로 변환하고, 상기 변환된 음원 데이터를 사전에 학습된 음원 분류 모델을 이용하여 분류한 후, 상기 획득된 음원과 상기 음원 분류 모델에 의해 분류된 음원과의 오차가 허용 오차 범위를 벗어나는지 판별하여, 상기 획득된 음원과 상기 분류된 음원과의 오차가 허용 오차 범위를 벗어나는 경우, 표시부에 경고를 표시하고 상기 획득된 음원을 분류 결과로 라벨링해 데이터화하며, 상기 음원을 분류한 결과를 상기 표시부를 통해 실시간으로 표시하고, 상기 라벨링된 데이터가 일정량 누적되면 배치(batch) 학습을 진행하여 상기 음원 분류 모델의 가중치와 편향치를 업데이트하는 임베디드 단말; 및
    상기 임베디드 단말로부터의 명령에 따라 경고를 표시함과 아울러 음원을 분류한 결과를 실시간으로 표시하는 표시부를 포함하는 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 시스템.
  2. 제1항에 있어서,
    상기 임베디드 단말이 상기 마이크를 통해 1차원 음원 데이터를 획득하고, 획득된 1차원 음원 데이터를 멜-스펙트로그램(Mel-Spectrogram)으로 2차원 이미지 데이터로 변환하며, 상기 변환된 음원 데이터를 음원 분류 모델을 이용하여 분류함에 있어서, 상기 변환된 2차원 이미지 데이터를 바탕으로 상기 음원 분류 모델로서의 CNN(Convolutional Neural Network) 알고리즘을 이용하여 소리의 종류를 분류하는 것을 특징으로 하는 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 시스템.
  3. a) 차량 내부에 설치된 임베디드 단말이 차량 내외부에 설치된 마이크를 통해 음원을 획득하고, 획득된 음원을 멜-스펙트로그램(Mel-Spectrogram)으로 변환하는 단계;
    b) 상기 임베디드 단말이 상기 변환된 음원 데이터를 사전에 학습된 음원 분류 모델을 이용하여 분류한 후, 상기 획득된 음원과 상기 음원 분류 모델에 의해 분류된 음원과의 오차가 허용 오차 범위를 벗어나는지 판별하는 단계;
    c) 상기 판별에서, 상기 획득된 음원과 상기 분류된 음원과의 오차가 허용 오차 범위를 벗어나는 경우, 상기 임베디드 단말이 표시부에 경고를 표시하고 상기 획득된 음원을 분류 결과로 라벨링해 데이터화하는 단계;
    d) 상기 임베디드 단말이 상기 음원을 분류한 결과를 상기 표시부를 통해 실시간으로 표시하는 단계; 및
    e) 상기 임베디드 단말이 상기 라벨링된 데이터가 일정량 누적되면 배치 (batch) 학습을 진행하여 상기 음원 분류 모델의 가중치와 편향치를 업데이트하는 단계를 포함하는 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 방법.
  4. 제3항에 있어서,
    상기 단계 a)에서 상기 임베디드 단말이 상기 마이크를 통해 1차원 음원 데이터를 획득하고, 획득된 1차원 음원 데이터를 멜-스펙트로그램(Mel-Spectrogram)으로 2차원 이미지 데이터로 변환하는 것을 특징으로 하는 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 방법.
  5. 제3항에 있어서,
    상기 단계 b)에서 상기 임베디드 단말이 상기 변환된 음원 데이터를 음원 분류 모델을 이용하여 분류함에 있어서, 상기 변환된 2차원 이미지 데이터를 바탕으로 상기 음원 분류 모델로서의 CNN(Convolutional Neural Network) 알고리즘을 이용하여 소리의 종류를 분류하는 것을 특징으로 하는 점진적 머신 러닝 기법을 이용한 CNN 기반 음원 인식 방법.
KR1020220113925A 2022-09-08 2022-09-08 점진적 머신 러닝 기법을 이용한 cnn 기반 음원 인식 시스템 및 방법 KR20240035003A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220113925A KR20240035003A (ko) 2022-09-08 2022-09-08 점진적 머신 러닝 기법을 이용한 cnn 기반 음원 인식 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220113925A KR20240035003A (ko) 2022-09-08 2022-09-08 점진적 머신 러닝 기법을 이용한 cnn 기반 음원 인식 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20240035003A true KR20240035003A (ko) 2024-03-15

Family

ID=90272982

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220113925A KR20240035003A (ko) 2022-09-08 2022-09-08 점진적 머신 러닝 기법을 이용한 cnn 기반 음원 인식 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20240035003A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118248155A (zh) * 2024-05-27 2024-06-25 武汉凌久微电子有限公司 一种基于risc-v平台的实时音频预处理与分类方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220102946A (ko) 2021-01-14 2022-07-21 주식회사 엘지유플러스 비언어적 음성에 기초한 음성 인식 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220102946A (ko) 2021-01-14 2022-07-21 주식회사 엘지유플러스 비언어적 음성에 기초한 음성 인식 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118248155A (zh) * 2024-05-27 2024-06-25 武汉凌久微电子有限公司 一种基于risc-v平台的实时音频预处理与分类方法

Similar Documents

Publication Publication Date Title
US20200118358A1 (en) Failure diagnosis method for power train components
US11443747B2 (en) Artificial intelligence apparatus and method for recognizing speech of user in consideration of word usage frequency
KR102227489B1 (ko) 음원 시각화 장치 및 방법
CN107305772B (zh) 用于提供声音检测信息的方法、装置及包括该装置的车辆
US20200005795A1 (en) Device and method for providing voice recognition service based on artificial intelligence
US9311930B2 (en) Audio based system and method for in-vehicle context classification
CN107176123B (zh) 声音检测信息提供方法、车辆周围声音检测装置及车辆
US11769508B2 (en) Artificial intelligence apparatus
US10647332B2 (en) System and method for natural-language vehicle control
US11810575B2 (en) Artificial intelligence robot for providing voice recognition function and method of operating the same
CN111051171A (zh) 对自主车辆的内部的异常的检测
KR20240035003A (ko) 점진적 머신 러닝 기법을 이용한 cnn 기반 음원 인식 시스템 및 방법
US20220324470A1 (en) Monitoring of an ai module of a vehicle driving function
CN115470835A (zh) 用于调谐在机器学习算法内使用的机器学习分类器的超声波系统和方法
Czyżewski et al. Application of autoencoder to traffic noise analysis
US20220397666A1 (en) Ultrasonic system and method for classifying obstacles using a machine learning algorithm
US11211079B2 (en) Artificial intelligence device with a voice recognition
US20180336913A1 (en) Method to improve temporarily impaired speech recognition in a vehicle
KR20210077036A (ko) 차량의 위급 상황 판단 장치 및 방법
KR20240082718A (ko) 청각 정보기반 차량 상황 판단 방법
WO2023144573A1 (ja) 音声認識方法及び音声認識装置
EP4258009A1 (en) Scene classification method, apparatus and computer program product
WO2021111544A1 (ja) 運転支援装置および運転支援方法
KR102567152B1 (ko) 차량의 장애물 인식 속도 평가 시스템 및 장애물 출현 장치
KR102575325B1 (ko) 차량의 장애물 인식 속도 평가 시스템

Legal Events

Date Code Title Description
E902 Notification of reason for refusal