KR20070018611A - 항해기록저장장치의 사고분석용 음원분리장치 - Google Patents

항해기록저장장치의 사고분석용 음원분리장치 Download PDF

Info

Publication number
KR20070018611A
KR20070018611A KR1020050073463A KR20050073463A KR20070018611A KR 20070018611 A KR20070018611 A KR 20070018611A KR 1020050073463 A KR1020050073463 A KR 1020050073463A KR 20050073463 A KR20050073463 A KR 20050073463A KR 20070018611 A KR20070018611 A KR 20070018611A
Authority
KR
South Korea
Prior art keywords
sound source
audio data
matrix
inverse matrix
signals
Prior art date
Application number
KR1020050073463A
Other languages
English (en)
Inventor
박창선
이보인
명희철
최호웅
Original Assignee
현대중공업 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대중공업 주식회사 filed Critical 현대중공업 주식회사
Priority to KR1020050073463A priority Critical patent/KR20070018611A/ko
Publication of KR20070018611A publication Critical patent/KR20070018611A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 항해기록저장장치의 사고분석용 음원분리장치에 관한 것으로서, 특히 서로다른 음성신호가 혼재되어있는 오디오데이타로부터 행렬로 표현되는 목수음성신호의 선형결합계수에 대한 역행렬을 계산하여 오디오데이타에 포함되어있는 서로다른 음성신호를 분리하는 음원분리수단을 구성하므로서, 항해기록장치에 보관된 여러신호들이 섞인 형태인 불명확한 음성신호를 개개의 독자적인 신호로 분리하여 개개인의 음성을 좀더 명확하게 해석할 수 있고, 이를통해 사고의 원인을 보다 정확하게 판단할 수 있도록 한 항해기록저장장치의 사고분석용 음원분리장치에 관한 것이다.
항해기록저장장치, 음원분리수단, 믹서, 언믹싱 매트릭스부, 신호분리부

Description

항해기록저장장치의 사고분석용 음원분리장치{Blind source separation device}
도 1 은 본 발명의 항해기록저장장치의 사고분석용 음원분리장치를 보인 블럭도.
도 2 는 본 발명의 음원분리방법을 설명하기 위한 도면.
도 3 은 본 발명에 적용된 음원분리수단의 구성을 보인 블럭도.
*도면의 주요부분에 대한 부호의 설명*
1: VDR, 2: 재생기,
3: 음원분리수단, 4: 믹서,
5: 언믹싱 매트릭스부, 6: 신호분리부,
본 발명은 항해기록저장장치의 사고분석용 음원분리장치에 관한 것으로서, 특히 항해기록장치에 보관된 여러신호들이 섞인 형태인 불명확한 음성신호를 개개의 독자적인 신호로 분리하여 개개인의 음성을 좀더 명확하게 해석할 수 있고, 이를통해 사고의 원인을 보다 정확하게 판단할 수 있도록 한 항해기록저장장치의 사 고분석용 음원분리장치에 관한 것이다.
일반적으로 항해기록저장장치(Voyage Data Recorder : VDR)는 선박의 운항정보를 12시간 이상 보관하여 운항중에 발생할 수 있는 사고의 원인을 사후에 판단할 수 있도록 하는 장비이다.
상기와같이 VDR에 기록된 오디오 데이타를 분석하는 것이 사고의 원인을 분석할때 많은 도움을 줄 수 있게된다.
그러나, VDR에 기록 저장되는 오디오 데이타는 여러사람들의 음성들과 선박의 엔진 잡음 등이 섞여 쉽게 분석할 수 없는 신호가 될 수 있으며, 이러한 이유로 인해 VDR에 기록된 오디오 데이타를 정확하게 분석하지 못하여 선박사고의 원인을 밝혀내지 못하는 문제점이 발생하고 있었다.
따라서, 상기 문제점을 해결하기 위한 본 발명은 서로다른 음성신호가 혼재되어있는 오디오데이타로부터 행렬로 표현되는 목수음성신호의 선형결합계수에 대한 역행렬을 계산하여 오디오데이타에 포함되어있는 서로다른 음성신호를 분리하는 음원분리수단을 구성하므로서, 항해기록장치에 보관된 여러신호들이 섞인 형태인 불명확한 음성신호를 개개의 독자적인 신호로 분리하여 개개인의 음성을 좀더 명확하게 해석할 수 있고, 이를통해 사고의 원인을 보다 정확하게 판단할 수 있도록 한 항해기록저장장치의 사고분석용 음원분리장치를 제공함을 목적으로 한다.
이하, 첨부된 도면 도 1 내지 도 3 을 참조하여 본 발명의 바람직한 실시예 를 설명하면 다음과 같다.
상기 목적달성을 위한 본 발명은,
VDR(1)로부터 재생된 오디오데이타로부터 개개인의 음성신호를 분리하는 장치에 있어서,
서로다른 음성신호가 혼재되어있는 오디오데이타를 입력받고, 행렬로 표현되는 복수음성신호의 선형결합계수(A)에 대한 역행렬(W)을 구하여 오디오 데이타오 포함되어있는 서로 다른 음성신호를 분리하는 음원분리수단(3)을 포함하는 것을 특징으로 한다.
상기 음원분리수단(3)은,
서로다른 음원신호가 혼재된 오디오데이타를 믹싱하는 믹서(4)와;
상기 믹서(4)에서 출력된 오디오데이타로부터 복수 음성신호의 선형결합상태에 대한 역행렬(W)을 구하는 언믹싱매트릭스부(5)와;
오디오데이타에 역행렬(W)을 대입하여 오디오데이타로부터 각각의 음성신호를 분리하는 신호분리부(6); 로 구성된 것을 특징으로 한다.
상기 언믹싱 매트릭스부(5)는 역행렬(W)을 임의의 초기값으로 셋팅하여 신호분리부에 공급하고, 일정주기마다 역행렬(W)값을 얻데이트하여 역행렬(W)이 선형결합계수(A)의 역행렬값에 수렴하도록 하는 것을 특징으로 한다.
이와같이 구성된 본 발명의 동작을 설명하면 다음과 같다.
VDR(1)에 저장되어있는 오디오데이타는 TCP/IP 네트웍을 통해 재생기(2)로 공급되고, 재생기(2)로 공급된 오디오데이타는 재생되어 음원분리수단(3)으로 공급 된다.
상기 음원분리수단(3)의 믹서(4)는 재생기(2)로부터 공급된 오디오 데이타를 입력받고, 언믹싱 매트릭스부(5)는 오디오데이타로부터 복수의 음성신호의 선형결합상태에 대한 역행렬(W)값으로 임의의 초기값으로 셋팅하여 신호분리부(6)에 공급하고, 신호분리부(6)는 공급된 역행렬(W)을 대입하여 오디오데이타로부터 각각의 음성신호를 분리하게되는데, 이때 상기 언믹싱 매트릭스부(5)에서 공급된 초기 역행렬(W)이 선형결합계수(A)의 역행렬에 수렴하지 않은 상태이므로 정상적인 각각의 음성신호를 분리하지 못하게된다.
이에따라, 신호분리부(6)에서 분리된 신호는 다시 언믹싱 매트릭스부(5)로 피드백되고, 언믹싱 매트릭스부(5)는 다시 역행렬(W)을 새로이 업데이트하여 신호분리부(6)로 공급하여 신호분리가 이루어지도록 하며, 이러한 언믹싱 매트릭스부(5)의 역행렬(W) 업데이트가 반복적으로 실시됨에 따라 역행렬(W)값이 선형결합계수(A)의 역행렬에 수렴하게되어 비로서 오디오데이타에 혼재되어있는 각각의 음성신호를 분리해낼 수 있게되는 것이다.
상기 설명과같은 본 발명의 동작에 대한 근본적인 원리를 설명하면 다음과같다.
본 발명은 오디오데이타에 혼재되어있는 개개인의 음성신호를 분리하는 것, 즉, 미지신호분리(Blind source separation)이다.
도 2 와같이 미지신호로서 두명의 화자(s1,s2)가 이야기를 하고있고 두대의 마이크(x1,x2)가 설치되어 있다고 가정했을때 화자 1 과 화자 2 가 만들어내는 음성신호는 마이크 1(x1) 과 마이크 2(x2)에 섞여서 동시에 음원분리수단(3)에 입력된다.
하지만 두 마이크에 입력된 신호는 화자와 마이크의 우치에 따라 각기 다른 값을 가지게 될 것이며, 이는 수식적으로 수학식1과 같이 표현된다.
x1 = a11s1 + a12s2
x2 = a21s1 + a22s2
즉, 마이크에 입력된 신호는 두 화자신호의 선형결합형태로 나타나게되고 이는 다음과 같이 행렬로 표현된다.
x = A·s
Figure 112005044178935-PAT00001
,
Figure 112005044178935-PAT00002
,
Figure 112005044178935-PAT00003
미지신호분리의 목적은 섞인 신호 x 만으로 원신호 s 를 복원하는 것이기 때문에 위의 수학식2에서 선형결합계수 A 의 역행렬을 찾으면 원신호 s 를 복원할 수 있게된다.
하지만 신호가 섞인 환경을 모르기 때문에 선형결합계수 A를 알 수 없다.
따라서, 선형결합계수 A의 역행렬인 W 를 구할 수 없게된다.
이때 원신호들이 서로 통계적으로 독립이라는 사실을 이용한다. 즉, 통계적 독립성을 측정하는 합수를 설정한 다음 그 함수를 최대로 하는 W를 반복적으로 찾도록 하는 것이다.
여기서 통계적 독립성을 측정하는 함수로서 상호정보(Mutual information)를 이용한다.
상호정보는 여러개의 벡터 사이의 연관 정도를 나타내는 척도중의 하나로써 간단하게 두 벡터 y1 과 y2 사이의 상호정보는 다음의 수학식3과 같이 표현된다.
Figure 112005044178935-PAT00004
여기서 f(x)는 x의 확률밀도함수를 나타낸다.
상호정보는 엔트로피(Entropy)에서 유도된 함수로써 Entropy는 다음과 같이 수학식4로 정의된다.
Figure 112005044178935-PAT00005
따라서, 수식적으로 I(y1,y2)는 다음과 같이 수학식5로 표현될 수 있다.
Figure 112005044178935-PAT00006
위의 수학식3에서 알 수 있듯이 I(y1,y2)는 항상 양의 값을 가지게되고 y1 과 y2 가 서로 독립일때에는 0 이 된다.
즉, 분리된 신호들 사이의 상호 독립값이 최소가 되도록, 즉 결합 entropy H(y1,y2)가 최대가 되도록 역행렬 W를 반복적으로 찾으면 된다.
이는 다음의 수학식6과 수학식7과 같이 널리 알려진 Gradient ascent 알고리즘으로 반복적으로 구할 수 있다.
Figure 112005044178935-PAT00007
Figure 112005044178935-PAT00008
즉, 처음에 역행렬 W 를 임의의 값으로 초기화를 시킨 후 매 시간마다 역행렬 W를 업데이트 해 줌으로써 결국에는 역행렬 W 가 선형결합계수 A의 역행렬에 수렴하게되므로 오디오 데이타에 혼재되어 있는 각각의 음성신호를 분리할 수 있게되 는 것이다.
본 발명에 적용된 언믹싱매트릭스부(5)는 상기한 수학식6과 수학식7을 이용하여 주기별로 시간 t 를 업데이트하여 역행렬(W)를 업데이트하여 신호분리부(6)로 공급함에 따라 상기 언믹싱매트릭스부(5)에서 업데이트되는 역행렬(W)이 선형결합계수 A의 역행렬에 수렴할때 비로서 신호분리부(6)에서 음성신호가 분리되는 것이다.
이상에서 설명한 바와같이 본 발명은 서로다른 음성신호가 혼재되어있는 오디오데이타로부터 행렬로 표현되는 목수음성신호의 선형결합계수에 대한 역행렬을 계산하여 오디오데이타에 포함되어있는 서로다른 음성신호를 분리하는 음원분리수단을 구성하므로서, 항해기록장치에 보관된 여러신호들이 섞인 형태인 불명확한 음성신호를 개개의 독자적인 신호로 분리하여 개개인의 음성을 좀더 명확하게 해석할 수 있고, 이를통해 사고의 원인을 보다 정확하게 판단할 수 있도록 한 항해기록저장장치의 사고분석용 음원분리장치를 제공하는 효과를 기대할 수 있다.

Claims (3)

  1. VDR(1)로부터 재생된 오디오데이타로부터 개개인의 음성신호를 분리하는 장치에 있어서,
    서로다른 음성신호가 혼재되어있는 오디오데이타를 입력받고, 행렬로 표현되는 복수음성신호의 선형결합계수(A)에 대한 역행렬(W)을 구하여 오디오 데이타오 포함되어있는 서로 다른 음성신호를 분리하는 음원분리수단(3)을 포함하는 것을 특징으로 하는 항해기록저장장치의 사고분석용 음원분리장치.
  2. 제 1 항에 있어서, 상기 음원분리수단(3)은,
    서로다른 음원신호가 혼재된 오디오데이타를 믹싱하는 믹서(4)와;
    상기 믹서(4)에서 출력된 오디오데이타로부터 복수 음성신호의 선형결합상태에 대한 역행렬(W)을 구하는 언믹싱매트릭스부(5)와;
    오디오데이타에 역행렬(W)을 대입하여 오디오데이타로부터 각각의 음성신호를 분리하는 신호분리부(6); 로 구성된 것을 특징으로 하는 항해기록저장장치의 사고분석용 음원분리장치.
  3. 제 2 항에 있어서,
    상기 언믹싱 매트릭스부(5)는 역행렬(W)을 임의의 초기값으로 셋팅하여 신호분리부에 공급하고, 일정주기마다 역행렬(W)값을 얻데이트하여 역행렬(W)이 선형 결합계수(A)의 역행렬값에 수렴하도록 하는 것을 특징으로 하는 항해기록저장장치의 사고분석용 음원분리장치.
KR1020050073463A 2005-08-10 2005-08-10 항해기록저장장치의 사고분석용 음원분리장치 KR20070018611A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050073463A KR20070018611A (ko) 2005-08-10 2005-08-10 항해기록저장장치의 사고분석용 음원분리장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050073463A KR20070018611A (ko) 2005-08-10 2005-08-10 항해기록저장장치의 사고분석용 음원분리장치

Publications (1)

Publication Number Publication Date
KR20070018611A true KR20070018611A (ko) 2007-02-14

Family

ID=43651942

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050073463A KR20070018611A (ko) 2005-08-10 2005-08-10 항해기록저장장치의 사고분석용 음원분리장치

Country Status (1)

Country Link
KR (1) KR20070018611A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650946B (zh) * 2009-09-07 2011-12-07 哈尔滨工程大学科技园发展有限公司 应用于航行数据记录仪的音频采集卡的音频压缩方法
KR101225932B1 (ko) * 2009-08-28 2013-01-24 포항공과대학교 산학협력단 음악 음원 분리 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101225932B1 (ko) * 2009-08-28 2013-01-24 포항공과대학교 산학협력단 음악 음원 분리 방법 및 장치
CN101650946B (zh) * 2009-09-07 2011-12-07 哈尔滨工程大学科技园发展有限公司 应用于航行数据记录仪的音频采集卡的音频压缩方法

Similar Documents

Publication Publication Date Title
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
US6862359B2 (en) Hearing prosthesis with automatic classification of the listening environment
Zhao et al. Audio recording location identification using acoustic environment signature
EP3257044B1 (en) Audio source separation
KR101280253B1 (ko) 음원 분리 방법 및 그 장치
US9734842B2 (en) Method for audio source separation and corresponding apparatus
JP6622159B2 (ja) 信号処理システム、信号処理方法およびプログラム
CN102047693A (zh) 具有反馈消除的音频系统
JPWO2011064938A1 (ja) 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
EP1568013B1 (en) Method and system for separating plurality of acoustic signals generated by plurality of acoustic sources
Stern et al. Multiple approaches to robust speech recognition
JP7176627B2 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
US20180308502A1 (en) Method for processing an input signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
KR20070018611A (ko) 항해기록저장장치의 사고분석용 음원분리장치
US20180075863A1 (en) Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream
Scheibler et al. Multi-modal blind source separation with microphones and blinkies
WO2012023268A1 (ja) 多マイクロホン話者分類装置、方法およびプログラム
US11862141B2 (en) Signal processing device and signal processing method
JP2005196020A (ja) 音声処理装置と方法並びにプログラム
JP2004509364A (ja) 音声認識システム
CN110675890B (zh) 声音信号处理装置以及声音信号处理方法
Sen Predicting foreground SH, SL and BNH DAM scores for multidimensional objective measure of speech quality
Ohlenbusch et al. Modeling of Speech-dependent Own Voice Transfer Characteristics for Hearables with In-ear Microphones
Gburrek et al. On source-microphone distance estimation using convolutional recurrent neural networks
JPWO2009087923A1 (ja) 信号分析制御、信号分析、信号制御のシステム、装置、方法及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application