KR20120097296A - 다중화자의 다채널 음성신호로부터 음원분리를 통한 로봇청각시스템 및 방법 - Google Patents

다중화자의 다채널 음성신호로부터 음원분리를 통한 로봇청각시스템 및 방법 Download PDF

Info

Publication number
KR20120097296A
KR20120097296A KR1020110016798A KR20110016798A KR20120097296A KR 20120097296 A KR20120097296 A KR 20120097296A KR 1020110016798 A KR1020110016798 A KR 1020110016798A KR 20110016798 A KR20110016798 A KR 20110016798A KR 20120097296 A KR20120097296 A KR 20120097296A
Authority
KR
South Korea
Prior art keywords
speaker
robot
sound source
sound
speech signals
Prior art date
Application number
KR1020110016798A
Other languages
English (en)
Inventor
곽근창
Original Assignee
곽근창
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 곽근창 filed Critical 곽근창
Priority to KR1020110016798A priority Critical patent/KR20120097296A/ko
Publication of KR20120097296A publication Critical patent/KR20120097296A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

본 발명은 다중화자의 동시발생 음성신호의 다중음원에 대한 분리방법으로 로봇에 부착된 다채널 음원보드과 원형 마이크로폰 어레이로부터 취득된 다중화자의 동시발생 음성신호로부터 분석되어진다. 먼저, 혼합된 음성신호로부터 수정된 부공간분석기법에 의해 각 화자의 방향과 거리를 추정하고, 이러한 정보에 기반하여 수정된 최소분산 빔포밍방법에 의해 음원을 분리한다. 이렇게 분리된 음성정보로부터 각 화자의 위치와 방향을 알고, 화자가 누구이며 무슨 명령을 내리고 있는지의 통합 로봇청각시스템을 구현한다. 또한, 음성신호만에 의한 화자추적을 할 경우 음성이 발성되지 않은 구간에 대해서는 화자 추적이 어려우므로 로봇카메라에 얻어진 영상과 결합한 멀티모달 화자추적을 수행한다.

Description

다중화자의 다채널 음성신호로부터 음원분리를 통한 로봇청각시스템 및 방법 {Robot auditory system through sound separation from multi-channel speech signals of multiple speakers}
본 발명은 지능형 서비스 로봇환경에서 로봇핵심 응용기술인 시청각기반 인간-로봇 상호작용기술 가운데 다중화자의 동시발생 음성에 대해서 음원분리기 및 그에 따른 로봇청각시스템에 관한 것으로 상세하게는 로봇환경에서 획득한 다채널 음성신호로부터 수정된 부공간 분석방법에 의한 다중 음성들의 방향과 거리를 추정하고, 얻어진 방향과 거리정보에 근거하여 수정된 최소분산 빔포밍에 의해 음원들을 분리하며, 최종적으로 분리된 음성으로부터 음성 인식과 화자추적 및 화자인식을 하는 통합 로봇청각시스템에 관한 것이다.
다중화자의 동시발성 음성에 대한 음원추적 및 음원분리 기술과 음성인식, 화자추적 및 인식을 포함한 통합 로봇 청각시스템은 맞춤형 로봇 서비스 응용에 활용될 수 있으며, 차세대 지능형 로봇산업을 이끌어갈 로봇전문 기술인력을 양성할 수 있을 뿐만 아니라 후속연구를 파생시킬 수 있다. 기술의 응용방법으로는 홈서비스 로봇, 교육 및 오락로봇, u-헬스 로봇 등과 같은 서비스로봇뿐만 아니라 다양한 신호처리관련 응용분야에 적용이 가능하다.
국외 배경기술로 도시바는 호출하는 화자에게 로봇의 머리를 회전하는 음원추적기술을 보유하고 있지만 현재 음원을 분리하는 기술은 연구되고 있지 않고 있다. NEC는 각 화자의 헤드셋을 통해 얻어진 입력 신호를 분리하고 분리된 음성을 통해 인식을 수행하는 제한된 음원분리 기술을 보유하고 있지만, 실제 로봇환경에서 화자가 헤드셋을 부착하기에는 어려운 문제점이 있다. 혼다는 호출음성을 듣고 음원추적을 수행하고 얼굴인식을 통해 사용자가 누구인지 알아낼 수 있지만, 다중화자의 동시발성 음성에 대한 음원분리 기술은 보유하고 있지 않고 있다. 교토대학은 음원분리를 통해 간단한 숫자 혹은 명령어 음성인식을 수행하고 있지만, 음성을 발성한 각 화자가 누구인지 알 수 있는 화자인식 기술은 보유하고 있지 않고 있다. MIT는 오감기반 지능적 상호작용을 할 수 있는 로봇 등에 대한 연구를 수행하고 있으며, 모터 소음을 피하기 위해 각 화자의 입 근처에 부착된 싱글 마이크로폰을 이용하고 있기 때문에 다채널을 통한 음원분리 기술은 포함하고 있지 않은 실정이다. 현재 미국과 유럽은 다양한 형태의 지능형 서비스 로봇을 위해 인간-로봇 상호작용 관련 기술개발 및 연구가 활발히 진행 중이지만 상용화 수준에 이르지 못하고 있으며, 다중화자의 동시발성 음성에 대한 음원추적 및 분리기술은 일본에 비해 연구가 미진한 실정이다.
국내배경기술로는 로봇환경에서 음원분리에 대한 초기연구가 있었지만 기초적인 연구만을 수행하고, 지속적으로 연구가 진행되지 않았으며, 일부 연구자들에 의해 BSS(Blind Source Separation)연구가 진행되고 있지만, 지능형 로봇에서 음원분리 기술을 성공적으로 적용한 사례가 없다.
본 발명은 로봇응용 서비스를 수행하기 위해 여러 명이 로봇주위에서 동시에 발성한 다채널 음성신호로부터 음원추적 및 음원분리를 수행하고, 분리된 음성으로부터 음성인식, 화자추적 및 화자인식을 통한 통합 로봇청각시스템 및 방법을 제공하고자 하는 것을 목적으로 한다. 이렇게 함으로써, 인간친화적인 청각시스템을 통해 로봇주위에 있는 화자의 거리, 방향 등을 알고, 화자가 누구인지 무슨 명령을 하고 있는지를 알 수 있어 맞춤형 로봇 응용서비스를 수행할 수 있다.
상기 목적을 달성하기 위한 본 발명의 음원 분리기는 로봇에 장착된 원형 마이크로폰 어레이로부터 다중화자의 다채널 음성신호들을 획득하는 입력수단; 수정된 부공간 분석방법에 의한 다중 음성들의 방향과 거리를 추정하고, 얻어진 방향과 거리정보에 근거하여 수정된 최소분산 빔포밍에 의해 분리된 음성신호의 분석수단을 포함하여 구성될 수 있다.
본 발명의 실시예에 따른 음원분리 및 로봇청각시스템은 다채널 음성신호를 입력받아 음성을 검출하는 단계; 검출된 음성신호에서 부공간 분석방법에 의한 방향과 거리를 계산하는 단계; 수정된 최소분산 빔포밍 방법에 의해 음원을 분리하는 단계; 분리된 음원으로부터 음성인식을 수행하는 단계; 분리된 음성신호로부터 화자를 인식하고 추적하는 단계; 로봇카메라에 의한 화자추적 보정단계를 포함하여 구성될 수 있다.
본 발명에 따른 음원분리기 및 통합 로봇청각시스템을 통해 다중화자의 동시발생 음성신호로부터 음원추적을 수행하여 각 화자의 방향 및 위치를 추적하고, 이 정보에 근거하여 각 화자의 음성들을 분리하여 각 화자가 로봇에게 무슨 명령을 하고 있는지를 알 수 있다. 또한, 로봇 주위에 있는 각 화자가 누구이며 어떤 방향과 위치에서 음성을 발생하였는지와 어떤 방향과 경로를 통해 이동하고 있는지를 알 수 있는 다중 화자추적을 동시에 수행할 수 있는 이점을 가지고 있다.
도 1은 본 발명의 실시예에 따른 다중화자의 동시발성 음성신호에 대한 음원분리기의 신호흐름을 도시한 블록도이다.
도 2는 본 발명의 실시예에 따른 다중화자의 동시발성 음성신호에 대한 음원분리 및 통합 로봇청각시스템의 각 단계를 도시한 순서도이다.
첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 살펴본다. 도 1은 본 발명의 실시예에 따른 다중화자의 다채널 음성신호로부터 음원분리를 통한 로봇청각시스템의 신호흐름을 도시한 블록도이다.
상기 실시예에 따른 음원분리기는 다채널 음원보드와 마이크로폰으로부터 다중화자의 동시발생 음성신호를 획득하는 입력수단(10)과 수정된 부공간분석기법에 의해 화자의 방향과 거리를 추정하고, 수정된 최소분산 빔포밍방법에 의해 음원을 분리하기 위한 분석수단(20)을 포함하여 구성된다.
도 2는 본 발명의 실시예에 따른 다중화자의 동시발성 음성신호에 대한 음원분리와 그에 따른 통합 로봇청각시스템의 각 단계를 도시한 순서도이다. 상기 실시예에 따른 음원분리는 입력수단(10)에서 서비스로봇에 장착된 다채널 음원보드로부터 얻어진 음성신호를 입력받는 것으로 시작된다(S201).
다채널기반 음성신호처리 기술의 음원파형은 평면 파형으로 다루어지기 때문에, 다채널기반 음성신호처리는 좀 더 간단하고 쉽게 수행된다. 그러나, 서비스 로봇환경에서 실제 화자들은 마이크로폰 배열근처인 로봇주위에서 종종 대화를 한다. 음원소스가 마이크로폰 배열 근처에 있을 때, 음성 필드는 근거리 필드로 다루어져야만 한다. TV 컨퍼런스에서 개발되어지는 것과 같은 대규모 마이크로폰 배열에 대해서, 근거리 필드 설계는 마이크로폰 사이의 위상 차이의 변동이 크기 때문에 상대적으로 쉽다. 이 경우에 전형적인 DSBF(delay-and-sum beamformer)방법은 잘 작동한다. 한편, 서비스 로봇에서 사용하는 소규모 마이크로폰 배열에 대해서는 위상차이의 변동이 적기 때문에 다채널기반 음성신호처리를 어렵게 만든다. 고성능 다채널 음성신호처리기술로써 알려진 부공간 분석의 수정된 방법(MSA: Modified Subspace Analysis)이 근거리 필드에서 음원추적에 대해 적용되어진다. 이렇게 수정된 방법에 의해, 근거리 필드에서 다중화자의 동시발성 음성소스에 대해 방향과 거리를 동시에 추정할 수 있다. 다음 단계는 음원소스의 추정된 위치정보에 근거로 해서, 공간 역 필터가 다중음원으로부터 오는 신호들을 분리할 수 있는 수정된 최소분산 빔포밍(MMSB: Modified Minimum Variance Beamforming)을 이용함으로써 설계되어진다. 다중화자의 동시발성 음성에 대한 음원추적 및 분리 기술에 대해서 간략히 살펴보면 다음과 같다.
원거리 필드문제에 대해서 발전된 일반적인 부공간 어레이 처리기술을 먼저 살펴보면, 공간 상관 행렬은 각 주파수에서 독립적으로 정의되어진다.
Figure pat00001
는 m번째 마이크로폰에서 입력신호의 단구간 푸우리에 변환을 나타내며, k는 주파수 지수이며 M은 마이크로폰의 수이다. 입력벡터가 다음 모델을 만족한다고 가정하면 수학식 1과 같이 정의되어진다.
수학식 1
Figure pat00002
Figure pat00003
Figure pat00004
벡터 는 d번째 소스에 대한 위치벡터이며, 근거리 필드에서 이 벡터는 수학식 2와 같이 표현되어진다.
수학식 2
Figure pat00005
Figure pat00006
Figure pat00007
은 각각 d번째 소스부터 m번째 마이크로폰까지 거리와 전파시간이며, 는 이산치 각 주파수,
Figure pat00008
는 d번째 소스의 주파수 스펙트럼이다.
Figure pat00009
는 m번째 마이크로폰에서 관측된 배경잡음의 스펙트럼을 나타낸다.
공간 상관행렬
Figure pat00010
의 고유치 분해는 수학식 3과 같으며,
Figure pat00011
는 고유벡터 행렬을 나타내고, 그것의 열은 의 고유벡터로 구성된다. 행렬 는 고유 행렬이며, 그것들의 대각성분은
Figure pat00012
의 고유치로 구성된다.
수학식3
Figure pat00013
Figure pat00014

SNR이 높고 배경잡음이 방향성이 없다고 가정하면, 방향성의 신호에너지는 D개의 가장 큰 고유치로 집중되며, 배경잡음의 에너지는 모든 고유치에 대해 균등하게 펼쳐진다. 또한, 가장 큰 D개의 고유치에 대응하는 고유벡터는 위치벡터에 의해 스팬된 부공간의 기저가 된다. 나머지 고유벡터는 신호 부공간의 직교 부공간의 기저가 된다. 이것에 의해 스팬된 공간은 잡음 부공간이다. 직교성을 이용함으로써, 공간 스펙트럼은 수학식 4에 의해 추정되어진다.
수학식 4
Figure pat00015
Figure pat00016

벡터
Figure pat00017
는 임의의 방향벡터이며, 전체방향에 대해 스팬되어진다.
Figure pat00018
가 소스 방향벡터의 하나와 매치될 때
Figure pat00019
의 피크값을 주면서 직교성으로 인해 0이 된다. 부공간방법을 소규모 어레이를 가진 근거리 필드문제에 적용하는 것에 대해서, 방향벡터 는 수학식 5와 같이 정규화된 위치 벡터에 의해 표현되어진다.
수학식 5
Figure pat00020
Figure pat00021
Figure pat00022

벡터
Figure pat00023
는 포인트
Figure pat00024
에 대한 위치벡터이며,
Figure pat00025
Figure pat00026
Figure pat00027
에서의 포인트로부터 m번째 마이크로폰까지 전파시간과 거리이다.
이렇게 함으로써 음원소스의 방향뿐만 아니라 거리를 추정할 수 있다. 음원분리에 대해서 MMVB에 의해 공간 역 필터가 설계된다. 여기서 공간 역 필터는 추정된 위치정보로부터 구축되어진다. 만약
Figure pat00028
Figure pat00029
가 상관관계가 없다고 가정하면, 공간 상관행렬은 수학식 6과 같이 표현되어진다.
수학식 6
Figure pat00030
Figure pat00031
Figure pat00032
직접적으로
Figure pat00033
의 추정을 이용하는 것 대신에 본 과제에서는 가상 상관행렬을 사용하는 수정된 방법이 적용되어진다. Q는 방향요소를 추출하는 공간 역 필터의 구축에 사용되며, 행렬
Figure pat00034
는 음원추적에 의해 추정되어진 위치벡터이다. 대각행렬
Figure pat00035
는 음원소스의 가상 상호 스펙트럼 행렬이고, 그것의 대각요소들은 가상적인 방향 음원들의 전력 스펙트럼에 대응한다. 대각 요소들은 역 필터의 파라미터들이며 원하는 방향성 패턴을 얻기 위해 임의로 선택되어진다. 이와 관련된 내용은 수학식 7과 같다.
수학식7
Figure pat00036
Figure pat00037
Figure pat00038

한편,
Figure pat00039
는 시스템에 대해 DSBF와 같은 방향성을 더함으로써 방향성이 없는 배경 잡음이 줄어든다.
Figure pat00040
는 가상 배경잡음의 상관행렬이고
Figure pat00041
에 대응되어진다.
Figure pat00042
는 가상 노이즈의 파워를 나타내며, 임의로 선택되어질 수 있는 시스템 파라미터이다.
Figure pat00043
를 이용함으로써, d번째 소스에 대한 음원소스 전력 스펙트럼은 수학식 8과 같이 추정되어진다.
수학식 8
Figure pat00044
Figure pat00045
마지막으로 얻어진 음원 분리된 신호를 가지고 통합 로봇청각시스템인 음성인식과 화자인식 및 추적을 수행한다. 최종적으로 음성신호만에 의한 화자추적을 할 경우 음성이 발성되지 않은 구간에 대해서는 추적이 어려우므로 로봇카메라에 의한 영상과 결합한 멀티모달 형태의 화자추적이 수행된다.

Claims (3)

  1. 로봇에 부착된 다채널 음원보드와 원형 어레이 마이크로폰을 통해 얻어진 다중화자의 동시발생 음성신호로부터 수정된 부공간분석에 의해 화자의 방향과 거리를 추정하고, 수정된 최소분산 빔포밍방법에 의해 음원을 분리하는 방법
  2. 분리된 음성정보로부터 각 화자의 위치와 방향을 알고, 화자가 누구이며 무슨 명령을 내리고 있는지의 통합 로봇청각시스템을 구현하는 방법
  3. 음성신호만에 의한 화자추적을 할 경우 음성이 발성되지 않은 구간에 대해서는 추적이 어려우므로 로봇카메라에 얻어진 영상과 결합한 멀티모달 형태의 화자를 추적하는 방법
KR1020110016798A 2011-02-24 2011-02-24 다중화자의 다채널 음성신호로부터 음원분리를 통한 로봇청각시스템 및 방법 KR20120097296A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110016798A KR20120097296A (ko) 2011-02-24 2011-02-24 다중화자의 다채널 음성신호로부터 음원분리를 통한 로봇청각시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110016798A KR20120097296A (ko) 2011-02-24 2011-02-24 다중화자의 다채널 음성신호로부터 음원분리를 통한 로봇청각시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20120097296A true KR20120097296A (ko) 2012-09-03

Family

ID=47108679

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110016798A KR20120097296A (ko) 2011-02-24 2011-02-24 다중화자의 다채널 음성신호로부터 음원분리를 통한 로봇청각시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20120097296A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108663654A (zh) * 2018-06-26 2018-10-16 哈尔滨工程大学 一种基于连续量子鸽群的360度全方位动态测向方法
JP2019066339A (ja) * 2017-10-02 2019-04-25 株式会社日立製作所 音による診断装置、診断方法、および診断システム
CN110211600A (zh) * 2019-05-17 2019-09-06 北京华控创为南京信息技术有限公司 用于定向监听通信的智能麦克风阵列模块
WO2022065934A1 (ko) * 2020-09-28 2022-03-31 주식회사 아모센스 음성 처리 장치 및 이의 작동 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019066339A (ja) * 2017-10-02 2019-04-25 株式会社日立製作所 音による診断装置、診断方法、および診断システム
CN108663654A (zh) * 2018-06-26 2018-10-16 哈尔滨工程大学 一种基于连续量子鸽群的360度全方位动态测向方法
CN108663654B (zh) * 2018-06-26 2022-03-18 哈尔滨工程大学 一种基于连续量子鸽群的360度全方位动态测向方法
CN110211600A (zh) * 2019-05-17 2019-09-06 北京华控创为南京信息技术有限公司 用于定向监听通信的智能麦克风阵列模块
CN110211600B (zh) * 2019-05-17 2021-08-03 北京华控创为南京信息技术有限公司 用于定向监听通信的智能麦克风阵列模块
WO2022065934A1 (ko) * 2020-09-28 2022-03-31 주식회사 아모센스 음성 처리 장치 및 이의 작동 방법

Similar Documents

Publication Publication Date Title
Okuno et al. Robot audition: Its rise and perspectives
EP2984852B1 (en) Method and apparatus for recording spatial audio
EP3320692B1 (en) Spatial audio processing apparatus
Perotin et al. Multichannel speech separation with recurrent neural networks from high-order ambisonics recordings
Nakadai et al. Design and Implementation of Robot Audition System'HARK'—Open Source Software for Listening to Three Simultaneous Speakers
US20080270131A1 (en) Method, preprocessor, speech recognition system, and program product for extracting target speech by removing noise
CN110379439B (zh) 一种音频处理的方法以及相关装置
US20220408180A1 (en) Sound source localization with co-located sensor elements
Wang et al. Robust TDOA Estimation Based on Time-Frequency Masking and Deep Neural Networks.
Wang et al. On spatial features for supervised speech separation and its application to beamforming and robust ASR
Taghizadeh et al. An integrated framework for multi-channel multi-source localization and voice activity detection
Kentgens et al. Translation of a higher order ambisonics sound scene based on parametric decomposition
CN109859749A (zh) 一种语音信号识别方法和装置
US11496830B2 (en) Methods and systems for recording mixed audio signal and reproducing directional audio
TW202147862A (zh) 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法
Salvati et al. Beamforming-based acoustic source localization and enhancement for multirotor UAVs
KR20120097296A (ko) 다중화자의 다채널 음성신호로부터 음원분리를 통한 로봇청각시스템 및 방법
Corey et al. Motion-tolerant beamforming with deformable microphone arrays
Okuno et al. Robot audition: Missing feature theory approach and active audition
Abutalebi et al. Performance improvement of TDOA-based speaker localization in joint noisy and reverberant conditions
Nakadai et al. Exploiting auditory fovea in humanoid-human interaction
Pasha et al. A survey on ad hoc signal processing: Applications, challenges and state-of-the-art techniques
Togami et al. DOA estimation method based on sparseness of speech sources for human symbiotic robots
Sawada et al. Improvement of speech recognition performance for spoken-oriented robot dialog system using end-fire array
Ogawa et al. Speech enhancement using a square microphone array in the presence of directional and diffuse noise

Legal Events

Date Code Title Description
A201 Request for examination
E601 Decision to refuse application