KR100827080B1 - 사용자 인식 기반의 빔 포밍 장치 및 방법 - Google Patents

사용자 인식 기반의 빔 포밍 장치 및 방법 Download PDF

Info

Publication number
KR100827080B1
KR100827080B1 KR1020070002507A KR20070002507A KR100827080B1 KR 100827080 B1 KR100827080 B1 KR 100827080B1 KR 1020070002507 A KR1020070002507 A KR 1020070002507A KR 20070002507 A KR20070002507 A KR 20070002507A KR 100827080 B1 KR100827080 B1 KR 100827080B1
Authority
KR
South Korea
Prior art keywords
user
feature information
voice signal
recognition
speaker
Prior art date
Application number
KR1020070002507A
Other languages
English (en)
Inventor
김현수
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020070002507A priority Critical patent/KR100827080B1/ko
Application granted granted Critical
Publication of KR100827080B1 publication Critical patent/KR100827080B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 사용자 인식 기반의 빔 포밍 장치 및 방법을 제공한다. 이를 위해 본 발명에서는, 통상적인 방법에 따라 1차 빔을 형성하여 사용자의 음성 신호를 비롯한 음향 신호를 수신하고, 수신된 음향 신호로부터 음성 신호를 추출 및 각각의 음성 신호들로 분리한 다음 각 음성 신호 별로 사용자 인식을 수행한다. 그리고 해당 음성 신호 중 기 등록된 사용자의 음성 신호가 포함되어 있는 경우 해당 사용자의 위치를 측정한다. 그리고 측정된 위치에 따라 상기 사용자가 위치한 방향으로 상기 1차 빔보다 빔폭이 훨씬 더 협소한 2차 빔을 형성한다. 그리고 2차 빔을 통해 수신된 사용자의 음성에 따라 지정된 동작을 수행한다. 따라서 본 발명은 주변 잡음을 제거하여 기 등록된 사용자의 음성 신호를 보다 효과적으로 입력받을 수 있다는 효과가 있다.
Figure R1020070002507
빔 포밍 장치, 빔 포밍, 음성 신호, 음성 인터페이스

Description

사용자 인식 기반의 빔 포밍 장치 및 방법{USER RECOGNITION BASE BEAM FORMING APPARATUS AND METHOD}
도 1은 본 발명의 실시 예에 따른 음성 신호 빔 포밍 장치에서 1, 2차 빔이 형성되는 예를 도시한 예시도,
도 2는 본 발명의 실시 예에 따른 음성 신호 빔 포밍 장치의 블록 구성을 도시한 예시도,
도 3은 본 발명의 실시 예에 따른 음성 신호 빔 포밍 장치에서 사용자 인식 여부에 따라 빔을 형성하는 동작 과정을 도시한 흐름도,
도 4는 본 발명의 실시 예에 따른 음성 신호 빔 포밍 장치에서 사용자 인식을 수행하는 동작 과정의 상세한 예를 도시한 예시도,
도 5는 본 발명의 실시 예에 따른 음성 신호 빔 포밍 장치에서 사용자 위치 이동에 따라 사용자 추종을 수행하는 동작 과정을 도시한 예시도,
도 6은 본 발명의 실시 예에 따른 음성 신호 빔 포밍 장치에서 사용자가 변경되는 경우의 동작 예를 도시한 흐름도.
본 발명은 음성 인터페이스(Interface)에 대한 것으로, 특히 음성 신호의 입력에 있어 원하는 방향으로 고지향성을 나타내도록 하는 빔 포밍 장치 및 방법에 대한 것이다.
일반적으로 로봇(Robot)등에 사용자가 의사를 전달하기 위해 음성 인터페이스가 사용될 수 있다. 이러한 음성 인터페이스를 위해 음성 신호를 전기적 신호로 변환하여 로봇이 인지하고 그 내용을 분석할 수 있도록 하는 장치가 마이크로폰이다.
이러한 음성 신호의 입력시, 마이크로폰이 음성 신호가 입력되는 방향을 통해 특정 지향성을 형성한다면, 주위의 환경에서 발생하는 원하는 않는 소음의 입력을 배제할 수 있을 것이다. 고지향성을 가진 하나의 마이크로폰으로도 이러한 기능을 수행할 수 있으나, 여러 개의 마이크로폰을 배열하여 어레이(Array)를 형성하면 사용 목적에 알맞은 형태의 지향적 특성을 자유롭게 얻을 수 있는 장점을 가진다.
일반적으로 빔 포밍(Beam-forming) 기술은 이러한 마이크로폰 어레이를 이용하여 마이크로폰 어레이로부터 원하는 방향으로 고지향성을 나타내도록 하는 목적으로 이용된다. 빔 포밍을 통해 지향성이 잘 형성되면, 그 빔 외부의 방향들로부터 입력되는 음성신호는 자동적으로 감쇠되며, 관심 있는 방향으로부터 오는 음성신호를 선택적으로 취득하여 원하는 목적에 사용할 수 있다. 이러한 기술로 인해, 마이크로폰 어레이는 주변 잡음(실내의 컴퓨터 팬 소음, TV소리 등)과 및 (가구 및 벽 등의 사물로부터 반사되어 나오는) 반향파들의 부분을 억제할 수 있으므로, 관심 방향의 빔으로부터 발생하는 사운드 신호들에 대해 더 높은 SNR(signal to noise ratio)을 얻을 수 있다. 따라서 빔 포밍은 "빔"을 음원에 포인팅하고 다른 방향들로부터 입력되는 모든 신호를 억제하는 공간 필터링(spatial filtering)에서 중요한 역할을 한다.
그러나 통상적인 빔 포밍 방법은, 단지 에너지가 가장 큰 부분에 빔을 형성하여 입력을 받아들임으로써, 주변 잡음을 제거하는 기능만을 가지고 있었다. 따라서 원하는 사용자 보다 큰 소리를 내는 다른 사람이나 다른 물체가 있는 경우 이로부터 발생하는 소리를 그대로 받아들이기 때문에, 정작 원하는 사용자의 음성 입력은 받지 못한다는 문제점이 있다.
그러므로 본 발명의 목적은, 주변 잡음이 심한 상태에서도 사용자의 음성 신호를 보다 정확하게 입력받을 수 있도록 하는 빔 포밍 장치 및 빔 포밍 방법을 제공함에 있다.
상술한 목적을 달성하기 위한 본 발명의 빔 포밍 장치는, 음성 신호를 수신하기 위한 1차 빔 및 2차 빔을 형성하는 빔 형성부와, 상기 1차 빔으로부터 적어도 한명의 발성자로부터 발성된 음성 신호를 포함하는 음향 신호를 수신하는 음성 신호 수신부와, 상기 수신된 음향 신호로부터 상기 음성 신호를 추출하고, 분리된 음 성 신호를 각 발성자 별로 분리하는 음성 신호 분리부와, 상기 분리된 음성 신호에 각각에 대응되는 발성자 별로 기 등록된 사용자인지 여부를 판단하여 사용자 인식을 수행하는 사용자 인식부와, 상기 발성자가 기 등록된 사용자인 경우, 상기 인식된 사용자 별로 각 사용자의 위치를 측정하는 위치 측정부와, 상기 1차 빔을 통해 상기 음향 신호를 수신하도록 상기 빔 형성부를 제어하고, 상기 음성 신호 수신부 및 음성 신호 분리부, 사용자 인식부, 그리고 위치 측정부를 제어하여 1차 빔을 통해 수신된 음향 신호 중 기 등록된 사용자의 음성 신호가 포함되어 있는지 여부를 판단 및 현재 인식된 각 사용자의 위치를 측정하도록 하고, 각 사용자의 측정된 위치에 따른 방향으로 2차 빔을 형성하도록 상기 빔 형성부를 제어하여 상기 2차 빔을 통해 기 등록된 사용자의 음성 신호가 수신될 수 있도록 하는 제어부를 포함한다.
또한 빔 포밍 방법은, 적어도 하나 이상의 발성자로부터 발성된 음성 신호를 포함하는 음향 신호가 수신되는 방향으로 1차 빔을 형성하는 1차 빔 형성 단계와, 상기 1차 빔을 통해 상기 음향 신호를 수신하는 음향 신호 수신 단계와, 상기 수신된 음향 신호로부터 상기 음성 신호가 포함되어 있는지 여부를 판단하고, 상기 음성 신호가 포함된 경우 상기 발성자 별로 음성 신호를 분리하는 음성 신호 분리 단계와, 상기 분리된 음성 신호에 각각 대응되는 발성자들이 기 등록된 사용자인지 여부를 판단하여 사용자 인식을 수행하는 사용자 인식 단계와, 상기 사용자 인식 결과, 기 등록된 사용자로 인식된 발성자가 있는 경우 상기 인식된 사용자들 각각의 위치를 측정하는 위치 측정 단계와, 상기 측정된 위치에 따라 상기 인식된 사용 자들 각각에 따른 방향으로 2차 빔을 형성하는 2차 빔 형성 단계와, 상기 2차 빔을 통해 현재 인식된 사용자들의 음성 신호를 수신하는 음성 신호 수신 단계를 포함한다.
이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 도면들 중 동일한 구성 요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의하여야 한다. 하기 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
먼저 본 발명의 완전한 이해를 돕기 위해, 본 발명의 기본 원리를 설명하면, 본 발명에서는, 빔 포밍 장치가 통상적인 방법에 따라 1차 빔을 형성하여 사용자의 음성 신호를 비롯한 음향 신호를 수신하고, 수신된 음향 신호로부터 음성 신호를 추출 및 각각의 음성 신호들로 분리한 다음 각 음성 신호 별로 사용자 인식을 수행한다. 그리고 해당 음성 신호 중 기 등록된 사용자의 음성 신호가 포함되어 있는 경우 해당 사용자의 위치를 측정한다. 그리고 측정된 위치에 따라 상기 사용자가 위치한 방향으로 상기 1차 빔보다 빔폭이 훨씬 더 협소한 2차 빔을 형성한다. 그리고 2차 빔을 통해 수신된 사용자의 음성에 따라 지정된 동작을 수행한다.
도 1은 이러한 본 발명의 실시 예에 따른 음성 신호 빔 포밍 장치에서 1, 2차 빔이 형성되는 예를 도시한 예를 도시한 도면이다. 도 1은 이러한 본 발명의 실시 예에따른 음성 신호 빔 포밍 장치가 로봇(100)에 구비된 예를 가정한 것이다.
도 1을 참조하여 살펴보면, 사용자(110)가 오디오 스피커(106), 텔레비전(108)이 있는 위치에서 본 발명의 실시 예에 따른 빔 포밍 장치를 구비한 로 봇(100)을 호출한 경우, 본 발명의 실시 예에 따른 빔 포밍 장치(112)는 도 1에서 보이고 있는 바와 같이 오디오 스피커(106), 텔레비전(108)에서 발생하는 주변 잡음 및 사용자(110)의 음성 신호를 포함하는 1차 빔(102)을 형성한다. 그리고 현재 형성된 1차 빔(102)으로부터 수신된 음향 신호로부터 음성 신호를 분리한다. 따라서 이러한 경우 사람의 목소리에 해당되지 않는 주변잡음들은 제거될 수 있다.
그리고 본 발명의 실시 예에 따른 빔 포밍 장치(112)는 분리된 음성 신호 중에 기 등록된 사용자(110)의 음성 신호가 포함되어 있는 경우, 초음파 및 적외선 등의 방법을 이용하여 현재 사용자(110)의 위치를 측정한다. 그리고 상기 음성 신호가 입사된 입사각 및 현재 측정된 사용자의 위치에 따라 상기 1차 빔(102)보다 훨씬 빔폭이 협소한 2차 빔(104)을 형성한다. 이에 따라 본 발명의 실시 예에 따른 빔 포밍 장치(112)는 상기 도 1에서 보이고 있는 바와 같이, 2차 빔(104)을 통해 오디오 스피커(106) 및 텔레비전(108)에서 발생하는 주변 잡음이 포함되지 않고 사용자(110)의 음성 신호만을 수신할 수 있다. 따라서 본 발명의 실시 예에 따른 빔 포밍 장치는 보다 효과적으로 주변 잡음이 제거하고 사용자의 음성 신호를 입력받을 수 있다.
도 2는 이러한 본 발명의 실시 예에 따른 빔 포밍 장치의 구성을 도시하고 있는 도면이다.
도 2를 참조하여 살펴보면, 본 발명의 실시 예에 따른 빔 포밍 장치는 제어부(200)와 제어부(200)에 연결된 메모리부(202), 음성 신호 수신부(204), 사용자 인식부(206), 빔 형성부(208), 사용자 위치 측정부(210)를 포함한다. 여기서 제어 부(200)는 빔 포밍 장치의 각 부분을 구동시키기 위한 프로토콜에 따라 입력되는 데이터들을 처리 및 해당되는 구성 요소에 인가하고, 빔 포밍 장치(112)의 각 구성 요소를 제어한다. 그리고 사용자(110)의 위치 및 사용자(110)의 음성 신호가 입사된 각도에 따라 2차 빔(104)을 형성하고, 형성된 2차 빔(104)을 통해 사용자(110)의 음성 신호를 수신한다.
그리고 제어부(200)와 연결되는 음성 신호 분리부(216)는 제어부(200)의 제어에 따라 1차 빔(102)을 통해 수신된 음향 신호 중에 적어도 한 명이상의 발성자로부터 발성된 음성 신호가 포함되어 있는지 여부를 판단한다. 그리고 음성 신호가 포함되어 있는 경우 이를 각각의 발성자 별로 분리하여 제어부(200)로 인가한다.
그리고 사용자 인식부(206)는 상기 1차 빔(102)을 통해 수신된 음향 신호 중에 음성 신호가 포함되어 있는 경우, 상기 제어부(200)로부터 상기 음성 신호를 인가받고 상기 음성 신호에 대응되는 발성자가 기 등록된 사용자인지 여부를 판단한다. 여기서 사용자 인식부(206)는 영상 인식부(218) 또는 화자 인식부(220) 중 적어도 하나 이상을 구비하여, 영상 인식 방법 또는 화자 인식 방법 중 적어도 하나를 통해 사용자를 인식할 수 있다. 예를 들어 만약 사용자 인식부(206)가 영상 인식 방법을 사용하여 사용자를 인식하는 경우라면, 사용자 인식부(206)는 카메라등과 같은 이미지 촬상 장치를 포함하는 영상 인식부(218)를 통해 상기 음성에 대응되는 발성자가 기 등록된 사용자인지 여부를 판단한다. 그리고 화자 인식 방법을 사용하여 사용자를 인식하는 경우라면, 사용자 인식부(206)는 상기 수신된 음성 신호로부터 특징 벡터를 추출하기 위한 음성 인식 모듈등을 포함하는 화자 인식 부(220)를 통해 상기 음성에 대응되는 발성자가 기 등록된 사용자인지 여부를 판단한다. 그리고 상기 영상 인식 결과 또는 화자 인식 결과를 제어부(200)에 반환한다. 여기서 본 발명의 실시 예에 따른 사용자 인식부(206)는 보안 등의 용도로 사용되는 것과 같이 엄격한 임계치를 사용하여 등록자와 비등로자 여부를 판단할 필요는 없으며, 다만 기 등록자 중 특징 정보와 매칭되는 비율이 가장 높은 사용자를 찾을 수 있는 정도면 충분하다.
그리고 제어부(200)에 연결된 사용자 위치 측정부(210)는, 상기 영상 인식 결과 또는 음성 인식 결과, 1차 빔(102)을 통해 수신된 음성 신호 중에 기 등록된 사용자의 음성 신호가 포함되어 있다고 판단된 경우, 상기 제어부(200)의 제어에 따라 상기 음성 신호에 대응되는 사용자의 위치를 판단한다. 여기서 사용자 위치 측정부(210)가 사용자의 위치를 판단하기 위해서는 여러 가지 방법을 사용할 수 있다. 예를 들어 수신된 음성 신호의 에너지 크기를 기반으로 하는 방법(예 Steered Response Power : SRP) 또는 다채널 마이크를 이용하여 반향 신호의 도착 지연 시간을 이용한 방법(예 Generalized Cross Correlation : GCC) 및 고해상도 스펙트럼 추정을 이용한 방법(예 Multiple Signal Classification : MUSIC)등을 이용할 수 있으며, 또한 각각의 사용자마다 고유의 RFID(Radio Frequency Identification) 칩을 가지고 있는 경우 상기 RFID를 이용한 방법을 통해 사용자의 위치를 측정할 수 있다. 그리고 사용자 위치 측정부(210)는 상기 측정된 사용자 위치를 제어부(200)에 반환한다. 그리고 사용자 위치 측정부(210)는 지속적으로 사용자의 위치를 측정하여 제어부(200)에 그 결과를 인가한다.
그리고 빔 형성부(208)는 상기 제어부(200)의 제어에 따라 1차 빔(102)을 형성하고, 상기 제어부(200)의 제어에 따라 상기 1차 빔(102)보다 빔폭이 훨씬 협소한 2차 빔(104)을 형성한다. 여기서 빔 형성부(208)는 상기 제어부(200)의 제어에 따라 현재 측정된 사용자 위치에 따른 방향 및 상기 사용자의 음성 신호가 입삭된 각도에 따라 2차 빔(104)을 형성한다. 따라서 상기 빔 형성부(208)에서 형성되는 2차 빔(104)은 상기 도 1에서 보이고 있는 바와 같이 사용자(110)의 음성 신호가 입력되는 방향 및 각도에 따라 집중되도록 형성되므로 1차 빔(102)을 통해 사용자(110)의 음성 신호와 같이 수신되던 주변 잡음[오디오 스피커(106), 텔레비전(108)으로부터의 음향 신호]을 제거할 수 있다는 효과가 있다.
상기한 제어부(200)와 연결되는 메모리부(202)는 롬(ROM: Read Only Memory), 플래시 메모리(Flash memory), 램(RAM: Random Access Memory) 등으로 구성된다. 그리고 메모리부(202)는 제어부(200)의 처리 및 제어를 위한 프로그램과 각종 참조 데이터를 저장한다. 그리고 메모리부(202)는 제어부(200)의 워킹 메모리(working memory)를 제공하며, 갱신 가능한 각종 보관용 데이터를 저장하기 위한 영역을 제공한다.
또한 본 발명의 실시 예에 따른 메모리부(202)는 빔 포밍 장치(112)에 기 설정된 사용자 인식 방법이 사용자의 어떤 특징을 사용하는지에 따라, 각 사용자들의 특징 정보인 사용자 인식 정보들이 저장되는 저장 영역과, 기 등록된 사용자의 음성이 인식된 경우 인식된 사용자의 위치를 측정하기 위해 사용되는 위치 측정 정보가 저장되는 저장 영역을 포함한다. 이하 이처럼 상기 사용자들의 특징 정보들인 사용자 인식 정보들이 저장되는 저장 영역을 사용자 인식 정보 저장부(212)라고 칭하기로 한다. 그리고 상기 인식된 사용자의 위치를 측정하기 위해 사용되는 위치 측정 정보가 저장되는 저장 영역을 위치 측정 정보 저장부(214)라고 칭하기로 한다.
예를 들어 본 발명의 실시 예에 따른 빔 포밍 장치에서 사용되는 사용자 인식 방법은 상술한 바와 같이 촬상된 이미지를 기반으로, 사용자를 인식하는 영상 인식 방법 또는 수신된 음성 신호로부터 특정 사용자의 특징점을 추출하여 사용자를 인식하는 화자 인식 방법등이 사용될 수 있다. 그리고 상기 영상 인식 방법으로서는 얼굴 인식 방법이 일반적으로 사용될 수 있으나, 얼굴 인식 방법의 경우 사용자의 얼굴 이미지가 기 설정된 거리 내에서 또는 기 설정된 각도 내에서 촬상되어야 한다는 한계가 있으므로, 이를 보완하기 위해 옷 색상을 이용하는 방법 또는 오메가 모양의 영상 인식 방법 등이 보조적으로 사용될 수 있다. 그리고 화자 인식 방법으로서는 등록된 사용자의 음성 특징 벡터와 수신된 음성 신호의 음성 특징 벡터를 비교하는 방법등이 사용될 수 있다.
여기서 상기 얼굴 인식 방법이라는 것은, 사용자의 얼굴 이미지를 촬상하고, 촬상된 이미지로부터 얼굴 영역을 검출하여, 검출된 얼굴 영역으로부터 특징을 추출한 후 이를 등록된 사용자의 얼굴 특징과 비교하는 방법을 말하는 것이다. 이에 따라 본 발명의 실시 예에 따른 사용자 인식 방법이 얼굴 인식 방법일 경우, 상기 사용자 인식 정보 저장부(212)에서는 각 등록된 사용자들의 얼굴 특징 정보들이 저장된다. 또한 본 발명의 실시 예에 따른 빔 포밍 장치(112)가 옷 색상을 이용하는 방법 또는 오메가 모양의 영상 인식 방법 등을 보조적으로 사용하는 경우라면, 본 발명의 실시 예에 따른 빔 포밍 장치(112)는 일차적으로 사용자 인식이 완료된 경우 사용자의 옷 색상 또는 오메가 모양의 영상을 사용자 인식 정보로 추가적으로 저장한다. 그리고 촬상 이미지로부터 얼굴 인식이 불가능할 경우, 촬상 이미지로부터 옷 색상 및 오메가 모양의 영상에 관련된 정보를 추가적으로 추출하여 이를 이용하여 사용자 인식을 수행한다. 여기서 상기 오메가 모양의 영상이라는 것은 사용자의 머리에서 양 어깨에 해당되는 오메가(Ω) 모양의 영상 이미지를 말하는 것이다.
그리고 음성 신호 수신부(204)는 마이크로폰부(222)와 사용자 추종부(224)를 포함하여 구성된다. 여기서 마이크로폰부(222)는 빔 형성부(208)로부터 형성된 빔을 통해 음향 신호를 수신하고 이를 제어부(200)에 인가한다. 이러한 마이크로폰부(222)는 상술한 바와 같이 적어도 하나 이상의 마이크로폰이 어레이 형태로 구비될 수 있다.
또한 본 발명의 실시 예에 따른 빔 포밍 장치(112)는 사용자 추종부(224)를 구비할 수 있다 여기서 사용자 추종부(224)라는 것은 말 그대로 사용자를 추종하기 위한 것이다. 이는 본 발명의 실시 예에 따른 빔 포밍 장치(112)가 특정 사용자의 음성 신호가 입력되는 방향 및 각도에 따라 2차 빔을 형성하기 때문에 만약 사용자(110)의 위치가 이동되어 현재 형성된 2차 빔(104)의 범위를 벗어나게 되는 경우 사용자(110)의 음성 신호 역시 현재 제거된 주변 잡음들과 마찬가지로 제거될 수 있기 때문이다. 따라서 본 발명의 실시 예에 따른 빔 포밍 장치(112)의 사용자 위 치 측정부(210)는 상술한 바와 같이 이미 사용자 인식이 완료되었다고 하더라도 지속적으로 인식된 사용자의 위치를 측정하여 그 결과를 제어부(200)에 인가한다. 이에 따라 제어부(200)는 사용자의 위치가 이동되었는지 여부를 판단할 수 있고, 사용자의 위치가 이동된 경우, 이동된 사용자의 위치에 따라 새로운 2차 빔을 형성하기 때문이다.
이러한 경우 본 발명의 실시 예에 따른 빔 포밍 장치(112)를 구비한 로봇(100)이 청소 로봇과 같이 이동이 가능할 로봇인 경우라면, 상기 사용자의 이동에 따라 이동하며 상기 사용자의 음성 신호를 더욱 효과적으로 수신할 수 있다. 이러한 경우 상기 사용자의 위치 이동에 따른 사용자 추종을 하기 위한 것이 바로 상기 사용자 추종부(224)이다. 또한 만약 상기 본 발명의 실시 예에 따른 빔 포밍 장치(112)가 이동 가능한 이동부를 구비하고 있는 경우 상기 제어부(200)이 상기 이동부를 직접 제어하여 상기 사용자 위치 이동에 따라 빔 포밍 장치(112)가 이동되도록 제어할 수도 있음은 물론이다.
또한 비록 상기 로봇(100)이 이동가능하지 않은 경우라고 할지라도, 때로는 상기 사용자(110)가 이동된 위치가 현재 마이크로폰부(224)가 향하고 있는 방향에 적절하지 않은 경우일 수 있다. 예를 들어 마이크로폰 어레이는 일반적으로 마이크로폰 어레이에서 정면으로 향하는 90도 부근이 음성 신호의 이득이 최대가 되는 방향이라고 알려져 있다. 따라서 만약 마이크로폰부(222)의 방향을 변경하는 것이 가능한 구조라면, 상기 사용자 추종부(224)는 상기 마이크로폰부(222)에서 수신되는 음성 신호의 이득을 극대화시키기 위해 상기 사용자(110)의 이동에 따라 상기 마이 크로폰부(222)의 방향을 변경시키기 위해 사용될 수도 있음은 물론이다. 따라서 본 발명은 주변 잡음을 제거하여 기 등록된 사용자의 음성 신호를 보다 효과적으로 입력받을 수 있으며, 또한 사용자가 이동한다 하더라도 이동된 사용자의 위치에 따라 사용자를 추종하여 음성 신호의 수신 효율을 증가시킬 수 있다는 효과가 있다.
도 3은 이러한 본 발명의 실시 예에 따른 음성 신호 빔 포밍 장치에서 사용자 인식 여부에 따라 빔을 형성하는 동작 과정을 도시한 도면이다.
도 3을 참조하여 살펴보면, 본 발명의 실시 예에 따른 빔 포밍 장치(112)의 제어부(200)는 전원이 입력되는 경우, 300단계로 진행하여 음향 신호가 수신되는 방향으로 1차 빔(102)을 형성한다. 그리고 제어부(200)는 302단계로 진행하여 현재 형성된 1차 빔(102)을 통해 음향 신호를 수신하고, 수신된 음향 신호에 음성 신호가 포함되어 있는지 여부를 판단한다. 그리고 음성 신호가 포함되어 있는 경우 이를 분리한다.
그리고 만약 두명 이상의 발성자로부터 음성 신호가 수신된 경우라면, 제어부(200)는 306단계로 진행하여 각각의 음성 신호에 대한 사용자 인식을 수행한다. 여기서 사용자 인식은 상술한 바와 같이 영상 인식 방법 또는 화자 인식 방법이 사용될 수 있다. 이하 도 4에서 이러한 본 발명의 실시 예에 따라 영상 인식 방법 또는 화자 인식 방법을 통해 상기 각각의 음성 신호에 대응되는 사용자를 인식하는 과정을 자세히 살펴보기로 한다.
그러나 만약 304단계의 판단 결과 1차 빔(102)의 범위에서 감지된 음성이 한명인 경우라면, 제어부(200)는 316단계로 진행하여 현재 음성에 따한 사용자 인식 을 수행한다. 여기서 상기 수신된 하나의 음성에 대한 사용자 인식을 수행하는 과정은 상기 306단계에서 다수의 음성 신호 중 어느 하나의 음성 신호에 대한 사용자 인식을 수행하는 과정과 유사하다.
한편 상기 306단계 또는 316단계에서 사용자 인식이 완료된 경우, 제어부(200)는 308단계로 진행하여 상기 사용자 인식 결과, 상기 형성된 빔 범위에서 수신된 음성 신호 중에 기 등록된 사용자의 음성 신호가 포함되어 있는지 여부를 판단한다. 여기서 만약 상기 1차 빔(102)을 통해 수신된 음성 신호 중에 기 등록된 사용자의 음성 신호가 포함되어 있지 않은 경우라면 제어부(200)는 다시 300단계로 진행하여 음향 신호가 수신되는 방향으로 다시 1차 빔(102)을 형성하고, 상기 1차 빔을 통해 수신된 음향 신호로부터 음성 신호가 있는지 여부를 판단 및 음성 신호가 포함되어 있는 경우 이를 분리하는 302단계에서 304단계에 이르는 과정을 수행한다. 그리고 304단계의 판단 결과에 따라 306단계 또는 310단계를 다시 수행하여 308단계로 진행한다.
그러나 만약 상기 308단계에서 기 등록된 사용자의 음성 신호가 포함되어 있는 경우라면, 제어부(200)는 309단계로 진행하여 사용자 위치 측정부(210)를 통해 현재 인식된 사용자의 위치를 측정한다. 여기서 상기 사용자의 위치를 측정하기 위해서는 상술한 바와 같이 수신된 음성 신호의 에너지 크기를 기반으로 하는 방법, 반향 신호의 도착 지연 시간을 이용한 방법, 고해상도 스펙트럼 추정을 이용한 방법 및 RFID를 이용한 방법 등을 사용할 수 있다. 그리고 측정된 현재 인식된 사용자의 위치를 제어부(200)에 인가한다.
그리고 현재 인식된 사용자의 위치가 측정되면 제어부(200)는 310단계로 진행하여 현재 인식된 사용자의 방향에 따라 2차 빔(104)을 형성한다. 그리고 제어부(200)는 312단계로 진행하여 상기 2차 빔(104)을 통해 사용자의 음성 신호를 수신한다. 이에 따라 본 발명의 실시 예에 따른 빔 포밍 장치(112)는 등록된 사용자가 주변 잡음이 심한 곳에 위치하고 있을 경우라도, 상기 사용자의 음성 신호만을 집중적으로 수신할 수 있도록 하는 2차 빔(104)을 형성하여 상기 주변 잡음을 제거할 수 있으므로, 더욱 효과적으로 기 등록된 사용자의 음성 신호만을 효과적으로 수신할 수 있다.
또한 상기 본 발명의 실시 예에 따른 빔 포밍 장치(112)는 상기 수신된 음성 신호를 로봇(100)의 제어부에 전달하고 수신된 음성 신호에 따라 로봇(100)이 동작할 수 있도록 한다. 그러나 만약 현재 인식된 사용자의 수가 다수인 경우라면, 빔 포밍 장치(112)는 상기 인식된 사용자들 각각의 기 설정된 우선 순위에 따라 상기 음성 신호들의 우선 순위를 설정하여 로봇(100)에 상기 음성 신호들을 인가할 수 있다. 그러면 로봇(100)의 제어부는 상기 우선 순위가 높은 음성 신호에 따라 동작할 수 있다.
그리고 상기 312단계는 사용자 위치 이동에 따른 사용자 추종 및 현재 인식된 사용자의 변경이 필요한 경우, 변경된 사용자에 따른 사용자 재인식을 수행하는 과정을 더 포함할 수 있다. 이하 도 5 및 도 6에서 상기 사용자 추종 및 상기 사용자 변경에 따른 사용자 재인식을 수행하는 과정을 더욱 자세히 살펴보기로 한다.
도 4는 상술한 바와 같이 상기 306단계에서 본 발명의 실시 예에 따른 음성 신호 빔 포밍 장치에서 사용자 인식을 수행하는 동작 과정의 상세한 예를 도시한 도면이다.
도 4를 참조하여 살펴보면, 본 발명의 실시 예에 따른 제어부(200)는 상기 304단계에서 두명 이상의 발성자로부터의 음성 신호들을 수신한 경우, 400단계로 진행하여 상기 1차 빔(102)으로부터 수신된 음향신호로부터 분리된 음성 신호들 중 어느 하나를 선택한다. 그리고 402단계로 진행하여 현재 설정된 사용자 인식 방법이 영상 인식 방법인지, 화자 인식 방법인지 여부를 체크한다. 여기서 상기 사용자 인식 방법은, 본 발명의 실시 예에 따른 빔 포밍 장치(112)의 제조사의 선택에 따라 기 설정될 수 있고, 상기 두가지 방법이 다 사용가능한 경우, 사용자의 선택에 따라 설정될 수 있다.
한편 402단계의 판단 결과, 현재 설정된 사용자 인식 방법이 영상 인식인 경우, 제어부(200)는 404단계로 진행하여 현재 선택된 음성 신호에 대응되는 방향으로 영상 인식부(218)에 구비된 이미지 촬상 장치를 이용하여 이미지를 촬상한다. 그리고 406단계로 진행하여 상기 제어부(200)는 영상 인식부(218)를 제어하여 상기 촬상된 이미지로부터 기 설정된 영상 인식 방법에 따른 영상 신호 특징 정보를 독출한다.
예를 들어 현재 설정된 영상 인식 방법이 얼굴 인식 방법인 경우라면, 상기 제어부(200)는 상기 406단계에서 상기 촬상 이미지로부터 사람의 얼굴 영역을 추출하고, 추출된 얼굴 영역에서 특징 부분을 영상 신호 특징 정보로서 추출한다. 그러나 만약 상기 촬상 이미지로부터 상기 영상 신호 특징 정보를 추출하기 어려운 경 우라면, 제어부(200)는 상술한 바와 같이 옷 색상을 이용한 방법 또는 오메가 모양의 영상을 이용한 방법등을 추가적으로 사용할 수 있다. 이러한 경우 제어부(200)는 상기 406단계에서 상기 촬상된 이미지로부터 옷 색상 또는 오메가 모양의 영상 정보를 영상 신호 특징 정보로 추출한다.
그러면 제어부(200)는 408단계로 진행하여 현재 추출된 영상 신호 특징 정보를 이용하여 사용자 인식을 수행한다. 즉, 상기 408단계에서 제어부(200)는 상기 영상 인식부(218)를 제어하여, 기 등록된 사용자의 영상 신호 특징 정보를 메모리부(202)로부터 독출하고, 상기 추출된 영상 신호 특징 정보를 비교하여 상기 촬상된 이미지에 기 등록된 사용자로 인식 가능한 사람에 대한 이미지가 포함되어 있는지 여부를 판단한다. 여기서 만약 현재 추출된 영상 신호 특징 정보가 사용자의 얼굴의 특징에 대한 정보인 경우라면, 제어부(200)는 상기 영상 인식부(218)를 제어하여 상기 메모리부(202)의 사용자 인식 정보 저장부(212)로부터 기 등록된 사용자들의 얼굴의 특징에 대한 정보들을 포함하는 사용자 인식 정보들을 독출하여 상기 추출된 영상 신호 특징 정보와 비교한다. 그리고 비교 결과에 따라 상기 음성 신호에 대응되는 발성자가 기 등록된 사용자인지 여부를 판단한다.
그러나 만약 현재 추출된 영상 신호 특징 정보가 옷 색상 또는 오메가 모양의 영상에 대한 정보인 경우라면, 제어부(200)는 상기 영상 인식부(218)를 제어하여 상기 메모리부(202)의 사용자 인식 정보 저장부(212)로부터 기 등록된 사용자들의 옷 색상에 대한 정보 및 오메가 모양의 영상에 대한 정보들을 포함하는 사용자 인식 정보들을 독출하여 상기 추출된 영상 신호 특징 정보와 비교한다. 그리고 비 교 결과에 따라 상기 음성 신호에 대응되는 발성자가 사용자인지 여부를 판단한다.
한편 상기 402단계의 체크 결과 현재 설정된 사용자 인식 방법이 화자 인식인 경우라면, 제어부(200)는 410단계로 진행하여 사용자 인식부(206)의 화자 인식부(220)를 제어하여 현재 선택된 음성 신호로부터 사용자 인식을 위해 사용될 음성 특징 벡터를 추출한다. 그리고 제어부(200)는 412단계로 진행하여 화자 인식부(220)를 통해 현재 추출된 음성 특징 벡터, 즉 음성 특징 정보를 기 등록된 각 사용자의 음성 특징 정보를 포함하는 사용자 인식 정보들과 비교하여 상기 음성 신호에 대응되는 발성자가 기 등록된 사용자인지 여부를 판단한다.
그리고 상기 408단계 또는 412단계의 비교 결과에 따라 현재 음성 신호에 대응되는 발성자가 기 등록된 사용자인 경우 제어부(200)는 416단계로 진행하여, 현재 1차 빔(102)을 통해 수신된 음향 신호로부터 분리된 음성 신호들 중 현재 아직까지 선택되지 않은 음성 신호가 있는지 여부를 판단한다. 상기 판단 결과 아직까지 선택되지 않은 음성 신호가 있는 경우라면 제어부(200)는 420단계로 진행하여 현재 아직까지 선택되지 않은 음성 신호 중 어느 하나를 선택하고 402단계로 진행하여 404단계에서 408단계에 이르는 과정 또는 410단계에서 412단계에 이르는 과정을 통해 사용자 인식을 수행한다. 그리고 인식 결과에 따라 인식된 사용자의 위치를 측정하여 그 측정값을 제어부(200)에 인가한다. 따라서 본 발명에서는 영상 인식 기반 또는 화자 인식 기반에 따라 기 등록된 사용자로부터 입력된 음성 신호인지를 인식할 수 있다. 그리고 인식된 사용자가 둘 이상인 경우에 각각의 사용자들의 위치를 모두 파악하여, 각 사용자마다 각 사용자로부터 음성 신호를 입력받을 수 있는 2차 빔을 형성한다. 따라서 본 발명의 실시 예에 따른 빔 포밍 장치(112)는 다수의 사용자가 인식된 경우라고 할지라도 측정된 각 사용자들의 위치에 따른 2차 빔을 통해 각 사용자들의 음성 신호를 효과적으로 수신할 수 있다는 효과가 있다.
그리고 비록 상술한 도 4에서는 현재 설정된 인식 방법에 따라 어느 하나의 인식 방법을 사용하는 것을 예로 들어 설명하였으나, 이와는 달리 두가지 인식 방법이 서로 보조적으로 사용될 수 있음은 물론이다. 즉, 예를 들어 두 가지 인식 방법이 모두 사용가능한 경우, 영상 인식 방법을 이용한 사용자 인식이 불가능한 경우에 화자 인식 방법이 사용될 수 있거나, 화자 인식 방법을 이용한 사용자 인식이 불가능한 경우에 영상 인식 방법을 사용할 수 있다. 또는 이 두 가지 방법을 모두 사용할 수도 있음은 물론이다.
또한 상기 도 4에서는 음향 신호에 다수의 발성자로부터 수신된 음성 신호들이 포함되어 있는 것을 가정하여 설명하였으나, 상기 316단계에서와 같이 한 발성자로부터 수신된 음성 신호만이 포함되어 있을 수도 있음은 물론이다. 이러한 경우라면 상기 도 4의 과정 중 현재 설정된 사용자 인식 방법에 따라 404단계에서 408단계에 이르는 과정 또는 410단계에서 412단계에 이르는 과정 중 어느 하나만을 수행함으로써 상기 수신된 음성 신호에 대응되는 발성자가 기 등록된 사용자인지 여부를 판단할 수 있도록 한다.
그런데 만약 현재 인식된 사용자의 위치가 변경되는 경우에는 본 발명의 실시 예에 따른 빔 포밍 장치(112)의 제어부(200)는 현재 설정된 2차 빔의 범위를 상 기 사용자가 벗어날 수 있다. 따라서 이러한 경우에는 상기 제어부(200)가 상기 사용자를 추종한다는 것을 상술한 바 있다. 도 5는 이러한 경우 본 발명의 실시 예에 따른 음성 신호 빔 포밍 장치에서 사용자 위치 이동에 따라 사용자 추종을 수행하는 동작 과정을 도시한 도면이다.
도 5를 참조하여 살펴보면, 본 발명의 실시 예에 띠른 빔 포밍 장치의 제어부(200)는 2차 빔이 형성된 상태에서도 500단계로 진행하여 지속적으로 사용자의 위치를 인식한다. 그리고 제어부(200)는 502단계로 진행하여 사용자의 위치가 이동되었는지 여부를 판단한다. 그리고 사용자의 위치가 이동된 경우라면, 제어부(200)는 504단계로 진행하여 사용자 추종이 필요한지 여부를 판단한다. 즉, 상기 504단계에서는 상기 사용자가 현재 설정된 2차 빔의 범위를 벗어나 새로운 2차 빔을 형성하여야 하는지 또는 상기 본 발명의 실시 예에 따른 빔 포밍 장치(112)를 구비한 로봇(100)이 이동 가능한 경우 상기 사용자의 이동에 따라 이동하여야 할 필요가 있는지 아니면 상기 본 발명의 실시 예에 따른 빔 포밍 장치(112)의 마이크로폰부(222)의 방향 변경이 가능한 경우 상기 마이크로폰부(222)의 방향 변경이 필요한지 여부를 판단한다.
그리고 상기 504단계의 판단 결과, 사용자 추종이 필요한 경우라면 506단계로 진행하여 위치가 이동된 사용자에 대응되는 2차 빔의 방향을 상기 사용자의 위치 이동에 따라 사용자 추종을 수행한다. 여기서 상기 사용자 추종은 사용자의 위치 이동에 따라 새로운 2차 빔을 형성하거나 또는 상기 사용자의 위치 이동에 따라 본 발명의 실시 예에 따른 빔 포밍 장치(112)를 구비한 로봇(100)이 이동되도록 하 는 것 및 상기 사용자의 위치 이동에 따라 마이크로폰부(222)의 방향을 변경하는 것 등이 포함될 수 있다.
또한 만약 상기 도 5의 506단계에서 새로운 2차 빔이 형성되는 것으로 사용자 추종이 수행될 경우, 만약 본 발명의 실시 예에 따른 빔 포밍 장치(112)가 사용자 별로 각각 고유한 RFID를 이용하여 사용자가 어디로 이동하던지 간에 바로 위치를 측정 가능한 경우라면 바로 상기 이동된 사용자 위치에 따른 새로운 2차 빔을 형성할 수 있을 수 있다. 그러나 이처럼 사용자의 위치를 바로 측정 가능한 경우가 아니라면, 본 발명의 실시 예에 따른 빔 포밍 장치(112)는 현재 인식된 사용자의 위치가 이동된 경우, 상기 위치가 이동된 사용자의 재인식을 수행할 수 있다. 그런데 이러한 경우 사용자 인식이 음성 인식이나 RFID를 이용한 인식 방법을 통해 인식된 것이 아닌 경우, 예를 들어 현재 사용자 인식이 옷 색상 또는 오메가 모양의 영상을 이용한 경우라면, 만약 사용자가 옷을 갈아입거나, 머리 모양을 변경한 경우, 상기 옷 색상 및 오메가 모양의 영상을 이용한 인식 방법으로서는 해당 사용자를 인식할 수 없다. 따라서 이러한 경우에는 다시 사용자를 인식하여 다른 사용자를 추종하거나 현재 저장된 사용자 인식 정보를 갱신하여야 한다.
도 6은 이처럼 본 발명의 실시 예에 따른 빔 포밍 장치(112)가 이처럼 사용자의위치가 변경됨 따라 사용자 재인식을 수행하고 그에 따라 기 저장된 사용자 인식 정보를 갱신하는 과정을 도시한 도면이다.
도 6을 참조하여 살펴보면, 도 5에서 사용자의 위치 이동에 따라 새로운 2차 빔을 형성하여야 하는 경우, 본 발명의 실시 예에 따른 빔 포밍 장치(112)의 제어 부(200)는 600단계로 진행하여 사용자 재인식을 수행한다. 여기서 상기 사용자 재인식은 다시 1차 빔을 통해 음향 신호를 수신하고 그 중에 포함되어 있는 음성 신호를 통해 다시 새롭게 2차 빔을 형성하는 상술한 도 3의 과정이 될 수 있다.
그리고 사용자 재인식이 완료되면, 본 발명의 실시 예에 따른 빔 포밍 장치(112)의 제어부(200)는 602단계로 진행하여 상기 사용자 재인식 과정에서 추출된 사용자 특징 정보들 중 보조적 특징 정보를 더 추출한다. 여기서 상기 보조적 사용자 인식 정보라는 것은 사용자 인식을 위해 사용되는 사용자 특징 정보들 중 옷 색상 이나 오메가 모양의 영상 또는 음성 신호의 음성 고저 등 쉽게 변경이 가능한 특징 정보들을 말한다. 따라서 사용자의 얼굴 영역에서 추출되는 얼굴 특징 정보 또는 사용자의 음성 신호에서 추출되는 음성 특징 벡터와 같이 각 사용자마다 고유한 특징 정보들은 이러한 보조적 특징 정보들이 될 수 없다.
그러면 제어부(200)는 604단계로 진행하여 현재 인식된 사용자에 대해 현재 저장된 사용자 인식 정보 중 상기 추출된 보조적 특징 정보에 대응되는 사용자 인식 정보를 독출하고 이를 비교하여 사용자 특징 정보의 변경이 발생하였는지 여부를 체크한다. 그리고 만약 사용자 특징 정보의 변경이 있는 경우라면 제어부(200)는 606단계로 진행하여 상기 추출된 보조적 특징 정보에 따라 상기 독출된 사용자 인식 정보를 갱신한다. 따라서 이러한 경우 사용자가 옷을 갈아입거나 또는 머리 모양을 변경한다면 이에 따라 옷의 색상이나 오메가 모양의 영상등과 같이 보조적 특징 정보에 해당되는 사용자 인식 정보들은 상기 사용자가 변경한 바에 따라 변경될 수 있다.
한편 상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시될 수 있다. 따라서 발명의 범위는 설명된 실시 예에 의해 정할 것이 아니고, 특허청구범위와 특허청구범위의 균등한 것에 의해 정하여져야 한다.
따라서 본 발명은 주변 잡음이 심한 상태에서도 사용자의 음성 신호를 보다 정확하게 입력받을 수 있도록 특정 사용자의 방향으로 집중된 빔을 형성함으로써 보다 효율적으로 사용자의 음성 신호를 수신할 수 있다는 효과가 있다.
또한 사용자의 위치가 이동되는 경우에도, 이동된 사용자의 위치에 따라 사용자 추종을 함으로써 사용자가 이동하는 경우에도 보다 위치가 이동되기 전과 마찬가지로 보다 효율적으로 음성 신호를 수신할 수 있도록 한다는 효과가 있다.

Claims (25)

  1. 음성 인터페이스(Interface)를 위한 빔(Beam) 포밍(forming) 장치에 있어서,
    음성 신호를 수신하기 위한 1차 빔 및 2차 빔을 형성하는 빔 형성부와,
    상기 1차 빔으로부터 적어도 한명의 발성자로부터 발성된 음성 신호를 포함하는 음향 신호를 수신하는 음성 신호 수신부와,
    상기 수신된 음향 신호로부터 상기 음성 신호를 추출하고, 분리된 음성 신호를 각 발성자 별로 분리하는 음성 신호 분리부와,
    상기 분리된 음성 신호에 각각에 대응되는 발성자 별로 기 등록된 사용자인지 여부를 판단하여 사용자 인식을 수행하는 사용자 인식부와,
    상기 발성자가 기 등록된 사용자인 경우, 상기 인식된 사용자 별로 각 사용자의 위치를 측정하는 위치 측정부와,
    상기 1차 빔을 통해 상기 음향 신호를 수신하도록 상기 빔 형성부를 제어하고, 상기 음성 신호 수신부 및 음성 신호 분리부, 사용자 인식부, 그리고 위치 측정부를 제어하여 1차 빔을 통해 수신된 음향 신호 중 기 등록된 사용자의 음성 신호가 포함되어 있는지 여부를 판단 및 현재 인식된 각 사용자의 위치를 측정하도록 하고, 각 사용자의 측정된 위치에 따른 방향으로 2차 빔을 형성하도록 상기 빔 형성부를 제어하여 상기 2차 빔을 통해 기 등록된 사용자의 음성 신호가 수신될 수 있도록 하는 제어부를 포함하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 장치.
  2. 제1항에 있어서, 상기 2차 빔은,
    상기 1차 빔 보다 그 빔의 폭이 보다 협소한 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 장치.
  3. 제1항에 있어서, 사용자 인식부는,
    촬상 이미지를 통해 상기 발성자를 기 등록된 사용자인지 여부를 판단하는 영상 인식부 또는 상기 분리된 음성 신호 각각으로부터 각 음성 신호에 대응되는 발성자가 기 등록된 사용자인지 여부를 판단하는 화자 인식부를 적어도 하나 포함하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 장치.
  4. 제3항에 있어서, 상기 영상 인식부는,
    상기 촬상 이미지로부터 상기 발성자의 얼굴 영역에 대한 특징 정보를 추출하고, 상기 추출된 특징 정보와 기 등록된 각 사용자들의 얼굴 영역에 대한 특징 정보들을 비교하여, 상기 발성자가 기 등록된 사용자인지 여부를 판단하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 장치.
  5. 제4항에 있어서, 상기 영상 인식부는,
    상기 촬상 이미지로부터 상기 발성자의 얼굴 영역에 대한 특징 정보 추출이 불가능한 경우, 보조적 특징 정보로서 상기 발성자의 옷 색상 정보 또는 상기 발성자의 오메가 모양의 영상을 추출하고, 추출된 보조적 특징 정보를 기 등록된 각 사용자들의 옷 색상 정보들 또는 기 등록된 사용자의 오메가 모양의 영상들과 비교하여 상기 발성자가 기 등록된 사용자인지 여부를 판단하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 장치.
  6. 제3항에 있어서, 상기 화자 인식부는,
    상기 분리된 음성 신호 각각으로부터 음성 특징 정보를 추출하고, 추출된 음성 특징 정보를 기 등록된 각 사용자의 음성 특징 정보들과 비교하여 상기 발성자가 기 등록된 사용자인지 여부를 판단하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 장치.
  7. 제1항에 있어서, 상기 제어부는,
    상기 사용자 위치 측정부를 제어하여 현재 인식된 사용자의 위치를 지속적으로 측정하고 상기 사용자의 위치가 이동된 경우 상기 이동된 사용자 위치에 따라 사용자 추종을 수행하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 장치.
  8. 제7항에 있어서,
    상기 빔 포밍 장치는,
    상기 빔 포밍 장치를 이동시킬 수 있는 이동부를 더 포함하고,
    상기 제어부는,
    상기 빔 포밍 장치가 상기 이동부를 포함하는 경우 상기 이동부를 제어하여 이동된 사용자 위치에 따라 상기 빔 포밍 장치가 이동될 수 있도록 하여 상기 사용자 추종을 수행하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 장치.
  9. 제7항에 있어서,
    상기 음성 신호 수신부는,
    상기 음향 신호가 입사하는 방향에 따라 이득이 달라지는 마이크로폰 어레이(array)를 통해 상기 음향 신호를 수신하는 것을,
    상기 제어부는,
    상기 마이크로폰 어레이의 방향 변경이 가능한 경우, 상기 이동된 사용자 위치에 따라 상기 마이크로폰 어레이의 방향을 변경하여 상기 사용자 추종을 수행하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 장치.
  10. 제7항에 있어서, 상기 제어부는,
    상기 이동된 사용자 위치에 따라 새로운 2차 빔을 형성하도록 상기 빔 형성부를 제어하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 장치.
  11. 제7항에 있어서, 상기 제어부는,
    상기 1차 빔을 통해 다시 상기 음향 신호를 수신하도록 상기 빔 형성부를 제어하고, 상기 음성 신호 수신부 및 음성 신호 분리부, 사용자 인식부, 그리고 위치 측정부를 제어하여 상기 다시 수신된 음향 신호에 포함된 음성 신호에 따른 발성자를 재인식한 후 재인식 결과에 따라 인식된 사용자의 측정 위치에 따른 방향으로 새로운 2차 빔을 형성하도록 상기 빔 형성부를 제어하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 장치.
  12. 제11항에 있어서, 제어부는,
    상기 재인식된 사용자의 촬상 이미지 또는 음성 신호로부터 보조적 특징 정보를 추출하고 상기 추출된 보조적 특징 정보와 상기 재인식된 사용자의 기 저장된 보조적 특징 정보를 비교하고, 상기 추출된 보조적 특징 정보와 상기 기 저장된 보조적 특징 정보가 서로 다른 경우 상기 기 저장된 보조적 특징 정보를 상기 추출된 보조적 특징 정보에 따라 갱신하는 것을 특징으로 하는 사용자 인식 기반의 빔 포 밍 장치.
  13. 제12항에 있어서,
    상기 추출된 보조적 특징 정보는,
    상기 재인식된 사용자의 옷 색상 정보, 오메가 모양의 영상 또는 상기 재인식된 사용자의 음성 고저 정보임을,
    상기 기 저장된 보조적 특징 정보는,
    기 저장된 상기 재인식된 사용자에 대응되는 옷 색상 정보, 오메가 모양의 영상 또는 음성 고저 정보임을 특징으로 하는 사용자 인식 기반의 빔 포밍 장치.
  14. 음성 인터페이스(Interface)를 위한 빔(Beam) 포밍(forming) 방법에 있어서,
    적어도 하나 이상의 발성자로부터 발성된 음성 신호를 포함하는 음향 신호가 수신되는 방향으로 1차 빔을 형성하는 1차 빔 형성 단계와,
    상기 1차 빔을 통해 상기 음향 신호를 수신하는 음향 신호 수신 단계와,
    상기 수신된 음향 신호로부터 상기 음성 신호가 포함되어 있는지 여부를 판단하고, 상기 음성 신호가 포함된 경우 상기 발성자 별로 음성 신호를 분리하는 음성 신호 분리 단계와,
    상기 분리된 음성 신호에 각각 대응되는 발성자들이 기 등록된 사용자인지 여부를 판단하여 사용자 인식을 수행하는 사용자 인식 단계와,
    상기 사용자 인식 결과, 기 등록된 사용자로 인식된 발성자가 있는 경우 상기 인식된 사용자들 각각의 위치를 측정하는 위치 측정 단계와,
    상기 측정된 위치에 따라 상기 인식된 사용자들 각각에 따른 방향으로 2차 빔을 형성하는 2차 빔 형성 단계와,
    상기 2차 빔을 통해 현재 인식된 사용자들의 음성 신호를 수신하는 음성 신호 수신 단계를 포함하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 방법.
  15. 제14항에 있어서, 상기 사용자 인식 단계는,
    현재 설정된 사용자 인식 방법을 판단하는 사용자 인식 방법 판단 단계와,
    상기 현재 설정된 사용자 인식 방법이 영상 인식 방법인 경우, 음성 신호가 입사된 방향의 이미지를 촬상하는 이미지 촬상 단계와,
    상기 촬상된 이미지로부터 특징 정보를 추출하는 특징 정보 추출 단계와,
    상기 추출된 특징 정보와, 기 등록된 사용자들 각각의 특징 정보들을 비교하여 상기 발성자가 기 등록된 사용자인지 여부를 판단하는 인식 단계를 포함하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 방법.
  16. 제15항에 있어서,
    상기 특징 정보 추출 단계는,
    상기 촬상된 이미지로부터 상기 음성 신호에 대응되는 발성자의 얼굴 영역에 대한 특징 정보를 추출하는 것이 가능한 경우, 상기 촬상된 이미지로부터 얼굴 영역에 대한 특징 정보를 추출하고,
    상기 인식 단계는,
    상기 추출된 특징 정보와, 기 등록된 각 사용자들의 얼굴 영역에 대한 특징 정보들을 비교하여 상기 발성자가 기 등록된 사용자인지 여부를 판단하는 인식 단계를 포함하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 방법.
  17. 제15항에 있어서,
    상기 특징 정보 추출 단계는,
    상기 촬상된 이미지로부터 상기 음성 신호에 대응되는 발성자의 얼굴 영역에 대한 특징 정보를 추출하는 것이 불가능한 경우, 상기 촬상된 이미지로부터 보조적 특징 정보로서 상기 발성자의 옷 색상 정보 또는 오메가 모양의 영상을 추출하고,
    상기 인식 단계는,
    상기 추출된 보조적 특징 정보와, 기 등록된 각 사용자들의 옷 색상 정보들 또는 기 등록된 사용자의 오메가 모양의 영상들과 비교하여 상기 발성자가 기 등록된 사용자인지 여부를 판단하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 방법.
  18. 제14항에 있어서, 상기 사용자 인식 단계는,
    상기 분리된 음성 신호 각각으로부터 음성 특징 정보를 추출하는 음성 특징 정보 추출 단계와,
    상기 추출된 음성 특징 정보를 기 등록된 각 사용자의 음성 특징 정보들과 비교하여 상기 발성자가 기 등록된 사용자인지 여부를 판단하는 음성 인식 단계를 포함하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 방법.
  19. 제14항에 있어서,
    현재 인식된 사용자의 위치를 지속적으로 측정하는 지속적 위치 측정 단계와,
    상기 사용자의 위치가 이동된 경우 상기 이동된 사용자 위치에 따라 사용자 추종을 수행하는 사용자 추종 단계를 더 포함하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 방법.
  20. 제19항에 있어서, 상기 사용자 추종 단계는,
    상기 이동된 사용자 위치에 따라 상기 빔 포밍 방법이 적용된 빔 포밍 장치가 이동될 수 있도록 하는 단계임을 특징으로 하는 사용자 인식 기반의 빔 포밍 방법.
  21. 제19항에 있어서, 상기 사용자 추종 단계는,
    상기 이동된 사용자 위치에 따라 상기 음성 신호가 수신되는 방향을 변경하는 단계임을 특징으로 하는 사용자 인식 기반의 빔 포밍 방법.
  22. 제19항에 있어서, 상기 사용자 추종 단계는,
    상기 이동된 사용자 위치에 따라 새로운 2차 빔을 형성하는 단계임을 특징으로 하는 사용자 인식 기반의 빔 포밍 방법.
  23. 제19항에 있어서, 상기 사용자 추종 단계는,
    상기 1차 빔 형성 단계, 상기 음향 신호 수신 단계, 상기 음성 신호 분리 단계를 재수행하는 음향 신호 재수신 단계와,
    상기 제수신된 음향 신호로부터 분리된 음성 신호에 따라 사용자를 재인식하는 사용자 재인식 단계와,
    상기 재인식된 사용자의 위치를 측정하는 위치 재측정 단계와,
    상기 재측정된 위치에 따라 새로운 2차 빔을 형성하는 2차 빔 재형성 단계와,
    상기 새로운 2차 빔을 통해 상기 재인식된 사용자의 음성 신호를 수신하는 재인식 사용자 음성 신호 수신 단계를 포함하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 방법.
  24. 제23항에 있어서, 사용자 재인식 단계는,
    상기 재인식된 사용자의 촬상 이미지 또는 음성 신호로부터 보조적 특징 정보를 추출하는 보조적 특징 정보 추출 단계와,
    상기 추출된 보조적 특징 정보와 상기 재인식된 사용자에 대응되게 기 저장된 보조적 특징 정보를 비교하는 비교 단계와,
    상기 비교 결과, 상기 추출된 보조적 특징 정보와 상기 기 저장된 보조적 특징 정보가 서로 다른 경우 상기 기 저장된 보조적 특징 정보를 상기 추출된 보조적 특징 정보에 따라 갱신하는 갱신 단계를 더 포함하는 것을 특징으로 하는 사용자 인식 기반의 빔 포밍 방법.
  25. 제24항에 있어서,
    상기 추출된 보조적 특징 정보는,
    상기 재인식된 사용자의 옷 색상 정보, 오메가 모양의 영상 또는 상기 재인식된 사용자의 음성 고저 정보임을,
    상기 기 저장된 보조적 특징 정보는,
    기 저장된 상기 재인식된 사용자에 대응되는 옷 색상 정보, 오메가 모양의 영상 또는 음성 고저 정보임을 특징으로 하는 사용자 인식 기반의 빔 포밍 방법.
KR1020070002507A 2007-01-09 2007-01-09 사용자 인식 기반의 빔 포밍 장치 및 방법 KR100827080B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070002507A KR100827080B1 (ko) 2007-01-09 2007-01-09 사용자 인식 기반의 빔 포밍 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070002507A KR100827080B1 (ko) 2007-01-09 2007-01-09 사용자 인식 기반의 빔 포밍 장치 및 방법

Publications (1)

Publication Number Publication Date
KR100827080B1 true KR100827080B1 (ko) 2008-05-06

Family

ID=39649556

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070002507A KR100827080B1 (ko) 2007-01-09 2007-01-09 사용자 인식 기반의 빔 포밍 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100827080B1 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012036424A2 (en) * 2010-09-13 2012-03-22 Samsung Electronics Co., Ltd. Method and apparatus for performing microphone beamforming
KR101491354B1 (ko) 2013-11-25 2015-02-06 현대자동차주식회사 음성인식 장치 및 방법
US9870775B2 (en) 2015-01-26 2018-01-16 Samsung Electronics Co., Ltd. Method and device for voice recognition and electronic device thereof
KR101970347B1 (ko) 2019-02-19 2019-04-17 주식회사 소리자바 화자 음성의 노이즈를 제거하는 음성인식장치
KR20190048630A (ko) * 2017-10-31 2019-05-09 엘지전자 주식회사 전자 장치 및 그 제어 방법
CN111199741A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法、声纹验证方法、装置、计算设备及介质
WO2020251101A1 (ko) * 2019-06-14 2020-12-17 엘지전자 주식회사 사용자의 동선을 결정하는 인공 지능 장치 및 그 방법
WO2020251102A1 (ko) * 2019-06-14 2020-12-17 엘지전자 주식회사 사용자의 동선에 기초한 서비스를 제공하는 인공 지능 장치 및 그 방법
WO2023096121A1 (ko) * 2021-11-23 2023-06-01 삼성전자 주식회사 전자 장치 및 그 동작 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5581620A (en) 1994-04-21 1996-12-03 Brown University Research Foundation Methods and apparatus for adaptive beamforming
KR20030077797A (ko) * 2002-03-27 2003-10-04 삼성전자주식회사 직교 원형 마이크 어레이 시스템 및 이를 이용한 음원의3차원 방향을 검출하는 방법
KR20040004552A (ko) * 2001-03-16 2004-01-13 슈레 인코포레이티드 빔형성 어레이를 위한 입체각 누화 제거
KR20060085392A (ko) * 2005-01-24 2006-07-27 현대자동차주식회사 어레이 마이크 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5581620A (en) 1994-04-21 1996-12-03 Brown University Research Foundation Methods and apparatus for adaptive beamforming
KR20040004552A (ko) * 2001-03-16 2004-01-13 슈레 인코포레이티드 빔형성 어레이를 위한 입체각 누화 제거
KR20030077797A (ko) * 2002-03-27 2003-10-04 삼성전자주식회사 직교 원형 마이크 어레이 시스템 및 이를 이용한 음원의3차원 방향을 검출하는 방법
KR20060085392A (ko) * 2005-01-24 2006-07-27 현대자동차주식회사 어레이 마이크 시스템

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012036424A2 (en) * 2010-09-13 2012-03-22 Samsung Electronics Co., Ltd. Method and apparatus for performing microphone beamforming
WO2012036424A3 (en) * 2010-09-13 2012-06-28 Samsung Electronics Co., Ltd. Method and apparatus for performing microphone beamforming
US9330673B2 (en) 2010-09-13 2016-05-03 Samsung Electronics Co., Ltd Method and apparatus for performing microphone beamforming
KR101491354B1 (ko) 2013-11-25 2015-02-06 현대자동차주식회사 음성인식 장치 및 방법
US9530406B2 (en) 2013-11-25 2016-12-27 Hyundai Motor Company Apparatus and method for recognizing voice
US9870775B2 (en) 2015-01-26 2018-01-16 Samsung Electronics Co., Ltd. Method and device for voice recognition and electronic device thereof
WO2019088338A1 (ko) * 2017-10-31 2019-05-09 엘지전자 주식회사 전자 장치 및 그 제어 방법
KR20190048630A (ko) * 2017-10-31 2019-05-09 엘지전자 주식회사 전자 장치 및 그 제어 방법
KR102399809B1 (ko) * 2017-10-31 2022-05-19 엘지전자 주식회사 전자 장치 및 그 제어 방법
US11734400B2 (en) 2017-10-31 2023-08-22 Lg Electronics Inc. Electronic device and control method therefor
CN111199741A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法、声纹验证方法、装置、计算设备及介质
KR101970347B1 (ko) 2019-02-19 2019-04-17 주식회사 소리자바 화자 음성의 노이즈를 제거하는 음성인식장치
WO2020251101A1 (ko) * 2019-06-14 2020-12-17 엘지전자 주식회사 사용자의 동선을 결정하는 인공 지능 장치 및 그 방법
WO2020251102A1 (ko) * 2019-06-14 2020-12-17 엘지전자 주식회사 사용자의 동선에 기초한 서비스를 제공하는 인공 지능 장치 및 그 방법
US11867791B2 (en) 2019-06-14 2024-01-09 Lg Electronics Inc. Artificial intelligence apparatus for determining path of user and method for the same
WO2023096121A1 (ko) * 2021-11-23 2023-06-01 삼성전자 주식회사 전자 장치 및 그 동작 방법

Similar Documents

Publication Publication Date Title
KR100827080B1 (ko) 사용자 인식 기반의 빔 포밍 장치 및 방법
US11172122B2 (en) User identification based on voice and face
EP3480820B1 (en) Electronic device and method for processing audio signals
CN111370014B (zh) 多流目标-语音检测和信道融合的系统和方法
KR101750338B1 (ko) 마이크의 빔포밍 수행 방법 및 장치
CN109599124B (zh) 一种音频数据处理方法、装置及存储介质
CN107534725B (zh) 一种语音信号处理方法及装置
US9940949B1 (en) Dynamic adjustment of expression detection criteria
WO2015172630A1 (zh) 摄像装置及其对焦方法
KR100754385B1 (ko) 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
JP4847022B2 (ja) 発声内容認識装置
US9076450B1 (en) Directed audio for speech recognition
CN102843540B (zh) 用于视频会议的自动摄像机选择
CN1288223A (zh) 用于语音控制的适应方向性特征的装置
KR20120071452A (ko) 마이크 어레이를 이용한 방향성 음원 필터링 장치 및 그 제어방법
US10089980B2 (en) Sound reproduction method, speech dialogue device, and recording medium
WO2021064468A1 (en) Sound source localization with co-located sensor elements
CN110970049A (zh) 多人声识别方法、装置、设备及可读存储介质
US6959095B2 (en) Method and apparatus for providing multiple output channels in a microphone
CN110992971A (zh) 一种语音增强方向的确定方法、电子设备及存储介质
JP3838159B2 (ja) 音声認識対話装置およびプログラム
Li et al. Local relative transfer function for sound source localization
JP6755843B2 (ja) 音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラム
WO2021206679A1 (en) Audio-visual multi-speacer speech separation
KR20180056284A (ko) 음성 인식 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment
FPAY Annual fee payment
FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170330

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee