KR20060044008A - 다수의 화자 분별을 위한 음성 인식장치 - Google Patents

다수의 화자 분별을 위한 음성 인식장치 Download PDF

Info

Publication number
KR20060044008A
KR20060044008A KR1020040091783A KR20040091783A KR20060044008A KR 20060044008 A KR20060044008 A KR 20060044008A KR 1020040091783 A KR1020040091783 A KR 1020040091783A KR 20040091783 A KR20040091783 A KR 20040091783A KR 20060044008 A KR20060044008 A KR 20060044008A
Authority
KR
South Korea
Prior art keywords
voice
specific speaker
speaker
image
information
Prior art date
Application number
KR1020040091783A
Other languages
English (en)
Inventor
이한웅
Original Assignee
주식회사 대우일렉트로닉스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 대우일렉트로닉스 filed Critical 주식회사 대우일렉트로닉스
Priority to KR1020040091783A priority Critical patent/KR20060044008A/ko
Publication of KR20060044008A publication Critical patent/KR20060044008A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Studio Devices (AREA)

Abstract

본 발명은 다수의 화자가 동시에 음성 명령을 수행할 경우, 특정한 한 화자에 대한 음성 명령을 화상인식기술 및 음성인식기술을 이용하여 정확하게 인식하여 각종 명령을 수행하기 위한 것으로, 이를 위한 구성은 다수의 화자를 촬상하여 지향 거리를 측정하는 카메라와, 촬상된 영상 정보에 대한 화상을 인식하는 화상인식 처리부와, 특정 화자에 대한 영상 정보를 세팅하고 있는 중에, 화상인식 처리부에 의해 인식된 화상인식결과와 세팅된 특정 화자의 영상 정보를 비교하여 특정 화자의 위치 각을 파악하는 제어부와, 위치 각을 이용하여 지향성 줌 마이크의 지향 각도를 특정 화자로의 방향으로 구동하고, 지향 거리를 이용하여 특정 화자로의 근접 줌 기능을 구동하는 지향성 줌 마이크 구동부와, 지향성 줌 마이크에 의해 추출된 음성 정보를 인식하는 음성인식 처리부와, 인식된 음성 정보를 분석하는 음성인식 결과 처리부와, 분석된 분석결과정보를 이용하여 각종 명령을 수행하는 명령 수행부를 포함한다. 따라서, 다수 화자가 동시에 음성 명령을 수행하는 중에서도 특정화자만의 음성만을 분별 인식하여 특정 화자가 명령한 것을 수행 가능하게 할 수 있는 효과가 있다.

Description

다수의 화자 분별을 위한 음성 인식장치{A VOICE RECOGNITION APPARATUS FOR A NUMBER OF SPEAKER DIVISION}
도 1은 본 발명에 따른 다수의 화자 분별을 위한 음성 인식장치에 대한 블록 구성도이며,
도 2는 본 발명에 따른 다수의 화자 분별을 위한 음성 인식장치의 동작을 위한 상세 흐름도이다.
<도면의 주요부분에 대한 부호의 설명>
10 : 카메라 20 : 화상인식 처리부
30 : 제어부 40 : 지향성 줌 마이크 구동부
50 : 지향성 줌 마이크 60 : 음성인식 처리부
70 : 음성인식 결과 처리부 80 : 명령 수행부
S10,S20,...,Sn : 다수의 화자
본 발명은 다수의 화자 분별을 위한 음성 인식장치에 관한 것으로, 보다 상세하게 설명하면, 다수의 화자가 음성 명령을 동시에 수행할 경우, 그중 어느 특정 한 한 화자에 대한 음성 명령을 화상인식기술 및 음성인식기술을 이용하여 정확하게 인식할 수 있는 장치에 관한 것이다.
주지된 바와 같이, 음성 인식이란 사람이 발성한 음성을 지식 처리하는 것으로, 수많은 사람들의 실험으로 인해 각각의 단어(혹은, 문장)에 대한 음성 인식이 이루어져 있거나, 또는 사용자가 직접 단어(혹은, 문장)에 대한 학습을 수행시켜 음성 인식이 이루어지도록 하고 있다.
그 예로, 음성 인식에서 각각의 단어(혹은 문장)는 사용자의 고유한 주파수의 평균적인 값을 갖게 되는데, 사용자의 학습에 의해 자신의 고유한 주파수 값을 평균적인 값에 포함시키게 되면 사용자에 의한 음성 인식률은 재고될 수 있다.
이러한 음성 인식을 위한 방법에는 화자에 따라 화자종속 음성인식 방법과 화자독립 음성인식 방법으로 분류된다. 여기서, 화자종속 음성인식 방법은 특정인 한사람만을 위한 것으로 사용자의 입장에서는 종속 기준모델을 등록하기 위하여 학습과정이 필요하다. 반면에, 화자독립 음성인식 방법은 불특정 다수인을 위한 것으로 다수인이 학습에 참여하여 얻은 일반적인 독립 기준모델을 이용하여 음성을 인식하는 방법으로써, 이 독립 기준모델은 생산공장에서 제품화되어 공급되므로 사용자의 입장에서는 학습의 과정이 불필요하다.
그러나, 다수의 화자, 즉 동시에 한 명 이상의 사람이 동시에 말을 수행하는 다수 화자에서 특정 화자만에 대한 음성만을 인식할 때에는 상술한 음성 인식 방법으로는 정확한 음성 인식을 수행할 수 없는 문제점을 갖는다.
이에, 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로, 그 목적은 다수의 화자가 동시에 음성 명령을 수행할 경우, 특정한 한 화자에 대한 음성 명령을 화상인식기술 및 음성인식기술을 이용하여 정확하게 인식하여 각종 명령을 수행할 수 있는 다수의 화자 분별을 위한 음성 인식장치를 제공함에 있다.
상술한 목적을 달성하기 위한 본 발명에서 다수의 화자 분별을 위한 음성 인식장치는 다수의 화자를 촬상하여 지향 거리를 측정하는 카메라와, 촬상된 영상 정보에 대한 화상을 인식하는 화상인식 처리부와, 특정 화자에 대한 영상 정보를 세팅하고 있는 중에, 화상인식 처리부에 의해 인식된 화상인식결과와 세팅된 특정 화자의 영상 정보를 비교하여 특정 화자의 위치 각을 파악하는 제어부와, 위치 각을 이용하여 지향성 줌 마이크의 지향 각도를 특정 화자로의 방향으로 구동하고, 지향 거리를 이용하여 특정 화자로의 근접 줌 기능을 구동하는 지향성 줌 마이크 구동부와, 지향성 줌 마이크에 의해 추출된 음성 정보를 인식하는 음성인식 처리부와, 인식된 음성 정보를 분석하는 음성인식 결과 처리부와, 분석된 분석결과정보를 이용하여 각종 명령을 수행하는 명령 수행부를 포함하는 것을 특징으로 한다.
이하, 본 발명의 실시 예는 다수개가 존재할 수 있으며, 이하에서 첨부한 도면을 참조하여 바람직한 실시 예에 대하여 상세히 설명하기로 한다. 이 기술 분야의 숙련자라면 이 실시 예를 통해 본 발명의 목적, 특징 및 이점들을 잘 이해하게 될 것이다.
도 1은 본 발명에 따른 다수의 화자 분별을 위한 음성 인식장치(100)에 대한 블록 구성도로서, 다수의 화자(S10,S20,S30,S40)를 촬상한 영상 정보와 화자(S10,S20,S30,S40)들 각각까지의 지향 거리를 측정하여 화상인식 처리부(20)에 제공하는 카메라(10)와, 카메라(10)에 의해 촬상한 영상 정보를 이용하여 화자(S10,S20,S30,S40)들 각각에 대한 화상을 인식하고, 인식된 화상인식결과와 카메라(10)로부터 제공되는 지향 거리를 제어부(30)에 제공하는 화상인식 처리부(20)와, 특정 화자(예로, 화자(S10-3))만의 음성을 인식하기 위해 화자(S10-3)의 영상 정보를 세팅하고 있는 중에, 화상인식 처리부(20)로부터 제공되는 화자(S10,S20,S30,S40)들 각각에 대한 화상인식결과와 세팅된 화자(S10-3)의 영상 정보를 각각 비교하여 화자(S10-3)만을 인식한 다음에, 인식된 화자(S10-3)의 위치 각을 파악하고, 측정된 지향 거리를 지향성 줌 마이크 구동부(40)에 제공하는 제어부(30)와, 제어부(30)로부터 제공되는 화자(S10-3)의 위치 각과, 지향 거리를 이용하여 지향성 줌 마이크(50)의 지향 각도를 화자(S10-3)로의 방향과 일치하도록 구동하고, 이어서 지향 거리를 이용하여 화자(S10-3)에 최대한 근접되도록 줌 기능을 구동하는 지향성 줌 마이크 구동부(40)와, 지향성 줌 마이크 구동부(40)에 의해 화자(S10-3)로의 정 방향과 최대 근접 줌 기능이 활성화되어 화자(S10-3)의 음성을 추출하는 지향성 줌 마이크(50)와, 지향성 줌 마이크(50)에 의해 추출된 음성 정보를 인식하고, 인식된 음성 정보를 음성인식 결과 처리부(70)에 제공하는 음성인식 처리부(60)와, 음성인식 처리부(60)에 의해 인식된 음성 정보를 분석한 분석결과정보를 명령 수행부(80)에 제공하는 음성인식 결과 처리부(70)와, 음성인식 결과 처리부(70)에 의해 분석된 분석결과정보를 이용하여 각종 명령을 수행하는 명령 수행 부(80)를 포함한다.
도 2의 흐름도를 참조하면서, 상술한 구성을 바탕으로 본 발명에 따른 다수의 화자 분별을 위한 음성 인식장치의 동작에 대하여 보다 상세하게 설명한다.
먼저, 카메라(10)는 다수의 화자(S10,S20,...,Sn)를 모두 촬상할 수 있는데, 이중, 일 실시 예에 따라, 화자(S10,S20,S30,S40)들만을 포함시킨 각도(S1)로 촬상한 영상 정보와 화자(S10,S20,S30,S40)들 각각까지의 지향 거리를 측정하여 화상인식 처리부(20)에 제공한다(단계 201).
화상인식 처리부(20)는 카메라(10)에 의해 촬상한 영상 정보를 이용하여 화자(S10,S20,S30,S40)들 각각에 대한 화상을 인식하고, 인식된 화상인식결과와, 그리고카메라(10)로부터 제공되는 지향 거리를 제어부(30)에 제공한다(단계 202).
제어부(30)는 다수의 화자(S10,S20,...,Sn)중 특정 화자(예로, 화자(S10-3))만의 음성을 인식하기 위해 화자(S10-3)의 영상 정보를 세팅하고 있는 중에(단계 202-5), 화상인식 처리부(20)로부터 제공되는 화자(S10,S20,S30,S40)들 각각에 대한 화상인식결과와 세팅된 화자(S10-3)의 영상 정보를 각각 비교 판단한다(단계 203).
상기 판단(203)결과, 세팅된 화자(S10-3)의 영상 정보가 없을 경우, 상술한 판단 과정을 재 수행한다(단계 204).
반면에, 상기 판단(203)결과, 세팅된 화자(S10-3)의 영상 정보가 있을 경우, 그 화자(S10-3)만을 인식하고, 인식된 화자(S10-3)의 위치 각을 파악하고, 측정된 지향 거리를 지향성 줌 마이크 구동부(40)에 제공한다(단계 205).
지향성 줌 마이크 구동부(40)는 제어부(30)로부터 제공되는 화자(S10-3)의 위치 각과, 지향 거리를 이용하여 지향성 줌 마이크(50)의 지향 각도를 화자(S10-3)로의 방향과 일치하도록 구동한다(단계 206).
이와 동시에, 지향성 줌 마이크 구동부(40)는 제어부(30)로부터 제공되는 지향 거리를 이용하여 화자(S10-3)에 최대한 근접되도록 줌 기능을 구동한다(단계 207).
이때, 지향성 줌 마이크(50)는 지향성 줌 마이크 구동부(40)의 구동 제어에 의해 화자(S10-3)로의 정 방향과 최대 근접 줌 기능으로 활성화하여 화자(S10-3)의 음성을 추출한다(단계 208).
그러면, 음성인식 처리부(60)는 지향성 줌 마이크(50)에 의해 추출된 음성 정보를 인식하고, 인식된 음성 정보를 음성인식 결과 처리부(70)에 제공한다(단계 209).
음성인식 결과 처리부(70)는 음성인식 처리부(60)에 의해 인식된 음성 정보를 분석한 분석결과정보를 명령 수행부(80)에 제공한다(단계 210).
명령 수행부(80)는 음성인식 결과 처리부(70)에 의해 분석된 분석결과정보를 이용하여 각종 명령을 수행한다(단계 211).
따라서, 다수의 화자가 동시에 음성 명령을 수행할 경우, 특정한 한 화자에 대한 음성 명령을 화상인식기술 및 음성인식기술을 이용하여 정확하게 인식하여 각종 명령을 수행함으로써, 다수 화자가 동시에 음성 명령을 수행하는 중에서도 특정화자만의 음성만을 분별 인식하여 특정 화자가 명령한 것을 수행 가능하게 할 수 있는 것이다.
또한, 본 발명의 사상 및 특허청구범위 내에서 권리로서 개시하고 있으므로, 본원 발명은 일반적인 원리들을 이용한 임의의 변형, 이용 및/또는 개작을 포함할 수도 있으며, 본 명세서의 설명으로부터 벗어나는 사항으로서 본 발명이 속하는 업계에서 공지 또는 관습적 실시의 범위에 해당하고 또한 첨부된 특허청구범위의 제한 범위 내에 포함되는 모든 사항을 포함한다.
상기에서 설명한 바와 같이, 본 발명은 다수의 화자가 동시에 음성 명령을 수행할 경우, 특정한 한 화자에 대한 음성 명령을 화상인식기술 및 음성인식기술을 이용하여 정확하게 인식하여 각종 명령을 수행함으로써, 다수 화자가 동시에 음성 명령을 수행하는 중에서도 특정화자만의 음성만을 분별 인식하여 특정 화자가 명령한 것을 수행 가능하게 할 수 있는 효과가 있다.

Claims (2)

  1. 다수의 화자를 촬상하여 지향 거리를 측정하는 카메라와,
    상기 촬상된 영상 정보에 대한 화상을 인식하는 화상인식 처리부와,
    특정 화자에 대한 영상 정보를 세팅하고 있는 중에, 상기 화상인식 처리부에 의해 인식된 화상인식결과와 상기 세팅된 특정 화자의 영상 정보를 비교하여 상기 특정 화자의 위치 각을 파악하는 제어부와,
    상기 위치 각을 이용하여 지향성 줌 마이크의 지향 각도를 상기 특정 화자로의 방향으로 구동하고, 상기 지향 거리를 이용하여 상기 특정 화자로의 근접 줌 기능을 구동하는 지향성 줌 마이크 구동부와,
    상기 지향성 줌 마이크에 의해 추출된 음성 정보를 인식하는 음성인식 처리부와,
    상기 인식된 음성 정보를 분석하는 음성인식 결과 처리부와,
    상기 분석된 분석결과정보를 이용하여 각종 명령을 수행하는 명령 수행부
    를 포함하는 다수의 화자 분별을 위한 음성 인식장치.
  2. 제 1 항에 있어서,
    상기 지향성 줌 마이크는, 상기 특정 화자로의 정 방향과 최대 근접 줌 기능으로 활성화하여 상기 특정 화자의 음성을 추출하는 것을 특징으로 하는 다수의 화자 분별을 위한 음성 인식장치.
KR1020040091783A 2004-11-11 2004-11-11 다수의 화자 분별을 위한 음성 인식장치 KR20060044008A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040091783A KR20060044008A (ko) 2004-11-11 2004-11-11 다수의 화자 분별을 위한 음성 인식장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040091783A KR20060044008A (ko) 2004-11-11 2004-11-11 다수의 화자 분별을 위한 음성 인식장치

Publications (1)

Publication Number Publication Date
KR20060044008A true KR20060044008A (ko) 2006-05-16

Family

ID=37148874

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040091783A KR20060044008A (ko) 2004-11-11 2004-11-11 다수의 화자 분별을 위한 음성 인식장치

Country Status (1)

Country Link
KR (1) KR20060044008A (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100779242B1 (ko) * 2006-09-22 2007-11-26 (주)한국파워보이스 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법
KR100922963B1 (ko) * 2007-02-06 2009-10-22 삼성전자주식회사 마이크로폰 어레이를 이용한 사용자 음성 인식 장치 및 그 마이크로폰 어레이 구동 방법
KR101106786B1 (ko) * 2010-05-17 2012-01-18 주식회사 에스원 자동 음성 초점 기능이 구비된 음향신호 처리 장치 및 그 방법
KR101658001B1 (ko) 2015-03-18 2016-09-21 서강대학교산학협력단 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
US10657958B2 (en) 2015-03-18 2020-05-19 Sogang University Research Foundation Online target-speech extraction method for robust automatic speech recognition
US10991362B2 (en) 2015-03-18 2021-04-27 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
WO2023027308A1 (ko) * 2021-08-27 2023-03-02 삼성전자 주식회사 발화 대상을 구분하여 음성 처리하는 방법 및 장치
US11694707B2 (en) 2015-03-18 2023-07-04 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100779242B1 (ko) * 2006-09-22 2007-11-26 (주)한국파워보이스 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법
KR100922963B1 (ko) * 2007-02-06 2009-10-22 삼성전자주식회사 마이크로폰 어레이를 이용한 사용자 음성 인식 장치 및 그 마이크로폰 어레이 구동 방법
KR101106786B1 (ko) * 2010-05-17 2012-01-18 주식회사 에스원 자동 음성 초점 기능이 구비된 음향신호 처리 장치 및 그 방법
KR101658001B1 (ko) 2015-03-18 2016-09-21 서강대학교산학협력단 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
US10657958B2 (en) 2015-03-18 2020-05-19 Sogang University Research Foundation Online target-speech extraction method for robust automatic speech recognition
US10991362B2 (en) 2015-03-18 2021-04-27 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
US11694707B2 (en) 2015-03-18 2023-07-04 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
WO2023027308A1 (ko) * 2021-08-27 2023-03-02 삼성전자 주식회사 발화 대상을 구분하여 음성 처리하는 방법 및 장치

Similar Documents

Publication Publication Date Title
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
US9330673B2 (en) Method and apparatus for performing microphone beamforming
JP2011203992A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2002251234A (ja) 複数のセンサによるヒューマンインタフェースシステム
KR20010039771A (ko) 시청각적 발성자 인식 및 발성 검증 방법 및 장치
JP2002182680A (ja) 操作指示装置
KR100822880B1 (ko) 지능형 로봇 환경에서 오디오-비디오 기반 음원추적을 통한화자 인식 시스템 및 방법
CN111386531A (zh) 利用人工智能的多模式情绪识别装置、方法以及存储介质
JP2006251266A (ja) 視聴覚連携認識方法および装置
WO2017219450A1 (zh) 一种信息处理方法、装置及移动终端
KR20060044008A (ko) 다수의 화자 분별을 위한 음성 인식장치
CN113643707A (zh) 一种身份验证方法、装置和电子设备
JP2002312796A (ja) 主被写体推定装置、撮像装置、撮像システム、主被写体推定方法、撮像装置の制御方法、及び制御プログラムを提供する媒体
KR20210066774A (ko) 멀티모달 기반 사용자 구별 방법 및 장치
JP6916130B2 (ja) 話者推定方法および話者推定装置
US20150039314A1 (en) Speech recognition method and apparatus based on sound mapping
JP2001067098A (ja) 人物検出方法と人物検出機能搭載装置
JP2004004239A (ja) 音声認識対話装置およびプログラム
JPH0728488A (ja) 情報処理方法及び装置
KR20190078669A (ko) 시각 장애인 위한 안전한 보행과 정보 안내 시스템
KR20140114283A (ko) 정보 처리 장치
KR101430342B1 (ko) 발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치
JP7172120B2 (ja) 音声認識装置及び音声認識方法
Yoshinaga et al. Audio-visual speech recognition using new lip features extracted from side-face images
JP2015022357A (ja) 情報処理システム、情報処理方法および情報処理装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid