KR20190086205A - System and method for detecting speaker through analyzing microphone voice signal - Google Patents

System and method for detecting speaker through analyzing microphone voice signal Download PDF

Info

Publication number
KR20190086205A
KR20190086205A KR1020180004448A KR20180004448A KR20190086205A KR 20190086205 A KR20190086205 A KR 20190086205A KR 1020180004448 A KR1020180004448 A KR 1020180004448A KR 20180004448 A KR20180004448 A KR 20180004448A KR 20190086205 A KR20190086205 A KR 20190086205A
Authority
KR
South Korea
Prior art keywords
speaker
microphone
detecting
computer system
voice
Prior art date
Application number
KR1020180004448A
Other languages
Korean (ko)
Inventor
김성권
박구만
남진솔
황동호
Original Assignee
서울과학기술대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울과학기술대학교 산학협력단 filed Critical 서울과학기술대학교 산학협력단
Priority to KR1020180004448A priority Critical patent/KR20190086205A/en
Publication of KR20190086205A publication Critical patent/KR20190086205A/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • G06K9/00221
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Abstract

The present invention relates to a system to detect a speaker through analysis on a microphone voice signal and a method thereof. According to the present invention, the method includes: a step of obtaining an image by photographing event participants through a camera; a step of obtaining the voice of a random speaker through a microphone when the speaker starts to speak; a step of detecting the position of the speaker by analyzing the voice signal obtained through the microphone based on a computer system; a step of recognizing and detecting the faces of the participants from the image obtained through the camera based on the computer system; and a step of displaying a participant (speaker) on a position, which is matched with the position of the speaker detected through the voice signal analysis, by detecting the participant based on the computer system. According to the present invention, the faces of the speaker and the participants are recognized from the image obtained through the camera, the voice signal obtained through the microphone is analyzed to detect the position of the speaker, and only the corresponding speaker on a position matched with the position of the speaker according to the voice signal analysis is found from the image to enlarge, extract and display the image on a new window, so the accuracy of distinguishing the speaker can be increased.

Description

마이크 음성신호 분석을 통한 발언자 검출 시스템 및 방법{System and method for detecting speaker through analyzing microphone voice signal}TECHNICAL FIELD [0001] The present invention relates to a system and a method for detecting a speaker using microphone speech signal analysis,

본 발명은 발언자 검출 시스템에 관한 것으로서, 더 상세하게는 카메라를 이용한 촬영 영상에서 발언자의 얼굴을 인식하고, 마이크를 통해 취득된 음성신호를 분석하여 발언자의 위치를 검출하며, 음성신호 분석에 따른 발언자의 위치와 매칭되는 해당 발언자만을 촬영 영상에서 찾아 영상을 확대 추출 및 새로운 창에 표출함으로써, 발언자 판별의 정확도를 높일 수 있는 마이크 음성신호 분석을 통한 발언자 검출 시스템 및 방법에 관한 것이다.The present invention relates to a speaker detection system, and more particularly, to a speaker detection system that recognizes a face of a speaker in a shot image using a camera, analyzes a voice signal acquired through a microphone to detect a position of a speaker, And more particularly, to a system and a method for detecting a speaker by analyzing a microphone voice signal that can improve the accuracy of speaker discrimination by extracting and extracting an image from a photographed image and displaying it on a new window.

일반적으로, 도 1에 도시된 바와 같이, 다수의 발언자(110)가 참석하는 행사의 경우, 발언자(110)가 다수이기 때문에 인력을 이용하여 발언자를 수동으로 구분하거나, 마이크(120)의 버튼을 인식하여 발언자를 구분하고 있다.In general, as shown in FIG. 1, in the case of an event in which a plurality of speakers 110 attends, since there are a plurality of speakers 110, a speaker can be manually classified using a manpower, And recognizes and distinguishes the speaker.

마이크(120)의 버튼을 인식하여 발언자(110)를 구분하는 경우는 특정 마이크를 사용해야 하는 문제점이 있고, 개인 마이크를 이용하여 발언자를 구분하는 경우는 기침 또는 혼잣말에 의해서도 발언자로 구분될 수 있기 때문에 에러(오검출)가 발생할 수 있는 문제점이 있다.In the case of distinguishing the speaker 110 by recognizing the button of the microphone 120, there is a problem of using a specific microphone. In the case of distinguishing a speaker by using a personal microphone, a speaker can be classified by a cough or a private speech There is a problem that an error (false detection) may occur.

다수의 발언자가 존재하는 행사장에서는 다수의 발언자가 발언할 때, 참석자들은 발언자를 중심으로 청취하고, 해당 발언자만 촬영하는 영상이나 참석자 전체를 촬영하는 영상을 통해 발언자가 발언하는 모습을 시청한다.When a large number of speakers speak at a venue where a large number of speakers are present, attendees listen to the speaker as a center, and the viewer watches a video in which only the speaker is photographed or a video in which the entire participant is photographed.

현재는 인력과 다수의 카메라를 이용하여 발언자를 구분하고, 발언자의 위치를 수동 방식으로 인식한다.Currently, we distinguish the speaker using manpower and multiple cameras, and recognize the position of the speaker manually.

한편, 한국 공개특허공보 제10-2011-0073758호(특허문헌 1)에는 "발언자를 구별하는 영상 회의 장치 및 방법"이 개시되어 있는바, 이에 따른 발언자를 구별하는 영상 회의 방법은, 복수의 참가자들로 구성되는 영상 회의에서 발언 중인 참가자를 판별하는 단계; 및 상기 판별된 참가자와, 상기 판별된 참가자를 제외한 상기 복수의 참가자들을 구별하여 표시하는 영상 데이터를 생성하는 단계를 포함하고, 상기 발언 중인 참가자를 판별하는 상기 단계는, 상기 복수의 참가자들 각각에 대응하는 복수의 음성 획득 수단들 중에서 음성정보가 수집되는 음성 획득 수단을 확인하는 단계; 및 상기 확인된 음성 획득 수단에 상응하는 위치의 참가자를 상기 발언 중인 참가자로 판별하는 단계를 포함하는 것을 특징으로 한다.On the other hand, Korean Patent Laid-Open Publication No. 10-2011-0073758 (Patent Document 1) discloses "video conference apparatus and method for distinguishing a speaker ", and a video conference method for distinguishing a speaker from each other, Identifying a participant who is speaking in a video conference; And generating image data for discriminating between the discriminated participant and the plurality of participants other than the discriminated participant, wherein the step of discriminating the participant in utterance includes the steps of: Confirming voice acquisition means in which voice information is collected among a plurality of corresponding voice acquisition means; And discriminating, as the participant who is speaking, the participant at the position corresponding to the confirmed voice acquiring means.

이와 같은 특허문헌 1의 경우, 복수의 참가자들로 구성되는 영상 회의에서 발언 중인 참가자를 판별하고, 판별된 참가자와, 판별된 참가자를 제외한 복수의 참가자들을 구별하여 표시하는 영상 데이터를 생성하여, 영상 회의에 대한 불필요한 화면 구성 요소를 표시하지 않고, 실제로 영상 회의에 필요한 영상 구성 요소, 즉 참가자에 대한 영상만을 추출하여 표시함으로써, 네트워크 리소스를 효율적으로 사용할 수 있을지는 모르겠으나, 발언 중인 참가자를 판별함에 있어서 복수의 음성 획득 수단들 중에서 음성정보가 수집되는 음성 획득 수단을 확인하고, 확인된 음성 획득 수단에 상응하는 위치의 참가자를 발언 중인 참가자로 판별함에 따라 발언자가 아닌 다른 참가자가 혼자서 말하는 것이 음성 획득 수단에 의해 수집되는 경우, 발언자로 판별될 수 있기 때문에 에러(오판별)가 발생할 수 있는 문제점이 있다. In the case of Patent Document 1, the participant who is speaking in a video conference composed of a plurality of participants is discriminated, and image data for discriminating and displaying a discriminated participant and a plurality of participants other than the discriminated participant is generated, Although it is not known whether or not the network resource can be efficiently used by extracting and displaying only the image components necessary for the video conference, that is, the image of the participant, without displaying unnecessary screen components for the conference, A voice acquiring means for acquiring voice information from a plurality of voice acquiring means is identified and a participant who is at a position corresponding to the identified voice acquiring means is identified as a participant who is speaking, If it is collected by means, There is a problem that an error (misidentification) may occur.

한국 공개특허공보 제10-2011-0073758호(2011.06.30. 공개)Korean Patent Publication No. 10-2011-0073758 (published on June 30, 2011)

본 발명은 이상과 같은 사항을 감안하여 창출된 것으로서, 카메라를 이용하여 촬영된 영상에서 참석자 및 발언자의 얼굴을 인식하고, 마이크를 이용하여 취득된 음성신호를 분석하여 발언자의 위치를 검출하며, 음성신호 분석에 따른 발언자의 위치와 매칭되는 위치의 해당 발언자만을 촬영 영상에서 찾아 영상을 확대 추출 및 새로운 창에 표출함으로써, 발언자 판별의 정확도를 높일 수 있고, 수작업으로 일일이 발언자를 분류하는 번거로움을 제거할 수 있는 마이크 음성신호 분석을 통한 발언자 검출 시스템 및 방법을 제공함에 그 목적이 있다.The present invention has been made in view of the above, and it is an object of the present invention to recognize a face of a participant and a speaker in a video image captured using a camera, to analyze a voice signal obtained using a microphone to detect a position of a speaker, Only the corresponding speaker at the position matched with the position of the speaker according to the signal analysis is searched in the photographed image and the image is enlarged and displayed in a new window to improve the accuracy of the speaker discrimination and eliminates the trouble of manually classifying the speaker The present invention also provides a method and system for detecting a speaker using microphone speech signal analysis.

상기의 목적을 달성하기 위하여 본 발명에 따른 마이크 음성신호 분석을 통한 발언자 검출 시스템은,According to another aspect of the present invention, there is provided a speaker detection system comprising:

행사장의 소정 위치에 설치되며, 행사장에 참석한 행사 참석자들을 촬영하여 영상을 취득하는 카메라와;A camera installed at a predetermined location of the event site and capturing an image of the event attendees attending the event site;

행사장의 소정 위치에 설치되며, 상기 행사 참석자들 중 임의의 발언자가 발언을 하면 발언자의 음성을 취득하는 마이크와; A microphone installed at a predetermined position of the event hall to acquire a voice of a speaker when any one of the attendees speaks;

상기 마이크에 의해 취득되는 음성신호를 분석하여 해당 발언자의 위치를 검출하고, 상기 카메라에 의해 취득된 영상으로부터 참석자들의 얼굴을 인식 및 검출하며, 상기 음성신호 분석에 의해 검출된 발언자의 위치와 일치하는 위치의 참석자를 최종적으로 검출하는 컴퓨터 시스템; 및Detecting a position of the speaker by analyzing a voice signal acquired by the microphone, recognizing and detecting a face of the participants from the image acquired by the camera, and recognizing the face of the speaker matching the position of the speaker detected by the voice signal analysis A computer system for ultimately detecting attendees of the location; And

상기 컴퓨터 시스템에 의해 최종적으로 검출된 참석자를 화면에 표시하는 디스플레이 장치를 포함하는 점에 그 특징이 있다.And a display device for displaying the attendees finally detected by the computer system on the screen.

여기서, 바람직하게는 상기 마이크로는 지향성 마이크가 사용되고, 그 지향성 마이크에는 음압 측정기가 일체로 구비될 수 있다. Preferably, the microphone is a directional microphone, and the sound pressure meter is integrally provided in the directional microphone.

또한, 상기의 목적을 달성하기 위하여 본 발명에 따른 마이크 음성신호 분석을 통한 발언자 검출 방법은,According to another aspect of the present invention, there is provided a method for detecting a speaker by analyzing a microphone voice signal,

a) 카메라에 의해 행사 참석자들을 촬영하여 영상을 취득하는 단계; a) capturing images of event attendees by a camera and acquiring images;

b) 임의의 발언자가 발언을 시작하면 마이크에 의해 발언자의 음성을 취득하는 단계; b) acquiring a voice of a speaker by a microphone when an arbitrary speaker starts speaking;

c) 컴퓨터 시스템에 의해 상기 마이크에 의해 취득된 음성신호를 분석하여 해당 발언자의 위치를 검출하는 단계; c) analyzing the speech signal acquired by the microphone by the computer system and detecting the position of the speaker;

d) 상기 컴퓨터 시스템에 의해 상기 카메라에 의해 취득된 영상으로부터 참석자들의 얼굴을 인식 및 검출하는 단계; 및 d) recognizing and detecting faces of attendees from the images acquired by the camera by the computer system; And

e) 상기 컴퓨터 시스템에 의해 상기 음성신호 분석에 의해 검출된 발언자의 위치와 일치하는 위치의 참석자(발언자)를 검출하여 디스플레이 장치에 표출하는 단계를 포함하는 점에 그 특징이 있다.e) detecting a participant (speaker) at a position coincident with a position of the speaker detected by the computer system and analyzing the speech signal, and displaying the detected participant on a display device.

여기서, 상기 단계 b)에서 마이크에 의해 발언자의 음성을 취득함에 있어서, 바람직하게는 음압 측정기와 지향성 마이크를 이용하여 음성(음향 신호)을 취득할 수 있다.Here, in acquiring the voice of the speaker by the microphone in the step b), the sound (sound signal) can preferably be obtained by using the sound pressure meter and the directional microphone.

또한, 상기 단계 c)에서 컴퓨터 시스템에 의해 상기 마이크에 의해 취득된 음성신호를 분석하여 해당 발언자의 위치를 검출함에 있어서, 상기 음압 측정기의 음압 차이를 이용하여 음향 근원지의 방향을 추정하고, 추정된 방향의 음향 신호를 제외한 나머지 부분의 음향 신호를 제거함으로써, 해당 발언자의 위치를 검출할 수 있다.Further, in the step c), when the voice signal obtained by the microphone is analyzed by the computer system and the position of the speaker is detected, the direction of the acoustic source is estimated using the sound pressure difference of the sound pressure meter, The position of the speaker can be detected by removing the acoustic signal of the remaining portion excluding the acoustic signal of the direction.

이와 같은 본 발명에 의하면, 카메라를 이용하여 촬영된 영상에서 참석자 및 발언자의 얼굴을 인식하고, 마이크를 이용하여 취득된 음성신호를 분석하여 발언자의 위치를 검출하며, 음성신호 분석에 따른 발언자의 위치와 매칭되는 위치의 해당 발언자만을 촬영 영상에서 찾아 영상을 확대 추출 및 새로운 창에 표출함으로써, 발언자 판별의 정확도를 높일 수 있고, 수작업으로 일일이 발언자를 분류하는 번거로움을 제거할 수 있는 장점이 있다.According to the present invention, the faces of the participants and the speaker are recognized in the image captured using the camera, the position of the speaker is detected by analyzing the voice signal acquired using the microphone, and the position of the speaker It is possible to increase the accuracy of the speaker discrimination and to eliminate the trouble of manually classifying the speaker by manually extracting and extracting the image from the photographed image and displaying it on a new window.

도 1은 발언자 자동 인식 기능이 없는 종래 발언자 검출 시스템의 개요를 나타낸 도면이다.
도 2는 본 발명의 실시예에 따른 마이크 음성신호 분석을 통한 발언자 검출 시스템의 구성을 개략적으로 나타낸 도면이다.
도 3은 본 발명의 실시예에 따른 마이크 음성신호 분석을 통한 발언자 검출 방법의 실행 과정을 나타낸 흐름도이다.
도 4는 본 발명에 따른 마이크 음성신호 분석을 통한 발언자 검출 방법에 있어서, 음향 근원지의 방향 추정 및 발언자의 위치를 검출하는 과정을 나타낸 도면이다.
도 5는 본 발명에 따른 마이크 음성신호 분석을 통한 발언자 검출 방법에 있어서, 발언자의 방향으로 카메라를 회전시켜 발언자의 영상 및 음성을 취득하는 과정을 나타낸 도면이다.
1 is a diagram showing an outline of a conventional speaker detection system without a speaker automatic recognition function.
2 is a diagram schematically showing a configuration of a speaker detection system through analysis of a microphone voice signal according to an embodiment of the present invention.
3 is a flowchart illustrating a method of detecting a speaker by analyzing a microphone speech signal according to an exemplary embodiment of the present invention.
4 is a flowchart illustrating a method of detecting a location of a speaker and a direction of an acoustic source according to an embodiment of the present invention.
FIG. 5 is a flowchart illustrating a method for detecting a speaker by rotating a camera in a direction of a speaker, according to an embodiment of the present invention.

본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정되어 해석되지 말아야 하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.The terms and words used in the present specification and claims should not be construed as limited to ordinary or dictionary terms and the inventor can properly define the concept of the term to describe its invention in the best way Should be construed in accordance with the principles and meanings and concepts consistent with the technical idea of the present invention.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈", "장치" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.Throughout the specification, when an element is referred to as "comprising ", it means that it can include other elements as well, without excluding other elements unless specifically stated otherwise. Also, the terms " part, "" module, "and" device " Lt; / RTI >

이하 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 2는 본 발명의 실시예에 따른 마이크 음성신호 분석을 통한 발언자 검출 시스템의 구성을 개략적으로 나타낸 도면이다.2 is a diagram schematically showing a configuration of a speaker detection system through analysis of a microphone voice signal according to an embodiment of the present invention.

도 2를 참조하면, 본 발명에 따른 마이크 음성신호 분석을 통한 발언자 검출 시스템(200)은, 카메라(210), 마이크(220), 컴퓨터 시스템(230), 디스플레이 장치(240)를 포함하여 구성된다.2, a speaker detection system 200 using microphone speech signal analysis according to the present invention includes a camera 210, a microphone 220, a computer system 230, and a display device 240 .

카메라(210)는 행사장의 소정 위치에 설치되며, 행사장에 참석한 행사 참석자들을 촬영하여 영상을 취득한다. 여기서, 이와 같은 카메라(210)로는 일반 카메라가 사용될 수 있으나, 바람직하게는 광각 카메라가 사용된다.The camera 210 is installed at a predetermined position of the event site, and captures the event attendees at the event site to acquire images. Here, a general camera may be used as the camera 210, but a wide angle camera is preferably used.

마이크(220)는 행사장의 소정 위치(예를 들면, 참석자들이 둘러앉아 있을 경우, 행사장 테이블 위)에 설치되며, 상기 행사 참석자들 중 임의의 발언자가 발언을 하면 발언자의 음성을 취득한다. 여기서, 이와 같은 마이크로는 일반 마이크가 사용될 수도 있으나, 바람직하게는 지향성 마이크가 사용된다. 또한, 바람직하게는 그 지향성 마이크에는 음압 측정기가 일체로 구비된다. 물론, 이와 같이 음압 측정기 일체형 지향성 마이크로 한정되는 것은 아니며, 마이크와 음압 측정기가 별개의 장치로 구성되어 근접 설치되는 형태로 구축될 수도 있다.The microphone 220 is installed at a predetermined position of the venue (for example, on the venue table when attendees are sitting around), and when a speaker of the ceremony participant makes a statement, the speaker 220 acquires the speaker's voice. Here, although a general microphone may be used as such a microphone, a directional microphone is preferably used. In addition, preferably, the directional microphone is integrally provided with a sound pressure measuring device. Of course, it is not limited to the directional microphones integrated with the sound pressure meter, and the microphone and the sound pressure meter may be constructed as separate devices and installed in close proximity to each other.

컴퓨터 시스템(230)은 상기 마이크(220)에 의해 취득되는 음성신호를 분석하여 해당 발언자의 위치를 검출하고, 상기 카메라(210)에 의해 취득된 영상으로부터 참석자들의 얼굴을 인식 및 검출하며, 상기 음성신호 분석에 의해 검출된 발언자의 위치와 일치하는 위치의 참석자를 최종적으로 검출한다. 여기서, 이와 같은 컴퓨터 시스템(230)에는 음성신호를 분석하기 위한 음성신호 분석 알고리즘(일종의 소프트웨어 프로그램임)이 탑재될 수 있다. 또한, 컴퓨터 시스템(230)에는 촬영된 영상으로부터 참석자들의 얼굴을 인식 및 검출하기 위한 영상 분석 및 인식 알고리즘(영상신호 분석을 위한 일종의 소프트웨어 프로그램임)이 탑재될 수 있다. 또한, 이상과 같은 컴퓨터 시스템(230)으로는 일반적인 컴퓨터(예를 들면, 데스크탑 PC, 노트북 PC, 태블릿 PC 등)가 사용될 수 있다. 또한, 이와 같은 컴퓨터뿐만 아니라 어느 정도 컴퓨터의 기능을 수행할 수 있는 장치이면(예를 들면, 마이크로프로세서를 탑재한 컨트롤러 등), 모두 사용 가능하다.The computer system 230 analyzes the voice signal acquired by the microphone 220 to detect the position of the speaker, recognizes and detects the face of the participants from the image captured by the camera 210, The participant at the position coincident with the position of the speaker detected by the signal analysis is finally detected. Here, the computer system 230 may be equipped with a voice signal analysis algorithm (which is a kind of software program) for analyzing a voice signal. In addition, the computer system 230 may be equipped with an image analysis and recognition algorithm (which is a kind of software program for image signal analysis) for recognizing and detecting the faces of participants from photographed images. In addition, a general computer (for example, a desktop PC, a notebook PC, a tablet PC, etc.) may be used as the computer system 230 as described above. In addition, not only such a computer but also a device capable of performing a function of a computer to some extent (for example, a controller equipped with a microprocessor) can be used.

디스플레이 장치(240)는 컴퓨터 시스템(230)에 의해 최종적으로 검출된 참석자를 화면에 표시한다. 이와 같은 디스플레이 장치로는 LCD 또는 PDP 패널, OHP(Over Head Projector)와 그에 의해 확대된 영상을 표시하는 대형 스크린 등이 사용될 수 있다. 또한, 이와 같은 디스플레이 장치(240)의 근접 부위에는 발언자의 음성을 출력하는 스피커(250)가 더 설치될 수 있다.The display device 240 displays on the screen the eventually detected participants by the computer system 230. [ As such a display device, an LCD or a PDP panel, an overhead projector (OHP) and a large screen for displaying an image enlarged by the OHP may be used. In addition, a speaker 250 for outputting a voice of a speaker may be further provided in the vicinity of the display device 240.

그러면, 이하에서는 이상과 같은 구성을 가지는 본 발명에 따른 마이크 음성신호 분석을 통한 발언자 검출 시스템을 기반으로 한 마이크 음성신호 분석을 통한 발언자 검출 방법에 대하여 간략히 설명해 보기로 한다.Hereinafter, a method for detecting a speaker by analyzing a microphone voice signal based on a speaker detection system by analyzing a microphone voice signal according to the present invention having the above-described configuration will be briefly described.

도 3은 본 발명의 실시예에 따른 마이크 음성신호 분석을 통한 발언자 검출 방법의 실행 과정을 나타낸 흐름도이다.3 is a flowchart illustrating a method of detecting a speaker by analyzing a microphone speech signal according to an exemplary embodiment of the present invention.

도 3을 참조하면, 본 발명에 따른 마이크 음성신호 분석을 통한 발언자 검출 방법은, 행사장이나 회의장에 카메라(210), 마이크(220), 컴퓨터 시스템(230) (이 컴퓨터 시스템(230)은 행사장이나 회의장에 설치될 수도 있고, 다른 장소에 설치될 수도 있음), 디스플레이 장치(240)가 설치되어 있는 상태에서, 먼저 카메라(210)에 의해 행사 참석자들을 촬영하여 영상을 취득한다(단계 S301).3, a method for detecting a speaker using microphone voice signal analysis according to the present invention includes a camera 210, a microphone 220, and a computer system 230 (the computer system 230 is a venue, (Step S301). In the state where the display device 240 is installed, the event 210 is first captured by the camera 210 to acquire an image (step S301).

그리고 행사에 참석한 참석자들 중 임의의 발언자가 발언을 시작하면 마이크(220)에 의해 발언자의 음성을 취득한다(단계 S302). 여기서, 마이크(220)에 의해 발언자의 음성을 취득함에 있어서, 바람직하게는 음압 측정기와 지향성 마이크를 이용하여 음성(음향 신호)을 취득한다.When any of the participants attending the event starts to speak, the microphone 220 acquires the voice of the speaker (step S302). Here, in acquiring the voice of the speaker by the microphone 220, the sound (acoustic signal) is preferably acquired using the sound pressure meter and the directional microphone.

그런 후, 컴퓨터 시스템(230)에 의해 상기 마이크(220)에 의해 취득된 음성신호를 분석하여 해당 발언자의 위치를 검출한다(단계 S303). 여기서, 컴퓨터 시스템(230)에 의해 상기 마이크(220)에 의해 취득된 음성신호를 분석하여 해당 발언자의 위치를 검출함에 있어서, 전술한 바와 같이 컴퓨터 시스템(230)에 탑재되어 있는 음성신호 분석 알고리즘을 실행시켜, 도 4에 도시된 바와 같이, 상기 음압 측정기의 음압 차이를 이용하여 음향 근원지의 방향을 추정하고, 추정된 방향의 음향 신호를 제외한 나머지 부분의 음향 신호를 제거함으로써, 해당 발언자의 위치를 검출할 수 있다.Then, the speech signal obtained by the microphone 220 is analyzed by the computer system 230 and the position of the speaker is detected (step S303). Herein, in analyzing the speech signal acquired by the microphone 220 by the computer system 230 and detecting the position of the speaker, the speech signal analysis algorithm installed in the computer system 230, as described above, As shown in FIG. 4, the direction of the acoustic source is estimated using the sound pressure difference of the sound pressure meter, and the acoustic signal of the remaining part excluding the acoustic signal in the estimated direction is removed, Can be detected.

또한, 상기 컴퓨터 시스템(230)에 의해 상기 카메라(210)에 의해 취득된 영상으로부터 참석자들의 얼굴을 인식 및 검출한다(단계 S304). 여기서, 취득된 영상으로부터 참석자들의 얼굴을 인식 및 검출함에 있어서, 전술한 바와 같이 컴퓨터 시스템(230)에 탑재되어 있는 영상 분석 및 인식 알고리즘을 실행시켜 참석자들의 얼굴을 인식 및 검출할 수 있다.In addition, the computer system 230 recognizes and detects the faces of the participants from the image captured by the camera 210 (step S304). Here, in recognizing and detecting the face of the participants from the captured image, the face of the attendees can be recognized and detected by executing the image analysis and recognition algorithm mounted on the computer system 230 as described above.

이상과 같이, 음성신호 분석에 의한 발언자의 위치 검출 및 영상 분석에 의한 참석자들의 얼굴 인식 및 검출이 완료된 후, 상기 컴퓨터 시스템(230)에 의해 상기 음성신호 분석에 의해 검출된 발언자의 위치와 일치하는 위치의 참석자(발언자)를 검출하여, 도 4에 도시된 바와 같이, 디스플레이 장치(240)에 표출한다(단계 S305). 이때, 바람직하게는 검출된 참석자(발언자)의 영상을 확대하여 표출한다.As described above, after the face recognition and detection of the participants by the position detection and image analysis of the speaker by the voice signal analysis is completed, the position of the speaker matching the position of the speaker detected by the speech signal analysis by the computer system 230 (Speaker) of the position is detected and displayed on the display device 240 as shown in Fig. 4 (step S305). At this time, preferably, the image of the detected attendee (speaker) is enlarged and displayed.

이후, 본 발명의 방법은, 도 5에 도시된 바와 같이, 발언자의 위치가 검출된(확인된) 방향으로 카메라(210)를 회전시켜 발언자의 영상 및 음성을 계속 취득하여 디스플레이 장치(240)에 표출 및 스피커(250)를 통해 출력하는 단계를 더 포함할 수 있다.5, the method of the present invention rotates the camera 210 in the direction in which the position of the speaker is detected (confirmed) to continuously acquire the video and audio of the speaker and displays it on the display device 240 And outputting it through the speaker 250 and the speaker.

이상의 설명과 같이, 본 발명에 따른 마이크 음성신호 분석을 통한 발언자 검출 시스템 및 방법은 카메라를 이용하여 촬영된 영상에서 참석자 및 발언자의 얼굴을 인식하고, 마이크를 이용하여 취득된 음성신호를 분석하여 발언자의 위치를 검출하며, 음성신호 분석에 따른 발언자의 위치와 매칭되는 위치의 해당 발언자만을 촬영 영상에서 찾아 영상을 확대 추출 및 새로운 창에 표출함으로써, 발언자 판별의 정확도를 높일 수 있고, 수작업으로 일일이 발언자를 분류하는 번거로움을 제거할 수 있는 장점이 있다.As described above, the speaker detection system and method using microphone voice signal analysis according to the present invention recognize faces of participants and a speaker in a video shot using a camera, analyze a voice signal obtained using a microphone, It is possible to increase the accuracy of speaker discrimination by extracting only the corresponding speaker at a position matched with the position of the speaker in accordance with the voice signal analysis and extracting and extracting the image in a new window and manually adjusting the speaker It is advantageous to eliminate the hassle of sorting.

이상, 바람직한 실시 예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, but many variations and modifications may be made without departing from the spirit and scope of the invention. Be clear to the technician. Accordingly, the true scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of the same should be construed as being included in the scope of the present invention.

110: 발언자 120, 220: 마이크
210: 카메라 230: 컴퓨터 시스템
240: 디스플레이 장치 250: 스피커
110: Speaker 120, 220: Microphone
210: camera 230: computer system
240: Display device 250: Speaker

Claims (5)

행사장의 소정 위치에 설치되며, 행사장에 참석한 행사 참석자들을 촬영하여 영상을 취득하는 카메라와;
행사장의 소정 위치에 설치되며, 상기 행사 참석자들 중 임의의 발언자가 발언을 하면 발언자의 음성을 취득하는 마이크와;
상기 마이크에 의해 취득되는 음성신호를 분석하여 해당 발언자의 위치를 검출하고, 상기 카메라에 의해 취득된 영상으로부터 참석자들의 얼굴을 인식 및 검출하며, 상기 음성신호 분석에 의해 검출된 발언자의 위치와 일치하는 위치의 참석자를 최종적으로 검출하는 컴퓨터 시스템; 및
상기 컴퓨터 시스템에 의해 최종적으로 검출된 참석자를 화면에 표시하는 디스플레이 장치를 포함하는 마이크 음성신호 분석을 통한 발언자 검출 시스템.
A camera installed at a predetermined location of the event site and capturing an image of the event attendees attending the event site;
A microphone installed at a predetermined position of the event hall to acquire a voice of a speaker when any one of the attendees speaks;
Detecting a position of the speaker by analyzing a voice signal acquired by the microphone, recognizing and detecting a face of the participants from the image acquired by the camera, and recognizing the face of the speaker matching the position of the speaker detected by the voice signal analysis A computer system for ultimately detecting attendees of the location; And
And a display device for displaying the attendees finally detected by the computer system on the screen.
제1항에 있어서,
상기 마이크는 지향성 마이크이고, 상기 지향성 마이크에는 음압 측정기가 일체로 구비되어 있는 마이크 음성신호 분석을 통한 발언자 검출 시스템.
The method according to claim 1,
Wherein the microphone is a directional microphone, and the directional microphone is integrally provided with a sound pressure meter.
a) 카메라에 의해 행사 참석자들을 촬영하여 영상을 취득하는 단계;
b) 임의의 발언자가 발언을 시작하면 마이크에 의해 발언자의 음성을 취득하는 단계;
c) 컴퓨터 시스템에 의해 상기 마이크에 의해 취득된 음성신호를 분석하여 해당 발언자의 위치를 검출하는 단계;
d) 상기 컴퓨터 시스템에 의해 상기 카메라에 의해 취득된 영상으로부터 참석자들의 얼굴을 인식 및 검출하는 단계; 및
e) 상기 컴퓨터 시스템에 의해 상기 음성신호 분석에 의해 검출된 발언자의 위치와 일치하는 위치의 참석자(발언자)를 검출하여 디스플레이 장치에 표출하는 단계를 포함하는 마이크 음성신호 분석을 통한 발언자 검출 방법.
a) capturing images of event attendees by a camera and acquiring images;
b) acquiring a voice of a speaker by a microphone when an arbitrary speaker starts speaking;
c) analyzing the speech signal acquired by the microphone by the computer system and detecting the position of the speaker;
d) recognizing and detecting faces of attendees from the images acquired by the camera by the computer system; And
e) detecting a participant (speaker) at a position coincident with the position of the speaker detected by the speech signal analysis by the computer system and displaying the speaker on a display device.
제3항에 있어서,
상기 단계 b)에서 마이크에 의해 발언자의 음성을 취득함에 있어서, 음압 측정기와 지향성 마이크를 이용하여 음성(음향 신호)을 취득하는 마이크 음성신호 분석을 통한 발언자 검출 방법.
The method of claim 3,
A method for detecting a speaker by analyzing a microphone voice signal for acquiring a voice (acoustic signal) using a sound pressure meter and a directional microphone in acquiring a voice of a speaker by the microphone in the step b).
제4항에 있어서,
상기 단계 c)에서 컴퓨터 시스템에 의해 상기 마이크에 의해 취득된 음성신호를 분석하여 해당 발언자의 위치를 검출함에 있어서, 상기 음압 측정기의 음압 차이를 이용하여 음향 근원지의 방향을 추정하고, 추정된 방향의 음향 신호를 제외한 나머지 부분의 음향 신호를 제거함으로써, 해당 발언자의 위치를 검출하는 마이크 음성신호 분석을 통한 발언자 검출 방법.
5. The method of claim 4,
The method according to claim 1, wherein, in the step c), when analyzing the speech signal acquired by the microphone by the computer system and detecting the position of the speaker, the direction of the acoustic source is estimated using the sound pressure difference of the sound pressure meter, A method for detecting a speaker by analyzing a microphone voice signal to detect a position of the speaker by removing an acoustic signal of a remaining portion excluding an acoustic signal.
KR1020180004448A 2018-01-12 2018-01-12 System and method for detecting speaker through analyzing microphone voice signal KR20190086205A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180004448A KR20190086205A (en) 2018-01-12 2018-01-12 System and method for detecting speaker through analyzing microphone voice signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180004448A KR20190086205A (en) 2018-01-12 2018-01-12 System and method for detecting speaker through analyzing microphone voice signal

Publications (1)

Publication Number Publication Date
KR20190086205A true KR20190086205A (en) 2019-07-22

Family

ID=67469217

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180004448A KR20190086205A (en) 2018-01-12 2018-01-12 System and method for detecting speaker through analyzing microphone voice signal

Country Status (1)

Country Link
KR (1) KR20190086205A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110073758A (en) 2009-12-24 2011-06-30 삼성전자주식회사 Apparatus of video conference for distinguish speaker from participants and method of the same

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110073758A (en) 2009-12-24 2011-06-30 삼성전자주식회사 Apparatus of video conference for distinguish speaker from participants and method of the same

Similar Documents

Publication Publication Date Title
KR101636716B1 (en) Apparatus of video conference for distinguish speaker from participants and method of the same
CN110808048B (en) Voice processing method, device, system and storage medium
US20150088515A1 (en) Primary speaker identification from audio and video data
EP2925005A1 (en) Display apparatus and user interaction method thereof
JP2014153663A (en) Voice recognition device, voice recognition method and program
KR20210088435A (en) Image processing method and apparatus, electronic device and storage medium
JP2007528031A (en) Technology to separate and evaluate audio and video source data
US10964326B2 (en) System and method for audio-visual speech recognition
WO2017150103A1 (en) Audio processing device, image processing device, microphone array system, and audio processing method
US10922570B1 (en) Entering of human face information into database
US10600218B2 (en) Display control system, display control apparatus, display control method, and storage medium
US11405584B1 (en) Smart audio muting in a videoconferencing system
JP2020095210A (en) Minutes output device and control program for minutes output device
KR101077267B1 (en) Stenography Input System And Method For Conference Using Face Recognition
CN210469530U (en) Audio and image tracking system for speaking person
CN112866617A (en) Video conference device and video conference method
CN110767229B (en) Voiceprint-based audio output method, device and equipment and readable storage medium
US11404064B2 (en) Information processing apparatus and speech analysis method
KR20190086205A (en) System and method for detecting speaker through analyzing microphone voice signal
KR20190016683A (en) Apparatus for automatic conference notetaking using mems microphone array
JP2018087838A (en) Voice recognition device
US20230100151A1 (en) Display method, display device, and display system
KR20150096204A (en) Apparatus and method of script and scene aligning for multimedia sorting, analyzing and tagging
US20230186654A1 (en) Systems and methods for detection and display of whiteboard text and/or an active speaker
JP2015177490A (en) Image/sound processing system, information processing apparatus, image/sound processing method, and image/sound processing program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application