KR20140077514A - Conference records managing apparatus - Google Patents

Conference records managing apparatus Download PDF

Info

Publication number
KR20140077514A
KR20140077514A KR1020120146420A KR20120146420A KR20140077514A KR 20140077514 A KR20140077514 A KR 20140077514A KR 1020120146420 A KR1020120146420 A KR 1020120146420A KR 20120146420 A KR20120146420 A KR 20120146420A KR 20140077514 A KR20140077514 A KR 20140077514A
Authority
KR
South Korea
Prior art keywords
speaker
minutes
voice signal
microphone
speech
Prior art date
Application number
KR1020120146420A
Other languages
Korean (ko)
Inventor
박종봉
장중혁
Original Assignee
박종봉
장중혁
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박종봉, 장중혁 filed Critical 박종봉
Priority to KR1020120146420A priority Critical patent/KR20140077514A/en
Publication of KR20140077514A publication Critical patent/KR20140077514A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)

Abstract

The present invention relates to a conference record managing apparatus. According to the sound setting level of each mike compared to a reference sound level, the sound level of a sound signal inputted from each mike is adjusted to the reference sound level in order to be normalized. A speaker is distinguished from the normalized sound signal. Therefore, the distinction of the speaker can be efficiently and simply carried out without a complicated speaker determination algorism such as the separation of speakers based on the frequency band of a sound file.

Description

회의록 관리장치{Conference records managing apparatus}{Conference records managing apparatus}

본 발명은 음성 처리 기술에 관련한 것으로, 특히 다수의 마이크로부터 입력되는 음성 신호로부터 화자의 발언 내용을 인식해 텍스트로 변환하여 회의록에 기록하는 회의록 관리장치에 관한 것이다.The present invention relates to a speech processing technique, and more particularly, to a meeting record management apparatus for recognizing speech contents of a speaker from a voice signal input from a plurality of microphones, converting the speech contents into texts, and recording them in minutes.

대한민국 공개특허 제10-2008-0037402호(2008. 04. 30)에서 입력된 음성의 특정 부분을 녹음하고, 녹음된 음성파일의 주파수 대역을 기준으로 화자들을 분리하고, 화자가 분리된 음성파일을 텍스트파일로 변환하고, 변환된 텍스트파일의 저장, 열람 및 송신을 관리하는 이동통신 단말기의 회의록 작성 기술을 제안하고 있다.Korean Patent Laid-Open No. 10-2008-0037402 (Apr. 30, 2008), a specific part of the voice inputted is recorded, speakers are separated based on the frequency band of the recorded voice file, A text file, and manages the storage, reading, and transmission of the converted text file.

이러한 선행기술은 음성파일의 주파수 대역을 기준으로 화자들을 분리하는 복잡한 알고리즘을 통해 화자를 판별하였다. 따라서, 본 발명자는 화자 판별을 위한 복잡한 알고리즘이 필요없이, 다수의 마이크로부터 입력되는 음성 신호로부터 간편하고 효율적으로 화자를 판별하여 회의록을 작성할 수 있는 기술에 대한 연구를 하게 되었다.This prior art has identified the speaker through a complicated algorithm that separates the speakers based on the frequency band of the voice file. Therefore, the present inventor has studied a technology that can easily and efficiently identify a speaker from a voice signal input from a plurality of microphones without creating a complicated algorithm for speaker identification, and can create a minutes.

대한민국 공개특허 제10-2008-0037402호(2008. 04. 30)Korean Patent Publication No. 10-2008-0037402 (Apr. 30, 2008)

본 발명은 상기한 취지하에 발명된 것으로, 화자 판별을 위한 복잡한 알고리즘이 필요없이, 다수의 마이크로부터 입력되는 음성 신호로부터 간편하고 효율적으로 화자를 판별하여 회의록을 작성할 수 있는 회의록 관리장치를 제공함을 그 목적으로 한다.SUMMARY OF THE INVENTION The present invention has been made under the above-mentioned circumstances and provides a minutes management apparatus capable of easily and efficiently determining a speaker from a voice signal input from a plurality of microphones without creating a complicated algorithm for speaker identification, The purpose.

상기한 목적을 달성하기 위한 본 발명의 일 양상에 따르면, 회의록 관리장치가 기준 음량과 대비한 각 마이크의 음량 설정 수준에 따라, 각 마이크로부터 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하여 정규화하고, 정규화된 음성 신호로부터 화자를 판별하고, 판별된 화자의 음성 신호로부터 인식되는 화자의 발언 내용을 텍스트로 변환하여 회의록에 기록하는 것을 특징으로 한다.According to one aspect of the present invention, the minutes management apparatus adjusts the volume of a voice signal inputted from each microphone to a reference volume level according to a volume setting level of each microphone in comparison with a reference volume, The speaker is distinguished from the normalized speech signal, and speech contents of the speaker recognized from the speech signal of the identified speaker are converted into text and recorded in the minutes.

본 발명은 기준 음량과 대비한 각 마이크의 음량 설정 수준에 따라, 각 마이크로부터 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하여 정규화하고, 정규화된 음성 신호로부터 화자를 판별함으로써 음성파일의 주파수 대역을 기준으로 화자들을 분리하는 것과 같은 복잡한 화자 판별 알고리즘이 필요없이 간편하고, 효율적으로 화자를 판별하여 회의록을 작성할 수 있는 유용한 효과를 가진다.According to the present invention, the volume of a voice signal inputted from each microphone is adjusted to a reference volume level according to a volume setting level of each microphone in comparison with a reference volume, and the speaker is discriminated from the normalized voice signal, It is possible to easily and efficiently identify a speaker and create a minutes without the need for a complicated speaker discrimination algorithm such as separating speakers on the basis of the number of speakers.

도 1 은 본 발명에 따른 회의록 관리장치의 일 실시예의 구성을 도시한 블럭도이다.
도 2 는 각 마이크로부터 입력된 음성 신호의 정규화 전후를 비교하기 위한 예시도이다.
도 3 은 본 발명에 따른 회의록 관리장치에 의해 생성된 회의록의 일 예를 도시한 도면이다.
도 4 는 본 발명에 따른 회의록 관리장치의 회의록 작성 동작의 일 예를 도시한 흐름도이다.
1 is a block diagram showing a configuration of an embodiment of a minutes management apparatus according to the present invention.
2 is an exemplary diagram for comparing before and after normalization of a voice signal input from each microphone.
3 is a view showing an example of minutes generated by the minutes management apparatus according to the present invention.
FIG. 4 is a flowchart illustrating an example of a minutes recording operation of the minutes management apparatus according to the present invention.

이하, 첨부된 도면을 참조하여 기술되는 바람직한 실시예를 통하여 본 발명을 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 기술하기로 한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Reference will now be made in detail to embodiments of the present invention, examples of which are illustrated in the accompanying drawings, wherein like reference numerals refer to the like elements throughout.

본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명 실시예들의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear.

본 발명 명세서 전반에 걸쳐 사용되는 용어들은 본 발명 실시예에서의 기능을 고려하여 정의된 용어들로서, 사용자 또는 운용자의 의도, 관례 등에 따라 충분히 변형될 수 있는 사항이므로, 이 용어들의 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.The terms used throughout the specification of the present invention have been defined in consideration of the functions of the embodiments of the present invention and can be sufficiently modified according to the intentions and customs of the user or operator. It should be based on the contents of.

도 1 은 본 발명에 따른 회의록 관리장치의 일 실시예의 구성을 도시한 블럭도이다. 도 1 에 도시한 바와 같이, 이 실시예에 따른 회의록 관리장치(100)는 화자 판별부(110)와, 음성 신호 처리부(120)와, 회의록 처리부(130)와, 회의록 저장부(140)를 포함하여 이루어진다.1 is a block diagram showing a configuration of an embodiment of a minutes management apparatus according to the present invention. 1, the minutes management apparatus 100 according to this embodiment includes a speaker determination unit 110, a voice signal processing unit 120, a minutes recording processing unit 130, and a minutes recording storage unit 140 .

화자 판별부(110)는 다수의 마이크(200)로부터 입력된 음성 신호들로부터 화자를 판별하되, 기준 음량과 대비한 각 마이크의 음량 설정 수준에 따라, 각 마이크로부터 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하여 정규화하고, 정규화된 음성 신호로부터 화자를 판별한다.The speaker discrimination unit 110 discriminates the speaker from the voice signals input from the plurality of microphones 200. The speaker discrimination unit 110 discriminates the speaker based on the volume level of the voice signal input from each microphone, Adjusts to the volume level to normalize, and determines the speaker from the normalized voice signal.

예컨대, 화자 판별부(110)가 정규화된 음성 신호들 중 최대의 음량으로 조정된 음성 신호가 입력된 마이크에 할당된 회의자를 화자로 판별하도록 구현될 수 있다. 한편, 각 마이크의 음량 설정수준이 동일하더라도 출력값은 기기별로 절대적인 값을 가지지 않을 수도 있으므로, 이러한 각 기기별 출력 음량 편차를 더 보정하여 각 마이크로부터 입력된 음성 신호를 정규화 하도록 구현할 수도 있다.For example, the speaker determining unit 110 may be configured to determine, as a speaker, a speaker assigned to a microphone to which a voice signal adjusted to a maximum volume of the normalized voice signals is input. On the other hand, the output value may not have an absolute value for each device even if the volume setting levels of the microphones are the same. Therefore, the output sound volume deviations of the respective devices may be further corrected to normalize the voice signals input from the microphones.

도 2 는 각 마이크로부터 입력된 음성 신호의 정규화 전후를 비교하기 위한 예시도이다. 도 2 를 참조해 보면, 정규화 전에 각 마이크로부터 입력된 음성 신호의 출력 레벨과, 각 마이크의 음량 설정 수준이 각각 마이크 1은 60, 100, 마이크 2는 15, 30, 마이크 3은 60, 50, 마이크 4는 30, 50이고, 기준 음량 수준이 100이라고 가정한다.2 is an exemplary diagram for comparing before and after normalization of a voice signal input from each microphone. Referring to FIG. 2, the output level of the voice signal input from each microphone before normalization and the volume setting level of each microphone are 60, 100, 15, 30 for microphone 1, 60, 50, Microphone 4 is 30, 50, and a reference volume level of 100 is assumed.

마이크 1의 경우, 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하면, 60 : 100 = x1 : 100이 되어, 정규화된 음성 신호 값 x1은 60이 된다.In the case of the microphone 1, when the volume of the input voice signal is adjusted to the reference volume level, 60: 100 = x1: 100, and the normalized voice signal value x1 becomes 60.

마이크 2의 경우, 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하면, 15 : 30 = x2 : 100이 되어, 정규화된 음성 신호 값 x2는 50이 된다.In the case of the microphone 2, when the volume of the input voice signal is adjusted to the reference volume level, 15: 30 = x2: 100, and the normalized voice signal value x2 becomes 50.

마이크 3의 경우, 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하면, 60 : 50 = x3 : 100이 되어, 정규화된 음성 신호 값 x3은 120이 된다.In the case of the microphone 3, when the volume of the input voice signal is adjusted to the reference volume level, 60: 50 = x3: 100, and the normalized voice signal value x3 becomes 120.

마이크 4의 경우, 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하면, 30 : 50 = x4 : 100이 되어, 정규화된 음성 신호 값 x4는 60이 된다.In case of the microphone 4, when the volume of the input voice signal is adjusted to the reference volume level, 30: 50 = x4: 100, and the normalized voice signal value x4 becomes 60.

그러면, 정규화된 음성 신호들 중 최대의 음량으로 조정된 음성 신호가 입력된 마이크 3에 할당된 회의자가 화자로 판별된다.Then, the speaker assigned to the microphone 3 to which the speech signal adjusted to the maximum volume of the normalized speech signals is input is discriminated as the speaker.

이에 따라, 화자 판별을 위한 복잡한 알고리즘이 필요없이, 다수의 마이크로부터 입력되는 음성 신호로부터 간편하고 효율적으로 화자를 판별할 수 있다.Accordingly, it is possible to easily and effectively identify a speaker from a voice signal input from a plurality of microphones without requiring a complicated algorithm for speaker identification.

한편, 음성 신호들이 입력되는 다수의 마이크가 각 회의자가 소지한 스마트폰일 수 있다. 이 경우, 회의록 관리장치(100)가 각 회의자의 스마트폰으로 회의를 위한 앱을 제공하여 앱을 통해 각 회의자의 스마트폰으로부터 음성 신호를 입력받도록 구현될 수 있다.On the other hand, a plurality of microphones through which voice signals are inputted may be a smart phone possessed by each conference. In this case, the minutes management apparatus 100 may be configured to provide an app for meetings with a smartphone of each scepter, and receive voice signals from the smartphone of each scepter through the app.

이 때, 회의를 위한 앱은 회의록 관리장치(100)에 의해 주관되는 음성 또는 멀티미디어 회의를 위한 회의방 생성을 요청하고, 회의방 내에 참여한 회의자의 스마트폰에 설치된 회의를 위한 앱간에 음성 또는 멀티미디어를 송수신하는 역할을 수행할 수 있다. At this time, the app for the meeting requests creation of a conference room for a voice or multimedia conference hosted by the conference management apparatus 100, and requests voice or multimedia between the applications for the conference installed in the smartphone of the participant It can perform transmission and reception.

음성 신호 처리부(120)는 화자 판별부(110)에 의해 판별된 화자의 음성 신호를 저장한다. 이 때, 음성 신호 처리부(120)가 화자 판별부(110)에 의해 화자로 판별된 회의자에 할당된 마이크를 통해 입력된 음성 신호로부터 화자의 음성 이외의 잡음을 제거하고, 잡음 제거된 화자의 음성 신호를 저장하도록 구현될 수 있다. The speech signal processor 120 stores the speech signal of the speaker identified by the speaker determiner 110. [ At this time, the voice signal processing unit 120 removes the noise other than the voice of the speaker from the voice signal input through the microphone assigned to the speaker determined by the speaker determining unit 110 as the speaker, May be implemented to store voice signals.

매우 근접한 위치에 존재하는 다수의 마이크로부터 입력되는 음성은 다수의 회의자에 의해 동시에 발언되는 음성이 입력될 수 있으므로, 각 마이크를 통해 입력되는 음성 신호들 중 해당 마이크에 할당된 회의자 이외의 음성은 제거되어야 한다. 따라서, 음성 신호 처리부(120)를 통해 잡음 제거 알고리즘을 이용해 화자의 음성 이외의 잡음을 제거한다. 잡음 제거 알고리즘은 이 출원 이전에 이미 다양하게 공지되어 시행되는 통상의 기술이므로, 이에 대한 자세한 설명은 생략한다.Since a voice input from a plurality of microphones located at a very close position can be input simultaneously with a voice uttered by a plurality of conferters, a voice other than a speaker assigned to the microphone among the voice signals inputted through the respective microphones Should be removed. Therefore, noise other than the speech of the speaker is removed by using the noise reduction algorithm through the speech signal processing unit 120. Since the noise cancellation algorithm is a conventional technique that has already been variously known and practiced before this application, detailed description thereof will be omitted.

회의록 처리부(130)는 회의록을 생성하고, 생성된 회의록에 화자 판별부(110)에 의해 판별된 화자의 음성 신호로부터 인식되는 화자의 발언 내용을 텍스트로 변환하여 회의록에 기록한다. 예컨대, 회의록 처리부(130)가 음성 인식 알고리즘을 이용해 화자의 음성 신호로부터 화자의 발언 내용을 검출하여 텍스트화할 수 있다. 음성 인식 알고리즘은 이 출원 이전에 이미 다양하게 공지되어 시행되는 통상의 기술이므로, 이에 대한 자세한 설명은 생략한다.The meeting record processing unit 130 generates a meeting record, converts the speech content of the speaker recognized from the speech signal of the speaker identified by the speaker identification unit 110 into the generated minutes, and records the converted text into the minutes. For example, the meeting record processing unit 130 can detect the speaker's utterance from the speech signal of the speaker using the speech recognition algorithm and textize it. Since the speech recognition algorithm is a general technique already known and practiced variously before this application, a detailed description thereof will be omitted.

이 때, 회의록 처리부(130)가 회의록에 시간대별로 화자에 대응하는 회의자 식별정보와, 텍스트 변환된 화자의 발언내용을 기록하도록 구현될 수 있다. 한편, 회의록 처리부(130)가 텍스트 변환된 화자의 발언내용으로부터 핵심 키워드를 추출하고, 추출된 핵심 키워드를 텍스트 변환된 화자의 발언내용에 매칭하여 더 기록하도록 구현될 수도 있다.At this time, the meeting record processing unit 130 may record the skeptic identification information corresponding to the speaker and the utterance contents of the text-converted speaker in the minutes of the minutes in the minutes. On the other hand, the meeting record processing unit 130 may extract the core keyword from the speech content of the text-converted speaker, and match the extracted core keyword with the speech content of the text-converted speaker to further record it.

도 3 은 본 발명에 따른 회의록 관리장치에 의해 생성된 회의록의 일 예를 도시한 도면이다. 도 3 을 참조해 보면, 회의록 처리부(130)가 시간대별로 회의자 식별정보와, 텍스트 변환된 화자의 발언내용과, 텍스트 변환된 화자의 발언내용으로부터 추출된 핵심 키워드를 기록하고 있음을 볼 수 있다.3 is a view showing an example of minutes generated by the minutes management apparatus according to the present invention. Referring to FIG. 3, it can be seen that the meeting record processing unit 130 records the key words extracted from the speaker identification information, the speech contents of the text-converted speaker, and the speech contents of the text-converted speaker by time slot .

회의록 저장부(140)는 회의록 처리부(130)에 의해 생성된 회의록을 저장한다. 따라서, 이와 같이 구현함에 의해 본 발명은 기준 음량과 대비한 각 마이크의 음량 설정 수준에 따라, 각 마이크로부터 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하여 정규화하고, 정규화된 음성 신호로부터 화자를 판별함으로써 음성파일의 주파수 대역을 기준으로 화자들을 분리하는 것과 같은 복잡한 화자 판별 알고리즘이 필요없이 간편하고, 효율적으로 화자를 판별하여 회의록을 작성할 수 있게 된다.The minutes storage unit 140 stores minutes generated by the minutes storage unit 130. Therefore, according to the present invention, according to the present invention, the volume of a voice signal input from each microphone is adjusted to a reference volume level and normalized according to a volume level of each microphone in comparison with a reference volume, and a speaker is extracted from the normalized voice signal. It is possible to easily and efficiently identify a speaker and create a meeting record without requiring a complicated speaker identification algorithm such as separating speakers based on the frequency band of the voice file.

한편, 발명의 부가적인 양상에 따르면, 회의록 관리장치(100)가 회의자 할당부(150)를 더 포함할 수 있다. 회의자 할당부(150)는 다수의 마이크 각각에 회의자를 할당하고, 마이크 식별정보 및 회의자 식별정보가 매칭된 회의자 할당정보를 저장한다.According to a further aspect of the present invention, the minutes management apparatus 100 may further include a meeting assignor 150. [ The delegator allocating unit 150 allocates a delegator to each of the plurality of microphones, and stores the delegator allocation information in which the microphone identification information and the delegator identification information are matched.

예컨대, 회의자 할당부(150)가 다수의 마이크 각각에 회의자를 할당하기 위한 사용자 인터페이스를 제공하고, 이를 통해 고유의 마이크 식별정보에 의해 식별되는 마이크 각각에 매칭될 회의자 식별정보를 입력받아 마이크 식별정보 및 회의자 식별정보가 매칭된 회의자 할당정보를 저장함으로써 다수의 마이크 각각에 회의자를 할당하도록 구현될 수 있다.For example, the conference assignor 150 provides a user interface for assigning a conference person to each of a plurality of microphones, receives sketcher identification information to be matched to each of the microphones identified by the unique microphone identification information, The identification information and the piconet identification information may be configured to allocate the piconet to each of the plurality of microphones by storing matching piconet allocation information.

매우 근접한 위치에 존재하는 다수의 마이크를 통해 입력되는 음성 신호를 식별하기 위해서는 각 마이크 마다 회의자를 할당해야 한다. 회의자 할당부(150)는 다수의 마이크 각각에 회의자를 할당하고, 마이크 식별정보 및 회의자 식별정보를 매칭하여 회의자 할당정보로 저장함으로써 특정 마이크로부터 입력되는 음성 신호가 해당 마이크에 할당된 회의자 임을 식별할 수 있도록 한다.In order to identify a voice signal input through a plurality of microphones located at a very close position, a sceizer should be assigned to each microphone. The skeeter assigning unit 150 assigns a singer to each of the plurality of microphones, stores the microphone identifying information and the sketcher identifying information as the sketcher assigning information, So that it can be identified.

이상에서 설명한 바와 같은 본 발명에 따른 회의록 관리장치의 회의록 작성 과정을 도 4 를 참조하여 알아본다. 도 4 는 본 발명에 따른 회의록 관리장치의 회의록 작성 동작의 일 예를 도시한 흐름도이다.Hereinafter, a procedure for creating minutes of the minutes management apparatus according to the present invention will be described with reference to FIG. FIG. 4 is a flowchart illustrating an example of a minutes recording operation of the minutes management apparatus according to the present invention.

먼저, 단계 410에서 회의록 관리장치가 다수의 마이크 각각에 회의자를 할당한다. 다수의 마이크 각각에 회의자를 할당하는 것과 관련해서는 기 설명하였으므로, 중복 설명은 생략한다.First, in step 410, the meeting record management apparatus assigns a skeeter to each of a plurality of microphones. Since we have already discussed the assignment of a singer to each of a number of microphones, redundant descriptions are omitted.

회의가 시작되면, 다수의 마이크로부터 음성 신호가 입력되고, 단계 420에서 회의록 관리장치가 다수의 마이크로부터 입력된 음성 신호들로부터 화자를 판별한다.When the conference is started, a voice signal is input from a plurality of microphones. In step 420, the conference record management apparatus determines a speaker from voice signals input from a plurality of microphones.

이 때, 기준 음량과 대비한 각 마이크의 음량 설정 수준에 따라, 각 마이크로부터 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하여 정규화하고, 정규화된 음성 신호로부터 화자를 판별하도록 구현될 수 있다. 화자 판별과 관련해서는 기 설명하였으므로, 중복 설명은 생략한다.At this time, the volume of the voice signal input from each microphone may be adjusted to the reference volume level to normalize the volume level of each microphone in comparison with the reference volume, and the speaker may be discriminated from the normalized voice signal. Since we have already explained the speaker discrimination, redundant explanation is omitted.

그러면, 단계 430에서 회의록 관리장치가 단계 420에 의해 판별된 화자의 음성 신호를 저장한다.Then, in step 430, the meeting record management device stores the speech signal of the speaker identified by step 420. [

한편, 단계 440에서 회의록 관리장치가 회의록에 단계 420에 의해 판별된 화자의 음성 신호로부터 인식되는 화자의 발언 내용을 텍스트로 변환하여 회의록에 기록한다. 이 때, 회의록 파일은 회의 시작 시점에 사용자에 의해 수동으로 또는 회의록 관리장치에 의해 자동으로 생성되고, 단계 440에 의해 회의록에 텍스트로 변환된 화자의 발언 내용 기록될 수 있다. 회의록에 텍스트로 변환된 화자의 발언 내용을 기록하는 것과 관련해서는 기 설명하였으므로, 중복 설명은 생략한다. On the other hand, in step 440, the minutes management apparatus converts the speech of the speaker recognized from the speech signal of the speaker identified in step 420 into a text, and records the converted text in the minutes. At this time, the minutes file is automatically created by the user at the start of the conference or automatically by the meeting management apparatus, and the speech contents of the speaker converted into the text in the minutes can be recorded at step 440. The explanation of the recording of the speech contents of the speaker converted into the text in the minutes has been described earlier, so redundant explanation is omitted.

따라서, 이와 같이 구현함에 의해 본 발명은 기준 음량과 대비한 각 마이크의 음량 설정 수준에 따라, 각 마이크로부터 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하여 정규화하고, 정규화된 음성 신호로부터 화자를 판별함으로써 음성파일의 주파수 대역을 기준으로 화자들을 분리하는 것과 같은 복잡한 화자 판별 알고리즘이 필요없이 간편하고, 효율적으로 화자를 판별하여 회의록을 작성할 수 있으므로, 상기에서 제시한 본 발명의 목적을 달성할 수 있다.Therefore, according to the present invention, according to the present invention, the volume of a voice signal input from each microphone is adjusted to a reference volume level and normalized according to a volume level of each microphone in comparison with a reference volume, and a speaker is extracted from the normalized voice signal. It is possible to easily and efficiently identify a speaker without creating a complicated speaker discrimination algorithm such as separating speakers based on the frequency band of a voice file, thereby achieving the object of the present invention presented above. have.

본 발명은 첨부된 도면에 의해 참조되는 바람직한 실시예를 중심으로 기술되었지만, 이러한 기재로부터 후술하는 특허청구범위에 의해 포괄되는 범위내에서 본 발명의 범주를 벗어남이 없이 다양한 변형이 가능하다는 것은 명백하다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it will be understood by those of ordinary skill in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. .

본 발명은 회의록 작성 기술분야 및 이의 응용 기술분야에서 산업상으로 이용 가능하다.INDUSTRIAL APPLICABILITY The present invention is industrially applicable in the field of minute record making technology and its application technology field.

100 : 회의록 관리장치 110 : 화자 판별부
120 : 음성 신호 처리부 130 : 회의록 처리부
140 : 회의록 저장부 150 : 회의자 할당부
200 : 마이크
100: minutes management device 110: speaker determination part
120: audio signal processing unit 130:
140: minutes storage unit 150:
200: microphone

Claims (7)

다수의 마이크로부터 입력된 음성 신호들로부터 화자를 판별하되, 기준 음량과 대비한 각 마이크의 음량 설정 수준에 따라, 각 마이크로부터 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하여 정규화하고, 정규화된 음성 신호로부터 화자를 판별하는 화자 판별부와;
화자 판별부에 의해 판별된 화자의 음성 신호를 저장하는 음성 신호 처리부와;
회의록을 생성하고, 생성된 회의록에 화자 판별부에 의해 판별된 화자의 음성 신호로부터 인식되는 화자의 발언 내용을 텍스트로 변환하여 회의록에 기록하는 회의록 처리부와;
회의록 처리부에 의해 생성된 회의록을 저장하는 회의록 저장부를;
포함하여 이루어지는 것을 특징으로 하는 회의록 관리장치.
A speaker is discriminated from a plurality of microphones based on input voice signals, and the volume of a voice signal input from each microphone is adjusted to a reference volume level to normalize the voice signal according to a volume setting level of each microphone in comparison with a reference volume, A speaker discrimination unit for discriminating a speaker from a voice signal;
A voice signal processor for storing a voice signal of a speaker identified by the speaker identification unit;
A meeting record processing unit for generating a meeting record, converting the speech contents of the speaker recognized from the speech signal of the speaker identified by the speaker identification unit into the generated minutes,
A meeting record storage unit for storing a meeting record created by the meeting record processing unit;
Wherein the meeting management apparatus comprises:
제 1 항에 있어서,
화자 판별부가:
정규화된 음성 신호들 중 최대의 음량으로 조정된 음성 신호가 입력된 마이크에 할당된 회의자를 화자로 판별하는 것을 특징으로 하는 회의록 관리장치.
The method according to claim 1,
Speaker discrimination section:
And determines a speaker assigned to the microphone to which the voice signal adjusted to the maximum volume of the normalized voice signals is input as a speaker.
제 2 항에 있어서,
회의록 관리장치가:
다수의 마이크 각각에 회의자를 할당하고, 마이크 식별정보 및 회의자 식별정보가 매칭된 회의자 할당정보를 저장하는 회의자 할당부를;
더 포함하는 것을 특징으로 하는 회의록 관리장치.
3. The method of claim 2,
The minutes management device is:
A skeiner assigning unit for assigning a skeiner to each of the plurality of microphones, and storing the microphone identifying information and the sketcher assigning information matched with the sketcher identifying information;
Further comprising:
제 3 항에 있어서,
음성 신호 처리부가:
화자 판별부에 의해 화자로 판별된 회의자에 할당된 마이크를 통해 입력된 음성 신호로부터 화자의 음성 이외의 잡음을 제거하고, 잡음 제거된 화자의 음성 신호를 저장하는 것을 특징으로 하는 회의록 관리장치.
The method of claim 3,
The audio signal processing unit:
Wherein the speech recognition unit removes noise other than the speech of the speaker from the speech signal inputted through the microphone assigned to the speaker identified by the speaker by the speaker determination unit and stores the speech signal of the speaker whose noise has been removed.
제 3 항에 있어서,
회의록 처리부가:
회의록에 시간대별로 화자에 대응하는 회의자 식별정보와, 텍스트 변환된 화자의 발언내용을 기록하는 것을 특징으로 하는 회의록 관리장치.
The method of claim 3,
Meeting minutes processing section:
And records the speaker identification information corresponding to the speaker in the time zone and the utterance contents of the text converted speaker in the minutes of the minutes.
제 5 항에 있어서,
회의록 처리부가:
텍스트 변환된 화자의 발언내용으로부터 핵심 키워드를 추출하고, 추출된 핵심 키워드를 텍스트 변환된 화자의 발언내용에 매칭하여 더 기록하는 것을 특징으로 하는 회의록 관리장치.
6. The method of claim 5,
Meeting minutes processing section:
Extracts a core keyword from the utterance contents of the text-converted speaker, and matches the extracted core keyword with the utterance contents of the text-converted speaker to further record the core keyword.
제 1 항 내지 제 6 항 중의 어느 한 항에 있어서,
다수의 마이크가 각 회의자가 소지한 스마트폰이고, 회의록 관리장치가 각 회의자의 스마트폰으로 회의를 위한 앱을 제공하여 앱을 통해 각 회의자의 스마트폰으로부터 음성 신호를 입력받는 것을 특징으로 하는 회의록 관리장치.
7. The method according to any one of claims 1 to 6,
Wherein a plurality of microphones are smart phones possessed by each conference, and a meeting management device provides an application for conference with a smartphone of each conference person, and receives a voice signal from a smartphone of each conference person through an app, Device.
KR1020120146420A 2012-12-14 2012-12-14 Conference records managing apparatus KR20140077514A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120146420A KR20140077514A (en) 2012-12-14 2012-12-14 Conference records managing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120146420A KR20140077514A (en) 2012-12-14 2012-12-14 Conference records managing apparatus

Publications (1)

Publication Number Publication Date
KR20140077514A true KR20140077514A (en) 2014-06-24

Family

ID=51129430

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120146420A KR20140077514A (en) 2012-12-14 2012-12-14 Conference records managing apparatus

Country Status (1)

Country Link
KR (1) KR20140077514A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160036949A (en) * 2014-09-26 2016-04-05 주식회사 엘지유플러스 Terminal and method for providing conference record
KR20170126667A (en) * 2016-05-10 2017-11-20 삼성에스디에스 주식회사 Method for generating conference record automatically and apparatus thereof
CN107978312A (en) * 2016-10-24 2018-05-01 阿里巴巴集团控股有限公司 The method, apparatus and system of a kind of speech recognition
US10276164B2 (en) 2016-12-12 2019-04-30 Sorizava Co., Ltd. Multi-speaker speech recognition correction system
KR20190065194A (en) 2019-04-18 2019-06-11 주식회사 제윤의정 METHOD AND APPARATUS FOR GENERATING READING DOCUMENT Of MINUTES
KR102252096B1 (en) * 2020-02-20 2021-05-17 (주)폴리티카 System for providing bigdata based minutes process service
CN113873366A (en) * 2021-10-12 2021-12-31 宁波维度数字科技有限公司 Multifunctional conference wireless sound box
KR102365611B1 (en) 2021-08-25 2022-02-23 오정섭 Meeting management system using automatic speech recognition(ASR)
CN117174091A (en) * 2023-09-07 2023-12-05 河南声之美电子科技有限公司 Intelligent meeting record generation system and device based on role recognition

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160036949A (en) * 2014-09-26 2016-04-05 주식회사 엘지유플러스 Terminal and method for providing conference record
KR20170126667A (en) * 2016-05-10 2017-11-20 삼성에스디에스 주식회사 Method for generating conference record automatically and apparatus thereof
CN107978312A (en) * 2016-10-24 2018-05-01 阿里巴巴集团控股有限公司 The method, apparatus and system of a kind of speech recognition
US10276164B2 (en) 2016-12-12 2019-04-30 Sorizava Co., Ltd. Multi-speaker speech recognition correction system
KR20190065194A (en) 2019-04-18 2019-06-11 주식회사 제윤의정 METHOD AND APPARATUS FOR GENERATING READING DOCUMENT Of MINUTES
KR20210095609A (en) 2019-04-18 2021-08-02 주식회사 제윤의정 METHOD AND APPARATUS FOR GENERATING READING DOCUMENT Of MINUTES
KR102252096B1 (en) * 2020-02-20 2021-05-17 (주)폴리티카 System for providing bigdata based minutes process service
KR102365611B1 (en) 2021-08-25 2022-02-23 오정섭 Meeting management system using automatic speech recognition(ASR)
CN113873366A (en) * 2021-10-12 2021-12-31 宁波维度数字科技有限公司 Multifunctional conference wireless sound box
CN117174091A (en) * 2023-09-07 2023-12-05 河南声之美电子科技有限公司 Intelligent meeting record generation system and device based on role recognition

Similar Documents

Publication Publication Date Title
KR20140077514A (en) Conference records managing apparatus
US9916832B2 (en) Using combined audio and vision-based cues for voice command-and-control
JP6819672B2 (en) Information processing equipment, information processing methods, and programs
US20070263823A1 (en) Automatic participant placement in conferencing
KR102158739B1 (en) System, device and method of automatic translation
US10089980B2 (en) Sound reproduction method, speech dialogue device, and recording medium
JP2020504413A (en) Method of providing personalized speech recognition service using artificial intelligence automatic speaker identification method and service providing server used therefor
US20190043509A1 (en) Audio privacy based on user identification
US9774743B2 (en) Silence signatures of audio signals
US11024330B2 (en) Signal processing apparatus, signal processing method, and storage medium
KR20180056281A (en) Apparatus and method for keyword recognition
JP6737141B2 (en) Audio processing method, audio processing device, and audio processing program
US20180240457A1 (en) Remote sensor voice recognition
KR20160108874A (en) Method and apparatus for generating conversation record automatically
WO2019228329A1 (en) Personal hearing device, external sound processing device, and related computer program product
JP2019028465A (en) Speaker verification method and speech recognition system
KR20190056104A (en) Electronic Apparatus, External Electronic Apparatus and Audio System comprising the same
JP2010156738A (en) Sound volume adjusting device, sound volume adjustment method, sound volume adjustment program, and recording medium storing the sound volume adjustment program
JP2024510779A (en) Voice control method and device
JP3838159B2 (en) Speech recognition dialogue apparatus and program
US11705109B2 (en) Detection of live speech
US9880804B1 (en) Method of automatically adjusting sound output and electronic device
KR101592518B1 (en) The method for online conference based on synchronization of voice signal and the voice signal synchronization process device for online conference and the recoding medium for performing the method
JP4756560B2 (en) Information processing apparatus and information processing method
JP2015055835A (en) Speaker recognition device, speaker recognition method, and speaker recognition program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application