KR20140077514A - Conference records managing apparatus - Google Patents
Conference records managing apparatus Download PDFInfo
- Publication number
- KR20140077514A KR20140077514A KR1020120146420A KR20120146420A KR20140077514A KR 20140077514 A KR20140077514 A KR 20140077514A KR 1020120146420 A KR1020120146420 A KR 1020120146420A KR 20120146420 A KR20120146420 A KR 20120146420A KR 20140077514 A KR20140077514 A KR 20140077514A
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- minutes
- voice signal
- microphone
- speech
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 2
- 238000000926 separation method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- VJBCNMFKFZIXHC-UHFFFAOYSA-N azanium;2-(4-methyl-5-oxo-4-propan-2-yl-1h-imidazol-2-yl)quinoline-3-carboxylate Chemical compound N.N1C(=O)C(C(C)C)(C)N=C1C1=NC2=CC=CC=C2C=C1C(O)=O VJBCNMFKFZIXHC-UHFFFAOYSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
본 발명은 음성 처리 기술에 관련한 것으로, 특히 다수의 마이크로부터 입력되는 음성 신호로부터 화자의 발언 내용을 인식해 텍스트로 변환하여 회의록에 기록하는 회의록 관리장치에 관한 것이다.The present invention relates to a speech processing technique, and more particularly, to a meeting record management apparatus for recognizing speech contents of a speaker from a voice signal input from a plurality of microphones, converting the speech contents into texts, and recording them in minutes.
대한민국 공개특허 제10-2008-0037402호(2008. 04. 30)에서 입력된 음성의 특정 부분을 녹음하고, 녹음된 음성파일의 주파수 대역을 기준으로 화자들을 분리하고, 화자가 분리된 음성파일을 텍스트파일로 변환하고, 변환된 텍스트파일의 저장, 열람 및 송신을 관리하는 이동통신 단말기의 회의록 작성 기술을 제안하고 있다.Korean Patent Laid-Open No. 10-2008-0037402 (Apr. 30, 2008), a specific part of the voice inputted is recorded, speakers are separated based on the frequency band of the recorded voice file, A text file, and manages the storage, reading, and transmission of the converted text file.
이러한 선행기술은 음성파일의 주파수 대역을 기준으로 화자들을 분리하는 복잡한 알고리즘을 통해 화자를 판별하였다. 따라서, 본 발명자는 화자 판별을 위한 복잡한 알고리즘이 필요없이, 다수의 마이크로부터 입력되는 음성 신호로부터 간편하고 효율적으로 화자를 판별하여 회의록을 작성할 수 있는 기술에 대한 연구를 하게 되었다.This prior art has identified the speaker through a complicated algorithm that separates the speakers based on the frequency band of the voice file. Therefore, the present inventor has studied a technology that can easily and efficiently identify a speaker from a voice signal input from a plurality of microphones without creating a complicated algorithm for speaker identification, and can create a minutes.
본 발명은 상기한 취지하에 발명된 것으로, 화자 판별을 위한 복잡한 알고리즘이 필요없이, 다수의 마이크로부터 입력되는 음성 신호로부터 간편하고 효율적으로 화자를 판별하여 회의록을 작성할 수 있는 회의록 관리장치를 제공함을 그 목적으로 한다.SUMMARY OF THE INVENTION The present invention has been made under the above-mentioned circumstances and provides a minutes management apparatus capable of easily and efficiently determining a speaker from a voice signal input from a plurality of microphones without creating a complicated algorithm for speaker identification, The purpose.
상기한 목적을 달성하기 위한 본 발명의 일 양상에 따르면, 회의록 관리장치가 기준 음량과 대비한 각 마이크의 음량 설정 수준에 따라, 각 마이크로부터 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하여 정규화하고, 정규화된 음성 신호로부터 화자를 판별하고, 판별된 화자의 음성 신호로부터 인식되는 화자의 발언 내용을 텍스트로 변환하여 회의록에 기록하는 것을 특징으로 한다.According to one aspect of the present invention, the minutes management apparatus adjusts the volume of a voice signal inputted from each microphone to a reference volume level according to a volume setting level of each microphone in comparison with a reference volume, The speaker is distinguished from the normalized speech signal, and speech contents of the speaker recognized from the speech signal of the identified speaker are converted into text and recorded in the minutes.
본 발명은 기준 음량과 대비한 각 마이크의 음량 설정 수준에 따라, 각 마이크로부터 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하여 정규화하고, 정규화된 음성 신호로부터 화자를 판별함으로써 음성파일의 주파수 대역을 기준으로 화자들을 분리하는 것과 같은 복잡한 화자 판별 알고리즘이 필요없이 간편하고, 효율적으로 화자를 판별하여 회의록을 작성할 수 있는 유용한 효과를 가진다.According to the present invention, the volume of a voice signal inputted from each microphone is adjusted to a reference volume level according to a volume setting level of each microphone in comparison with a reference volume, and the speaker is discriminated from the normalized voice signal, It is possible to easily and efficiently identify a speaker and create a minutes without the need for a complicated speaker discrimination algorithm such as separating speakers on the basis of the number of speakers.
도 1 은 본 발명에 따른 회의록 관리장치의 일 실시예의 구성을 도시한 블럭도이다.
도 2 는 각 마이크로부터 입력된 음성 신호의 정규화 전후를 비교하기 위한 예시도이다.
도 3 은 본 발명에 따른 회의록 관리장치에 의해 생성된 회의록의 일 예를 도시한 도면이다.
도 4 는 본 발명에 따른 회의록 관리장치의 회의록 작성 동작의 일 예를 도시한 흐름도이다.1 is a block diagram showing a configuration of an embodiment of a minutes management apparatus according to the present invention.
2 is an exemplary diagram for comparing before and after normalization of a voice signal input from each microphone.
3 is a view showing an example of minutes generated by the minutes management apparatus according to the present invention.
FIG. 4 is a flowchart illustrating an example of a minutes recording operation of the minutes management apparatus according to the present invention.
이하, 첨부된 도면을 참조하여 기술되는 바람직한 실시예를 통하여 본 발명을 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 기술하기로 한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Reference will now be made in detail to embodiments of the present invention, examples of which are illustrated in the accompanying drawings, wherein like reference numerals refer to the like elements throughout.
본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명 실시예들의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear.
본 발명 명세서 전반에 걸쳐 사용되는 용어들은 본 발명 실시예에서의 기능을 고려하여 정의된 용어들로서, 사용자 또는 운용자의 의도, 관례 등에 따라 충분히 변형될 수 있는 사항이므로, 이 용어들의 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.The terms used throughout the specification of the present invention have been defined in consideration of the functions of the embodiments of the present invention and can be sufficiently modified according to the intentions and customs of the user or operator. It should be based on the contents of.
도 1 은 본 발명에 따른 회의록 관리장치의 일 실시예의 구성을 도시한 블럭도이다. 도 1 에 도시한 바와 같이, 이 실시예에 따른 회의록 관리장치(100)는 화자 판별부(110)와, 음성 신호 처리부(120)와, 회의록 처리부(130)와, 회의록 저장부(140)를 포함하여 이루어진다.1 is a block diagram showing a configuration of an embodiment of a minutes management apparatus according to the present invention. 1, the
화자 판별부(110)는 다수의 마이크(200)로부터 입력된 음성 신호들로부터 화자를 판별하되, 기준 음량과 대비한 각 마이크의 음량 설정 수준에 따라, 각 마이크로부터 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하여 정규화하고, 정규화된 음성 신호로부터 화자를 판별한다.The speaker discrimination unit 110 discriminates the speaker from the voice signals input from the plurality of
예컨대, 화자 판별부(110)가 정규화된 음성 신호들 중 최대의 음량으로 조정된 음성 신호가 입력된 마이크에 할당된 회의자를 화자로 판별하도록 구현될 수 있다. 한편, 각 마이크의 음량 설정수준이 동일하더라도 출력값은 기기별로 절대적인 값을 가지지 않을 수도 있으므로, 이러한 각 기기별 출력 음량 편차를 더 보정하여 각 마이크로부터 입력된 음성 신호를 정규화 하도록 구현할 수도 있다.For example, the speaker determining unit 110 may be configured to determine, as a speaker, a speaker assigned to a microphone to which a voice signal adjusted to a maximum volume of the normalized voice signals is input. On the other hand, the output value may not have an absolute value for each device even if the volume setting levels of the microphones are the same. Therefore, the output sound volume deviations of the respective devices may be further corrected to normalize the voice signals input from the microphones.
도 2 는 각 마이크로부터 입력된 음성 신호의 정규화 전후를 비교하기 위한 예시도이다. 도 2 를 참조해 보면, 정규화 전에 각 마이크로부터 입력된 음성 신호의 출력 레벨과, 각 마이크의 음량 설정 수준이 각각 마이크 1은 60, 100, 마이크 2는 15, 30, 마이크 3은 60, 50, 마이크 4는 30, 50이고, 기준 음량 수준이 100이라고 가정한다.2 is an exemplary diagram for comparing before and after normalization of a voice signal input from each microphone. Referring to FIG. 2, the output level of the voice signal input from each microphone before normalization and the volume setting level of each microphone are 60, 100, 15, 30 for
마이크 1의 경우, 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하면, 60 : 100 = x1 : 100이 되어, 정규화된 음성 신호 값 x1은 60이 된다.In the case of the microphone 1, when the volume of the input voice signal is adjusted to the reference volume level, 60: 100 = x1: 100, and the normalized voice signal value x1 becomes 60.
마이크 2의 경우, 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하면, 15 : 30 = x2 : 100이 되어, 정규화된 음성 신호 값 x2는 50이 된다.In the case of the microphone 2, when the volume of the input voice signal is adjusted to the reference volume level, 15: 30 = x2: 100, and the normalized voice signal value x2 becomes 50.
마이크 3의 경우, 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하면, 60 : 50 = x3 : 100이 되어, 정규화된 음성 신호 값 x3은 120이 된다.In the case of the microphone 3, when the volume of the input voice signal is adjusted to the reference volume level, 60: 50 = x3: 100, and the normalized voice signal value x3 becomes 120.
마이크 4의 경우, 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하면, 30 : 50 = x4 : 100이 되어, 정규화된 음성 신호 값 x4는 60이 된다.In case of the microphone 4, when the volume of the input voice signal is adjusted to the reference volume level, 30: 50 = x4: 100, and the normalized voice signal value x4 becomes 60.
그러면, 정규화된 음성 신호들 중 최대의 음량으로 조정된 음성 신호가 입력된 마이크 3에 할당된 회의자가 화자로 판별된다.Then, the speaker assigned to the microphone 3 to which the speech signal adjusted to the maximum volume of the normalized speech signals is input is discriminated as the speaker.
이에 따라, 화자 판별을 위한 복잡한 알고리즘이 필요없이, 다수의 마이크로부터 입력되는 음성 신호로부터 간편하고 효율적으로 화자를 판별할 수 있다.Accordingly, it is possible to easily and effectively identify a speaker from a voice signal input from a plurality of microphones without requiring a complicated algorithm for speaker identification.
한편, 음성 신호들이 입력되는 다수의 마이크가 각 회의자가 소지한 스마트폰일 수 있다. 이 경우, 회의록 관리장치(100)가 각 회의자의 스마트폰으로 회의를 위한 앱을 제공하여 앱을 통해 각 회의자의 스마트폰으로부터 음성 신호를 입력받도록 구현될 수 있다.On the other hand, a plurality of microphones through which voice signals are inputted may be a smart phone possessed by each conference. In this case, the
이 때, 회의를 위한 앱은 회의록 관리장치(100)에 의해 주관되는 음성 또는 멀티미디어 회의를 위한 회의방 생성을 요청하고, 회의방 내에 참여한 회의자의 스마트폰에 설치된 회의를 위한 앱간에 음성 또는 멀티미디어를 송수신하는 역할을 수행할 수 있다. At this time, the app for the meeting requests creation of a conference room for a voice or multimedia conference hosted by the
음성 신호 처리부(120)는 화자 판별부(110)에 의해 판별된 화자의 음성 신호를 저장한다. 이 때, 음성 신호 처리부(120)가 화자 판별부(110)에 의해 화자로 판별된 회의자에 할당된 마이크를 통해 입력된 음성 신호로부터 화자의 음성 이외의 잡음을 제거하고, 잡음 제거된 화자의 음성 신호를 저장하도록 구현될 수 있다. The
매우 근접한 위치에 존재하는 다수의 마이크로부터 입력되는 음성은 다수의 회의자에 의해 동시에 발언되는 음성이 입력될 수 있으므로, 각 마이크를 통해 입력되는 음성 신호들 중 해당 마이크에 할당된 회의자 이외의 음성은 제거되어야 한다. 따라서, 음성 신호 처리부(120)를 통해 잡음 제거 알고리즘을 이용해 화자의 음성 이외의 잡음을 제거한다. 잡음 제거 알고리즘은 이 출원 이전에 이미 다양하게 공지되어 시행되는 통상의 기술이므로, 이에 대한 자세한 설명은 생략한다.Since a voice input from a plurality of microphones located at a very close position can be input simultaneously with a voice uttered by a plurality of conferters, a voice other than a speaker assigned to the microphone among the voice signals inputted through the respective microphones Should be removed. Therefore, noise other than the speech of the speaker is removed by using the noise reduction algorithm through the speech
회의록 처리부(130)는 회의록을 생성하고, 생성된 회의록에 화자 판별부(110)에 의해 판별된 화자의 음성 신호로부터 인식되는 화자의 발언 내용을 텍스트로 변환하여 회의록에 기록한다. 예컨대, 회의록 처리부(130)가 음성 인식 알고리즘을 이용해 화자의 음성 신호로부터 화자의 발언 내용을 검출하여 텍스트화할 수 있다. 음성 인식 알고리즘은 이 출원 이전에 이미 다양하게 공지되어 시행되는 통상의 기술이므로, 이에 대한 자세한 설명은 생략한다.The meeting record processing unit 130 generates a meeting record, converts the speech content of the speaker recognized from the speech signal of the speaker identified by the speaker identification unit 110 into the generated minutes, and records the converted text into the minutes. For example, the meeting record processing unit 130 can detect the speaker's utterance from the speech signal of the speaker using the speech recognition algorithm and textize it. Since the speech recognition algorithm is a general technique already known and practiced variously before this application, a detailed description thereof will be omitted.
이 때, 회의록 처리부(130)가 회의록에 시간대별로 화자에 대응하는 회의자 식별정보와, 텍스트 변환된 화자의 발언내용을 기록하도록 구현될 수 있다. 한편, 회의록 처리부(130)가 텍스트 변환된 화자의 발언내용으로부터 핵심 키워드를 추출하고, 추출된 핵심 키워드를 텍스트 변환된 화자의 발언내용에 매칭하여 더 기록하도록 구현될 수도 있다.At this time, the meeting record processing unit 130 may record the skeptic identification information corresponding to the speaker and the utterance contents of the text-converted speaker in the minutes of the minutes in the minutes. On the other hand, the meeting record processing unit 130 may extract the core keyword from the speech content of the text-converted speaker, and match the extracted core keyword with the speech content of the text-converted speaker to further record it.
도 3 은 본 발명에 따른 회의록 관리장치에 의해 생성된 회의록의 일 예를 도시한 도면이다. 도 3 을 참조해 보면, 회의록 처리부(130)가 시간대별로 회의자 식별정보와, 텍스트 변환된 화자의 발언내용과, 텍스트 변환된 화자의 발언내용으로부터 추출된 핵심 키워드를 기록하고 있음을 볼 수 있다.3 is a view showing an example of minutes generated by the minutes management apparatus according to the present invention. Referring to FIG. 3, it can be seen that the meeting record processing unit 130 records the key words extracted from the speaker identification information, the speech contents of the text-converted speaker, and the speech contents of the text-converted speaker by time slot .
회의록 저장부(140)는 회의록 처리부(130)에 의해 생성된 회의록을 저장한다. 따라서, 이와 같이 구현함에 의해 본 발명은 기준 음량과 대비한 각 마이크의 음량 설정 수준에 따라, 각 마이크로부터 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하여 정규화하고, 정규화된 음성 신호로부터 화자를 판별함으로써 음성파일의 주파수 대역을 기준으로 화자들을 분리하는 것과 같은 복잡한 화자 판별 알고리즘이 필요없이 간편하고, 효율적으로 화자를 판별하여 회의록을 작성할 수 있게 된다.The minutes storage unit 140 stores minutes generated by the minutes storage unit 130. Therefore, according to the present invention, according to the present invention, the volume of a voice signal input from each microphone is adjusted to a reference volume level and normalized according to a volume level of each microphone in comparison with a reference volume, and a speaker is extracted from the normalized voice signal. It is possible to easily and efficiently identify a speaker and create a meeting record without requiring a complicated speaker identification algorithm such as separating speakers based on the frequency band of the voice file.
한편, 발명의 부가적인 양상에 따르면, 회의록 관리장치(100)가 회의자 할당부(150)를 더 포함할 수 있다. 회의자 할당부(150)는 다수의 마이크 각각에 회의자를 할당하고, 마이크 식별정보 및 회의자 식별정보가 매칭된 회의자 할당정보를 저장한다.According to a further aspect of the present invention, the
예컨대, 회의자 할당부(150)가 다수의 마이크 각각에 회의자를 할당하기 위한 사용자 인터페이스를 제공하고, 이를 통해 고유의 마이크 식별정보에 의해 식별되는 마이크 각각에 매칭될 회의자 식별정보를 입력받아 마이크 식별정보 및 회의자 식별정보가 매칭된 회의자 할당정보를 저장함으로써 다수의 마이크 각각에 회의자를 할당하도록 구현될 수 있다.For example, the conference assignor 150 provides a user interface for assigning a conference person to each of a plurality of microphones, receives sketcher identification information to be matched to each of the microphones identified by the unique microphone identification information, The identification information and the piconet identification information may be configured to allocate the piconet to each of the plurality of microphones by storing matching piconet allocation information.
매우 근접한 위치에 존재하는 다수의 마이크를 통해 입력되는 음성 신호를 식별하기 위해서는 각 마이크 마다 회의자를 할당해야 한다. 회의자 할당부(150)는 다수의 마이크 각각에 회의자를 할당하고, 마이크 식별정보 및 회의자 식별정보를 매칭하여 회의자 할당정보로 저장함으로써 특정 마이크로부터 입력되는 음성 신호가 해당 마이크에 할당된 회의자 임을 식별할 수 있도록 한다.In order to identify a voice signal input through a plurality of microphones located at a very close position, a sceizer should be assigned to each microphone. The skeeter assigning unit 150 assigns a singer to each of the plurality of microphones, stores the microphone identifying information and the sketcher identifying information as the sketcher assigning information, So that it can be identified.
이상에서 설명한 바와 같은 본 발명에 따른 회의록 관리장치의 회의록 작성 과정을 도 4 를 참조하여 알아본다. 도 4 는 본 발명에 따른 회의록 관리장치의 회의록 작성 동작의 일 예를 도시한 흐름도이다.Hereinafter, a procedure for creating minutes of the minutes management apparatus according to the present invention will be described with reference to FIG. FIG. 4 is a flowchart illustrating an example of a minutes recording operation of the minutes management apparatus according to the present invention.
먼저, 단계 410에서 회의록 관리장치가 다수의 마이크 각각에 회의자를 할당한다. 다수의 마이크 각각에 회의자를 할당하는 것과 관련해서는 기 설명하였으므로, 중복 설명은 생략한다.First, in
회의가 시작되면, 다수의 마이크로부터 음성 신호가 입력되고, 단계 420에서 회의록 관리장치가 다수의 마이크로부터 입력된 음성 신호들로부터 화자를 판별한다.When the conference is started, a voice signal is input from a plurality of microphones. In
이 때, 기준 음량과 대비한 각 마이크의 음량 설정 수준에 따라, 각 마이크로부터 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하여 정규화하고, 정규화된 음성 신호로부터 화자를 판별하도록 구현될 수 있다. 화자 판별과 관련해서는 기 설명하였으므로, 중복 설명은 생략한다.At this time, the volume of the voice signal input from each microphone may be adjusted to the reference volume level to normalize the volume level of each microphone in comparison with the reference volume, and the speaker may be discriminated from the normalized voice signal. Since we have already explained the speaker discrimination, redundant explanation is omitted.
그러면, 단계 430에서 회의록 관리장치가 단계 420에 의해 판별된 화자의 음성 신호를 저장한다.Then, in
한편, 단계 440에서 회의록 관리장치가 회의록에 단계 420에 의해 판별된 화자의 음성 신호로부터 인식되는 화자의 발언 내용을 텍스트로 변환하여 회의록에 기록한다. 이 때, 회의록 파일은 회의 시작 시점에 사용자에 의해 수동으로 또는 회의록 관리장치에 의해 자동으로 생성되고, 단계 440에 의해 회의록에 텍스트로 변환된 화자의 발언 내용 기록될 수 있다. 회의록에 텍스트로 변환된 화자의 발언 내용을 기록하는 것과 관련해서는 기 설명하였으므로, 중복 설명은 생략한다. On the other hand, in
따라서, 이와 같이 구현함에 의해 본 발명은 기준 음량과 대비한 각 마이크의 음량 설정 수준에 따라, 각 마이크로부터 입력된 음성 신호의 음량을 기준 음량 수준으로 조정하여 정규화하고, 정규화된 음성 신호로부터 화자를 판별함으로써 음성파일의 주파수 대역을 기준으로 화자들을 분리하는 것과 같은 복잡한 화자 판별 알고리즘이 필요없이 간편하고, 효율적으로 화자를 판별하여 회의록을 작성할 수 있으므로, 상기에서 제시한 본 발명의 목적을 달성할 수 있다.Therefore, according to the present invention, according to the present invention, the volume of a voice signal input from each microphone is adjusted to a reference volume level and normalized according to a volume level of each microphone in comparison with a reference volume, and a speaker is extracted from the normalized voice signal. It is possible to easily and efficiently identify a speaker without creating a complicated speaker discrimination algorithm such as separating speakers based on the frequency band of a voice file, thereby achieving the object of the present invention presented above. have.
본 발명은 첨부된 도면에 의해 참조되는 바람직한 실시예를 중심으로 기술되었지만, 이러한 기재로부터 후술하는 특허청구범위에 의해 포괄되는 범위내에서 본 발명의 범주를 벗어남이 없이 다양한 변형이 가능하다는 것은 명백하다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it will be understood by those of ordinary skill in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. .
본 발명은 회의록 작성 기술분야 및 이의 응용 기술분야에서 산업상으로 이용 가능하다.INDUSTRIAL APPLICABILITY The present invention is industrially applicable in the field of minute record making technology and its application technology field.
100 : 회의록 관리장치 110 : 화자 판별부
120 : 음성 신호 처리부 130 : 회의록 처리부
140 : 회의록 저장부 150 : 회의자 할당부
200 : 마이크100: minutes management device 110: speaker determination part
120: audio signal processing unit 130:
140: minutes storage unit 150:
200: microphone
Claims (7)
화자 판별부에 의해 판별된 화자의 음성 신호를 저장하는 음성 신호 처리부와;
회의록을 생성하고, 생성된 회의록에 화자 판별부에 의해 판별된 화자의 음성 신호로부터 인식되는 화자의 발언 내용을 텍스트로 변환하여 회의록에 기록하는 회의록 처리부와;
회의록 처리부에 의해 생성된 회의록을 저장하는 회의록 저장부를;
포함하여 이루어지는 것을 특징으로 하는 회의록 관리장치.A speaker is discriminated from a plurality of microphones based on input voice signals, and the volume of a voice signal input from each microphone is adjusted to a reference volume level to normalize the voice signal according to a volume setting level of each microphone in comparison with a reference volume, A speaker discrimination unit for discriminating a speaker from a voice signal;
A voice signal processor for storing a voice signal of a speaker identified by the speaker identification unit;
A meeting record processing unit for generating a meeting record, converting the speech contents of the speaker recognized from the speech signal of the speaker identified by the speaker identification unit into the generated minutes,
A meeting record storage unit for storing a meeting record created by the meeting record processing unit;
Wherein the meeting management apparatus comprises:
화자 판별부가:
정규화된 음성 신호들 중 최대의 음량으로 조정된 음성 신호가 입력된 마이크에 할당된 회의자를 화자로 판별하는 것을 특징으로 하는 회의록 관리장치.The method according to claim 1,
Speaker discrimination section:
And determines a speaker assigned to the microphone to which the voice signal adjusted to the maximum volume of the normalized voice signals is input as a speaker.
회의록 관리장치가:
다수의 마이크 각각에 회의자를 할당하고, 마이크 식별정보 및 회의자 식별정보가 매칭된 회의자 할당정보를 저장하는 회의자 할당부를;
더 포함하는 것을 특징으로 하는 회의록 관리장치.3. The method of claim 2,
The minutes management device is:
A skeiner assigning unit for assigning a skeiner to each of the plurality of microphones, and storing the microphone identifying information and the sketcher assigning information matched with the sketcher identifying information;
Further comprising:
음성 신호 처리부가:
화자 판별부에 의해 화자로 판별된 회의자에 할당된 마이크를 통해 입력된 음성 신호로부터 화자의 음성 이외의 잡음을 제거하고, 잡음 제거된 화자의 음성 신호를 저장하는 것을 특징으로 하는 회의록 관리장치.The method of claim 3,
The audio signal processing unit:
Wherein the speech recognition unit removes noise other than the speech of the speaker from the speech signal inputted through the microphone assigned to the speaker identified by the speaker by the speaker determination unit and stores the speech signal of the speaker whose noise has been removed.
회의록 처리부가:
회의록에 시간대별로 화자에 대응하는 회의자 식별정보와, 텍스트 변환된 화자의 발언내용을 기록하는 것을 특징으로 하는 회의록 관리장치.The method of claim 3,
Meeting minutes processing section:
And records the speaker identification information corresponding to the speaker in the time zone and the utterance contents of the text converted speaker in the minutes of the minutes.
회의록 처리부가:
텍스트 변환된 화자의 발언내용으로부터 핵심 키워드를 추출하고, 추출된 핵심 키워드를 텍스트 변환된 화자의 발언내용에 매칭하여 더 기록하는 것을 특징으로 하는 회의록 관리장치.6. The method of claim 5,
Meeting minutes processing section:
Extracts a core keyword from the utterance contents of the text-converted speaker, and matches the extracted core keyword with the utterance contents of the text-converted speaker to further record the core keyword.
다수의 마이크가 각 회의자가 소지한 스마트폰이고, 회의록 관리장치가 각 회의자의 스마트폰으로 회의를 위한 앱을 제공하여 앱을 통해 각 회의자의 스마트폰으로부터 음성 신호를 입력받는 것을 특징으로 하는 회의록 관리장치.7. The method according to any one of claims 1 to 6,
Wherein a plurality of microphones are smart phones possessed by each conference, and a meeting management device provides an application for conference with a smartphone of each conference person, and receives a voice signal from a smartphone of each conference person through an app, Device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120146420A KR20140077514A (en) | 2012-12-14 | 2012-12-14 | Conference records managing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120146420A KR20140077514A (en) | 2012-12-14 | 2012-12-14 | Conference records managing apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20140077514A true KR20140077514A (en) | 2014-06-24 |
Family
ID=51129430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120146420A KR20140077514A (en) | 2012-12-14 | 2012-12-14 | Conference records managing apparatus |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20140077514A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160036949A (en) * | 2014-09-26 | 2016-04-05 | 주식회사 엘지유플러스 | Terminal and method for providing conference record |
KR20170126667A (en) * | 2016-05-10 | 2017-11-20 | 삼성에스디에스 주식회사 | Method for generating conference record automatically and apparatus thereof |
CN107978312A (en) * | 2016-10-24 | 2018-05-01 | 阿里巴巴集团控股有限公司 | The method, apparatus and system of a kind of speech recognition |
US10276164B2 (en) | 2016-12-12 | 2019-04-30 | Sorizava Co., Ltd. | Multi-speaker speech recognition correction system |
KR20190065194A (en) | 2019-04-18 | 2019-06-11 | 주식회사 제윤의정 | METHOD AND APPARATUS FOR GENERATING READING DOCUMENT Of MINUTES |
KR102252096B1 (en) * | 2020-02-20 | 2021-05-17 | (주)폴리티카 | System for providing bigdata based minutes process service |
CN113873366A (en) * | 2021-10-12 | 2021-12-31 | 宁波维度数字科技有限公司 | Multifunctional conference wireless sound box |
KR102365611B1 (en) | 2021-08-25 | 2022-02-23 | 오정섭 | Meeting management system using automatic speech recognition(ASR) |
CN117174091A (en) * | 2023-09-07 | 2023-12-05 | 河南声之美电子科技有限公司 | Intelligent meeting record generation system and device based on role recognition |
-
2012
- 2012-12-14 KR KR1020120146420A patent/KR20140077514A/en not_active Application Discontinuation
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160036949A (en) * | 2014-09-26 | 2016-04-05 | 주식회사 엘지유플러스 | Terminal and method for providing conference record |
KR20170126667A (en) * | 2016-05-10 | 2017-11-20 | 삼성에스디에스 주식회사 | Method for generating conference record automatically and apparatus thereof |
CN107978312A (en) * | 2016-10-24 | 2018-05-01 | 阿里巴巴集团控股有限公司 | The method, apparatus and system of a kind of speech recognition |
US10276164B2 (en) | 2016-12-12 | 2019-04-30 | Sorizava Co., Ltd. | Multi-speaker speech recognition correction system |
KR20190065194A (en) | 2019-04-18 | 2019-06-11 | 주식회사 제윤의정 | METHOD AND APPARATUS FOR GENERATING READING DOCUMENT Of MINUTES |
KR20210095609A (en) | 2019-04-18 | 2021-08-02 | 주식회사 제윤의정 | METHOD AND APPARATUS FOR GENERATING READING DOCUMENT Of MINUTES |
KR102252096B1 (en) * | 2020-02-20 | 2021-05-17 | (주)폴리티카 | System for providing bigdata based minutes process service |
KR102365611B1 (en) | 2021-08-25 | 2022-02-23 | 오정섭 | Meeting management system using automatic speech recognition(ASR) |
CN113873366A (en) * | 2021-10-12 | 2021-12-31 | 宁波维度数字科技有限公司 | Multifunctional conference wireless sound box |
CN117174091A (en) * | 2023-09-07 | 2023-12-05 | 河南声之美电子科技有限公司 | Intelligent meeting record generation system and device based on role recognition |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20140077514A (en) | Conference records managing apparatus | |
US9916832B2 (en) | Using combined audio and vision-based cues for voice command-and-control | |
JP6819672B2 (en) | Information processing equipment, information processing methods, and programs | |
US20070263823A1 (en) | Automatic participant placement in conferencing | |
KR102158739B1 (en) | System, device and method of automatic translation | |
US10089980B2 (en) | Sound reproduction method, speech dialogue device, and recording medium | |
JP2020504413A (en) | Method of providing personalized speech recognition service using artificial intelligence automatic speaker identification method and service providing server used therefor | |
US20190043509A1 (en) | Audio privacy based on user identification | |
US9774743B2 (en) | Silence signatures of audio signals | |
US11024330B2 (en) | Signal processing apparatus, signal processing method, and storage medium | |
KR20180056281A (en) | Apparatus and method for keyword recognition | |
JP6737141B2 (en) | Audio processing method, audio processing device, and audio processing program | |
US20180240457A1 (en) | Remote sensor voice recognition | |
KR20160108874A (en) | Method and apparatus for generating conversation record automatically | |
WO2019228329A1 (en) | Personal hearing device, external sound processing device, and related computer program product | |
JP2019028465A (en) | Speaker verification method and speech recognition system | |
KR20190056104A (en) | Electronic Apparatus, External Electronic Apparatus and Audio System comprising the same | |
JP2010156738A (en) | Sound volume adjusting device, sound volume adjustment method, sound volume adjustment program, and recording medium storing the sound volume adjustment program | |
JP2024510779A (en) | Voice control method and device | |
JP3838159B2 (en) | Speech recognition dialogue apparatus and program | |
US11705109B2 (en) | Detection of live speech | |
US9880804B1 (en) | Method of automatically adjusting sound output and electronic device | |
KR101592518B1 (en) | The method for online conference based on synchronization of voice signal and the voice signal synchronization process device for online conference and the recoding medium for performing the method | |
JP4756560B2 (en) | Information processing apparatus and information processing method | |
JP2015055835A (en) | Speaker recognition device, speaker recognition method, and speaker recognition program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |