KR101987742B1 - 음성인식용 핀 마이크 장치 및 회의 작성 시스템 - Google Patents

음성인식용 핀 마이크 장치 및 회의 작성 시스템 Download PDF

Info

Publication number
KR101987742B1
KR101987742B1 KR1020190019464A KR20190019464A KR101987742B1 KR 101987742 B1 KR101987742 B1 KR 101987742B1 KR 1020190019464 A KR1020190019464 A KR 1020190019464A KR 20190019464 A KR20190019464 A KR 20190019464A KR 101987742 B1 KR101987742 B1 KR 101987742B1
Authority
KR
South Korea
Prior art keywords
speaker
microphone
voice
information
station
Prior art date
Application number
KR1020190019464A
Other languages
English (en)
Inventor
안문학
Original Assignee
주식회사 소리자바
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 소리자바 filed Critical 주식회사 소리자바
Priority to KR1020190019464A priority Critical patent/KR101987742B1/ko
Application granted granted Critical
Publication of KR101987742B1 publication Critical patent/KR101987742B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성인식용 핀 마이크 장치 및 회의 작성 시스템이 개시된다. 본 발명의 핀 마이크 장치는 화자로부터 발화되는 음성을 입력받는 마이크, 마이크와 인접한 위치에 구비되고, 마이크가 화자에 부착된 방향을 감지하는 센서부 및 감지된 정보를 이용하여 음성에 대한 빔포밍 수음 방향을 제어하는 제어부를 포함한다.

Description

음성인식용 핀 마이크 장치 및 회의 작성 시스템{Pin microphone device and meeting recording system for speech recognition}
본 발명은 음성인식기술에 관한 것으로, 더욱 상세하게는 화자의 일부분에 부착되는 핀 마이크의 빔포밍 수음 방향을 자동으로 조절하여 음성 인식률을 높이는 음성인식용 핀 마이크 장치 및 회의 작성 시스템에 관한 것이다.
정보 통신 기술 중 음성을 인식하는 음성 인식 기술 분야의 발전이 두드러진다. 화자의 음성을 정확하게 인식하기 위해서는 화자의 음성과 주변의 노이즈를 구별하고, 노이즈를 배재하는 기술이 필요하다.
한편 계속 움직일 필요가 있는 화자이거나, 두 손을 사용할 수 없는 상황의 화자인 경우, 옷에 부착되는 핀 마이크를 사용하게 된다. 하지만 이러한 핀 마이크는 약간의 외부 충격에 의해서도 마이크 방향이 변경됨에 따라 마이크의 빔포밍 수음 방향이 틀어져 정확한 음성인식이 어려운 문제점이 있다.
한국등록특허공보 제10-1750338호(2017.06.23.)
본 발명이 이루고자 하는 기술적 과제는 화자의 일부분에 부착되는 핀 마이크의 빔포밍 수음 방향이 화자의 입 방향이 아니더라도 자동으로 빔포밍 수음 방향을 입 방향으로 조절하는 음성인식용 핀 마이크 장치 및 회의 작성 시스템을 제공하는데 목적이 있다.
상기 목적을 달성하기 위해 본 발명에 따른 음성인식용 핀 마이크 장치는 화자로부터 발화되는 음성을 입력받는 마이크, 상기 마이크와 인접한 위치에 구비되고, 상기 마이크가 상기 화자에 부착된 방향을 감지하는 센서부 및 상기 감지된 정보를 이용하여 상기 음성에 대한 빔포밍 수음 방향을 제어하는 제어부를 포함한다.
또한 상기 센서부는, 상기 마이크가 기울어진 상태를 측정하여 상기 방향을 감지하는 것을 특징으로 한다.
또한 상기 제어부는, 상기 감지된 방향을 이용하여 상기 화자의 입 방향을 추정하고, 상기 추정된 방향으로 상기 빔포밍 수음 방향을 변경하는 것을 특징으로 한다.
본 발명에 따른 회의록 작성 시스템은 복수의 화자에 각각 부착되어 각 화자로부터 발화되는 음성을 개별로 인식하고, 상기 인식된 음성에 대한 화자별 음성정보를 생성하는 복수의 핀 마이크 장치 및 상기 복수의 핀 마이크 장치로부터 생성된 화자별 음성정보를 수신받고, 상기 복수의 화자로부터 발화되는 음성을 인식하여 전체 음성정보를 생성하며, 상기 화자별 음성정보 및 상기 전체 음성정보를 비교 분석하여 복수의 화자에 대한 회의록을 작성하는 스테이션장치를 포함하고, 상기 핀 마이크 장치는, 상기 화자로부터 발화되는 음성을 입력받는 마이크, 상기 마이크와 인접한 위치에 구비되고, 상기 마이크가 상기 화자에 부착된 방향을 감지하는 센서부 및 상기 감지된 정보를 이용하여 상기 음성에 대한 빔포밍 수음 방향을 조절하는 제어부를 포함하는 것을 특징으로 한다.
또한 상기 스테이션장치는, 상기 복수의 화자로부터 발화되는 음성을 입력받는 스테이션 마이크, 상기 복수의 핀 마이크 장치로부터 상기 화자별 음성정보를 수신하는 스테이션 통신부 및 상기 스테이션 마이크로부터 입력된 음성을 인식하여 전체 음성정보를 생성하고, 상기 화자별 음성정보와 전체 음성정보를 시간을 기준으로 정렬하며, 상기 정렬된 화자별 음성정보와 전체 음성정보를 비교 분석하여 복수의 화자에 대한 회의록을 작성하는 스테이션 제어부를 포함하는 것을 특징으로 한다.
또한 상기 스테이션 마이크는, 무지향성 음성인식용 마이크인 것을 특징으로 한다.
또한 상기 스테이션 제어부는, 상기 화자별 음성정보와 상기 전체 음성정보에 포함된 입력시간 정보를 이용하여 상기 정렬을 수행하여 각 화자의 발화시간을 산출하고, 상기 산출된 발화시간 및 상기 발화시간에 대응되는 음성을 텍스트로 변환하여 상기 회의록을 작성하는 것을 특징으로 한다.
또한 상기 스테이션장치는, 상기 복수의 핀 마이크 장치로부터 생성된 화자별 음성정보가 수신 가능한 일부분에 설치되는 것을 특징으로 한다.
본 발명의 음성인식용 핀 마이크 장치 및 회의 작성 시스템은 기울기를 측정하는 센서를 통해 핀 마이크의 기울기를 측정하고, 측정된 기울기를 이용하여 마이크의 빔포밍 수음 방향이 화자의 입 방향으로 변경되도록 조절할 수 있다.
이를 통해 화자의 음성을 인식하는 음성 인식률을 높일 수 있다.
도 1은 본 발명의 실시예에 따른 회의록 작성 시스템을 설명하기 위한 구성도이다.
도 2는 본 발명의 실시예에 따른 핀 마이크 장치를 설명하기 위한 블록도이다.
도 3은 본 발명의 실시예에 따른 핀 마이크 장치의 구조를 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 스테이션 장치를 설명하기 위한 블록도이다.
도 5는 본 발명의 실시예에 따른 회의록 작성을 위한 시간별 정렬을 설명하기 위한 도면이다.
도 6은 본 발명의 실시예에 따른 핀 마이크 장치의 빔포밍 수음 방향 조절을 설명하기 위한 도면이다.
이하 본 발명의 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의한다. 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 당업자에게 자명하거나 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
도 1은 본 발명의 실시예에 따른 회의록 작성 시스템을 설명하기 위한 구성도이다.
도 1을 참조하면, 회의록 작성 시스템(300)은 복수의 화자가 참여하는 회의에서 각 화자의 음성을 인식하여 자동으로 회의록을 작성한다. 이를 위해 회의록 작성 시스템(300)은 회의에 참여하는 복수의 화자가 발화한 음성을 화자별로 인식한 화자별 음성정보 및 복수의 화자가 발화한 음성을 전체로 인식한 전체 음성정보를 비교 분석하여 회의록을 작성할 수 있다. 이때 회의록 작성 시스템(300)은 화자별 음성정보 및 전체 음성정보를 시간 기준으로 정렬한 후, 각 화자의 발화시간을 산출함으로써, 시간대별로 정확한 회의록을 작성할 수 있다. 회의록 작성 시스템(300)은 복수의 핀 마이크 장치(100a, 100b, 100c, 100d) 및 스테이션장치(200)를 포함한다.
복수의 핀 마이크 장치(100a, 100b, 100c, 100d)는 화자마다 하나씩 부착되고, 바람직하게는 화자의 상의에 부착될 수 있다. 이를 위해 핀 마이크 장치는 핀을 구비할 수 있다. 복수의 핀 마이크 장치(100a, 100b, 100c, 100d)는 화자와 대응됨에 따라 각 화자로부터 발화되는 음성을 개별로 인식한다. 복수의 핀 마이크 장치(100a, 100b, 100c, 100d)는 인식된 음성에 대한 화자별 음성정보를 생성하고, 생성된 화자별 음성정보를 저장할 수 있다.
스테이션장치(200)는 복수의 음성인식장치(100a, 100b, 100c, 100d)로부터 생성된 화자별 음성정보가 수신 가능한 일부분에 설치된다. 예를 들어 스테이션장치(200)는 가상 공간 및 회의 공간 중 적어도 하나에 설치될 수 있다. 즉 스테이션장치(200)는 온라인상에서 원격 회의를 진행하는 경우, 원격 회의가 이루어지는 가상 공간에 설치될 수 있다. 또한 스테이션장치(200)는 오프라인상에서 대면 회의를 진행하는 경우, 회의 공간에 설치될 수 있다. 이때 스테이션 장치(200)는 복수의 핀 마이크 장치(100a, 100b, 100c, 100d)로부터 둘러싸이는 형태로 설치될 수 있고, 바람직하게는 스테이션장치(200)는 복수의 핀 마이크 장치(100a, 100b, 100c, 100d)가 설치된 위치의 중앙에 설치될 수 있다. 스테이션장치(200)는 복수의 핀 마이크 장치(100a, 100b, 100c, 100d)로부터 생성된 화자별 음성정보를 수신받는다. 이때 스테이션장치(200)는 엠프와 같이 신호를 증폭시키는 주변기기(미도시)를 이용할 수 있다. 즉 스테이션장치(200)는 복수의 음성인식장치(100a, 100b, 100c, 100d)과의 사이에 주변기기를 설치하여 주변기기를 통해 화자별 음성정보를 수신받을 수 있다. 스테이션장치(200)는 수신된 화자별 음성정보를 저장할 수 있다. 또한 스테이션장치(200)는 복수의 화자로부터 발화되는 음성을 인식하여 전체 음성정보를 생성한다. 여기서 전체 음성정보는 회의 중에 발생되는 모든 소리(음성+주변소리)를 인식한 정보를 의미하고, 바람직하게는 복수의 화자로부터 발화된 음성을 인식한 정보일 수 있다. 스테이션장치(200)는 화자별 음성정보 및 전체 음성정보를 비교 분석하여 복수의 화자에 대한 회의록을 작성한다. 상세하게는 스테이션장치(200)는 화자별 음성정보 및 전체 음성정보에 포함된 입력시간 정보를 이용하여 시간대별로 정렬을 수행하고, 각 화자의 발화시간을 산출한다. 스테이션장치(200)는 산출된 발화시간 및 발화시간에 대응되는 음성을 텍스트로 변환하여 회의록을 작성할 수 있다.
여기서 스테이션장치(200)는 상술된 바와 같이 실시간으로 회의록 작성을 하지 않고, 회의가 끝난 다음 회의록을 작성할 수 있다. 이를 위해 스테이션장치(200)는 회의 테이블(미도시) 또는 회의 박스(미도시)에 구비되는 형태로 형성될 수 있다. 스테이션장치(200)는 복수의 핀 마이크 장치(100a, 100b, 100c, 100d)와 결합(도킹)되어 복수의 핀 마이크 장치(100a, 100b, 100c, 100d)로부터 화자별 음성정보를 입력받고, 입력된 화자별 음성정보를 스테이션장치(200)로 전송할 수 있다. 이때 결합은 인터페이스를 통한 결합될 수 있다.
한편 상술된 설명 및 도면에서 회의록 작성 시스템(300)이 복수의 핀 마이크 장치가 4개로 구성된 실시예만을 나타내고 있으나, 이에 한정하지 않고 설치 환경에 따라 핀 마이크 장치의 개수를 감소 또는 증가시킬 수 있다.
도 2는 본 발명의 실시예에 따른 핀 마이크 장치를 설명하기 위한 블록도이고, 도 3은 본 발명의 실시예에 따른 핀 마이크 장치의 구조를 설명하기 위한 도면이다.
도 1 내지 도 3을 참조하면, 핀 마이크 장치(100)는 센서부(10), 마이크(20) 및 제어부(40)를 포함하고, 통신부(30), 저장부(50) 및 전원부(60)를 더 포함한다.
센서부(10)는 마이크(20)와 인접한 위치에 구비되고, 마이크(20)가 화자에 부착된 방향을 감지한다. 센서부(10)는 마이크(20)가 기울어진 상태인 기울기를 측정하여 마이크(20)가 화자에 부착된 방향을 감지한다. 이를 위해 센서부(10)는 자이로 센서, 기울기 센서, 가속도 센서, 지자기 센서 등 기울기를 측정할 수 있는 다양한 센서를 포함할 수 있다.
마이크(20)는 화자로부터 발화되는 음성을 입력받는다. 마이크(20)는 복수의 소형 마이크가 어레이 형태로 이루진 모듈일 수 있다. 마이크(20)는 기본적으로 빔포밍 수음 방향이 정면 방향으로 설정될 수 있다.
통신부(30)는 스테이션장치(200)와의 통신을 수행한다. 통신부(30)는 유무선 통신을 수행할 수 있으며, 바람직하게는 근거리 무선통신을 수행할 수 있다. 통신부(30)는 마이크(20)로부터 입력된 음성에 대한 음성정보를 스테이션장치(200)로 전송한다.
제어부(40)는 마이크(20)로 입력되는 화자에 대한 음성이 정확하게 인식되도록 제어한다. 이를 위해 제어부(40)는 센서부(10)로부터 측정된 정보를 이용하여 음성에 대한 빔포밍 수음 방향을 제어한다. 상세하게는 제어부(40)는 센서부(10)로부터 감지된 마이크의 방향을 이용하여 지면과의 수평방향을 산출한다. 제어부(40)는 산출된 수평방향과 수직이면서 지표면과 반대 방향을 화자의 입 방향으로 추정한다. 제어부(40)는 추정된 방향으로 빔포밍 수음 방향을 변경한다. 이를 통해 제어부(40)는 화자가 이동하거나, 외부 충격이 가해져 마이크(20)의 방향이 틀어져 버리는 현상이 발생되어도 실시간으로 빔포밍 수음 방향을 입 방향으로 변경하여 음성 인식률을 높여준다.
저장부(50)는 핀 마이크 장치(100)가 구동되기 위한 프로그램, 알고리즘 또는 어플리케이션이 저장된다. 저장부(50)는 마이크(20)로부터 입력된 음성이 저장된다. 저장부(50)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기메모리, 자기 디스크 및 광디스크 중 적어도 하나의 저장매체를 포함할 수 있다.
인터페이스부(60)는 스테이션 장치(200)와의 직접 결합을 지원한다.여기서 결합은 도킹 결합일 수 있다. 이를 위해 인터페이스부(250)는 다양한 종류의 인터페이스를 포함할 수 있다.전원부(70)는 각 구성에 전원을 공급한다. 전원부(70)는 배터리 형태로 전원을 공급하거나, 외부 전원으로부터 전원을 공급받고, 공급된 전원을 전달하는 형태로 전원을 공급할 수 있다. 여기서 배터리 형태로 전원을 공급하는 경우, 전원부(70)는 배터리의 전원 저장량을 실시간 확인하고, 전원 저장량이 기 설정된 기준보다 낮으면 알람 또는 경고등을 출력할 수 있다.
도 4는 본 발명의 실시예에 따른 스테이션 장치를 설명하기 위한 블록도이고, 도 5는 본 발명의 실시예에 따른 회의록 작성을 위한 시간별 정렬을 설명하기 위한 도면이다.
도 1, 도 4 및 도 5를 참조하면, 스테이션 장치(200)는 스테이션 마이크(210), 스테이션 통신부(220) 및 스테이션 제어부(230)를 포함하고, 스테이션 저장부(240) 및 스테이션 전원부(250)를 더 포함한다.
스테이션 마이크(210)는 복수의 화자로부터 발화되는 음성을 입력받는다. 스테이션 마이크(210)는 무지향성 음성인식용 마이크일 수 있다. 이를 통해 스테이션 마이크(210)는 회의실에서 복수의 화자가 발화하는 음성 및 주변 소리가 포함된 모든 소리를 입력받을 수 있으며, 바람직하게는 주변 소리를 필터링하고, 복수의 화자가 발화하는 음성만을 입력받을 수 있다.
스테이션 통신부(220)는 복수의 핀 마이크 장치(100a, 100b, 100c, 100d)와의 통신을 수행한다. 스테이션 통신부(220)는 유무선 통신을 수행할 수 있으며, 바람직하게는 근거리 무선통신을 수행할 수 있다. 스테이션 통신부(220)는 복수의 핀 마이크 장치(100a, 100b, 100c, 100d)로부터 화자별 음성정보를 수신한다.
스테이션 제어부(230)는 스테이션 마이크(210)로부터 입력된 음성을 인식하여 전체 음성정보를 생성하고, 화자별 음성정보와 전체 음성정보를 시간을 기준으로 정렬한다. 스테이션 제어부(230)는 정렬된 화자별 음성정보와 전체 음성정보를 시간대별로 매칭하여 비교 분석한 후, 분석된 결과를 이용하여 복수의 화자에 대한 회의록을 작성한다. 즉 스테이션 제어부(230)는 화자별 음성정보와 전체 음성정보에 포함된 입력시간 정보를 이용하여 시간을 기준으로 정렬하고, 정렬된 시간 정보를 이용하여 각 화자의 발화시간을 산출한다. 스테이션 제어부(230)는 산출된 발화시간 및 발화시간에 대응되는 음성을 텍스트로 변환하여 회의록을 작성할 수 있다. 예를 들어 스테이션 제어부(230)는 회의가 시작하는 0초부터 회의가 끝나는 t초까지의 전체 음성정보와, 제1 음성인식장치(100a)로 입력된 제1 화자 음성정보, 제2 음성인식장치(100b)로 입력된 제2 화자 음성정보, 제3 음식인식장치(100c)로 입력된 제3 화자 음성정보, 제4 음성인식정보(100d)로 입력된 제4 화자 음성정보인 화자별 음성정보를 시간대별로 정렬 후, 매칭하여 비교 분석할 수 있다. 즉 스테이션 제어부(230)는 A초부터 D초까지의 구간에서 전체 음성정보와 제1 화자 음성정보를 비교 분석하고, D초부터 E초까지의 구간에서 전체 음성정보와 제2 화자 음성정보를 비교 분석하며, B초부터 G초까지의 구간에서 전체 음성정보와 제3 화자 음성정보를 비교 분석하고, F초부터 H초까지의 구간에서 전체 음성정보와 제4 화자 음성정보를 서로 매칭 비교하여 회의록을 작성할 수 있다. 이를 통해 스테이션 제어부(230)는 화자의 발화 시간을 정확하게 산출하여 높은 정확도의 회의록을 작성할 수 있다.
또한 스테이션 제어부(230)는 인식된 음성정보에 인명 또는 고유명사 등과 같은 미등록어가 포함된 경우, 언어모델 슬롯(slot) 기반의 방법을 이용하여 해당 언어를 텍스트화할 수 있다. 스테이션 제어부(230)는 기존 음성 인식 디코더 격자(lattice)에 슬롯 문법을 적용한 고정 크기 음성 인식 디코더 격자에 슬롯 문법을 위해 동적 크기를 생성하는 확장형 격자 구조를 추가하여 미등록어를 인식할 수 있다. 여기서 슬롯 문법은 N-gram 이미지 생성 시 {슬롯}이라는 태그(tag)를 추가하여 이미지를 생성하는 문법을 의미한다. 즉 스테이션 제어부(230)는 고정 크기의 로딩된 네트워크 중 i(i는 자연수) 번째 슬롯 노드(slot node)에 대하여 가변 크기 네트워크에 새로운 노드 및 아크(arc)를 생성하여 미등록어를 실시간으로 인식할 수 있다.
스테이션 저장부(240)는 스테이션장치(200)가 구동되기 위한 프로그램, 알고리즘 또는 어플리케이션이 저장된다. 스테이션 저장부(240)는 복수의 핀 마이크 장치(100a, 100b, 100c, 100d)로부터 수신된 화자별 음성정보 및 스테이션 마이크(210)로부터 입력된 전체 음성정보가 각각 저장된다. 스테이션 저장부(240)는 플래시 메모리 타입, 하드디스크 타입, 미디어 카드 마이크로 타입, 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램, SRAM, 롬, EEPROM, PROM, 자기메모리, 자기 디스크 및 광디스크 중 적어도 하나의 저장매체를 포함할 수 있다.
스테이션 인터페이스부(250)는 복수의 핀 마이크 장치(100a, 100b, 100c, 100d)와의 직접 결합을 지원한다. 이를 위해 스테이션 인터페이스부(250)는 다양한 종류의 인터페이스를 포함할 수 있다.
스테이션 전원부(260)는 각 구성에 전원을 공급한다. 스테이션 전원부(260)는 배터리 형태로 전원을 공급하거나, 외부 전원으로부터 전원을 공급받고, 공급된 전원을 전달하는 형태로 전원을 공급할 수 있다. 여기서 배터리 형태로 전원을 공급하는 경우, 전원부(260)는 배터리의 전원 저장량을 실시간 확인하고, 전원 저장량이 기 설정된 기준보다 낮으면 알람 또는 경고등을 출력할 수 있다.
도 6은 본 발명의 실시예에 따른 핀 마이크 장치의 빔포밍 수음 방향 조절을 설명하기 위한 도면이다.
도 3 및 도 6을 참조하면, 핀 마이크 장치(100)는 화자(400)에게 부착된 마이크(20)의 방향에 따라 빔포밍 수음 방향을 제어할 수 있다. 이를 통해 핀 마이크 장치(100)는 화자의 음성에 대한 음성 인식률을 높일 수 있다.
예를 들어 화자(400)이 이동하면서 발생되는 흔들림에 의해 마이크(20)의 방향이 틀어진 경우, 핀 마이크 장치(100)는 마이크(20)의 기울어진 상태를 실시간으로 감지한다. 핀 마이크 장치(100)는 감지된 기울어진 상태가 기 설정된 기준에 포함되면 빔포밍 수음 방향을 기본적으로 제공하는 방향으로 유지하고, 포함하지 않으면 빔포밍 수음 방향을 화자(400)의 입 방향으로 변경한다. 즉 핀 마이크 장치(100)는 마이크(20)의 빔포밍 수음 방향이 입 방향과 다른 방향으로 틀어진 제2 빔포밍 수음 방향(120)에서 입 방향인 제1 빔포밍 수음 방향(110)으로 변경할 수 있다.
이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
10: 센서부
20: 마이크
30: 통신부
40: 제어부
50: 저장부
60: 인터페이스부
70: 전원부
100: 음성 인식 장치
110: 제1 빔포밍 수음 방향
120: 제2 빔포밍 수음 방향
200: 스테이션 장치
210: 스테이션 마이크
220: 스테이션 통신부
230: 스테이션 제어부
240: 스테이션 저장부
250: 스테이션 인터페이스부
260: 스테이션 전원부
300: 회의록 작성 시스템
400: 화자

Claims (8)

  1. 복수의 화자에 각각 부착되어 각 화자로부터 발화되는 음성을 개별로 인식하고, 상기 인식된 음성에 대한 화자별 음성정보를 생성하는 복수의 핀 마이크 장치; 및
    상기 복수의 핀 마이크 장치로부터 생성된 화자별 음성정보를 수신받고, 상기 복수의 화자로부터 발화되는 음성을 인식하여 전체 음성정보를 생성하며, 상기 화자별 음성정보 및 상기 전체 음성정보를 비교 분석하여 복수의 화자에 대한 회의록을 작성하는 스테이션장치;를 포함하고,
    상기 핀 마이크 장치는,
    상기 화자로부터 발화되는 음성을 입력받는 마이크;
    상기 마이크와 인접한 위치에 구비되고, 상기 마이크가 상기 화자에 부착된 방향을 감지하는 센서부; 및
    상기 감지된 정보를 이용하여 상기 음성에 대한 빔포밍 수음 방향을 조절하는 제어부;
    를 포함하는 것을 특징으로 하는 음성인식을 이용한 회의록 작성 시스템.
  2. 제 1항에 있어서,
    상기 센서부는,
    상기 마이크가 기울어진 상태를 측정하여 상기 방향을 감지하는 것을 특징으로 하는 음성인식을 이용한 회의록 작성 시스템.
  3. 제 1항에 있어서,
    상기 제어부는,
    상기 감지된 방향을 이용하여 상기 화자의 입 방향을 추정하고, 상기 추정된 방향으로 상기 빔포밍 수음 방향을 변경하는 것을 특징으로 하는 음성인식을 이용한 회의록 작성 시스템.
  4. 삭제
  5. 제 1항에 있어서,
    상기 스테이션장치는,
    상기 복수의 화자로부터 발화되는 음성을 입력받는 스테이션 마이크;
    상기 복수의 핀 마이크 장치로부터 상기 화자별 음성정보를 수신하는 스테이션 통신부; 및
    상기 스테이션 마이크로부터 입력된 음성을 인식하여 전체 음성정보를 생성하고, 상기 화자별 음성정보와 전체 음성정보를 시간을 기준으로 정렬하며, 상기 정렬된 화자별 음성정보와 전체 음성정보를 비교 분석하여 복수의 화자에 대한 회의록을 작성하는 스테이션 제어부;
    를 포함하는 것을 특징으로 하는 음성인식을 이용한 회의록 작성 시스템.
  6. 제 5항에 있어서,
    상기 스테이션 마이크는,
    무지향성 음성인식용 마이크인 것을 특징으로 하는 음성인식을 이용한 회의록 작성 시스템.
  7. 제 5항에 있어서,
    상기 스테이션 제어부는,
    상기 화자별 음성정보와 상기 전체 음성정보에 포함된 입력시간 정보를 이용하여 상기 정렬을 수행하여 각 화자의 발화시간을 산출하고, 상기 산출된 발화시간 및 상기 발화시간에 대응되는 음성을 텍스트로 변환하여 상기 회의록을 작성하는 것을 특징으로 하는 음성인식을 이용한 회의록 작성 시스템.
  8. 제 1항에 있어서,
    상기 스테이션장치는,
    상기 복수의 핀 마이크 장치로부터 생성된 화자별 음성정보가 수신 가능한 일부분에 설치되는 것을 특징으로 하는 음성인식을 이용한 회의록 작성 시스템.
KR1020190019464A 2019-02-19 2019-02-19 음성인식용 핀 마이크 장치 및 회의 작성 시스템 KR101987742B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190019464A KR101987742B1 (ko) 2019-02-19 2019-02-19 음성인식용 핀 마이크 장치 및 회의 작성 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190019464A KR101987742B1 (ko) 2019-02-19 2019-02-19 음성인식용 핀 마이크 장치 및 회의 작성 시스템

Publications (1)

Publication Number Publication Date
KR101987742B1 true KR101987742B1 (ko) 2019-06-12

Family

ID=66845842

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190019464A KR101987742B1 (ko) 2019-02-19 2019-02-19 음성인식용 핀 마이크 장치 및 회의 작성 시스템

Country Status (1)

Country Link
KR (1) KR101987742B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102201324B1 (ko) 2020-07-07 2021-01-11 오재승 스마트 단말기를 이용한 회의 운영 방법
KR20240040945A (ko) 2022-09-22 2024-03-29 주식회사 제윤 음성 신호의 전처리 방법, 그리고 이를 구현하기 위한 시스템
KR20240040942A (ko) 2022-09-22 2024-03-29 주식회사 제윤 음성 신호를 이용한 화자 식별 방법, 그리고 이를 구현하기 위한 시스템
KR20240040947A (ko) 2022-09-22 2024-03-29 주식회사 제윤 음성 인식 후처리 방법, 그리고 이를 구현하기 위한 시스템
KR20240040941A (ko) 2022-09-22 2024-03-29 주식회사 제윤 회의록 자동 생성 방법, 그리고 이를 구현하기 위한 시스템
KR20240040946A (ko) 2022-09-22 2024-03-29 주식회사 제윤 음성 신호의 캘리브레이션 수행 방법, 그리고 이를 구현하기 위한 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101750338B1 (ko) 2010-09-13 2017-06-23 삼성전자주식회사 마이크의 빔포밍 수행 방법 및 장치
KR101799392B1 (ko) * 2017-01-02 2017-11-20 아날로그플러스 주식회사 전자 장치 및 이의 제어 방법
US20180249245A1 (en) * 2015-07-27 2018-08-30 Sonova Ag Clip-on Microphone Assembly

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101750338B1 (ko) 2010-09-13 2017-06-23 삼성전자주식회사 마이크의 빔포밍 수행 방법 및 장치
US20180249245A1 (en) * 2015-07-27 2018-08-30 Sonova Ag Clip-on Microphone Assembly
KR101799392B1 (ko) * 2017-01-02 2017-11-20 아날로그플러스 주식회사 전자 장치 및 이의 제어 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102201324B1 (ko) 2020-07-07 2021-01-11 오재승 스마트 단말기를 이용한 회의 운영 방법
KR20240040945A (ko) 2022-09-22 2024-03-29 주식회사 제윤 음성 신호의 전처리 방법, 그리고 이를 구현하기 위한 시스템
KR20240040942A (ko) 2022-09-22 2024-03-29 주식회사 제윤 음성 신호를 이용한 화자 식별 방법, 그리고 이를 구현하기 위한 시스템
KR20240040947A (ko) 2022-09-22 2024-03-29 주식회사 제윤 음성 인식 후처리 방법, 그리고 이를 구현하기 위한 시스템
KR20240040941A (ko) 2022-09-22 2024-03-29 주식회사 제윤 회의록 자동 생성 방법, 그리고 이를 구현하기 위한 시스템
KR20240040946A (ko) 2022-09-22 2024-03-29 주식회사 제윤 음성 신호의 캘리브레이션 수행 방법, 그리고 이를 구현하기 위한 시스템

Similar Documents

Publication Publication Date Title
KR101987742B1 (ko) 음성인식용 핀 마이크 장치 및 회의 작성 시스템
KR101970753B1 (ko) 음성인식을 이용한 회의록 작성 시스템
KR101970346B1 (ko) 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치
CN101438604B (zh) 使用扬声器作为麦克风的位置感知设备
KR102171226B1 (ko) 룸에 대한 오디오 적응
KR102515996B1 (ko) 음성 인식을 위한 전자 장치 및 그 제어 방법
KR101970347B1 (ko) 화자 음성의 노이즈를 제거하는 음성인식장치
EP1085781A2 (en) Apparatus for adapting the directional characteristic of microphones for voice control
WO2021064468A1 (en) Sound source localization with co-located sensor elements
JPH0139119B2 (ko)
US20150088497A1 (en) Speech processing apparatus, speech processing method, and speech processing program
KR102100703B1 (ko) 복수의 입력수단이 구비된 음성 인식 키오스크
Jacob et al. DOA-based microphone array postion self-calibration using circular statistics
US20190267020A1 (en) Method of controlling volume in a noise adaptive manner and apparatus implementing thereof
CN102282865A (zh) 用于电子系统的声学语音活动检测(avad)
KR102374054B1 (ko) 음성 인식 방법 및 이에 사용되는 장치
KR20090025939A (ko) 음성 인식을 이용한 홈 미디어 pc 시스템 및 그 제어방법
CN113707133B (zh) 一种基于声环境感知的服务机器人语音输出增益获取方法
Shimizu et al. Speech recognition based on space diversity using distributed multi-microphone
KR101976937B1 (ko) 마이크로폰 어레이를 이용한 회의록 자동작성장치
JP3798530B2 (ja) 音声認識装置及び音声認識方法
WO2020051841A1 (en) Human-machine speech interaction apparatus and method of operating the same
Gomez et al. Speaker diarization and identification from single channel classroom audio recordings using virtual microphones
KR20200081274A (ko) 음성을 인식하는 장치 및 방법
KR20230001851A (ko) 음성인식 기술 탑재 회의록 작성 시스템

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant