KR20230094005A - 음향 센서를 이용한 화자 분류 장치 및 방법 - Google Patents

음향 센서를 이용한 화자 분류 장치 및 방법 Download PDF

Info

Publication number
KR20230094005A
KR20230094005A KR1020210183129A KR20210183129A KR20230094005A KR 20230094005 A KR20230094005 A KR 20230094005A KR 1020210183129 A KR1020210183129 A KR 1020210183129A KR 20210183129 A KR20210183129 A KR 20210183129A KR 20230094005 A KR20230094005 A KR 20230094005A
Authority
KR
South Korea
Prior art keywords
speaker
acoustic sensor
output signal
directional
processor
Prior art date
Application number
KR1020210183129A
Other languages
English (en)
Inventor
장재형
김재흥
손대혁
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020210183129A priority Critical patent/KR20230094005A/ko
Priority to US17/832,064 priority patent/US20230197084A1/en
Publication of KR20230094005A publication Critical patent/KR20230094005A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/801Details
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • H04R1/083Special constructions of mouthpieces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/22Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only 
    • H04R1/28Transducer mountings or enclosures modified by provision of mechanical or acoustic impedances, e.g. resonator, damping means
    • H04R1/2807Enclosures comprising vibrating or resonating arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 개시는 음향 센서를 이용한 화자 분류 장치 및 방법에 관한 것으로, 일 실시 예에 따른 음향 센서를 이용한 화자 분류 장치는 음향 센서 및 음향 센서로부터 출력된 제1 출력신호를 기초로 - 5도 내지 + 5도의 오차범위 내에서 음원의 제1 방향을 획득하고, 제1 방향에 따른 제1 발화자의 발화를 인식하고, 제1 출력신호 다음에 출력된 제2 출력신호를 기초로 - 5도 내지 + 5도의 오차범위 내에서 음원의 제2 방향을 획득하고, 제2 방향이 제1 방향과 다른 경우, 제2 방향에 따른 제2 발화자의 발화를 인식하는 프로세서를 포함한다.

Description

음향 센서를 이용한 화자 분류 장치 및 방법{APPARATUS AND METHOD FOR CLASSIFYING A SPEAKER USING ACOUSTIC SENSOR}
본 개시는 음향 센서를 이용한 화자 분류 장치 및 방법에 관한 것이다.
생활 가전 제품, 영상 디스플레이 장치, 가상 현실 장치, 증강 현실 장치, 인공지능 스피커 등에 장착되어 음향이 오는 방향을 탐지하고 음성을 인식할 수 있는 음향 센서의 활용성이 증가하고 있다. 최근에는 압력차(pressure difference)에 의한 기계적인 움직임을 전기 신호로 변환하여 음향을 검출하는 지향성 음향 센서가 개발되고 있다.
다양한 실시 예들이 해결하고자 하는 기술적 과제는 음향 센서를 이용한 화자 분류 장치 및 방법을 제공하는 데 있다. 본 실시 예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시 예들로부터 또 다른 기술적 과제들이 유추될 수 있다.
일 측면에 따르면, 음향 센서를 이용한 화자 분류 장치는 음향 센서; 및 상기 음향 센서로부터 출력된 제1 출력신호를 기초로 - 5 도 내지 + 5 도의 오차범위 내에서 음원의 제1 방향을 획득하고, 상기 제1 방향에 따른 제1 발화자의 발화를 인식하고, 상기 제1 출력신호 다음에 출력된 제2 출력신호를 기초로 - 5 도 내지 + 5 도의 오차범위 내에서 상기 음원의 제2 방향을 획득하고, 상기 제2 방향이 상기 제1 방향과 다른 경우, 상기 제2 방향에 따른 제2 발화자의 발화를 인식하는 프로세서를 포함한다.
다른 측면에 따르면, 음향 센서를 이용한 회의록 작성 장치는 음향 센서; 및
상기 음향 센서로부터 출력된 제1 출력신호를 기초로 - 5 도 내지 + 5 도의 오차범위 내에서 음원의 제1 방향을 획득하고, 상기 제1 방향에 따른 제1 발화자의 발화를 인식하고, 상기 제1 출력신호 다음에 출력된 제2 출력신호를 기초로 - 5 도 내지 + 5 도의 오차범위 내에서 상기 음원의 제2 방향을 획득하고, 상기 제2 방향이 상기 제1 방향과 다른 경우, 상기 제2 방향에 따른 제2 발화자의 발화를 인식하고, 상기 제1 발화자의 발화 및 상기 제2 발화자의 발화에 상응하는 각각의 음성을 인식하고, 상기 인식된 음성을 텍스트로 변환하여 회의록을 작성하는 프로세서를 포함한다.
또 다른 측면에 따르면, 음향 센서를 이용한 화자 분류 방법은 음향 센서로부터 출력된 제1 출력신호를 기초로 - 5 도 내지 + 5 도의 오차범위 내에서 음원의 제1 방향을 획득하는 단계; 상기 제1 방향에 따른 제1 발화자의 발화를 인식하는 단계; 상기 제1 출력신호 다음에 출력된 제2 출력신호를 기초로 - 5 도 내지 + 5 도의 오차범위 내에서 상기 음원의 제2 방향을 획득하는 단계; 및 상기 제2 방향이 상기 제1 방향과 다른 경우, 상기 제2 방향에 따른 제2 발화자의 발화를 인식하는 단계를 포함한다.
또 다른 측면에 따르면, 음향 센서로부터 출력된 제1 출력신호를 기초로 - 5 도 내지 + 5 도의 오차범위 내에서 음원의 제1 방향을 획득하는 단계; 상기 제1 방향에 따른 제1 발화자의 발화를 인식하는 단계; 상기 제1 출력신호 다음에 출력된 제2 출력신호를 기초로 - 5 도 내지 + 5 도의 오차범위 내에서 상기 음원의 제2 방향을 획득하는 단계; 상기 제2 방향이 상기 제1 방향과 다른 경우, 상기 제2 방향에 따른 제2 발화자의 발화를 인식하는 단계; 상기 제1 발화자의 발화 및 상기 제2 발화자의 발화에 상응하는 각각의 음성을 인식하는 단계; 및 상기 인식된 음성을 텍스트로 변환하여 회의록을 작성하는 단계를 포함한다.
또 다른 측면에 따르면, 상기 음향 센서를 이용한 화자 분류 장치를 포함하는 전자 장치를 포함한다.
또 다른 측면에 따르면, 상기 음향 센서를 이용한 회의록 작성 장치를 포함하는 전자 장치를 포함한다.
도 1은 지향성 음향 센서를 예시적으로 도시한 도면이다.
도 2는 도 1에 도시된 공진기의 단면을 도시한 도면이다.
도 3은 비교 예에 따른 복수의 음향 센서들을 이용한 지향성 조절 방법을 설명하기 위한 도면이다.
도 4는 일 실시 예에 따른 음향 센서를 포함한 장치의 블록도이다.
도 5는 일 실시 예에 따른 지향성 음향 센서와 지향성 음향 센서의 지향 패턴을 설명하기위한 도면이다.
도 6은 지향성 음향 센서의 주파수 응답 특성을 측정한 결과를 나타내기 위한 도면이다.
도 7은 지향성 음향 센서의 지향 패턴을 측정한 결과를 나타내기 위한 도면이다.
도 8a 및 도 8b는 일 실시 예에 따른 음향 센서의 신호 처리를 설명하기 위한 도면이다.
도 9a 및 도 9b는 일 실시 예에 따라, 음향 센서들이 전면 방향 및 후면 방향으로부터 전달된 음향을 센싱한 결과를 도시한 그래프들이다.
도 10a는 일 실시 예에 따른 화자 분류 장치의 개략 도이다.
도 10b는 다른 실시 예에 따른 회의록 작성 장치의 개략도이다.
도 11은 발화자 인식을 위한 음성 신호의 흐름을 나타내는 예시 도이다.
도 12는 또 다른 실시 예에 따른 회의록 작성 방법을 설명하기 위한 흐름 도이다.
도 13은 또 다른 실시 예에 따른 회의록 작성 방법을 나타내는 의사코드(Pseudo Code)의 예시이다.
도 14a 및 14b는 화자의 발화 사이의 유사도를 나타내는 예시 도들이다.
도 15는 발화자 인식에 음성 유사도를 반영하는 것을 설명하기 위한 예시 도이다.
도 16a 및 16b는 도 다른 실시 예에 따른 실시간 회의록 작성 시스템의 예시 도들이다.
도 17은 또 실시 예에 따른 화자 분류 장치를 포함하는 전자 장치의 개략적인 구조를 보이는 블록도이다.
도 18 내지 21은 또 다른 실시 예에 따른 화자 분류 장치 또는 회의록 작성 장치가 적용될 수 있는 다양한 전자 장치의 응용들을 설명하기 위한 예시 도들이다.
본 실시 예들에서 사용되는 용어는 본 실시 예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 실시 예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시 예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시 예들의 전반에 걸친 내용을 토대로 정의되어야 한다.
실시 예들에 대한 설명들에서, "상부" 나 "상"이라고 기재된 것은 접촉하여 바로 위, 아래, 좌, 우에 있는 것뿐만 아니라 비접촉으로 위, 아래, 좌, 우에 있는 것도 포함할 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
실시 예들에 대한 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 그 중간에 다른 구성요소를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다.
본 실시 예들에서 사용되는 "구성된다." 또는 "포함한다." 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 본 명세서에서 사용되는 '제1' 또는 '제2' 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용할 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다.
본 실시 예에서, 음향 센서는 마이크로폰(microphone)일 수 있으며, 공기 중에 파동인 음파를 받아서, 이것을 전기신호로 변환하는 기기를 의미한다.
본 실시 예에서, 음향 센서 어셈블리는 음향 센서 또는 마이크로폰과 이를 제어하고, 필요한 기능을 연산하는 프로세서를 포함하는 의미로 사용된다. 또한, 실시 예에 따른 음향센서를 이용하여 화자를 분류하는 장치 또는 회의록을 작성하는 장치를 지칭하는 것으로 사용될 수 있다.
본 실시 예들은 음향 센서 어셈블리에 관한 것으로서 이하의 실시예들이 속하는 기술 분야에서 통상의 지식을 가진 자에게 널리 알려진 사항들에 관해서는 자세한 설명을 생략한다.
본 실시 예에서, "화자 분류"는 지향성 정보 또는 발화의 방향을 이용하여 복수의 화자를 인식하는 것을 의미한다.
본 실시 예에서, "회의록 작성"은 지향성 정보 또는 발화의 방향을 이용하여 복수의 화자를 인식함으로써, 화자별 발화를 구분하고, 화자별 음성을 인식 및 텍스트 변환하여 회의록을 작성하는 것을 의미한다.
하기 실시 예들에 대한 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 당업자가 용이하게 유추할 수 있는 것은 실시 예들의 권리범위에 속하는 것으로 해석되어야 할 것이다. 이하 첨부된 도면들을 참조하면서 오로지 예시를 위한 실시예들을 상세히 설명하기로 한다.
도 1은 지향성 음향 센서(10)를 예시적으로 도시한 도면이다. 그리고 도 2는 도 1에 도시된 공진기(102)의 단면을 도시한 도면이다.
도 1 및 도 2를 참조하면, 지향성 음향 센서(10)는 지지대(101) 및 복수의 공진기(102)를 포함할 수 있다. 지지대(101)에는 캐비티(105)가 관통하도록 형성될 수 있다. 지지대(101)로는 예를 들면 실리콘 기판이 사용될 수 있지만, 이에 한정되지는 않는다.
복수의 공진기(102)는 지지대(101)의 캐비티(105) 위에 소정 형태로 배열될 수 있다. 공진기들(102)은 서로 겹침 없이 평면적으로 배열될 수 있다. 공진기들(102) 각각은 도 2에 도시된 바와 같이 일측은 지지대(101)에 고정되어 있으며, 타측은 캐비티(105) 쪽을 향하여 연장되도록 마련될 수 있다. 공진기들(102)은 각각 입력되는 음향에 반응하여 움직이는 구동부(108)와, 구동부(108)의 움직임을 센싱하는 센싱부(107)를 포함할 수 있다. 또한, 공진기(102)는 구동부(108)에 소정의 질량(mass)을 제공하기 위한 질량체(109)를 더 포함할 수 있다.
공진기들(102)은 예를 들면, 서로 다른 대역의 음향 주파수를 감지하도록 마련될 수 있다. 즉, 공진기들(102)은 서로 다른 중심 주파수 또는 공진 주파수를 가지도록 마련될 수 있다. 이를 위해, 공진기들(102)은 서로 다른 치수(dimension)를 가지도록 마련될 수 있다. 예를 들면, 공진기들(102)은 서로 다른 길이, 폭 또는 두께를 가지도록 마련될 수 있다.
공진기들(102)의 폭, 두께 등의 구체적인 수치는 공진기들(102)에 대해 원하는 공진 주파수를 고려하여 정할 수 있다. 예를 들어, 대략 수㎛ 내지 수백 ㎛사이의 폭, 수㎛ 이하의 두께, 및 대략 수 mm 이하의 길이를 가질 수 있으며, 이에 한정되지 않는다.  이러한 미세한 크기의 공진기들(102)은 MEMS(Micro Electro Mechanical System) 공정에 의해 제작될 수 있다.
도 3은 비교 예에 따른 복수의 음향 센서들을 이용한 지향성 조절 방법을 설명하기 위한 도면이다. 도 3을 참고하면, 복수의 음향 센서들(31)을 이용한 지향성 조절 방법은 특정 방향의 음향을 크게 듣기 위하여, 복수의 음향 센서들(31)을 이용할 수 있다. 복수의 음향 센서들(31)은 소정 간격(D)을 두고 배치되며, 그 간격(D)으로 인해 음향이 각 음향 센서(31)에 도달하는 시간 또는 위상 지연(phase delay)이 생기고, 그 시간 또는 위상 지연을 보상하는 정도를 다르게 함으로써 전체 지향성을 조절할 수 있다.
이하 도면들을 참고하여 본 개시에 따른 화자 분류 장치 및 회의록 작성 장치의 효율적인 구조 및 운용에 대해 상세히 설명한다.
도 4는 음향 센서를 포함한 장치의 블록도이다. 여기서, 장치는 음향 센서를 이용하여 복수의 화자를 분류하는 화자 분류 장치이거나, 음향 센서를 이용하여 복수의 화자를 분류하고, 화자별 음성을 인식한 후 텍스트로 변환하여 회의록을 작성하는 회의록 작성 장치일 수 있다. 구체적인 기능은 도 10a 및 10b를 참조하여 설명하고, 도 4를 참조하여서는, 음향 센서와 프로세서를 중심으로 설명한다.
도 4를 참조하면, 장치(4)는 프로세서(41), 무지향성 음향 센서(42), 복수의 지향성 음향 센서들(43a, 43b, ..., 43n)을 포함할 수 있다. 방향 추정 장치(4)는 프로세서(41), 무지향성 음향 센서(42), 복수의 지향성 음향 센서들(43a, 43b, ..., 43n)을 이용하여 음향 센서 어셈블리(4) 주변의 음향을 획득할 수 있다.
무지향성 음향 센서(42)는 무지향성 음향 센서(42)를 둘러싸는 모든 방향의 음향을 센싱할 수 있다. 무지향성 음향 센서(42)는 모든 방향의 음향을 균일하게 센싱하는 지향성(directivity)을 가질 수 있다. 예를 들어, 모든 방향의 음향을 균일하게 센싱하는 지향성은 전지향성(Omni-directional) 또는 무지향성(Non-directional)일 수 있다.
무지향성 음향 센서(42)에서 센싱된 음향은 입력된 방향에 관계없이, 무지향성 음향 센서(42)로부터 동일한 출력 신호로 출력될 수 있다. 이에 따라, 무지향성 음향 센서(42)의 출력 신호를 기초로 재생된 음원은 방향에 대한 정보를 포함하지 않을 수 있다.
음향 센서의 지향성은 지향 패턴(directional pattern)을 이용하여 표현될 수 있고, 지향 패턴은 해당 음향 센서가 음원을 전달받을 수 있는 방향을 나타내는 패턴(pattern)을 의미할 수 있다.
지향 패턴은 해당 지향 패턴을 가진 음향 센서를 둘러싸는 360° 공간을 기준으로 음향이 전달되는 방향에 따른 음향 센서의 민감도를 확인할 수 있도록 도시될 수 있다. 예를 들어, 무지향성 음향 센서(42)의 지향 패턴은 360° 전방향에서 전달되는 음향들에 동일한 민감도를 가진 것을 알 수 있도록, 원형으로 도시될 수 있다. 구체적인 무지향성 음향 센서(42)의 지향 패턴의 활용에 대해서는 도 8a 및 도 8b를 참고하여 후술한다.
복수의 지향성 음향 센서들(43a, 43b, ..., 43n) 각각은 전술한 도 1에 도시된 지향성 음향 센서(10)와 동일한 구성을 가질 수 있다. 복수의 지향성 음향 센서들(43a, 43b, ..., 43n)은 각 지향성 음향 센서(43a, 43b, ..., 43n)의 전면(예를 들어, 도 1의 +z방향)과 후면(예를 들어, 도 1의 -z방향)의 음향을 센싱할 수 있다. 복수의 지향성 음향 센서들(43a, 43b, ..., 43n)은 각각 전면과 후면 방향의 음향을 센싱하는 지향성을 가질 수 있다. 예를 들어, 전면과 후면 방향의 음향을 센싱하는 지향성은 양지향성(Bi-directional)일 수 있다.
복수의 지향성 음향 센서들(43a, 43b, ..., 43n)은 무지향성 음향 센서(42)를 포위하도록 배치될 수 있다. 복수의 지향성 음향 센서들(43a, 43b, ..., 43n)의 개수와 배치는 도 10을 참조하여 후술한다.
프로세서(41)는 장치(4)의 전반적인 동작을 제어하고, 신호 처리를 수행한다. 프로세서(41)는 서로 다른 지향성을 가진 음향 센서들의 출력신호들 중에서 적어도 하나를 선택함으로써 음향 센서들(42, 43a, 43b, ..., 43n)이 가지고 있는 지향성과 동일한 지향성을 갖는 음향 신호를 산출할 수 있다. 프로세서(41)가 선택한 출력신호를 기초로 선택된 출력신호에 대응하는 음향 센서의 지향 패턴을 가진 음향 신호를 산출할 수 있다. 예를 들어, 선택된 출력신호와 음향 신호는 동일한 신호일 수 있다. 프로세서(41)는 선택된 출력신호에 대응하는 음향 센서의 지향 패턴을 장치(4)의 지향 패턴으로 선택함으로써 지향성을 조절하고, 상황에 알맞게 특정 방향에서 전달되는 음향을 억제하거나 크게 센싱할 수 있다.
음향 신호는 각 음향 센서들(42, 43a, 43b, ..., 43n)의 출력신호들처럼 지향성에 대한 정보를 포함하는 신호로써, 출력신호들 중 일부가 선택되어 음향 신호로 결정되거나, 출력신호들 중 일부를 기초로 계산되어 새롭게 산출될 수 있다. 음향 신호의 지향 패턴은 각 음향 센서들(42, 43a, 43b, ..., 43n)의 지향 패턴과 동일한 형태(shape)일 수도 있고, 다른 형태일 수도 있고, 동일한 지향성(directivity)을 가질 수도 있고, 다른 지향성을 가질 수도 있다. 즉, 음향 신호가 갖는 지향 패턴 또는 지향성에는 제한이 없다.
프로세서(41)는 무지향성 음향 센서(42) 및/또는 복수의 지향성 음향 센서들(43a, 43b, ..., 43n)의 출력신호들을 획득하고, 획득한 출력신호들을 선택적으로 조합함으로써 장치가 포함하는 음향 센서들(42, 43a, 43b, ..., 43n)이 가지고 있는 지향성과 다른 지향성을 갖는 음향 신호를 산출할 수 있다. 예를 들어, 프로세서(41)는 음향 센서들(42, 43a, 43b, ..., 43n)의 지향 패턴들과는 상이한 지향 패턴을 가진 음향 신호를 산출할 수 있다. 프로세서(41)는 상황에 따라, 하나의 지향성 음향센서(예를 들면, 43a)의 전면을 지향하는 지향 패턴을 가진 음향 신호를 산출할 수 있다.
프로세서(41)는 무지향성 음향 센서(42)의 출력신호 및 복수의 지향성 음향 센서들(43a, 43b, ..., 43n) 각각의 출력신호들을 기초로 소정 비율의 합(sum) 및 차(difference) 중 적어도 하나를 계산함으로써 음향 신호를 산출할 수 있다.
프로세서(41)는 음향 신호를 이용하여 장치(4) 주변의 음향을 획득할 수 있다. 프로세서(41)는 음향 신호를 이용하여 장치(4)로 전달되는 음향의 방향을 구분하여 주변의 음향을 획득할 수 있다. 예를 들어, 프로세서(41)가 장치(4)의 오른쪽에서 전달되는 음원을 녹음한 뒤 다시 사용자에게 녹음된 음원을 제공하면, 사용자는 마치 음원이 사용자의 오른쪽에서 들려오는 것처럼 들을 수 있고, 프로세서(41)가 장치(4) 주변을 선회하는 음원을 녹음한 뒤 다시 사용자에게 녹음된 음원을 제공하면, 사용자는 마치 음원이 사용자의 주변을 선회하는 것처럼 들을 수 있다.
프로세서(41)는 음향 센서로부터 출력된 제1 출력신호를 기초로 - 5 도 내지 + 5 도의 오차범위 내에서 음원의 제1 방향을 획득하고, 제1 방향에 따른 제1 발화자의 발화를 인식하고, 제1 출력신호 다음에 출력된 제2 출력신호를 기초로 - 5 도 내지 + 5 도의 오차범위 내에서 음원의 제2 방향을 획득하고, 제2 방향이 상기 제1 방향과 다른 경우, 제2 방향에 따른 제2 발화자의 발화를 인식할 수 있다. 여기서, 제1 방향과 제2 방향이 다른지를 판단하는 기준은 ±5도의 범위를 벗어나는 경우일 수 있다. 예를 들면 제1 방향이 30도인 경우에, 제2 방향이 36도인 경우 방향이 다르다고 판단할 수 있다. 하지만, 검출된 방향이 동일한지 아닌지를 판단하는 기준을 이에 한정되지 않고, 장치의 응용 및 스펙에 따라 적절하게 정의할 수 있음은 물론이다.
또한, 프로세서(41)는 음향 센서로부터 출력된 제1 출력신호를 기초로 - 5 도 내지 + 5 도의 오차범위 내에서 음원의 제1 방향을 획득하고, 제1 방향에 따른 제1 발화자의 발화를 인식하고, 제1 출력신호 다음에 출력된 제2 출력신호를 기초로 - 5 도 내지 + 5 도의 오차범위 내에서 음원의 제2 방향을 획득하고, 제2 방향이 제1 방향과 다른 경우, 제2 방향에 따른 제2 발화자의 발화를 인식하고, 제1 발화자의 발화 및 제2 발화자의 발화에 상응하는 각각의 음성을 인식하고, 인식된 음성을 텍스트로 변환하여 회의록을 작성할 수 있다.
프로세서(41)는 지향성 음향 센서의 개수와 배치에 따라 다양한 알고리즘으로 음원의 방향을 추정할 수 있다.
프로세서(41)는 하나의 프로세서 코어(Single Core)를 포함하거나, 복수의 프로세서 코어들(Multi-Core)을 포함할 수 있다. 프로세서(41)는 메모리에 저장된 프로그램들 및/또는 데이터를 처리 또는 실행할 수 있다. 일부 실시 예에 있어서, 프로세서(41)는 메모리에 저장된 프로그램들을 실행함으로써, 음향 센서 어셈블리(4)의 기능을 제어할 수 있다. 프로세서(41)는 CPU(central processing unit), GPU(graphics processing unit), AP(application processor) 등으로 구현될 수 있다.
프로세서(41)는 다양한 방법으로 음원의 방향을 검출할 수 있다. 지향성 음향 센서의 지향성 조절 방법은 Time Difference of Arrival(TDOA, 이하 TDOA라 한다)로 지칭될 수 있다.
음향이 각 음향 센서에 도달하는 시간에 차이가 있다는 것을 전제하는 바, 가청 주파수대역의 파장(wavelength)을 고려하여 간격을 설정해야 하므로 음향 센서들 간의 간격 설정에 제약이 있을 수 있다. 간격 설정에 제약이 있기 때문에, 전술한 방법을 수행하는 장치의 소형화에 제약이 있을 수 있다. 특히, 낮은 주파수는 파장의 길이가 길어서, 낮은 주파수의 음향을 구분하기 위해서는 음향 센서들 간의 간격이 넓고, 각 음향 센서의 신호대 잡음비(SNR; signal-to-noise ratio)가 높아야 할 수 있다. TDOA는 각 음향 센서에서 센싱되는 음향의 주파수 대역에 따라서 위상(phase)이 다르게 되므로, 각 주파수 별로 위상을 보상해주어야 할 수 있다. 각 주파수 별로 위상을 보상하기 위해서, 전술한 방법은 알맞은 웨이트를 각 주파수 별로 적용하는 복잡한 신호처리 과정이 필요할 수 있다.
또한, TDOA를 이용하여 음원의 방향을 추정하기 위해서 주로 복수의 무지향성 마이크로폰 배열의 신호를 이용한다. 각 마이크로폰에서 취득한 신호 사이의 시간 지연을 계산하여 이를 바탕으로 음원이 입사한 방향을 추정한다. 하지만, 방향추정의 정확도는 배열의 크기(마이크로폰 사이의 간격) 및 시간 지연에 의해 종속된다.
다른 방법은 Intensity difference 기반으로 음원의 방향을 추정하는 것이다. 방향 추정을 위해 각 마이크로폰에서 측정된 intensity 또는 level 사이의 차이를 이용하는 방법이다. 시간 영역에서 측정된 신호의 크기를 기반으로 음원이 어느 방향에서 입사하였는지를 결정한다. 각 마이크로폰 사이의 크기 차이를 이용하기 때문에 gain calibration 이 매우 정확하게 이루어져야 하며, 성능을 높이기 위해서는 많은 숫자의 마이크로폰이 필요할 수 있다.
TDOA 기반 방향 추정 기법을 이용할 경우 마이크로폰 배열의 크기에 따라 음원의 주파수 별로 마이크로폰 사이의 위상에 차이가 생기는 원리를 활용하게 된다. 따라서 배열의 크기와 추정하고자 하는 음원의 파장이 물리적인 관계를 갖게 되어 배열의 크기가 방향 추정 성능을 결정한다.
마이크로폰 사이의 time difference 또는 intensity difference를 활용하는 방법은 방향 추정 성능을 늘리기 위해서 배열의 크기를 크게 하여 다수의 마이크로폰을 이용해야 한다. 또한, time difference 기반 추정 기법의 경우 주파수 별로 다른 시간 지연과 위상 차이를 계산하기 위해서는 디지털 신호 처리 장치가 필요하며, 이 장치의 성능 또한 방향 추정 성능을 제한하는 요소가 될 수 있다.
또한, 음향 센서를 이용한 방향 추정 방법으로, 지향성/무지향성 마이크로폰 배열을 이용한 방향 추정 알고리즘을 이용할 수도 있다. 예를 들면, 1개의 무지향성 마이크로폰과 복수 개, 적어도 2개의 지향성 마이크로폰으로 구성된 채널 모듈을 이용하여 360도 전 방위에서 입사하는 음원의 방향을 찾는다. 실시 예에서, 지향성 마이크로폰의 지향성 형상이 주파수와 관계없이 figure-of-8임을 활용하여, 음원의 파워를 기반으로 방향을 추정할 수 있다. 따라서 음원의 방향을 작은 사이즈, 예를 들면 3cm 이내의 배열로 높은 정확도로 추정할 수 있으며, 공간 정보에 기반한 음성 분리도 수행할 수 있다.
실시 예에서는, 음향 센서, 예를 들면 무지향성 음향 센서, 지향성 음향 센서, 또는 무지향성 음향 센서와 복수 개의 지향성 음향 센서의 조합을 통해 화자 또는 음원의 방향을 검출할 수 있다. 여기서, 검출된 방향은 - 5 도 내지 + 5 도의 오차범위를 갖는 정확도로 검출할 수 있다. 이하, 지향성 음향 센서 또는 무지향성 음향 센서와 지향성 음향 센서의 조합에 의한 방향 검출 및 지향성을 갖는 출력 신호를 생성하는 것을 설명하지만, 이에 한정되지 않고, 다양한 방향 검출 방법을 적용할 수 있음은 물론이다.
도 5는 일 실시 예에 따른 지향성 음향 센서와 지향성 음향 센서의 지향 패턴을 설명하기 위한 도면이다. 도 5를 참고하면, 지향성 음향 센서(10)는 양지향성 지향 패턴(51 및 52)을 가질 수 있다. 예를 들어, 양지향성 지향 패턴(51 및 52)은 지향성 음향 센서(10)의 전면(+z방향)을 지향하는 전면부(51)와 지향성 음향 센서(10)의 후면(-z방향)을 지향하는 후면부(52)로 구성되는 8자 형(figure-8)의 지향 패턴일 수 있다.
도 6은 지향성 음향 센서의 주파수 응답 특성을 측정한 결과를 나타내기 위한 도면이다. 도 6을 참고하면, 지향성 음향 센서(10)는 다양한 주파수에 대해 균일한 민감도(sensitivity)를 가지고 있음을 확인할 수 있다. 점선으로 표시된 민감도는 0Hz~8,000Hz의 주파수에 -40dB의 균일한 민감도를 가지고 있음을 알 수 있고, 실선으로 표시된 노이즈(noise)는 -80dB임을 알 수 있다. 지향성 음향 센서(10)는 다양한 주파수에 대해 균일한 민감도를 가지고 있으므로, 다양한 주파수의 음향을 균일하게 센싱할 수 있다.
도 7은 지향성 음향 센서의 지향 패턴을 측정한 결과를 나타내기 위한 도면이다. 도 7에 도시된 바와 같이, 지향성 음향 센서(10)는 다양한 주파수에 대해 균일하게 양지향성의 지향 패턴을 가지는 것을 알 수 있다. 즉, 다양한 주파수에 대해 0도 방향과 180도 방향인 도 1의 +z 축 방향 및 -z 축 방향으로의 지향성을 가지고 있음을 알 수 있다.
도 8a는 일 실시 예에 따른 방향 추정 장치의 신호 처리를 설명하기 위한 도면이다. 도 8a를 참고하면, 프로세서(41)는 무지향성 음향 센서(42)의 출력신호 및 지향성 음향 센서(10)의 출력신호를 기초로 소정 비율의 합 및 차 중 적어도 하나를 계산함으로써 음향 신호를 산출할 수 있다. 음향 신호는 각 음향 센서들(10 및 42)의 지향 패턴들(81 및 82)과는 다른 형태 또는 다른 지향성을 가지도록, 출력신호들을 기초로 계산된 디지털 신호일 수 있다. 예를 들어, 음향 신호를 산출하기 위한 계산에 있어서, 무지향성 음향 센서(42)의 출력신호를 G1이라하고, 지향성 음향 센서(10)의 출력신호를 G2라 하고, 무지향성 음향 센서(42)의 출력신호(G1)에 대한 지향성 음향 센서(10)의 출력신호(G2)의 비율이 1:k라 할 때, 출력신호들(G1 및 G2)의 소정 비율의 합은 식 G1+kG2를 이용하여 계산될 수 있고, 출력신호들(G1 및 G2)의 소정 비율의 차는 식 G1-kG2를 이용하여 계산될 수 있다. 각 출력신호들의 비율은 필요로 하는 적절한 지향 패턴의 형태 또는 지향성에 따라 미리 정해질 수 있다.
프로세서(41)는 무지향성 음향 센서(42)의 출력신호 및 지향성 음향 센서(10)의 출력신호를 기초로 소정 비율의 합을 계산함으로써, 지향성 음향 센서(10)의 전면 방향(예를 들어, 도 5의 +z 방향)을 지향하는 지향 패턴을 갖는 음향 신호를 산출할 수 있다.
무지향성 음향 센서(42)는 모든 방향을 지향하므로 어떤 방향으로부터 음향이 전달되어도 출력신호에는 차이가 없을 수 있다. 다만, 이하에서는 설명의 편의를 위해 지향성 음향 센서(10)의 전면 방향을 무지향성 음향 센서(42)의 전면 방향과 동일한 방향이라고 전제하고 설명하도록 한다.
예를 들어, 프로세서(41)는 무지향성 음향 센서(42)의 출력신호 및 지향성 음향 센서(10)의 출력신호를 1:1 비율의 합으로 계산함으로써, 단지향성(uni-directional) 지향 패턴(83)을 가지는 음향 신호를 산출할 수 있다. 단지향성 지향 패턴(83)은 지향성 음향 센서(10)의 전면을 향하는 지향성을 가질 수 있다. 다만, 단지향성 지향 패턴(83)은, 양지향성 지향 패턴(81)의 전면부와 비교했을 때, 좌우로 보다 넓은 범위를 커버하는 지향 패턴일 수 있다. 예를 들어, 단지향성 지향 패턴(83)은 심장형(Cardioid)의 지향 패턴일 수 있다.
지향성 음향 센서(10)는 양지향성 지향 패턴(81)을 가지고, 무지향성 음향 센서(42)는 전지향성 지향 패턴(82)을 가질 수 있다. 지향성 음향 센서(10)는 무지향성 음향 센서(42)가 센싱한 음향의 위상과 동위상(in-phase)인 음향을 양지향성 지향 패턴(81)의 전면 방향(예를 들어, 도 5의 +z방향)으로부터 센싱할 수 있고, 무지향성 음향 센서(42)가 센싱한 음향의 위상과 반대위상(anti-phase)인 음향을 후면 방향(예를 들어, 도 5의 -z방향)으로부터 센싱할 수 있다.
도 9a는 일 실시 예에 따라, 음향 센서들이 전면 방향으로부터 전달된 음향을 센싱한 결과를 도시한 그래프이고, 도 9b는 일 실시 예에 따라, 음향 센서들이 후면 방향으로부터 전달된 음향을 센싱한 결과를 도시한 그래프이다.
도 9a 및 도 9b를 참고하면, 지향성 음향 센서(10)의 전면 방향으로부터 전달된 음향과 무지향성 음향 센서(42)의 전면 방향으로부터 전달된 음향들은 서로 동위상임을 알 수 있고, 지향성 음향 센서(10)의 전면 방향으로부터 전달된 음향과 무지향성 음향 센서(42)의 후면 방향으로부터 전달된 음향들은 서로간의 위상이 180° 차이가 나서, 피크(peak)와 골(trough)이 서로 번갈아가며 교차하는 것을 확인할 수 있다.
다시 도 8a를 참고하면, 전면 방향으로부터 전달된 음향들은 서로 동위상이고, 후면 방향으로부터 전달된 음향들은 서로 반대위상이므로, 출력신호들의 일부는 더해지고 일부는 상쇄되어 전면 방향을 지향하는 단지향성 지향 패턴(83)을 가진 음향 신호가 산출될 수 있다.
도 8b는 일 실시 예에 따른 방향 추정 장치의 신호 처리를 설명하기 위한 도면이다. 도 8b를 참고하면, 프로세서(41)는 무지향성 음향 센서(42)의 출력신호 및 지향성 음향 센서(10)의 출력신호를 기초로 소정 비율의 차를 계산함으로써, 지향성 음향 센서(10)의 후면 방향(예를 들어, 도 5의 -z 방향)을 지향하는 지향 패턴을 갖는 음향 신호를 산출할 수 있다.
예를 들어, 프로세서(41)는 무지향성 음향 센서(42)의 출력신호 및 지향성 음향 센서(10)의 출력신호를 1:1 비율의 차로 계산함으로써, 단지향성 지향 패턴(84)을 가지는 음향 신호를 산출할 수 있다. 단지향성 지향 패턴(84)은, 도 8a의 단지향성 지향 패턴(83)과 반대로, 지향성 음향 센서(10)의 후면을 향하는 지향성을 가질 수 있다. 단지향성 지향 패턴(84)은, 양지향성 지향 패턴(81)의 후면부와 비교했을 때, 좌우로 보다 넓은 범위를 커버하는 지향 패턴일 수 있다. 예를 들어, 단지향성 지향 패턴(83)은 심장형(Cardioid)의 지향 패턴일 수 있다.
이상에서는 지향성 음향 센서(10)의 출력과 무지향성 음향 센서(42)의 출력의 합 또는 차를 계산하여 단지향성 지향 패턴을 가지는 음향 신호를 산출하는 방법에 대해 설명했으나, 이는 오로지 예시적인 것으로 지향성 조절은 전술한 방식으로 제한되는 것이 아니다.
프로세서(41)는 상황에 따라서, 무지향성 지향 패턴만을 선택하거나, 특정 방향을 지향하는 지향성 음향 센서의 양지향성 지향 패턴만을 선택하거나, 지향성 음향 센서들의 출력신호를 연산하여 각 지향성 음향 센서의 양지향성과는 상이한 새로운 양지향성 지향 패턴을 갖는 음향 신호를 산출할 수도 있다.
본 개시는 음향 센서를 이용하여 화자를 분류할 수 있는 화자 분류와, 이를 이용한 회의록 작성에 관한 것이다. 종래에는 회의록 자동 작성을 구현하기 위해서 회의 전체를 녹음한 뒤 발화 분리(Speaker Diarization)하여 각 발화에 대한 화자 인식(Speaker Verification)을 수행하는 방법을 사용하였다. 일반적인 주성분 분석(Principal Components Analysis, 이하 PCA라 한다)부터 딥러딩(Deep Learning) 방법까지 다양하게 사용되고 있다. 종래의 방법은 전체 회의록 녹음 신호가 있으면 Speaker Diarization 기법을 통해 발화의 끊어짐을 찾아내어 발화들을 구분, Speaker Verification 기법을 통해서 화자 별로 발화를 나눌 수 있게 된다.
종래의 방법은 데이터를 모두 취득한 뒤에 가공을 하는 것이기에 보안의 위험이 있다. 서비스하는 입장에서는 기기마다 편차를 줄이고 성능을 보장 그리고 자사 알고리즘 보호를 위해 클라우드에 보내어 연산하게 된다. 이러한 이유로 보안에 민감한 기업 및 사용자의 경우 회의록이 타사 서버에 전송을 하는 것에 대해 사용이 꺼려질 수 있다. 또한 알고리즘을 경량화하여 on-device 형태로 적용한다고 하더라도 알고리즘을 추가적으로 사용하는 것에는 변함이 없기에 전체 시스템이 무거워지는 문제가 존재한다. 마지막으로 종래기술 알고리즘은 회의 참석 인원 수를 사람이 결정해야 하는 문제점 또한 존재한다.
실시 예들은, 전술한 종래기술에 따른 회의록 작성의 문제점을 해결하기 위해, 음향 센서의 지향성 정보 또는 방향 정보를 이용하여 화자를 자동으로 분류하고, 이를 바탕으로 회의록을 실시간 작성할 수 있도록 한다.
도 10a는 일 실시 예에 따른 화자 분류 장치의 개략 도이다.
도 10a를 참조하면, 화자 분류 장치(41)는 발화 감지부(1000), 방향 검출부(1010) 및 화자 인식부(1020)를 포함한다. 화자 분류 장치(41)는 도 4에 도시된 프로세서(41)일 수 있으며, 도 4에 도시된 음향 센서를 포함하고, 음향 센서는 무지향성 음향 센서, 지향성 음향 센서, 또는 이들의 조합일 수 있다. 실시 예에서는 지향성 정보 즉, 음성이 들어오는 방향을 인지함으로써, 방향을 통해 화자를 구분하는 것이다. 따라서, 화자의 정보는 모르더라도 발화의 방향을 통해서 구분하는 것이 가능하다.
발화 감지부(1000)는 음향 센서를 통해 주변이 무음이 상태에서 음성이 들어오는 것을 감지한다.
방향 검출부(1010)는 음향 센서의 지향성 정보 또는 방향 정보를 이용하여 음성이 들어오는 방향을 검출한다. 여기서, 음향 센서로부터 출력된 출력신호의 지향성 정보를 기초로 방향을 검출할 수 있다. 음향 센서의 방향 검출은 전술한 바와 같이, TDOA 기반 방향 추정 기법, 무지향성 음향 센서와 복수 개의 지향성 음향 센서의 조합을 통한 방향 추정 기법 등을 사용할 수 있으며, 그 방법에 한정되지 않는다.
화자 인식부(1020)는 방향에 대한 라벨링을 통해 화자를 구분한다.
도 11은 발화자 인식을 위한 음성 신호의 흐름을 나타내는 예시 도이다.
도 11을 참조하면, 실시간 음성 녹음이 진행되고 있는 상태를 나타내고, 편의상 도시된 한 칸을 음향센서로부터의 제1 출력신호, 다음 칸을 제2 출력신호로 설명한다.
제1 출력신호에 상응하는 음성이 입력되면, 제1 출력신호의 방향, 예를 들면 30도를 검출하고, 검출된 방향인 30도를 발화자 1(SPK1)을 등록한다. 다음 신호에서도 30도 방향에서 발화자 1의 음성이 입력된 것으로 판단한다. 제3 출력신호의 방향이 변경되는 경우(1110), 즉 제3 출력 신호에서는 90도 방향이 검출된 경우, 발화자 2(SPK 2)를 등록한다. 제4 출력신호의 방향이 여전히 90도인 경우, 발화자 2의 음성이 입력된 것으로 판단한다. 제5 출력신호의 방향이 변경되는 경우(1120), 제5 출력신호가 30도 방향인 경우, 다시 발화자 1의 음성이 입력된 것으로 판단한다. 제6 출력신호의 방향이 변경되는 경우(1130), 제6 출력신호가 180도 방향이 검출된 경우, 발화자 3(SPK 3)을 등록한다. 제7 출력신호의 방향이 여전히 180인 경우, 발화자 3의 음성이 입력된 것으로 판단한다. 제8 출력신호의 방향이 변경되는 경우(1140), 제8 출력신호가 30도 방향인 경우, 다시 발화자 1의 음성이 입력된 것으로 판단한다.
실시 예에서, 음향 센서의 지향성 정보만을 이용하여, 발화자의 구분이 가능하며, 복잡한 연산이나, 서버 단에서의 후처리를 거치지 않고서도 발화자를 분류할 수 있다. 따라서, 특정 소리를 찾거나, 특정 사람의 목소리를 찾는 경우에도 효과적으로 적용할 수 있다.
도 10b는 다른 실시 예에 따른 회의록 작성 장치의 개략도이다.
도 10b를 참조하면, 회의록 작성 장치(41)는 발화 감지부(1000), 방향 검출부(1010), 화자 인식부(1020), 음성 인식부(1030) 및 텍스트 변환부(1040)를 포함한다. 회의록 작성 장치(41)는 도 4에 도시된 프로세서(41)일 수 있으며, 도 4에 도시된 음향 센서를 포함하고, 음향 센서는 무지향성 음향 센서, 지향성 음향 센서, 또는 이들의 조합일 수 있다. 실시 예에서는 지향성 정보 즉, 음성이 들어오는 방향을 인지함으로써, 방향을 통해 화자를 구분한 후, 모든 화자의 음성을 인식하고, 텍스트 변환하여 회의록을 실시간으로 작성할 수 있다. 도 10a를 참조하여 설명한 화자 분류는 동일하게 적용하기 때문에, 추가적인 구성에 대해서만 설명한다.
음성 인식부(1030)는 음향 센서로부터 출력된 출력신호에 대해 음성을 인식한다. 이때, 도 10a를 참조하여 설명한 것처럼, 발화자별로 구분된 음성 신호를 구분하여 인식할 수도 있다.
음성 인식부(1030)는 음성신호를 받아서 문장의 형태로 산출하는 역할을 하고 구현하기 위해서는 전처리, 패턴 인식, 후처리의 3단계를 포함할 수 있다. 전처리 및 특징 추출 작업을 통해 음성신호에서 노이즈는 제거하고 특성(feature)을 추출하여, 문장을 구성하는데 필요한 원소의 형태로 특징들을 인식한다. 원소들을 조합하여 문장의 형태로 표현한다.
전처리 과정은 변환 및 특징 추출 청각 시스템에서와 같이 음성 신호로부터 시간 및 주파수 영역의 특징을 추출해 내는 과정이다. 청각 시스템의 와우각(달팽이관)기능을 하며 음성 신호의 주기성과 동기성의 정보를 추출한다.
패턴 인식 과정은 특징으로부터 결과값 산출 음성 신호의 전처리를 통해 얻어낸 특징을 바탕으로, 문장을 구성하는데 필요한 원소인 음소, 음절, 단어를 인식해 낸다. 이를 위해 음성학, 음운학, 음운 배열론, 시형론 요구 등 템플릿(사전) 기반의 다양한 알고리즘을 사용할 수 있다. 예를 들면, 동적 프로그래밍을 통한 접근(DTW) 확률추정을 통한 접근(HMM), 인공지능을 이용한 추론을 통한 접근, 패턴분류를 통한 접근 등일 수 있다.
후처리 과정은 언어처리(문장 복원) 패턴 인식후의 결과인 음소, 음절, 단어를 재구성해서 문장을 복원한다. 이를 위해 구문론, 의미론, 어형론이 이용된다. 문장을 구성하기 위해 규칙, 통계 기반 모델을 이용한다. 구문규칙 모델(syntactic)은 매 단어 다음에 올 수 있는 단어의 종류를 제한해 문장을 구성하는 것이고, 통계적 모델(statistical)은 매 단어에 대해 이전의 N개의 단어가 발생할 확률을 고려해 문장을 인식하는 것이다.
텍스트 변환부(1040)는 인식된 음성을 텍스트로 변환하여 회의록을 작성한다. 텍스트 변환부(1040)는 STT(Speech-to-Text)모듈일 수 있다. 또한, 회의록에 적합하도록, 화자 인식부(1020)에서 인식된 화자별 라벨링과 함께 텍스트를 출력하거나, 시간 정보와 함께 출력할 수도 있다.
도 12는 또 다른 실시 예에 따른 회의록 작성 방법을 설명하기 위한 흐름 도이다.
도 12를 참조하면, 단계 1200에서, 발화가 시작된다. 단계 1202에서, 발화가 계속 진행되는 중에, 단계 1204에서, 화자가 바뀌었는지를 판단한다. 단계 1204에서, 화자가 바뀐 경우, 단계 1206에서, 발화 화자를 인식하고, 단계 1208에서, 발화 음성을 인식한다. 단계 1210에서, 발화 화자의 회의록을 작성한다. 단계 1214에서, 회의가 끝났는지 판단하고, 회의가 끝나지 않은 경우, 단계 1200으로 되돌아간다.
단계 1204에서, 화자가 바뀌지 않은 경우, 단계 1212에서, 발화가 끝났는지 판단한다. 발화가 끝난 경우, 단계 1206으로 진행하여 화자 인식, 음성인식, 회의록 작성을 진행한다.
도 13은 또 다른 실시 예에 따른 회의록 작성 방법을 나타내는 의사코드(Pseudo Code)의 예시이다.
실시 예에 따른 회의록 작성 방법은 음향 센서를 통해 지향성 정보를 알 수 있기 때문에, 발화하는 사람의 위치를 알 수 있으며 이를 기초로 발화 구분, 화자 구분을 할 수 있다. 즉, “화자가 바뀌었는가?”를 통해서 종래기술의 문제점을 해결할 수 있다. 실시간으로 녹음이 되면서 화자 구분을 할 수 있기에, 종래기술처럼, 모두 녹음하여 서버에서 후처리를 하게 되는 보안 위험을 피할 수 있으며 발화 구분(Speaker Diarization), 화자 인식(Speaker Verification)과 같은 알고리즘을 거치지 않아도 되기에 연산 및 복잡도에 있어서 큰 장점이 있다.
도 14a 및 14b는 화자의 발화 사이의 유사도를 나타내는 예시 도들이다.
도 14a는 화자 1명의 발화 사이의 유사도를 나타내고, 도 14b는 화자 3명 사이의 발화 유사도를 나타낸다. 실시 예에서, 발화자의 변경, 즉 화자가 바뀌었는지를 판단할 때, 방향 변경과 함께, 기존 인식된 음성의 유사도를 반영하여, 유사도가 임계값, 예를 들면 80% 이상인 경우, 이전 발화자로 판단하고, 80% 미만인 경우, 새로운 발화자로 판단하는 것이다.
도 15는 발화자 인식에 음성 유사도를 반영하는 것을 설명하기 위한 예시 도이다. 도 15를 참조한 실시 예의 유사도의 기준은, 임계값 80%를 기준으로 화자 동일/화자 변경을 판단하고, 가장 큰 확률을 가진 화자를 찾고, 해당 화자의 확률이 80%이상이면 해당 화자로 아니면 새로운 화자로 등록한다.
도 14a 및 14b와, 도 15를 함께 참조하면, 도 11과 마찬가지로, 실시간 음성 녹음이 진행되고 있는 상태를 나타내고, 편의상 도시된 한 칸을 음향센서로부터의 제1 출력신호, 다음 칸을 제2 출력신호로 설명한다.
제1 출력신호로부터 제1 발화자(SPK 1)를 등록하고, 제1 출력신호와 제2 출력신호의 유사도가 94%인 경우이다. 따라서, 제2 출력신호에 대해서는 제1 발화자의 음성으로 판단한다. 여기서, 유사도는 출력신호의 특징 벡터를 추출한 뒤, 코사인 유사도를 계산할 수 있다. 유사도 판단은 다양한 음성 신호의 유사도 판단 방법을 사용할 수 있음은 물론이다.
제3 출력신호의 방향이 변경된 경우(1610), 제2 발화자(SPK 2)를 등록한다. 이때 제1 발화자의 제1 출력신호 또는 제2 출력신호와 제3 출력신호의 유사도는 68%이므로 화자가 바뀐 것을 확인할 수 있다. 제4 출력신호가 입력되고, 제3 출력신호와의 유사도가 제2 발화자는 93%이고, 제1 발화자는 67%이다.
제5 출력신호의 방향이 변경된 경우(1620), 제5 출력신호의 방향은 제1 출력신호의 방향과 동일하다. 또한, 제5 출력신호는 제1 발화자와의 유사도가 93%이고, 제2 발화자와의 유사도는 61%이다.
제6 출력신호의 방향이 변경된 경우(1630), 제1 발화자 및 제2 발화자의 방향과는 다른 새로운 방향인 경우, 제3 발화자(SPK 3)를 등록한다. 그리고 제6 출력신호와 제1 발화자와의 유사도는 73%이고, 제2 발화자와의 유사도는 62%이다. 제7 출력신호의 방향이 변경되지 않았고, 제3 발화자와의 유사도가 89%이고, 제2 발화자와의 유사도가 57%이고, 제1 발화자와의 유사도가 62%이다. 따라서, 제7 출력신호는 제3 발화자의 음성이라고 판단할 수 있다.
제8 출력신호의 방향이 변경된 경우(1640), 제1 발화자의 같은 방향이고, 제1 발화자와의 유사도가 91%이고, 제3 발화자와의 유사도가 71%이고, 제2 발화자와의 유사도가 60%이다.
실시 예에서, 일련의 회의 음성을 녹음하였을 때, 화자 구분뿐만 아니라 화자 사이의 유사도 또한 확인할 수 있으며, 화자 구분에 대한 정확도를 향상시키는 효과를 가져올 수 있다.
도 16a 및 16b는 도 다른 실시 예에 따른 실시간 회의록 작성 시스템의 예시 도들이다.
도 16a를 참조하면, 실시 예에 따른 회의록 작성 장치의 일 예시인 스마트폰을 테이블에 올려놓고, 4명의 참석자가 회의를 하고 있는 장면이 도시되어 있다.
도 16b를 참조하면, 실시 예에 따른 회의록 작성 방법을 프로그램으로 구현한 화면이 도시되어 있다. 이러한 프로그램은 PC, TV, 또는 스마트폰의 애플리케이션으로 구현될 수 있다. 도시된 것처럼, 좌측 상단에는 음성의 크기 정보가 표시되고, 하단에는 화자의 위치정보, 우측에는 음성 인식 결과가 표시될 수 있다. 또한, 우측 상단 메뉴에는, 회의록 작성을 위한 메뉴들, 예를 들면 회의 시작, 회의 종료, 저장, 리셋 등이 디스플레이될 수 있다. 도시된 것처럼, 화자 위치 정보에는 소리가 들어오는 방향 확인, 방향이 변경되면 화자가 등록될 수 있고, 화자가 등록되면 해당 화자 발화에 맞춰서 음성 인식이 되는 결과가 디스플레이될 수 있다.
도 17은 다른 실시 예에 따른 화자 분류 장치 또는 회의록 작성 장치를 포함하는 전자 장치의 개략적인 구조를 보이는 블록도이다.
상술한 화자 분류 장치 또는 회의록 작성 장치는 다양한 전자 장치에 채용될 수 있다. 이러한 전자 장치는, 예컨대, 스마트폰(smart phone), 휴대폰, 핸드폰, PDA(personal digital assistant), 랩톱(laptop), PC, 다양한 휴대용 기기, 가전제품, 보안 카메라, 의료용 카메라, 자동차, 사물인터넷(IoT;Internet of Things) 기기, 기타 모바일 또는 비모바일 컴퓨팅 장치 일 수 있고, 이에 제한되지 않는다.
전자 장치는 애플리케이션 프로세서(AP: Application Processor)를 더 포함할 수 있으며, 프로세서를 통해 운영 체제 또는 응용 프로그램을 구동하여 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다. 프로세서는 GPU (Graphic Processing Unit) 및/또는 이미지 신호 프로세서(Image Signal Processor)를 더 포함할 수 있다.
도 17을 참조하면, 네트워크 환경(ED00)에서 전자 장치(ED01)는 제1 네트워크(ED98)(근거리 무선 통신 네트워크 등)를 통하여 다른 전자 장치(ED02)와 통신하거나, 또는 제2 네트워크(ED99)(원거리 무선 통신 네트워크 등)를 통하여 또 다른 전자 장치(ED04) 및/또는 서버(ED08)와 통신할 수 있다. 전자 장치(ED01)는 서버(ED08)를 통하여 전자 장치(ED04)와 통신할 수 있다. 전자 장치(ED01)는 프로세서(ED20), 메모리(ED30), 입력 장치(ED50), 음향 출력 장치(ED55), 표시 장치(ED60), 오디오 모듈(ED70), 센서 모듈(ED76), 인터페이스(ED77), 햅틱 모듈(ED79), 카메라 모듈(ED80), 전력 관리 모듈(ED88), 배터리(ED89), 통신 모듈(ED90), 가입자 식별 모듈(ED96), 및/또는 안테나 모듈(ED97)을 포함할 수 있다. 전자 장치(ED01)에는, 이 구성요소들 중 일부(표시 장치(ED60) 등)가 생략되거나, 다른 구성요소가 추가될 수 있다. 이 구성요소들 중 일부는 하나의 통합된 회로로 구현될 수 있다. 예를 들면, 센서 모듈(ED76)(지문 센서, 홍채 센서, 조도 센서 등)은 표시 장치(ED60)(디스플레이 등)에 임베디드되어 구현될 수 있다. 또한, 이미지센서(1000)에 분광 기능이 포함될 경우, 센서 모듈의 일부 기능(컬러 센서, 조도 센서)이 별도의 센서 모듈이 아닌 이미지센서(1000) 자체에서 구현될 수 있다.
프로세서(ED20)는, 소프트웨어(프로그램(ED40) 등)를 실행하여 프로세서(ED20)에 연결된 전자 장치(ED01) 중 하나 또는 복수개의 다른 구성요소들(하드웨어, 소프트웨어 구성요소 등)을 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 데이터 처리 또는 연산의 일부로, 프로세서(ED20)는 다른 구성요소(센서 모듈(ED76), 통신 모듈(ED90) 등)로부터 수신된 명령 및/또는 데이터를 휘발성 메모리(ED32)에 로드하고, 휘발성 메모리(ED32)에 저장된 명령 및/또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(ED34)에 저장할 수 있다. 프로세서(ED20)는 메인 프로세서(ED21)(중앙 처리 장치, 애플리케이션 프로세서 등) 및 이와 독립적으로 또는 함께 운영 가능한 보조 프로세서(ED23)(그래픽 처리 장치, 이미지 시그널 프로세서, 센서 허브 프로세서, 커뮤니케이션 프로세서 등)를 포함할 수 있다. 보조 프로세서(ED23)는 메인 프로세서(ED21)보다 전력을 작게 사용하고, 특화된 기능을 수행할 수 있다.
보조 프로세서(ED23)는, 메인 프로세서(ED21)가 인액티브 상태(슬립 상태)에 있는 동안 메인 프로세서(ED21)를 대신하여, 또는 메인 프로세서(ED21)가 액티브 상태(어플리케이션 실행 상태)에 있는 동안 메인 프로세서(ED21)와 함께, 전자 장치(ED01)의 구성요소들 중 일부 구성요소(표시 장치(ED60), 센서 모듈(ED76), 통신 모듈(ED90) 등)와 관련된 기능 및/또는 상태를 제어할 수 있다. 보조 프로세서(ED23)(이미지 시그널 프로세서, 커뮤니케이션 프로세서 등)는 기능적으로 관련 있는 다른 구성 요소(카메라 모듈(ED80), 통신 모듈(ED90) 등)의 일부로서 구현될 수도 있다.
메모리(ED30)는, 전자 장치(ED01)의 구성요소(프로세서(ED20), 센서모듈(ED76) 등)가 필요로 하는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(프로그램(ED40) 등) 및, 이와 관련된 명령에 대한 입력 데이터 및/또는 출력 데이터를 포함할 수 있다. 메모리(ED30)는, 휘발성 메모리(ED32) 및/또는 비휘발성 메모리(ED34)를 포함할 수 있다. 비휘발성 메모리(ED32)는 전자 장치(ED01) 내에 고정 장착된 내장 메모리(ED36)과 탈착 가능한 외장 메모리(ED38)를 포함할 수 있다.
프로그램(ED40)은 메모리(ED30)에 소프트웨어로 저장될 수 있으며, 운영 체제(ED42), 미들 웨어(ED44) 및/또는 어플리케이션(ED46)을 포함할 수 있다.
입력 장치(ED50)는, 전자 장치(ED01)의 구성요소(프로세서(ED20) 등)에 사용될 명령 및/또는 데이터를 전자 장치(ED01)의 외부(사용자 등)로부터 수신할 수 있다. 입력 장치(ED50)는, 마이크, 마우스, 키보드, 및/또는 디지털 펜(스타일러스 펜 등)을 포함할 수 있다.
음향 출력 장치(ED55)는 음향 신호를 전자 장치(ED01)의 외부로 출력할 수 있다. 음향 출력 장치(ED55)는, 스피커 및/또는 리시버를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용될 수 있고, 리시버는 착신 전화를 수신하기 위해 사용될 수 있다. 리시버는 스피커의 일부로 결합되어 있거나 또는 독립된 별도의 장치로 구현될 수 있다.
표시 장치(ED60)는 전자 장치(ED01)의 외부로 정보를 시각적으로 제공할 수 있다. 표시 장치(ED60)는, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 표시 장치(ED60)는 터치를 감지하도록 설정된 터치 회로(Touch Circuitry), 및/또는 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로(압력 센서 등)를 포함할 수 있다.
오디오 모듈(ED70)은 소리를 전기 신호로 변환시키거나, 반대로 전기 신호를 소리로 변환시킬 수 있다. 오디오 모듈(ED70)은, 입력 장치(ED50)를 통해 소리를 획득하거나, 음향 출력 장치(ED55), 및/또는 전자 장치(ED01)와 직접 또는 무선으로 연결된 다른 전자 장치(전자 장치(ED02) 등)의 스피커 및/또는 헤드폰을 통해 소리를 출력할 수 있다. 오디오 모듈(ED70)은 실시 예에 따른 화자 분류 장치 또는 회의록 작성 장치를 포함할 수 있다.
센서 모듈(ED76)은 전자 장치(ED01)의 작동 상태(전력, 온도 등), 또는 외부의 환경 상태(사용자 상태 등)를 감지하고, 감지된 상태에 대응하는 전기 신호 및/또는 데이터 값을 생성할 수 있다. 센서 모듈(ED76)은, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(Infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 및/또는 조도 센서를 포함할 수 있다.
인터페이스(ED77)는 전자 장치(ED01)가 다른 전자 장치(전자 장치(ED02) 등)와 직접 또는 무선으로 연결되기 위해 사용될 수 있는 하나 또는 복수의 지정된 프로토콜들을 지원할 수 있다. 인터페이스(ED77)는, HDMI(High Definition Multimedia Interface), USB(Universal Serial Bus) 인터페이스, SD카드 인터페이스, 및/또는 오디오 인터페이스를 포함할 수 있다.
연결 단자(ED78)는, 전자 장치(ED01)가 다른 전자 장치(전자 장치(ED02) 등)와 물리적으로 연결될 수 있는 커넥터를 포함할 수 있다. 연결 단자(ED78)는, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 및/또는 오디오 커넥터(헤드폰 커넥터 등)를 포함할 수 있
햅틱 모듈(ED79)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(진동, 움직임 등) 또는 전기적인 자극으로 변환할 수 있다. 햅틱 모듈(ED79)은, 모터, 압전 소자, 및/또는 전기 자극 장치를 포함할 수 있다.
카메라 모듈(ED80)은 정지 영상 및 동영상을 촬영할 수 있다. 카메라 모듈(ED80)은 상술한 영상 획득 장치(1000)를 포함할 수 있고, 추가적인 렌즈 어셈블리 이미지 시그널 프로세서들, 및/또는 플래시들을 포함할 수 있다. 카메라 모듈(ED80)에 포함된 렌즈 어셈블리는 이미지 촬영의 대상인 피사체로부터 방출되는 빛을 수집할 수 있다.
전력 관리 모듈(ED88)은 전자 장치(ED01)에 공급되는 전력을 관리할 수 있다. 전력 관리 모듈(ED88)은, PMIC(Power Management Integrated Circuit)의 일부로서 구현될 수 있다.
배터리(ED89)는 전자 장치(ED01)의 구성 요소에 전력을 공급할 수 있다. 배터리(ED89)는, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 및/또는 연료 전지를 포함할 수 있다.
통신 모듈(ED90)은 전자 장치(ED01)와 다른 전자 장치(전자 장치(ED02), 전자 장치(ED04), 서버(ED08) 등)간의 직접(유선) 통신 채널 및/또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(ED90)은 프로세서(ED20)(어플리케이션 프로세서 등)와 독립적으로 운영되고, 직접 통신 및/또는 무선 통신을 지원하는 하나 또는 복수의 커뮤니케이션 프로세서들을 포함할 수 있다. 통신 모듈(ED90)은 무선 통신 모듈(ED92)(셀룰러 통신 모듈, 근거리 무선 통신 모듈, GNSS(Global Navigation Satellite System 등) 통신 모듈) 및/또는 유선 통신 모듈(ED94)(LAN(Local Area Network) 통신 모듈, 전력선 통신 모듈 등)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈은 제1 네트워크(ED98)(블루투스, WiFi Direct 또는 IrDA(Infrared Data Association) 같은 근거리 통신 네트워크) 또는 제2 네트워크(ED99)(셀룰러 네트워크, 인터넷, 또는 컴퓨터 네트워크(LAN, WAN 등)와 같은 원거리 통신 네트워크)를 통하여 다른 전자 장치와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성 요소(단일 칩 등)로 통합되거나, 또는 서로 별도의 복수의 구성 요소들(복수 칩들)로 구현될 수 있다. 무선 통신 모듈(ED92)은 가입자 식별 모듈(ED96)에 저장된 가입자 정보(국제 모바일 가입자 식별자(IMSI) 등)를 이용하여 제1 네트워크(ED98) 및/또는 제2 네트워크(ED99)와 같은 통신 네트워크 내에서 전자 장치(ED01)를 확인 및 인증할 수 있다.
안테나 모듈(ED97)은 신호 및/또는 전력을 외부(다른 전자 장치 등)로 송신하거나 외부로부터 수신할 수 있다. 안테나는 기판(PCB 등) 위에 형성된 도전성 패턴으로 이루어진 방사체를 포함할 수 있다. 안테나 모듈(ED97)은 하나 또는 복수의 안테나들을 포함할 수 있다. 복수의 안테나가 포함된 경우, 통신 모듈(ED90)에 의해 복수의 안테나들 중에서 제1 네트워크(ED98) 및/또는 제2 네트워크(ED99)와 같은 통신 네트워크에서 사용되는 통신 방식에 적합한 안테나가 선택될 수 있다. 선택된 안테나를 통하여 통신 모듈(ED90)과 다른 전자 장치 간에 신호 및/또는 전력이 송신되거나 수신될 수 있다. 안테나 외에 다른 부품(RFIC 등)이 안테나 모듈(ED97)의 일부로 포함될 수 있다.
구성요소들 중 일부는 주변 기기들간 통신 방식(버스, GPIO(General Purpose Input and Output), SPI(Serial Peripheral Interface), MIPI(Mobile Industry Processor Interface) 등)을 통해 서로 연결되고 신호(명령, 데이터 등)를 상호 교환할 수 있다.
명령 또는 데이터는 제2 네트워크(ED99)에 연결된 서버(ED08)를 통해서 전자 장치(ED01)와 외부의 전자 장치(ED04)간에 송신 또는 수신될 수 있다. 다른 전자 장치들(ED02, ED04)은 전자 장치(ED01)와 동일한 또는 다른 종류의 장치일 수 있다. 전자 장치(ED01)에서 실행되는 동작들의 전부 또는 일부는 다른 전자 장치들(ED02, ED04, ED08) 중 하나 또는 복수의 장치들에서 실행될 수 있다. 예를 들면, 전자 장치(ED01)가 어떤 기능이나 서비스를 수행해야 할 때, 기능 또는 서비스를 자체적으로 실행시키는 대신에 하나 또는 복수의 다른 전자 장치들에 그 기능 또는 그 서비스의 일부 또는 전체를 수행하라고 요청할 수 있다. 요청을 수신한 하나 또는 복수의 다른 전자 장치들은 요청과 관련된 추가 기능 또는 서비스를 실행하고, 그 실행의 결과를 전자 장치(ED01)로 전달할 수 있다. 이를 위하여, 클라우드 컴퓨팅, 분산 컴퓨팅, 및/또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.
도 18 내지 21은 또 다른 실시 예에 따른 화자 분류 장치 또는 회의록 작성 장치가 적용될 수 있는 다양한 전자 장치의 응용들을 설명하기 위한 예시 도들이다.
다양한 전자 장치들은 실시 예에 따른 화자 분류 장치 또는 회의록 작성 장치를 포함함으로써, 특정 방향에 대한 특정 지향 패턴을 활용하여 음향을 획득하거나, 전달되는 음향의 방향을 탐지하거나, 다양한 지향 패턴의 조합으로 전자장치 주변의 음향을 공간감 있게 획득할 수 있다. 예를 들어, 전자장치는 제1 사용자와 제2 사용자가 전자장치를 중심으로 대화를 하는 경우, 각 사용자가 위치하는 방향을 탐지하거나, 제1 사용자를 지향하는 지향 패턴을 활용하여 제1 사용자의 음성만을 센싱하거나, 제2 사용자를 지향하는 지향 패턴을 활용하여 제2 사용자의 음성만을 센싱하거나, 각 사용자의 음성이 들려오는 방향을 구분하여 동시에 센싱할 수 있다.
전자장치에 탑재되는 화자 분류 장치 또는 회의록 작성 장치는 센싱되는 음향의 다양한 주파수들에 대해 균일한 민감도를 갖고, 각 음향 센서들의 간격에 제약이 없어 소형화가 용이하고, 방향 추정 장치의 위치나 주변의 조건에 따라 다양한 지향 패턴들을 선택하거나 조합하여 사용할 수 있어서 운용의 자유도가 높다. 또한, 방향 추정 장치의 제어를 위해서 합 또는 차와 같은 간단한 연산만을 사용하면 되는바, 연산 자원이 보다 효율적으로 사용될 수 있다.
실시 예들에 따른 화자 분류 장치 또는 회의록 작성 장치는 도 18에 도시된 모바일 폰 또는 스마트폰에 구비되는 마이크 모듈(1800)이거나, 도 19에 도시된 TV에 구비되는 마이크 모듈(1900)일 수 있다.
또한, 도 20에 도시된 로봇에 구비되는 마이크 모듈(2000)이거나, 도 21에 도시된 차량의 전장에 구비되는 마이크 모듈(2100)일 수 있다.
상술한 화자 분류 장치 또는 회의록 작성 장치와, 이를 포함한 전자 장치가 비록 도면에 도시된 실시 예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 권리범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 권리범위에 포함된 것으로 해석되어야 할 것이다.
한편, 상술한 실시 예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 실시 예들에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
본 실시 예와 관련된 기술 분야에서 통상의 지식을 가진 자는 상기된 기재의 본질적인 특성에서 벗어나지 않는 범위에서 실시 예가 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예는 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 권리 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 실시 예에 포함된 것으로 해석되어야 할 것이다.

Claims (20)

  1. 음향 센서; 및
    상기 음향 센서로부터 출력된 제1 출력신호를 기초로 - 5도 내지 + 5도의 오차범위 내에서 음원의 제1 방향을 획득하고, 상기 제1 방향에 따른 제1 발화자의 발화를 인식하고, 상기 제1 출력신호 다음에 출력된 제2 출력신호를 기초로 - 5도 내지 + 5도의 오차범위 내에서 상기 음원의 제2 방향을 획득하고, 상기 제2 방향이 상기 제1 방향과 다른 경우, 상기 제2 방향에 따른 제2 발화자의 발화를 인식하는 프로세서를 포함하는, 음향 센서를 이용한 화자 분류 장치.
  2. 제 1 항에 있어서,
    상기 프로세서는,
    연속된 출력신호에 대해 상기 제1 방향 또는 상기 제2 방향이 유지되거나 변경됨에 따라 발화자의 변경을 인식하는, 음향 센서를 이용한 화자 분류 장치.
  3. 제 1 항에 있어서,
    상기 프로세서는,
    상기 제1 발화자의 발화를 인식한 경우, 상기 제1 발화자 및 상기 제1 발화자의 인식된 음성을 등록하는, 음향 센서를 이용한 화자 분류 장치.
  4. 제 3 항에 있어서,
    상기 프로세서는,
    상기 제2 출력신호에 상응하는 음성과 상기 제1 발화자의 등록된 음성의 유사도를 비교하는, 음향 센서를 이용한 화자 분류 장치.
  5. 제 4 항에 있어서,
    상기 프로세서는,
    상기 제2 방향이 상기 제1 방향과 다르고, 상기 유사도가 제1 임계값보다 작은 경우, 상기 제2 방향에 따른 제2 발화자의 발화로 인식하는, 음향 센서를 이용한 화자 분류 장치.
  6. 제 4 항에 있어서,
    상기 프로세서는,
    상기 유사도가 제2 임계값보다 큰 경우, 상기 제1 발화자의 발화로 인식하는, 음향 센서를 이용한 화자 분류 장치.
  7. 제 1 항에 있어서,
    상기 프로세서는,
    상기 제1 발화자의 발화 및 상기 제2 발화자의 발화에 상응하는 각각의 음성을 인식하고, 상기 인식된 음성을 화자별로 분류하는, 음향 센서를 이용한 화자 분류 장치.
  8. 제 1 항에 있어서,
    상기 음향 센서는,
    적어도 하나 이상의 지향성 음향 센서인, 음향 센서를 이용한 화자 분류 장치.
  9. 제 1 항에 있어서,
    상기 음향 센서는,
    무지향성 음향 센서와, 복수개의 지향성 음향 센서를 포함하는, 음향 센서를 이용한 화자 분류 장치.
  10. 제 9 항에 있어서,
    상기 무지향성 음향 센서가 중앙에 배치되고,
    상기 복수 개의 지향성 음향 센서가 상기 무지향성 음향 센서를 둘러싸도록 배치된, 음향 센서를 이용한 화자 분류 장치.
  11. 제 10 항에 있어서,
    상기 제1 방향 및 상기 제2 방향은,
    상기 복수의 지향성 센서의 개수 및 배치에 따라 서로 다르게 추정되는, 음향 센서를 이용한 화자 분류 장치.
  12. 제 9 항에 있어서,
    상기 복수 개의 지향성 음향 센서의 출력신호들의 지향성 형상은,
    음원의 주파수와 관계없이 8자 형상(figure-of-8)인, 음향 센서를 이용한 화자 분류 장치.
  13. 음향 센서; 및
    상기 음향 센서로부터 출력된 제1 출력신호를 기초로 - 5도 내지 + 5도의 오차범위 내에서 음원의 제1 방향을 획득하고, 상기 제1 방향에 따른 제1 발화자의 발화를 인식하고,
    상기 제1 출력신호 다음에 출력된 제2 출력신호를 기초로 - 5도 내지 + 5도의 오차범위 내에서 상기 음원의 제2 방향을 획득하고, 상기 제2 방향이 상기 제1 방향과 다른 경우, 상기 제2 방향에 따른 제2 발화자의 발화를 인식하고,
    상기 제1 발화자의 발화 및 상기 제2 발화자의 발화에 상응하는 각각의 음성을 인식하고, 상기 인식된 음성을 텍스트로 변환하여 회의록을 작성하는 프로세서를 포함하는, 음향 센서를 이용한 회의록 작성 장치.
  14. 제 13 항에 있어서,
    상기 프로세서는,
    연속된 출력신호에 대해 상기 제1 방향 또는 상기 제2 방향이 유지되거나 변경됨에 따라 발화자의 변경을 인식하는, 음향 센서를 이용한 회의록 작성 장치.
  15. 제 14 항에 있어서,
    상기 프로세서는,
    상기 제1 발화자의 인식된 음성과 상기 제2 출력신호의 음성을 유사도를 판단하는, 음향 센서를 이용한 회의록 작성 장치.
  16. 제 15 항에 있어서,
    상기 프로세서는,
    상기 유사도가 임계값보다 큰 경우, 상기 제2 출력신호가 상기 제1 발화자의 발화로 인식하고,
    상기 유사도가 상기 임계값보다 작은 경우, 상기 제2 출력신호가 상기 제2 발화자의 발화로 인식하는, 음향 센서를 이용한 회의록 작성 장치.
  17. 음향 센서로부터 출력된 제1 출력신호를 기초로 - 5도 내지 + 5도의 오차범위 내에서 음원의 제1 방향을 획득하는 단계;
    상기 제1 방향에 따른 제1 발화자의 발화를 인식하는 단계;
    상기 제1 출력신호 다음에 출력된 제2 출력신호를 기초로 - 5도 내지 + 5도의 오차범위 내에서 상기 음원의 제2 방향을 획득하는 단계; 및
    상기 제2 방향이 상기 제1 방향과 다른 경우, 상기 제2 방향에 따른 제2 발화자의 발화를 인식하는 단계를 포함하는, 음향 센서를 이용한 화자 분류 방법.
  18. 음향 센서로부터 출력된 제1 출력신호를 기초로 - 5도 내지 + 5도의 오차범위 내에서 음원의 제1 방향을 획득하는 단계;
    상기 제1 방향에 따른 제1 발화자의 발화를 인식하는 단계;
    상기 제1 출력신호 다음에 출력된 제2 출력신호를 기초로 - 5도 내지 + 5도의 오차범위 내에서 상기 음원의 제2 방향을 획득하는 단계;
    상기 제2 방향이 상기 제1 방향과 다른 경우, 상기 제2 방향에 따른 제2 발화자의 발화를 인식하는 단계;
    상기 제1 발화자의 발화 및 상기 제2 발화자의 발화에 상응하는 각각의 음성을 인식하는 단계; 및
    상기 인식된 음성을 텍스트로 변환하여 회의록을 작성하는 단계를 포함하는, 음향 센서를 이용한 화자 분류 방법.
  19. 제 1 항 내지 제 12 항 중 어느 한 항에 따른 화자 분류 장치를 포함하는 전자 장치.
  20. 제 13 항 내지 제 18 항 중 어느 한 항에 따른 회의록 작성 장치를 포함하는 전자 장치.
KR1020210183129A 2021-12-20 2021-12-20 음향 센서를 이용한 화자 분류 장치 및 방법 KR20230094005A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210183129A KR20230094005A (ko) 2021-12-20 2021-12-20 음향 센서를 이용한 화자 분류 장치 및 방법
US17/832,064 US20230197084A1 (en) 2021-12-20 2022-06-03 Apparatus and method for classifying speakers by using acoustic sensor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210183129A KR20230094005A (ko) 2021-12-20 2021-12-20 음향 센서를 이용한 화자 분류 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20230094005A true KR20230094005A (ko) 2023-06-27

Family

ID=86768696

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210183129A KR20230094005A (ko) 2021-12-20 2021-12-20 음향 센서를 이용한 화자 분류 장치 및 방법

Country Status (2)

Country Link
US (1) US20230197084A1 (ko)
KR (1) KR20230094005A (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230094246A (ko) * 2021-12-20 2023-06-28 삼성전자주식회사 음향 센서를 이용한 방향 추정 장치 및 방법

Also Published As

Publication number Publication date
US20230197084A1 (en) 2023-06-22

Similar Documents

Publication Publication Date Title
EP3792911B1 (en) Method for detecting key term in speech signal, device, terminal, and storage medium
WO2020103703A1 (zh) 一种音频数据处理方法、装置、设备及存储介质
CN111933112B (zh) 唤醒语音确定方法、装置、设备及介质
US10353495B2 (en) Personalized operation of a mobile device using sensor signatures
CN111696570B (zh) 语音信号处理方法、装置、设备及存储介质
CN110858488A (zh) 语音活动检测方法、装置、设备及存储介质
WO2021013255A1 (zh) 一种声纹识别方法及装置
CN111421557A (zh) 电子装置及其控制方法
CN112233689B (zh) 音频降噪方法、装置、设备及介质
US20220366926A1 (en) Dynamic beamforming to improve signal-to-noise ratio of signals captured using a head-wearable apparatus
CN113053368A (zh) 语音增强方法、电子设备和存储介质
US20230197084A1 (en) Apparatus and method for classifying speakers by using acoustic sensor
CN113220590A (zh) 语音交互应用的自动化测试方法、装置、设备及介质
CN110719545B (zh) 音频播放设备及用于播放音频的方法
US11783809B2 (en) User voice activity detection using dynamic classifier
CN112116908B (zh) 唤醒音频确定方法、装置、设备及存储介质
US11989337B2 (en) Electronic device controlling attribute of object on basis of user's motion, and control method therefor
US20220261218A1 (en) Electronic device including speaker and microphone and method for operating the same
KR20230094246A (ko) 음향 센서를 이용한 방향 추정 장치 및 방법
US11789525B1 (en) Multi-modal interactive apparatus
CN113160802B (zh) 语音处理方法、装置、设备及存储介质
US20230311328A1 (en) Electronic device for providing interaction on basis of user voice, and method therefor
US20230137857A1 (en) Method and electronic device for detecting ambient audio signal
US20230019110A1 (en) Method for controlling ambient sound and electronic device for the same
CN115331672B (zh) 设备控制方法、装置、电子设备及存储介质