KR20230169825A - 파 엔드 단말기 및 그의 음성 포커싱 방법 - Google Patents

파 엔드 단말기 및 그의 음성 포커싱 방법 Download PDF

Info

Publication number
KR20230169825A
KR20230169825A KR1020227037252A KR20227037252A KR20230169825A KR 20230169825 A KR20230169825 A KR 20230169825A KR 1020227037252 A KR1020227037252 A KR 1020227037252A KR 20227037252 A KR20227037252 A KR 20227037252A KR 20230169825 A KR20230169825 A KR 20230169825A
Authority
KR
South Korea
Prior art keywords
speaker
end terminal
voice
angle
terminal
Prior art date
Application number
KR1020227037252A
Other languages
English (en)
Inventor
서재필
조성문
오상준
최현식
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of KR20230169825A publication Critical patent/KR20230169825A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 기존의 화상 회의 시스템에서 음성 포커싱되는 화자나 영역이 결정되는 Passive한 문제점을 Active하게 바꿀 수 있는 화상회의 통화음질개선 시스템을 제안하는 것을 목적으로 한다.

Description

파 엔드 단말기 및 그의 음성 포커싱 방법
본 발명은 화상회의 통화 음질을 개선할 수 있는 것에 관한 것이다.
코로나19 사태를 맞이하여 화상회의 시스템은 전세계 기업들의 운영에 있어서는 필수적인 시스템이 되었다. 이전에도 존재했지만 그 중요성은 이전대비 상당히 각광받고 있으며, 이제는 코로나19 사태가 끝난 뒤에도 우리가 경험하게 될 뉴노멀 중 하나가 될 가능성이 높다.
이에 수많은 IT 기업들이 앞다투어 화상회의 시스템 구축에 만전을 기하고 있으며, 기존부터 해오던 업체들은 추가 기능들을 개발, 개선을 위해 노력해 오고 있다.
여러 명이 한 공간에 있는 화상회의의 경우 여러 명이 이야기하거나 밖이 시끄러울 때 상대편 사용자는 원하는 사람의 목소리 혹은 공간만을 듣고 싶어 할 것이다.
또한 재택근무와 같이 화상회의의 경우에는 자신의 목소리 이외의 소리를 사용자는 상대방에게 전달하고 싶지 않을 것이다.
기본적으로 화상회의에서 음질개선을 위한 노력은 여러 기업, 연구기관에서 계속되어왔다. 예를 들어, 화상 회의를 비롯한 대부분의 통화를 위한 음질개선 시스템에서 near-end 화자의 목소리가 far-end 화자의 스피커와 마이크를 거치면서 생기는 하울링을 방지하는 AEC(Acoustic Echo Cancellation) 알고리즘이 대표적인 예이다.
또한, NR(Noise Reduction)을 사용하여 stationary 잡음(소리의 크기가 일정한 white 잡음)을 제거하기도 한다.
하지만 이들은 마이크 하나만 있어도 가능한 알고리즘들이며 필수적이지만 그 한계성이 명확하다. 특히 NR의 경우 non-stationary 한 잡음들(대표적으로 TV소리, 음악소리, 음성)은 제거가 불가능한 문제가 있다.
이러한 이유에 최근에는 두 개이상의 마이크를 사용하는 multi-channel 알고리즘들을 탑재기도 한다. 마이크를 여러개 사용하여 소리가 각 마이크에 도달하는 시간 차(TDOA, Time Difference Of Arrival)를 이용한 빔포밍과 같은 알고리즘을 통해 사용자에게 좀 더 화자에 focusing된 통화음질을 제공한다.
그러나, 현존하는 화상 통화 음질 개선을 위한 시스템들 중 Near-end 화자 또는 Far-end 화자가 원하는 상대쪽의 화자 혹은 영역에서부터 들리는 개선된 소리를 선택할 수 없다는 것이다.
대부분 화면이 자동적으로 Focusing되고 이에 시스템적인 시나리오대로 음질이 포커싱되는 화자나 영역이 결정되고 이에 따라 처리된 통화음성이 Far-end쪽으로 전달되게 된다.
현존하는 화상회의 통화음질 개선을 위한 시스템들은 사용자의 줌인/줌 아웃, 화자 선택에 관계없이, 시스템적으로, 포커싱되는 화자나 영역이 결정되므로, Passive 하다는 문제점이 있다.
본 개시는 전술한 문제 및 다른 문제를 해결하는 것을 목적으로 한다.
본 개시는 이러한 기존의 화상 회의 시스템에서 음성 포커싱되는 화자나 영역이 결정되는 Passive한 문제점을 Active하게 바꿀 수 있는 화상회의 통화음질개선 시스템을 제안한다.
본 개시는 멀티마이크 사용을 통해 사용자가 상대방 화면을 줌인, 줌아웃하는 경우, 화자 선택에 따라 원하는 영역을 선택하는 경우, 화자에 더욱 포커싱된 통화음질을 제공하는 것을 그 목적으로 한다.
본 발명의 일 실시 예에 따른 파 엔드(Far end) 단말기는 니어 엔드(Near end) 단말기와 무선 통신을 수행하는 통신 인터페이스, 상기 니어 엔드 기기로부터 수신된 니어 엔드 영상 및 카메라를 통해 촬영된 복수의 화자들을 포함하는 화자 영상을 표시하는 디스플레이 및 상기 니어 엔드 단말기로부터 포커싱 모드 설정 정보 및 화자 포커스 정보를 수신하고, 상기 포커싱 모드 설정 정보에 기초하여, 상기 니어 엔드 단말기의 동작 모드가 와이드 포커싱 모드로 설정된 것으로 판단된 경우, 상기 화자 포커스 정보에 포함된 특정 영역에 상응하는 각도 범위를 획득하고, 획득된 각도 범위를 이용하여 음성 신호에 대한 빔포밍을 수행하고, 빔포밍 수행 결과인 오디오를 상기 니어 엔드 단말기에 전송하는 프로세서를 포함할 수 있다.
본 발명의 실시 예에 따른 파 엔드(Far end) 단말기의 음성 포커싱 방법은 니어 엔드 기기로부터 수신된 니어 엔드 영상 및 카메라를 통해 촬영된 복수의 화자들을 포함하는 화자 영상을 표시하는 단계, 상기 니어 엔드 단말기로부터 포커싱 모드 설정 정보 및 화자 포커스 정보를 수신하는 단계, 상기 포커싱 모드 설정 정보에 기초하여, 상기 니어 엔드 단말기의 동작 모드가 와이드 포커싱 모드로 설정된 것으로 판단된 경우, 상기 화자 포커스 정보에 포함된 특정 영역에 상응하는 각도 범위를 획득하는 단계 및 획득된 각도 범위를 이용하여 음성 신호에 대한 빔포밍을 수행하고, 빔포밍 수행 결과인 오디오를 상기 니어 엔드 단말기에 전송하는 단계를 포함할 수 있다.
본 발명의 실시 예에 따르면, 사용자들이 화상회의 시스템을 사용할 때 좋은 통화음질이 제공될 수 있다.
또한, 사용자가 듣고 싶은 음성, 보내 싶은 음성을 선택할 수 있어, 화상회의에서 흔히 겪는 사용자들의 니즈들이 해소될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 음성 시스템을 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시 예에 따른 인공 지능 기기의 구성을 설명하기 위한 블록도이다.
도 3a는 본 발명의 일 실시 예에 따른 음성 서비스 서버의 구성을 설명하기 위한 블록도이다.
도 3b는 본 발명의 일 실시 예에 따른 음성 신호를 파워 스펙트럼으로 변환한 예를 설명한 도면이다.
도 4는 본 발명의 일 실시 예에 따라, 인공 지능 기기의 음성 인식 및 합성을 위한 프로세서의 구성을 설명하는 블록도이다.
도 5는 본 개시의 일 실시 예에 따른 화상 회의 시스템을 설명하는 도면이다.
도 6은 본 개시의 일 실시 예에 따른 화상 회의 시스템의 음성 포커싱 방법을 설명하기 위한 흐름도이다.
도 7은 본 개시의 일 실시 예에 따라 포커싱 모드가 와이드 포커싱 모드인 경우, 파-엔드 영상에서 특정 영역이 선택되는 예를 설명하는 도면이다.
도 8은 본 개시의 일 실시 예에 따라 포커싱 모드가 네로우 포커싱 모드인 경우, 파-엔드 영상에서 하나의 화자가 선택되는 예를 설명하는 도면이다.
도 9는 본 개시의 일 실시 예에 따라 포커싱 모드가 네로우 포커싱 모드인 경우, 파-엔드 영상에서 복수의 화자가 선택되는 예를 설명하는 도면이다.
도 10 내지 도 12는 포커싱 모드에 따라 파-엔드 기기에서 오디오가 처리되는 과정을 설명하는 도면들이다.
도 13은 본 개시의 일 실시 예에 따라 화자와 기준 지점 간의 이루는 각도를 획득하는 과정을 설명하는 도면이다.
도 14a 내지 도 14c는 본 개시의 실시 예에 따른 네로우 빔포밍 및 와이드 빔포밍의 수행 결과를 나타내는 빔포밍 패턴을 보여주는 도면들이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 명세서에서 설명되는 인공 지능 기기에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 인공 지능 기기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 인공 지능 기기 (smartwatch), 글래스형 인공 지능 기기 (smart glass), HMD(head mounted display)) 등이 포함될 수 있다.
그러나, 본 명세서에 기재된 실시 예에 따른 인공 지능 기기(10)는 스마트 TV, 데스크탑 컴퓨터, 디지털사이니지, 냉장고, 세탁기, 에어컨, 식기 세척기 등과 같은 고정 인공 지능 기기에도 적용될 수도 있다.
또한, 본 발명의 실시 예에 따른 인공 지능 기기(10)는 고정 또는 이동 가능한 로봇에도 적용될 수 있다.
또한, 본 발명의 실시 예에 따른 인공 지능 기기(10)는 음성 에이전트의 기능을 수행할 수 있다. 음성 에이전트는 사용자의 음성을 인식하고, 인식된 사용자의 음성에 적합한 응답을 음성으로 출력하는 프로그램일 수 있다.
도 1은 본 발명의 일 실시 예에 따른 음성 시스템을 설명하기 위한 도면이다.
일반적인 음성 인식 및 합성 과정은 발화자의 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터에 기반하여 발화자의 의도를 분석하고, 분석된 의도에 상응하는 텍스트 데이터를 합성 음성 데이터로 변환하고, 변환된 합성 음성 데이터를 출력하는 과정을 포함할 수 있다.음성 인식 및 합성 과정을 위해, 도 1에 도시된 바와 같은, 음성 인식 시스템(1)이 사용될 수 있다.
도 1을 참조하면, 음성 인식 시스템(1)은 인공 지능 기기(10), 음성 텍스트 변환(Speech To Text, STT) 서버(20), 자연어 처리(Natural Language Processing, NLP) 서버(30) 및 음성 합성 서버(40) 및 복수의 AI 에이전트 서버들(50-1 내지 50-3)을 포함할 수 있다.
인공 지능 기기(10)는 마이크로폰(122)을 통해 수신된 발화자의 음성에 상응하는 음성 신호 STT 서버(210)에 전송할 수 있다.
STT 서버(20)는 인공 지능 기기(10)로부터 수신된 음성 데이터를 텍스트 데이터로 변환할 수 있다.
STT 서버(20)는 언어 모델을 이용하여 음성-텍스트 변환의 정확도를 높일 수 있다.
언어 모델은 문장의 확률을 계산하거나, 이전의 단어들이 주어졌을 때 다음 단어가 나올 확률을 계산할 수 있는 모델을 의미할 수 있다.
예컨대, 언어 모델은 유니그램(Unigram) 모델, 바이그램(Bigram) 모델, N-그램(N-gram) 모델 등과 같은 확률론적 언어 모델들을 포함할 수 있다.
유니그램 모델은 모든 단어의 활용이 완전히 서로 독립적이라고 가정하는 모델로, 단어 열의 확률을 각 단어의 확률의 곱으로 계산하는 모델이다.
바이그램 모델은 단어의 활용이 이전 1개의 단어에만 의존한다고 가정하는 모델이다.
N-그램 모델은 단어의 활용이 이전 (n-1)개의 단어에 의존한다고 가정하는 모델이다.
즉, STT 서버(20)는 언어 모델을 이용하여 음성 데이터로부터 변환된 텍스트 데이터가 적합하게 변환된 것인지 판단할 수 있고, 이를 통해 텍스트 데이터로의 변환의 정확도를 높일 수 있다.
NLP 서버(230)는 STT 서버(20)로부터 텍스트 데이터를 수신할 수 있다. STT 서버(20)는 NLP 서버(30)에 포함될 수도 있다.
NLP 서버(30)는 수신된 텍스트 데이터에 기초하여, 텍스트 데이터에 대한 의도 분석을 수행할 수 있다.
NLP 서버(30)는 의도 분석의 수행 결과를 나타내는 의도 분석 정보를 인공 지능 기기(10)에 전송할 수 있다.
또 다른 예로, NLP 서버(30)는 의도 분석 정보를 음성 합성 서버(40)에 전송할 수 있다. 음성 합성 서버(40)는 의도 분석 정보에 기반한 합성 음성을 생성하고, 생성된 합성 음성을 인공 지능 기기(10)에 전송할 수 있다.
NLP 서버(30)는 텍스트 데이터에 대해, 형태소 분석 단계, 구문 분석 단계, 화행 분석 단계, 대화 처리 단계를 순차적으로, 수행하여, 의도 분석 정보를 생성할 수 있다.
형태소 분석 단계는 사용자가 발화한 음성에 대응하는 텍스트 데이터를 의미를 지닌 가장 작은 단위인 형태소 단위로 분류하고, 분류된 각 형태소가 어떤 품사를 가지는지를 결정하는 단계이다.
구문 분석 단계는 형태소 분석 단계의 결과를 이용하여, 텍스트 데이터를 명사구, 동사구, 형용사 구 등으로 구분하고, 구분된 각 구들 사이에, 어떠한 관계가 존재하는지를 결정하는 단계이다.
구문 분석 단계를 통해, 사용자가 발화한 음성의 주어, 목적어, 수식어들이 결정될 수 있다.
화행 분석 단계는 구문 분석 단계의 결과를 이용하여, 사용자가 발화한 음성에 대한 의도를 분석하는 단계이다. 구체적으로, 화행 분석 단계는 사용자가 질문을 하는 것인지, 요청을 하는 것인지, 단순한 감정 표현을 하는 것인지와 같은 문장의 의도를 결정하는 단계이다.
대화 처리 단계는 화행 분석 단계의 결과를 이용하여, 사용자의 발화에 대해 대답을 할지, 호응을 할지, 추가 정보를 문의하는 질문을 할지를 판단하는 단계이다.
NLP 서버(30)는 대화 처리 단계 후, 사용자가 발화한 의도에 대한 답변, 호응, 추가 정보 문의 중 하나 이상을 포함하는 의도 분석 정보를 생성할 수 있다.
NLP 서버(30)는 사용자의 발화 의도에 맞는 정보를 검색하기 위해, 검색 서버(미도시)에 검색 요청을 전송하고, 검색 요청에 상응하는 검색 정보를 수신할 수 있다.
사용자의 발화 의도가 컨텐트의 검색인 경우, 검색 정보는 검색된 컨텐트에 대한 정보를 포함할 수 있다.
NLP 서버(30)는 검색 정보를 인공 지능 기기(10)에 전송하고, 인공 지능 기기(10)는 검색 정보를 출력할 수 있다.
한편, NLP 서버(30)는 인공 지능 기기(10)로부터 텍스트 데이터를 수신할 수도 있다. 예를 들어, 인공 지능 기기(10)가 음성 텍스트 변환 기능을 지원하는 경우, 인공 지능 기기(10)는 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 NLP 서버(30)에 전송할 수 있다.
음성 합성 서버(40)는 기 저장된 음성 데이터들을 조합하여, 합성 음성을 생성할 수 있다.
음성 합성 서버(40)는 모델로 선정된 한 사람의 음성을 녹음하고, 녹음된 음성을 음절 또는 단어 단위로 분할할 수 있다.
음성 합성 서버(40)는 음절 또는 단어 단위로, 분할된 음성을 내부 또는 외부의 데이터 베이스에 저장할 수 있다.
음성 합성 서버(40)는 주어진 텍스트 데이터에 대응하는 음절 또는 단어를 데이터 베이스로부터 검색하고, 검색된 음절 또는 단어들의 조합을 합성하여, 합성 음성을 생성할 수 있다.음성 합성 서버(40)는 복수의 언어들 각각에 대응하는 복수의 음성 언어 그룹들을 저장하고 있을 수 있다.
예를 들어, 음성 합성 서버(40)는 한국어로 녹음된 제1 음성 언어 그룹, 영어로, 녹음된 제2 음성 언어 그룹을 포함할 수 있다.
음성 합성 서버(40)는 제1 언어의 텍스트 데이터를 제2 언어의 텍스트로 번역하고, 제2 음성 언어 그룹을 이용하여, 번역된 제2 언어의 텍스트에 대응하는 합성 음성을 생성할 수 있다.
음성 합성 서버(40)는 생성된 합성 음성을 인공 지능 기기(10)에 전송할 수 있다.
음성 합성 서버(40)는 NLP 서버(30)로부터 분석 정보를 수신할 수 있다. 분석 정보는 사용자가 발화한 음성의 의도를 분석한 정보를 포함할 수 있다.
음성 합성 서버(40)는 분석 정보에 기초하여, 사용자의 의도를 반영한, 합성 음성을 생성할 수 있다.
일 실시 예에서, STT 서버(20), NLP 서버(30) 및 음성 합성 서버(40)는 하나의 서버로 구현될 수 있다.
위에서, 설명된 STT 서버(20), NLP 서버(30) 및 음성 합성 서버(40) 각각의 기능은 인공 지능 기기(10)에서도 수행될 수도 있다. 이를 위해, 인공 지능 기기(10)는 하나 이상의 프로세서들을 포함할 수 있다.
복수의 AI 에이전트 서버들(50-1 내지 50-3) 각각은 NLP 서버(30)의 요청에 따라 검색 정보를 NLP 서버(30) 또는 인공 지능 기기(10)에 전송할 수 있다.
NLP 서버(30)의 의도 분석 결과가 컨텐트의 검색 요청인 경우, NLP 서버(30)는 컨텐트의 검색 요청을 복수의 AI 에이전트 서버들(50-1 내지 50-3) 중 하나 이상의 서버에 전송하고, 컨텐트의 검색 결과를 해당 서버로부터 수신할 수 있다.
NLP 서버(30)는 수신된 검색 결과를 인공 지능 기기(10)에 전송할 수 있다.
도 2는 본 개시의 일 실시 예에 따른 인공 지능 기기의 구성을 설명하기 위한 블록도이다.
도 2를 참조하면, 인공 지능 기기(10)는 인공 지능 기기(10)는 통신부(110), 입력부(120), 러닝 프로세서(130), 센싱부(140), 출력부(150), 메모리(170) 및 프로세서(180)를 포함할 수 있다.
통신부(110)는 유무선 통신 기술을 이용하여 외부 장치들과 데이터를 송수신할 수 있다. 예컨대, 통신부(110)는 외부 장치들과 센서 정보, 사용자 입력, 학습 모델, 제어 신호 등을 송수신할 수 있다.
이때, 통신부(110)가 이용하는 통신 기술에는 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), LTE(Long Term Evolution), 5G, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), 블루투스(Bluetooth??), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), ZigBee, NFC(Near Field Communication) 등이 있다.
입력부(120)는 다양한 종류의 데이터를 획득할 수 있다.
입력부(120)는 비디오 신호 입력을 위한 카메라, 오디오 신호를 수신하기 위한 마이크로폰, 사용자로부터 정보를 입력 받기 위한 사용자 입력부 등을 포함할 수 있다. 여기서, 카메라나 마이크로폰을 센서로 취급하여, 카메라나 마이크로폰으로부터 획득한 신호를 센싱 데이터 또는 센서 정보라고 할 수도 있다.
입력부(120)는 모델 학습을 위한 학습 데이터 및 학습 모델을 이용하여 출력을 획득할 때 사용될 입력 데이터 등을 획득할 수 있다. 입력부(120)는 가공되지 않은 입력 데이터를 획득할 수도 있으며, 이 경우 프로세서(180) 또는 러닝 프로세서(130)는 입력 데이터에 대하여 전처리로써 입력 특징점(input feature)을 추출할 수 있다.
입력부(120)는 비디오 신호 입력을 위한 카메라(Camera, 121), 오디오 신호를 수신하기 위한 마이크로폰(Microphone, 122), 사용자로부터 정보를 입력 받기 위한 사용자 입력부(User Input Unit, 123)를 포함할 수 있다.
입력부(120)에서 수집한 음성 데이터나 이미지 데이터는 분석되어 사용자의 제어 명령으로 처리될 수 있다.
입력부(120)는 영상 정보(또는 신호), 오디오 정보(또는 신호), 데이터, 또는 사용자로부터 입력되는 정보의 입력을 위한 것으로서, 영상 정보의 입력을 위하여, 인공 지능 기기(10)는 하나 또는 복수의 카메라(121)들을 구비할 수 있다.
카메라(121)는 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 처리된 화상 프레임은 디스플레이부(151)에 표시되거나 메모리(170)에 저장될 수 있다.
마이크로폰(122)은 외부의 음향 신호를 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 인공 지능 기기(10)에서 수행 중인 기능(또는 실행 중인 응용 프로그램)에 따라 다양하게 활용될 수 있다. 한편, 마이크로폰(122)에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 적용될 수 있다.
사용자 입력부(123)는 사용자로부터 정보를 입력 받기 위한 것으로서, 사용자 입력부(123)를 통해 정보가 입력되면, 프로세서(180)는 입력된 정보에 대응되도록 인공 지능 기기(10)의 동작을 제어할 수 있다.
사용자 입력부(123)는 기계식 (mechanical) 입력수단(또는, 메커니컬 키, 예컨대, 단말기(100)의 전/후면 또는 측면에 위치하는 버튼, 돔 스위치 (dome switch), 조그 휠, 조그 스위치 등) 및 터치식 입력수단을 포함할 수 있다. 일 예로서, 터치식 입력수단은, 소프트웨어적인 처리를 통해 터치스크린에 표시되는 가상 키(virtual key), 소프트 키(soft key) 또는 비주얼 키(visual key)로 이루어지거나, 상기 터치스크린 이외의 부분에 배치되는 터치 키(touch key)로 이루어질 수 있다.
러닝 프로세서(130)는 학습 데이터를 이용하여 인공 신경망으로 구성된 모델을 학습시킬 수 있다. 여기서, 학습된 인공 신경망을 학습 모델이라 칭할 수 있다. 학습 모델은 학습 데이터가 아닌 새로운 입력 데이터에 대하여 결과 값을 추론해 내는데 사용될 수 있고, 추론된 값은 어떠한 동작을 수행하기 위한 판단의 기초로 이용될 수 있다.
러닝 프로세서(130)는 인공 지능 기기(10)에 통합되거나 구현된 메모리를 포함할 수 있다. 또는, 러닝 프로세서(130)는 메모리(170), 인공 지능 기기(10)에 직접 결합된 외부 메모리 또는 외부 장치에서 유지되는 메모리를 사용하여 구현될 수도 있다.
센싱부(140)는 다양한 센서들을 이용하여 인공 지능 기기(10) 내부 정보, 인공 지능 기기(10)의 주변 환경 정보 및 사용자 정보 중 적어도 하나를 획득할 수 있다.
이때, 센싱부(140)에 포함되는 센서에는 근접 센서, 조도 센서, 가속도 센서, 자기 센서, 자이로 센서, 관성 센서, RGB 센서, IR 센서, 지문 인식 센서, 초음파 센서, 광 센서, 마이크로폰, 라이다, 레이더 등이 있다.
출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시킬 수 있다.
출력부(150)는 디스플레이부(Display Unit, 151), 음향 출력부(Sound Output Unit, 152), 햅틱 모듈(Haptic Module, 153), 광 출력부(Optical Output Unit, 154) 중 적어도 하나를 포함할 수 있다.
디스플레이부(151)는 인공 지능 기기(10)에서 처리되는 정보를 표시(출력)한다. 예컨대, 디스플레이부(151)는 인공 지능 기기(10)에서 구동되는 응용 프로그램의 실행화면 정보, 또는 이러한 실행화면 정보에 따른 UI(User Interface), GUI(Graphic User Interface) 정보를 표시할 수 있다.
디스플레이부(151)는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 인공 지능 기기(10)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부(123)로써 기능함과 동시에, 단말기(100)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.
음향 출력부(152)는 호신호 수신, 통화모드 또는 녹음 모드, 음성인식 모드, 방송수신 모드 등에서 통신부(110)로부터 수신되거나 메모리(170)에 저장된 오디오 데이터를 출력할 수 있다.
음향 출력부(152)는 리시버(receiver), 스피커(speaker), 버저(buzzer) 중 적어도 하나 이상을 포함할 수 있다.
햅틱 모듈(haptic module)(153)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(153)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 될 수 있다.
광출력부(154)는 인공 지능 기기(10)의 광원의 빛을 이용하여 이벤트 발생을 알리기 위한 신호를 출력한다. 인공 지능 기기(10)에서 발생 되는 이벤트의 예로는 메시지 수신, 호 신호 수신, 부재중 전화, 알람, 일정 알림, 이메일 수신, 애플리케이션을 통한 정보 수신 등이 될 수 있다.
메모리(170)는 인공 지능 기기(10)의 다양한 기능을 지원하는 데이터를 저장할 수 있다. 예컨대, 메모리(170)는 입력부(120)에서 획득한 입력 데이터, 학습 데이터, 학습 모델, 학습 히스토리 등을 저장할 수 있다.
프로세서(180)는 데이터 분석 알고리즘 또는 머신 러닝 알고리즘을 사용하여 결정되거나 생성된 정보에 기초하여, 인공 지능 기기(10)의 적어도 하나의 실행 가능한 동작을 결정할 수 있다. 그리고, 프로세서(180)는 인공 지능 기기(10)의 구성 요소들을 제어하여 결정된 동작을 수행할 수 있다.
프로세서(180)는 러닝 프로세서(130) 또는 메모리(170)의 데이터를 요청, 검색, 수신 또는 활용할 수 있고, 상기 적어도 하나의 실행 가능한 동작 중 예측되는 동작이나, 바람직한 것으로 판단되는 동작을 실행하도록 인공 지능 기기(10)의 구성 요소들을 제어할 수 있다.
프로세서(180)는 결정된 동작을 수행하기 위하여 외부 장치의 연계가 필요한 경우, 해당 외부 장치를 제어하기 위한 제어 신호를 생성하고, 생성한 제어 신호를 해당 외부 장치에 전송할 수 있다.
프로세서(180)는 사용자 입력에 대하여 의도 정보를 획득하고, 획득한 의도 정보에 기초하여 사용자의 요구 사항을 결정할 수 있다.
프로세서(180)는 음성 입력을 문자열로 변환하기 위한 STT(Speech To Text) 엔진 또는 자연어의 의도 정보를 획득하기 위한 자연어 처리(NLP: Natural Language Processing) 엔진 중에서 적어도 하나 이상을 이용하여, 사용자 입력에 상응하는 의도 정보를 획득할 수 있다.
STT 엔진 또는 NLP 엔진 중에서 적어도 하나 이상은 적어도 일부가 머신 러닝 알고리즘에 따라 학습된 인공 신경망으로 구성될 수 있다. 그리고, STT 엔진 또는 NLP 엔진 중에서 적어도 하나 이상은 러닝 프로세서(130)에 의해 학습된 것이나, AI 서버(200)의 러닝 프로세서(240)에 의해 학습된 것이거나, 또는 이들의 분산 처리에 의해 학습된 것일 수 있다.
프로세서(180)는 인공 지능 기기(10)의 동작 내용이나 동작에 대한 사용자의 피드백 등을 포함하는 이력 정보를 수집하여 메모리(170) 또는 러닝 프로세서(130)에 저장하거나, AI 서버(200) 등의 외부 장치에 전송할 수 있다. 수집된 이력 정보는 학습 모델을 갱신하는데 이용될 수 있다.
프로세서(180)는 메모리(170)에 저장된 응용 프로그램을 구동하기 위하여, 인공 지능 기기(10)의 구성 요소들 중 적어도 일부를 제어할 수 있다. 나아가, 프로세서(180)는 상기 응용 프로그램의 구동을 위하여, 인공 지능 기기(10)에 포함된 구성 요소들 중 둘 이상을 서로 조합하여 동작시킬 수 있다.
도 3a는 본 발명의 일 실시 예에 따른 음성 서비스 서버의 구성을 설명하기 위한 블록도이다.
음성 서비스 서버(200)는 도 1에 도시된, STT 서버(20), NLP 서버(30), 음성 합성 서버(40) 중 하나 이상을 포함할 수 있다. 음성 서비스 서버(200)는 서버 시스템으로 명명될 수 있다.
도 3a를 참고하면, 음성 서비스 서버(200)는 전처리부(220), 컨트롤러(230), 통신부(270) 및 데이터 베이스(290)를 포함할 수 있다.
전처리부(220)는 통신부(270)를 통해 수신된 음성 또는 데이터 베이스(290)에 저장된 음성을 전처리 할 수 있다.
전처리부(220)는 컨트롤러(230)와 별도의 칩으로 구현되거나, 컨트롤러(230)에 포함된 칩으로 구현될 수 있다.
전처리부(220)는 (사용자가 발화한) 음성 신호를 수신하고, 수신된 음성 신호를 텍스트 데이터로 변환하기 전, 음성 신호로부터 잡음 신호를 필터링할 수 있다.
전처리부(220)가 인공 지능 기기(10)에 구비된 경우, 인공 지능 기기(10)의 음성 인식을 활성화시키기 위한 기동어를 인식할 수 있다. 전처리부(220)는 마이크로폰(121)을 통해 수신된 기동어를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터가 기 저장된 기동어에 대응하는 텍스트 데이터인 경우, 기동어를 인식한 것으로 판단할 수 있다.
전처리부(220)는 잡음이 제거된 음성 신호를 파워 스펙트럼으로 변환할 수 있다.
파워 스펙트럼은 시간적으로 변동하는 음성 신호의 파형에 어떠한 주파수 성분이 어떠한 크기로 포함되어 있는지를 나타내는 파라미터일 수 있다.
파워 스펙트럼은 음성 신호의 파형의 주파수에 따른 진폭 제곱 값의 분포를 보여준다. 이에 대해서는, 도 3b를 참조하여 설명한다.
도 3b는 본 발명의 일 실시 예에 따른 음성 신호를 파워 스펙트럼으로 변환한 예를 설명한 도면이다.
도 3b를 참조하면, 음성 신호(310)가 도시되어 있다. 음성 신호(210)는 외부 기기로부터 수신되거나, 메모리(170)에 미리 저장된 신호일 수 있다.
음성 신호(310)의 x축은 시간이고, y축은 진폭의 크기를 나타낼 수 있다.
파워 스펙트럼 처리부(225)는 x축이 시간 축인 음성 신호(310)를 x축이 주파수 축인 파워 스펙트럼(330)으로 변환할 수 있다.
파워 스펙트럼 처리부(225)는 고속 퓨리에 변환(Fast Fourier Transform, FFT)을 이용하여, 음성 신호(310)를 파워 스펙트럼(330)으로 변환할 수 있다.
파워 스펙트럼(330)의 x축은 주파수, y축은 진폭의 제곱 값을 나타낸다.
다시 도 3a를 설명한다.
도 3a에서 설명된 전처리부(220) 및 컨트롤러(230)의 기능은 NLP 서버(30) 에서도 수행될 수 있다.
전처리부(220)는 웨이브 처리부(221), 주파수 처리부(223), 파워 스펙트럼 처리부(225), 음성 텍스트(Speech To Text, STT) 변환부(227)를 포함할 수 있다.
웨이브 처리부(221)는 음성의 파형을 추출할 수 있다.
주파수 처리부(223)는 음성의 주파수 대역을 추출할 수 있다.
파워 스펙트럼 처리부(225)는 음성의 파워 스펙트럼을 추출할 수 있다.
파워 스펙트럼은 시간적으로 변동하는 파형이 주어졌을 때, 그 파형에 어떠한 주파수 성분이 어떠한 크기로 포함되고 있는지를 나타내는 파라미터일 수 있다.
음성 텍스트(Speech To Text, STT) 변환부(227)는 음성을 텍스트로 변환할 수 있다.
음성 텍스트 변환부(227)는 특정 언어의 음성을 해당 언어의 텍스트로 변환할 수 있다.
컨트롤러(230)는 음성 서비스 서버(200)의 전반적인 동작을 제어할 수 있다.
컨트롤러(230)는 음성 분석부(231), 텍스트 분석부(232), 특징 클러스터링부(233), 텍스트 매핑부(234) 및 음성 합성부(235)를 포함할 수 있다.
음성 분석부(231)는 전처리부(220)에서 전처리된, 음성의 파형, 음성의 주파수 대역 및 음성의 파워 스펙트럼 중 하나 이상을 이용하여, 음성의 특성 정보를 추출할 수 있다.
음성의 특성 정보는 화자의 성별 정보, 화자의 목소리(또는 음색, tone), 음의 높낮이, 화자의 말투, 화자의 발화 속도, 화자의 감정 중 하나 이상을 포함할 수 있다.
또한, 음성의 특성 정보는 화자의 음색을 더 포함할 수도 있다.
텍스트 분석부(232)는 음성 텍스트 변환부(227)에서 변환된 텍스트로부터, 주요 표현 어구를 추출할 수 있다.
텍스트 분석부(232)는 변환된 텍스트로부터 어구와 어구 간의 어조가 달라짐을 감지한 경우, 어조가 달라지는 어구를 주요 표현 어구로 추출할 수 있다.
텍스트 분석부(232)는 어구와 어구 간의 주파수 대역이 기 설정된 대역 이상 변경된 경우, 어조가 달라진 것으로 판단할 수 있다.
텍스트 분석부(232)는 변환된 텍스트의 어구 내에, 주요 단어를 추출할 수도 있다. 주요 단어란 어구 내에 존재하는 명사일 수 있으나, 이는 예시에 불과하다.
특징 클러스터링부(233)는 음성 분석부(231)에서 추출된 음성의 특성 정보를 이용하여, 화자의 발화 유형을 분류할 수 있다.
특징 클러스터링부(233)는 음성의 특성 정보를 구성하는 유형 항목들 각각에, 가중치를 두어, 화자의 발화 유형을 분류할 수 있다.
특징 클러스터링부(233)는 딥러닝 모델의 어텐션(attention) 기법을 이용하여, 화자의 발화 유형을 분류할 수 있다.
텍스트 매핑부(234)는 제1 언어로 변환된 텍스트를 제2 언어의 텍스트로 번역할 수 있다.
텍스트 매핑부(234)는 제2 언어로 번역된 텍스트를 제1 언어의 텍스트와 매핑 시킬 수 있다.
텍스트 매핑부(234)는 제1 언어의 텍스트를 구성하는 주요 표현 어구를 이에 대응하는 제2 언어의 어구에 매핑 시킬 수 있다.
텍스트 매핑부(234)는 제1 언어의 텍스트를 구성하는 주요 표현 어구에 대응하는 발화 유형을 제2 언어의 어구에 매핑시킬 수 있다. 이는, 제2 언어의 어구에 분류된 발화 유형을 적용시키기 위함이다.
음성 합성부(235)는 텍스트 매핑부(234)에서 제2 언어로 번역된 텍스트의 주요 표현 어구에, 특징 클러스터링부(233)에서 분류된 발화 유형 및 화자의 음색을 적용하여, 합성된 음성을 생성할 수 있다.
컨트롤러(230)는 전달된 텍스트 데이터 또는 파워 스펙트럼(330) 중 하나 이상을 이용하여, 사용자의 발화 특징을 결정할 수 있다.
사용자의 발화 특징은 사용자의 성별, 사용자의 음의 높낮이, 사용자의 음색, 사용자의 발화 주제, 사용자의 발화 속도, 사용자의 성량등을 포함할 수 있다.
컨트롤러(230)는 파워 스펙트럼(330)을 이용하여, 음성 신호(310)의 주파수 및 주파수에 대응하는 진폭을 획득할 수 있다.
컨트롤러(230)는 파워 스펙트럼(230)의 주파수 대역을 이용하여, 음성을 발화한 사용자의 성별을 결정할 수 있다.
예를 들어, 컨트롤러(230)는 파워 스펙트럼(330)의 주파수 대역이 기 설정된 제1 주파수 대역 범위 내인 경우, 사용자의 성별을 남자로 결정할 수 있다.
컨트롤러(230)는 파워 스펙트럼(330)의 주파수 대역이 기 설정된 제2 주파수 대역 범위 내인 경우, 사용자의 성별을 여자로 결정할 수 있다. 여기서, 제2 주파수 대역 범위는 제1 주파수 대역 범위보다 클 수 있다.
컨트롤러(230)는 파워 스펙트럼(330)의 주파수 대역을 이용하여, 음성의 높낮이를 결정할 수 있다.
예를 들어, 컨트롤러(230)는 특정 주파수 대역 범위 내에서, 진폭의 크기에 따라 음의 높낮이 정도를 결정할 수 있다.
컨트롤러(230)는 파워 스펙트럼(330)의 주파수 대역을 이용하여, 사용자의 음색(tone)을 결정할 수 있다. 예를 들어, 컨트롤러(230)는 파워 스펙트럼(330)의 주파수 대역들 중, 진폭의 크기가 일정 크기 이상인 주파수 대역을 사용자의 주요 음역대로 결정하고, 결정된 주요 음역대를 사용자의 음색으로 결정할 수 있다.
컨트롤러(230)는 변환된 텍스트 데이터로부터, 단위 시간 당 발화된 음절 수를 통해, 사용자의 발화 속도를 결정할 수 있다.
컨트롤러(230) 변환된 텍스트 데이터에 대해, Bag-Of-Word Model 기법을 이용하여, 사용자의 발화 주제를 결정할 수 있다.
Bag-Of-Word Model 기법은 문장 내 단어 빈도 수 기반으로, 주로 사용하는 단어를 추출하는 기법이다. 구체적으로, Bag-Of-Word Model 기법은 문장 내에서, 유니크한 단어를 추출하고, 추출된 각 단어의 빈도 수를 벡터로 표현하여, 발화 주제를 특징을 결정하는 기법이다.
예를 들어, 컨트롤러(230) 텍스트 데이터에 <달리기>, <체력> 등과 같은 단어가 자주 등장하면, 사용자의 발화 주제를 운동으로 분류할 수 있다.
컨트롤러(230) 공지된 텍스트 카테고리화(Text Categorization) 기법을 이용하여, 텍스트 데이터로부터 사용자의 발화 주제를 결정할 수 있다. 컨트롤러(230) 텍스트 데이터로부터 키워드를 추출하여, 사용자의 발화 주제를 결정할 수 있다.
컨트롤러(230) 전체 주파수 대역에서의 진폭 정보를 고려하여 사용자의 성량을 결정할 수 있다.
예컨대, 컨트롤러(230) 파워 스펙트럼의 각 주파수 대역에서의 진폭의 평균 또는 가중치 평균을 기준으로 사용자의 성량을 결정할 수 있다.
통신부(270)는 외부 서버와 유선 또는 무선으로 통신을 수행할 수 있다.
데이터 베이스(290)는 컨텐트에 포함된 제1 언어의 음성을 저장할 수 있다.
데이터 베이스(290)는 제1 언어의 음성이 제2 언어의 음성으로 변환된 합성 음성을 저장할 수 있다.
데이터 베이스(290)는 제1 언어의 음성에 대응하는 제1 텍스트, 제1 텍스트가 제2 언어로 번역된 제2 텍스트를 저장할 수 있다.
데이터 베이스(290)는 음성 인식에 필요한 다양한 학습 모델을 저장하고 있을 수 있다.
한편, 도 2에 도시된 인공 지능 기기(10)의 프로세서(180)는 도 3에 도시된 전처리부(220) 및 컨트롤러(230)를 구비할 수 있다.
즉, 인공 지능 기기(10)의 프로세서(180)는 전처리부(220)의 기능 및 컨트롤러(230)의 기능을 수행할 수도 있다.
도 4는 본 발명의 일 실시 예에 따라, 인공 지능 기기의 음성 인식 및 합성을 위한 프로세서의 구성을 설명하는 블록도이다.
즉, 도 4의 음성 인식 및 합성 과정은 서버를 거치지 않고, 인공 지능 기기(10)의 러닝 프로세서(130) 또는 프로세서(180)에 의해 수행될 수도 있다.
도 4를 참조하면, 인공 지능 기기(10)의 프로세서(180)는 STT 엔진(410), NLP 엔진(430), 음성 합성 엔진(450)를 포함할 수 있다.
각 엔진은 하드웨어 또는 소프트웨어 중 어느 하나일 수 있다.
STT 엔진(410)은 도 1의 STT 서버(20)의 기능을 수행할 수 있다. 즉, STT 엔진(410)은 음성 데이터를 텍스트 데이터로 변환할 수 있다.
NLP 엔진(430)은 도 2a의 NLP 서버(30)의 기능을 수행할 수 있다. 즉, NLP 엔진(430)은 변환된 텍스트 데이터로부터 발화자의 의도를 나타내는 의도 분석 정보를 획득할 수 있다.
음성 합성 엔진(450)은 도 1의 음성 합성 서버(40)의 기능을 수행할 수 있다.
음성 합성 엔진(450)은 주어진 텍스트 데이터에 대응하는 음절 또는 단어를 데이터 베이스로부터 검색하고, 검색된 음절 또는 단어들의 조합을 합성하여, 합성 음성을 생성할 수 있다.
음성 합성 엔진(450)은 전처리 엔진(451) 및 TTS 엔진(453)을 포함할 수 있다.
전처리 엔진(451)은 합성 음성을 생성하기 전, 텍스트 데이터를 전처리할 수 있다.
구체적으로, 전처리 엔진(451)은 텍스트 데이터를 의미 있는 단위인 토큰으로 나누는 토큰화를 수행한다.
토큰화 수행 후, 전처리 엔진(451)은 노이즈 제거를 위해 불필요한 문자, 기호를 제거하는 클렌징 작업을 수행할 수 있다.
그 후, 전처리 엔진(451)는 표현 방법이 다른 단어 토큰들을 통합시켜, 같은 단어 토큰을 생성할 수 있다.
그 후, 전처리 엔진(451)는 의미 없는 단어 토큰(불용어, stopword)을 제거할 수 있다.
TTS 엔진(453)은 전처리된 텍스트 데이터에 상응하는 음성을 합성하고, 합성 음성을 생성할 수 있다.
도 5는 본 개시의 일 실시 예에 따른 화상 회의 시스템을 설명하는 도면이다.
화상 회의 시스템(5)은 제1 단말기(100-1) 및 제2 단말기(100-2)를 포함할 수 있다.
제1 단말기(100-1) 및 제2 단말기(100-2) 각각은 도 2의 인공 지능 기기(00)의 한 예일 수 있다. 즉, 제1 단말기(100-1) 및 제2 단말기(100-2) 각각은 도 2의 인공 지능 기기(10)의 모든 구성 요소들을 포함할 수 있다.
제1 단말기(100-1)는 사용자와 가까이 위치한 Near-end 기기이고, 제2 단말기(100-2)는 사용자와 멀리 위치한 Far-end 기기일 수 있다.
화상 회의 시스템(5)은 서버(미도시)를 더 포함할 수 있다. 서버는 화상 회의 서비스를 제공하는 어플리케이션의 활용을 위해 존재할 수 있다.
제1 단말기(100-1)는 사용자에 대응하는 사용자 영상(511) 및 복수의 상대방들에 상응하는 파-엔드 영상(513)을 포함하는 제1 영상(510)을 표시할 수 있다.
제1 단말기(100-1)는 자신이 구비하는 카메라 또는 제1 단말기(100-1)와 연결된 카메라를 통해 촬영된 사용자 영상(511)을 획득할 수 있다.
복수의 상대방들(또는 복수의 화자들, Speaker A, Speaker B, Speaker C)에 상응하는 파-엔드 영상(513)은 제2 단말기(100-2) 또는 제1,2 단말기(100-1, 100-2)에 연결된 서버로부터 수신된 영상일 수 있다.
제2 단말기(100-2)는 복수의 상대방들(또는 복수의 화자들, Speaker A, Speaker B, Speaker C)에 상응하는 화자 영상(531) 및 제1 단말기(100-1)의 사용자에 상응하는 니어 엔드 영상(533)을 포함하는 제2 영상(530)을 표시할 수 있다.
도 6은 본 개시의 일 실시 예에 따른 화상 회의 시스템의 음성 포커싱 방법을 설명하기 위한 흐름도이다.
이하에서는 도 6의 실시 예를 도 5의 실시 예와 연계시켜 설명한다.
또한, 제1 단말기(100-1)의 프로세서(180-1)는 도 2에 도시된 프로세서(180)의 기능을 수행할 수 있고, 통신부(110-1)는 도 2에 도시된 통신부(110)의 기능을 수행할 수 있고, 디스플레이부(151-1)는 도 2에 도시된 디스플레이부(151)의 기능을 수행할 수 있다.
디스플레이부(151-1)에 표시된 영상은 도 5에 도시된 제1 영상(510)일 수 있다.
제2 단말기(100-2)의 프로세서(180-2)는 도 2에 도시된 프로세서(180)의 기능을 수행할 수 있고, 통신부(110-2)는 도 2에 도시된 통신부(110)의 기능을 수행할 수 있고, 디스플레이부(151-2)는 도 2에 도시된 디스플레이부(151)의 기능을 수행할 수 있다.
이하에서 통신부는 통신 인터페이스로, 디스플레이부는 디스플레이로 명명될 수 있다.
도 6을 참조하면, 제1 단말기(100-1)의 프로세서(180-1)는 디스플레이부(151-1) 상에 영상을 표시한다(S601).
제1 단말기(100-1)의 프로세서(180-1)는 통신부(110-1)를 통해 포커싱 모드 설정 정보 및 화자 포커스 정보를 제2 단말기(100-2)에 전송한다(S603).
일 실시 예에서 포커싱 모드 설정 정보는 복수의 포커싱 모드들 중 제1 단말기(100-1)의 사용자가 설정한 모드에 대한 정보를 포함할 수 있다.
복수의 포커싱 모드들은 디폴트 모드, 와이드 포커싱 모드 및 네로우 포커싱 모드를 포함할 수 있다.
디폴트 모드는 입력된 음성에 대한 포커싱 없이 기본 음질 처리를 위한 알고리즘을 수행하는 모드일 수 있다.
기본 음질 처리는 음향 반향 제거(Acoustic Echo Cancellation, AEC) 알고리즘 또는 공지된 잡음 제거(Noise Reduction, NR) 알고리즘 중 하나 이상의 알고리즘을 적용한 처리일 수 있다.
AEC 알고리즘은 스피커를 통해 수신된 반향 신호와 마이크를 통해 수신된 음성 신호를 비교하여, 반향 신호를 제거하는 알고리즘일 수 있다.
와이드 포커싱 모드는 니어 엔드 사용자, 즉, 제1 단말기(100-1)의 사용자가 파 엔드 프리뷰 화면(도 5의 제1 영상(510))에서 특정 영역에서 발화된 음성을 포커싱하기 위한 모드일 수 있다.
네로우 포커싱 모드는 제1 단말기(100-1)의 사용자가 파 엔드 프리뷰 화면에서 단일의 화자 또는 복수의 화자가 발화한 음성을 포커싱하기 위한 모드일 수 있다.
포커싱 모드 설정 정보는 제1 단말기(100-1) 또는 제1 단말기(100-1)의 사용자가 설정한 포커싱 모드에 대한 정보를 포함할 수 있다.
일 실시 예에서, 포커싱 모드가 네로우 포커싱 모드가 선택된 경우, 화자 포커스 정보는 어느 화자가 선택되었는지에 대한 정보를 포함할 수 있다. 이 경우, 화자 포커스 정보는 선택된 화자의 좌표 정보를 포함할 수 있다.
또 다른 실시 예에서 포커싱 모드가 와이드 포커싱 모드가 선택된 경우, 화자 포커스 정보는 파 엔드 프리뷰 화면에서 어느 영역이 선택되었는지를 나타나내는 정보를 포함할 수 있다. 이 경우, 화자 포커스 정보는 선택된 영역의 좌표 정보를 포함할 수 있다.
포커싱 모드에 따라 제2 단말기(100-2)가 제1 단말기(100-1)에 전송하는 오디오의 처리 과정이 달라질 수 있다.
제2 단말기(100-2)의 프로세서(180-2)는 포커싱 모드 설정 정보에 기초하여, 제1 단말기(100-1)의 포커싱 모드가 디폴트 모드인지를 판단한다(S605).
제2 단말기(100-2)의 프로세서(180-2)는 제1 단말기(100-1)의 포커싱 모드가 디폴트 모드로 설정되어 있는 것으로 판단한 경우, 기본 음질 처리를 수행한 제1 오디오를 통신부(110-1)를 통해 제1 단말기(100-1)로 전송하고(S607), 제1 단말기(100-1)의 프로세서(180-1)는 제1 오디오를 출력한다(S609).
기본 음질 처리는 마이크로폰을 통해 입력된 오디오에 대한 AEC 알고리즘 처리를 나타낼 수 있다.
프로세서(180-1)는 제1 단말기(100-1)에 구비된 음향 출력부(152)를 통해 제1 오디오를 출력하거나, 제1 단말기(100-1)와 연결된 스피커에 제1 오디오를 출력할 수 있다.
제2 단말기(100-2)의 프로세서(180-2)는 제1 단말기(100-1)의 포커싱 모드가 와이드(Wide) 포커싱 모드로 설정되어 있는 것으로 판단한 경우, 화자 포커스 정보에 기초하여 제1 단말기(100-1)의 사용자에 의해 선택된 영역에 상응하는 각도 범위를 획득한다(S613).
포커싱 모드가 와이드 포커싱 모드인 경우, 화자 포커스 정보는 도 5의 파-엔드 영상(513)의 전체 영역 중 사용자에 의해 선택된 특정 영역에 대한 정보를 포함할 수 있다.
이애 대해서는 도 7을 참조하여 설명한다.
도 7은 본 개시의 일 실시 예에 따라 포커싱 모드가 와이드 포커싱 모드인 경우, 파-엔드 영상에서 특정 영역이 선택되는 예를 설명하는 도면이다.
도 7을 참조하면, 제1 단말기(100-1)의 사용자는 파-엔드 영상(513)의 전체 영역 중 특정 영역(513a)을 선택할 수 있다.
선택된 특정 영역(513a)에 대한 정보는 특정 영역(513c)의 좌표 정보일 수 있다. 특정 영역(513a)이 사각형의 형상을 갖는 경우, 특정 영역(513c)의 좌표 정보는 사각형의 4개의 꼭지점들의 좌표들을 포함할 수 있다.
제1 단말기(100-1)의 사용자는 터치 입력을 통해 파-엔드 영상(513)에서 특정 영역(513a)에 상응하는 위치에서 나오는 음성을 다른 곳 대비 크게 듣기 위해 특정 영역(513a)을 지정할 수 있다.
특정 영역(513a)은 파-엔드에 위치한 화자 A, B(Speaker A, Speaker B)를 포함하는 영역일 수 있다.
다시, 도 6을 설명한다.
제2 단말기(100-2)의 프로세서(180-2)는 화자 포커스 정보에 포함된 특정 영역(513a)의 좌표 정보에 기반하여 각도 범위를 획득할 수 있다. 특정 영역(513a)의 좌표 정보는 화자의 좌표를 포함할 수 있다.
제2 단말기(100-2)의 프로세서(180-2)는 특정 영역(513a)에 포함된 화자 A와 기준 마이크 간 이루는 제1 각도 및 특정 영역(513a)에 포함된 화자 B와 기준 마이크 간 이루는 제2 각도를 획득할 수 있다.
기준 마이크는 화자와 마이크 간 이루는 각도를 측정하기 위해 기준이 되는 마이크로, 제2 단말기(100-2)의 중앙 전면에 배치되는 마이크일 수 있다. 그러나, 이는 예시에 불과하고, 사용자 설정에 따라 기준 마이크의 위치가 달라질 수 있다.
제2 단말기(100-2)의 프로세서(180-2)는 제1 각도와 제2 각도 사이의 범위를 각도 범위로 획득할 수 있다.
제2 단말기(100-2)의 프로세서(180-2)는 입력된 음성에 대해 획득된 각도 범위를 이용하여 빔포밍을 수행한다(S615).
제2 단말기(100-2)의 프로세서(180-2)는 전체 각도 범위 중 획득된 각도 범위 이외에서 입력된 빔 신호의 게인을 감소시켜, 획득된 각도 범위에서 들어오는 빔 신호를 강화하는 빔포밍을 수행할 수 있다.
이에 대해서는 후술한다.
제2 단말기(100-2)의 프로세서(180-2)는 빔포밍 수행된 제2 오디오를 통신부(110-2)를 통해 제1 단말기(100-1)로 전송하고(S617), 제1 단말기(100-1)의 프로세서(180-1)는 수신된 제2 오디오를 출력한다(S619).
프로세서(180-1)는 제1 단말기(100-1)에 구비된 음향 출력부(152)를 통해 제2 오디오를 출력하거나, 제1 단말기(100-1)와 연결된 스피커에 제2 오디오를 출력할 수 있다.
제2 단말기(100-2)의 프로세서(180-2)는 제1 단말기(100-1)의 포커싱 모드가 네로우(Narrow) 포커싱 모드로 설정되어 있는 것으로 판단한 경우, 화자 포커스 정보에 기초하여 제1 단말기(100-1)의 사용자에 의해 선택된 하나 이상의 화자에 상응하는 하나 이상의 각도를 획득한다(S621).
제1 단말기(100-1)의 포커싱 모드가 네로우 포커싱 모드로 설정되어 있는 경우, 화자 포커스 정보는 하나의 화자가 선택됨을 나타내는 정보를 포함할 수 있다. 이 경우, 화자 포커스 정보는 선택된 화자의 위치를 나타내는 좌표 정보를 포함할 수 있다.
네로우 포커싱 모드에서는 하나의 화자 또는 복수의 화자들이 선택될 수 있다.
도 8은 본 개시의 일 실시 예에 따라 포커싱 모드가 네로우 포커싱 모드인 경우, 파-엔드 영상에서 하나의 화자가 선택되는 예를 설명하는 도면이다.
도 8을 참조하면, 제1 단말기(100-1)의 사용자는 파-엔드 영상(513)의 전체 영역 중 제1 화자(Speaker A)에 상응하는 제1 화자 영상(513b)을 선택할 수 있다.
제1 단말기(100-1)는 네로우 포커싱 모드를 나타내는 포커싱 모드 설정 정보, 특정 화자(Speaker A)의 선택 정보 및 특정 화자(Speaker A)의 좌표를 포함하는 화자 포커스 정보를 제2 단말기(100-2)에 전송할 수 있다.
도 9는 본 개시의 일 실시 예에 따라 포커싱 모드가 네로우 포커싱 모드인 경우, 파-엔드 영상에서 복수의 화자가 선택되는 예를 설명하는 도면이다.
도 9를 참조하면, 제1 단말기(100-1)의 사용자는 파-엔드 영상(513)의 전체 영역 중 제1 화자(Speaker A)에 상응하는 제1 화자 영상(513b) 및 제2 화자(Speaker B)에 상응하는 제2 화자 영상(513c)을 선택할 수 있다.
제1 단말기(100-1)는 네로우 포커싱 모드를 나타내는 포커싱 모드 설정 정보, 제1,2 화자(Speaker A, B)의 선택 정보 및 제1,2 화자 영상 각각의 좌표를 포함하는 화자 포커스 정보를 제2 단말기(100-2)에 전송할 수 있다.
다시, 도 6을 설명한다.
제2 단말기(100-2)의 프로세서(180-2)는 선택된 화자와 기준 마이크 간 이루는 각도를 계산할 수 있다. 즉, 프로세서(180-2)는 화자 영상(531) 및 기준 마이크에 상응하는 기준 지점 간의 이루는 각도를 계산할 수 있다.
또 다른 실시 예에서, 복수의 화자들이 선택된 경우, 프로세서(180-2)는 각 화자와 기준 마이크 간 이루는 각도를 계산할 수 있다. 즉, 프로세서(180-2)는 선택된 제1 화자와 기준 마이크 간 이루는 제1 각도 및 선택된 제2 화자와 기준 마이크 간의 제2 각도를 각각 획득할 수 있다.
제2 단말기(100-2)의 프로세서(180-2)는 획득된 하나 이상의 각도를 이용하여 빔포밍을 수행하고(S623), 빔포밍 수행된 제3 오디오를 통신부(110-2)를 통해 제1 단말기(100-1)로 전송한다(S625).
일 실시 예에서, 프로세서(180-2)는 하나의 화자가 선택된 경우, 선택된 화자와 기준 마이크 간 이루는 각도를 이용하여 네로우 빔포밍을 수행할 수 있다.
네로우 빔포밍은 해당 각도에서 입력된 음성 신호의 게인을 증가시키고, 해당 각도를 제외한 나머지 각도에서 입력된 음성 신호의 게인을 감소시키는 방식일 수 있다.
이에 대해서는 후술한다.
제1 단말기(100-1)는 수신된 제3 오디오를 출력한다(S627).
프로세서(180-1)는 제1 단말기(100-1)에 구비된 음향 출력부(152)를 통해 제2 오디오를 출력하거나, 제1 단말기(100-1)와 연결된 스피커에 제2 오디오를 출력할 수 있다.
도 10 내지 도 12는 포커싱 모드에 따라 파-엔드 기기에서 오디오가 처리되는 과정을 설명하는 도면들이다.
도 10은 디폴트 모드에서 오디오가 처리되는 과정을 설명하는 도면이고, 도 11은 네로우 포커싱 모드에서 2명의 화자가 선택된 경우, 오디오가 처리되는 과정을 설명하는 도면이고, 도 12는 와이드 포커싱 모드에서 오디오가 처리되는 과정을 설명하는 도면이다.
도 10 내지 도 12에서 니어-엔드 기기는 제1 단말기(100-1)이고, 파-엔드 기기는 제2 단말기(100-2)일 수 있다.
도 10을 참조하면, 포커싱 모드가 디폴트 모드인 경우, 제2 단말기(100-2, 파-엔드 기기)의 오디오 프로세서(1010)는 입력된 오디오 신호에 대한 잡음 제거(Noise Reduction, NR)를 수행하고, NR이 수행된 오디오를 통신부(110-2)를 통해 제1 단말기(100-1, 니어 엔드 기기)에 전송할 수 있다.
다음으로, 도 11을 설명한다.
도 11을 참조하면, 포커싱 모드가 네로우 포커싱 모드이고, 2명의 화자가 선택된 경우, 오디오 처리 과정이 도시되어 있다.
도 11의 제1 네로우 빔포머(1031), 제2 네로우 빔포머(1033), 믹서(1050), 오디오 프로세서(1010)는 프로세서(180-2)에 포함될 수도 있고, 별도로 구성될 수도 있다.
제2 단말기(100-2)의 제1 네로우 빔포머(1031)는 선택된 제1 화자의 제1 각도를 이용하여 오디오 신호의 빔포밍을 수행할 수 있다.
제2 단말기(100-2)의 제2 네로우 빔포머(1033)는 선택된 제2 화자의 제2 각도를 이용하여 오디오 신호의 빔포밍을 수행할 수 있다.
제2 단말기(100-2)의 제1 네로우 빔포머(1031)는 제1 각도를 이용하여, 음성 신호에 대해 적응적 빔포밍을 수행할 수 있고, 제2 네로우 빔포머(1033)는 제2 각도를 이용하여, 음성 신호에 대해 적응적 빔포밍을 수행할 수 있다.
적응적 빔포밍은 각도를 이용하여, 음성 신호의 파워 스펙트럼에서 해당 각도에 상응하는 파워를 증가시키도록 학습하는 빔포밍 방식일 수 있다.
제2 단말기(100-2)의 믹서(1050)는 제1 네로우 빔포머(1031)의 제1 출력 오디오 신호와 제2 네로우 빔포머(1033)의 제2 출력 오디오 신호를 믹싱할 수 있다.
제2 단말기(100-2)의 믹서(1050)는 믹싱된 오디오 신호에 대해 NR을 수행하고, NR이 수행된 최종 오디오 신호를 통신부(110-2)를 통해 제1 단말기(100-1)로 전송할 수 있다.
다음으로 도 12를 설명한다.
도 12를 참조하면, 포커싱 모드가 와이드 포커싱 모드이고, 니어 엔드 기기가 표시되는 파-엔드 영상에서 특정 영역이 선택된 경우, 파-엔드 기기에서 오디오를 처리하는 과정이 도시되어 있다.
제2 단말기(100-2)의 프로세서(180-2)는 제1 단말기(100-1)의 사용자가 파-엔드 영상에서 선택한 영역의 각도 범위를 획득할 수 있다.
프로세서(180-2)는 파-엔드 영상의 전체 영역 중 선택된 영역의 좌표 정보에 기반하여, 선택된 영역의 각도 범위를 획득할 수 있다.
제2 단말기(100-2)의 와이드 빔포머(1070)는 획득된 각도 범위에 대해 적응적 빔포밍을 수행할 수 있다. 와이드 빔포머(1070) 및 오디오 프로세서(1010)는 프로세서(180-2)에 포함되거나, 별도로 구성될 수 있다.
적응적 빔포밍은 음성 신호의 파워 스펙트럼에서 해당 각도 범위에 상응하는 파워를 증가시키도록 하는 빔포밍 방식일 수 있다.
제2 단말기(100-2)의 오디오 프로세서(1010)는 와이드 빔포머(1070)에 의해 수행된 빔포밍 결과를 제1 단말기(100-1)에 전송할 수 있다.
이와 같이, 본 개시의 실시 예에 따르면, 니어-엔드 기기의 사용자는 듣고 싶어하는 화자 또는 영역의 음성을 보다 강조하여 들을 수 있게 된다.
도 13은 본 개시의 일 실시 예에 따라 화자와 기준 지점 간의 이루는 각도를 획득하는 과정을 설명하는 도면이다.
도 13을 참조하면, 파-엔드 기기(제2 단말기)가 표시하는 화자 영상(531)이 도시되어 있다.
화자 영상(531)은 제1 화자(Speaker A)에 상응하는 제1 화자 영상(1301), 제2 화자(Speaker B)에 상응하는 제2 화자 영상(1303) 및 제3 화자(Speaker C)에 상응하는 제3 화자 영상(1305)을 포함할 수 있다.
프로세서(180-2)는 기준 지점(1300)과 기준 지점(1300)으로부터 일직선 상에 위치한 제2 화자 영상(1303) 간 이루는 각도를 0도로 정의할 수 있다. 기준 지점(1300)은 기준 마이크가 위치한 지점에 대응될 수 있다.
프로세서(180-2)는 0도를 기준으로 제1 화자 영상(1301) 간의 이루는 -40도를 제1 화자 영상(1301)과 기준 지점(1300) 간 이루는 각도로 획득할 수 있다.
프로세서(180-2)는 0도를 기준으로 제3 화자 영상(1305) 간의 이루는 40도를 제3 화자 영상(1305)과 기준 지점(1300) 간 이루는 각도로 획득할 수 있다.
도 14a 내지 도 14c는 본 개시의 실시 예에 따른 네로우 빔포밍 및 와이드 빔포밍의 수행 결과를 나타내는 빔포밍 패턴을 보여주는 도면들이다.
도 14a는 네로우 빔포밍의 수행 결과를 보여주고 있는 빔패턴이고, 도 15b는 40도 범위의 와이드 빔포밍 수행 결과를 보여주는 빔패턴이고, 도 15c는 60도 범위의 와이드 빔포밍 수행 결과를 보여주는 빔패턴일 수 있다.
각 빔패턴의 가로축은 -90도에서 90도 까지의 각도이고, 세로축은 주파수 빈(frequency bin, 샘플 사이의 간격)을 나타낼 수 있다.
도 14a를 참조하면, 네로우 빔포밍의 경우, 특정 각도(예를 들어, 0도) 방향의 빔이 가장 강한 것을 볼 수 있다.
도 14b를 참조하면, -20도에서 20도 까지의 40도 각도 범위의 방향에서 빔이 강한 것을 확인할 수 있다.
도 14c를 참조하면, -30도에서 30도 까지의 60도 각도 범위의 방향에서 빔이 강한 것을 확인할 수 있다.
이와 같이, 본 개시의 실시 예에 따르면, 니어 엔드 기기의 사용자는 자신이 원하는 특정 화자 또는 특정 영역의 음성을 보다 집중적으로 들을 수 있게 된다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 상기 컴퓨터는 인공 지능 기기의 프로세서(180)를 포함할 수도 있다.

Claims (14)

  1. 파 엔드(Far end) 단말기에 있어서,
    니어 엔드(Near end) 단말기와 무선 통신을 수행하는 통신 인터페이스;
    상기 니어 엔드 기기로부터 수신된 니어 엔드 영상 및 카메라를 통해 촬영된 복수의 화자들을 포함하는 화자 영상을 표시하는 디스플레이; 및
    상기 니어 엔드 단말기로부터 포커싱 모드 설정 정보 및 화자 포커스 정보를 수신하고, 상기 포커싱 모드 설정 정보에 기초하여, 상기 니어 엔드 단말기의 동작 모드가 와이드 포커싱 모드로 설정된 것으로 판단된 경우, 상기 화자 포커스 정보에 포함된 특정 영역에 상응하는 각도 범위를 획득하고, 획득된 각도 범위를 이용하여 음성 신호에 대한 빔포밍을 수행하고, 빔포밍 수행 결과인 오디오를 상기 니어 엔드 단말기에 전송하는 프로세서를 포함하는
    파 엔드 단말기.
  2. 제1항에 있어서,
    상기 특정 영역은
    상기 화자 영상의 전체 영역에 포함된 일부 영역을 나타내고, 상기 니어 엔드 단말기의 사용자에 의해 선택된 영역인
    파 엔드 단말기.
  3. 제2항에 있어서,
    상기 화자 포커스 정보는
    상기 특정 영역에 포함된 화자들의 위치를 나타내는 좌표를 포함하는
    파 엔드 단말기.
  4. 제3항에 있어서,
    상기 프로세서는
    상기 특정 영역에 포함된 제1 화자와 기준 지점 간 이루는 제1 각도 및 상기 특정 영역에 포함된 제2 화자와 상기 기준 지점 간 이루는 제2 각도를 획득하고, 상기 제1 각도와 상기 제2 각도 사이의 범위를 상기 각도 범위로 획득하는
    파 엔드 단말기.
  5. 제1항에 있어서,
    상기 빔포밍은
    상기 획득된 각도 범위에서 입력되는 음성 신호의 게인을 증가시키고, 상기 각도 범위 이외에서 입력되는 음성 신호의 게인을 감소시키는 알고리즘인
    파 엔드 단말기.
  6. 제1항에 있어서,
    상기 프로세서는
    상기 니어 엔드 단말기의 동작 모드가 네로우 포커싱 모드로 설정되고, 상기 복수의 화자들 중 하나의 화자가 선택된 경우, 선택된 화자와 기준 지점 간 이루는 각도를 획득하고, 획득된 각도에 대한 빔포밍을 수행하는
    파 엔드 단말기.
  7. 제1항에 있어서,
    상기 프로세서는
    상기 니어 엔드 단말기의 동작 모드가 네로우 포커싱 모드로 설정되고, 상기 복수의 화자들 중 2명의 화자가 선택된 경우, 선택된 2명 화자들 각각과 기준 지점 간 이루는 각도들을 획득하고, 획득된 각도들 각각에 대한 빔포밍을 수행하고, 빔포밍 수행 결과를 믹싱하여 믹싱된 최종 오디오 신호를 생성하는
    파 엔드 단말기.
  8. 파 엔드(Far end) 단말기의 음성 포커싱 방법에 있어서,
    니어 엔드 기기로부터 수신된 니어 엔드 영상 및 카메라를 통해 촬영된 복수의 화자들을 포함하는 화자 영상을 표시하는 단계;
    상기 니어 엔드 단말기로부터 포커싱 모드 설정 정보 및 화자 포커스 정보를 수신하는 단계;
    상기 포커싱 모드 설정 정보에 기초하여, 상기 니어 엔드 단말기의 동작 모드가 와이드 포커싱 모드로 설정된 것으로 판단된 경우, 상기 화자 포커스 정보에 포함된 특정 영역에 상응하는 각도 범위를 획득하는 단계; 및
    획득된 각도 범위를 이용하여 음성 신호에 대한 빔포밍을 수행하고, 빔포밍 수행 결과인 오디오를 상기 니어 엔드 단말기에 전송하는 단계를 포함하는
    파 엔드 단말기의 음성 포커싱 방법.
  9. 제8항에 있어서,
    상기 특정 영역은
    상기 화자 영상의 전체 영역에 포함된 일부 영역을 나타내고, 상기 니어 엔드 단말기의 사용자에 의해 선택된 영역인
    파 엔드 단말기의 음성 포커싱 방법.
  10. 제9항에 있어서,
    상기 화자 포커스 정보는
    상기 특정 영역에 포함된 화자들의 위치를 나타내는 좌표를 포함하는
    파 엔드 단말기의 음성 포커싱 방법.
  11. 제10항에 있어서,
    상기 각도 범위를 획득하는 단계는
    상기 특정 영역에 포함된 제1 화자와 기준 지점 간 이루는 제1 각도 및 상기 특정 영역에 포함된 제2 화자와 상기 기준 지점 간 이루는 제2 각도를 획득하는 단계 및
    상기 제1 각도와 상기 제2 각도 사이의 범위를 상기 각도 범위로 획득하는 단계를 포함하는
    파 엔드 단말기의 음성 포커싱 방법.
  12. 제8항에 있어서,
    상기 빔포밍은
    상기 획득된 각도 범위에서 입력되는 음성 신호의 게인을 증가시키고, 상기 각도 범위 이외에서 입력되는 음성 신호의 게인을 감소시키는 알고리즘인
    파 엔드 단말기의 음성 포커싱 방법.
  13. 제8항에 있어서,
    상기 니어 엔드 단말기의 동작 모드가 네로우 포커싱 모드로 설정되고, 상기 복수의 화자들 중 하나의 화자가 선택된 경우, 선택된 화자와 기준 지점 간 이루는 각도를 획득하고, 획득된 각도에 대한 빔포밍을 수행하는 단계를 더 포함하는
    파 엔드 단말기의 음성 포커싱 방법.
  14. 제8항에 있어서,
    상기 니어 엔드 단말기의 동작 모드가 네로우 포커싱 모드로 설정되고, 상기 복수의 화자들 중 2명의 화자가 선택된 경우, 선택된 2명 화자들 각각과 기준 지점 간 이루는 각도들을 획득하고, 획득된 각도들 각각에 대한 빔포밍을 수행하는 단계 및
    빔포밍 수행 결과를 믹싱하여 믹싱된 최종 오디오 신호를 생성하는 단계를 더 포함하는
    파 엔드 단말기의 음성 포커싱 방법.
KR1020227037252A 2022-06-07 2022-06-07 파 엔드 단말기 및 그의 음성 포커싱 방법 KR20230169825A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/008032 WO2023238965A1 (ko) 2022-06-07 2022-06-07 파 엔드 단말기 및 그의 음성 포커싱 방법

Publications (1)

Publication Number Publication Date
KR20230169825A true KR20230169825A (ko) 2023-12-18

Family

ID=89118512

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227037252A KR20230169825A (ko) 2022-06-07 2022-06-07 파 엔드 단말기 및 그의 음성 포커싱 방법

Country Status (2)

Country Link
KR (1) KR20230169825A (ko)
WO (1) WO2023238965A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9210503B2 (en) * 2009-12-02 2015-12-08 Audience, Inc. Audio zoom
US20130304476A1 (en) * 2012-05-11 2013-11-14 Qualcomm Incorporated Audio User Interaction Recognition and Context Refinement
JP7070910B2 (ja) * 2018-11-20 2022-05-18 株式会社竹中工務店 テレビ会議システム
KR20190095181A (ko) * 2019-07-25 2019-08-14 엘지전자 주식회사 인공 지능을 이용한 화상 회의 시스템
JP7427408B2 (ja) * 2019-10-07 2024-02-05 シャープ株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Also Published As

Publication number Publication date
WO2023238965A1 (ko) 2023-12-14

Similar Documents

Publication Publication Date Title
US10685652B1 (en) Determining device groups
Wölfel et al. Distant speech recognition
US8473099B2 (en) Information processing system, method of processing information, and program for processing information
WO2019046026A1 (en) ARBITRATION OF DEVICES BASED ON THE CONTEXT
US20240087565A1 (en) Determining input for speech processing engine
CN104168353A (zh) 蓝牙耳机及其语音交互控制方法
AU2571900A (en) Speech converting device and method
CN112840396A (zh) 用于处理用户话语的电子装置及其控制方法
WO2019090283A1 (en) Coordinating translation request metadata between devices
CN103685783A (zh) 信息处理系统和存储介质
KR20200027331A (ko) 음성 합성 장치
US11182567B2 (en) Speech translation apparatus, speech translation method, and recording medium storing the speech translation method
JP2000207170A (ja) 情報処理装置および情報処理方法
US10143027B1 (en) Device selection for routing of communications
KR101959439B1 (ko) 통역방법
CN101243391A (zh) 介绍交互模式与应用功能的方法
JP7400364B2 (ja) 音声認識システム及び情報処理方法
JP2021117371A (ja) 情報処理装置、情報処理方法および情報処理プログラム
KR20230169825A (ko) 파 엔드 단말기 및 그의 음성 포커싱 방법
WO2019181218A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
Flanagan Technologies for multimedia communications
US20220157316A1 (en) Real-time voice converter
Panek et al. Challenges in adopting speech control for assistive robots
JP2007286376A (ja) 音声案内システム
US11172527B2 (en) Routing of communications to a device