KR20200083685A - 실시간 화자 판단 방법 - Google Patents

실시간 화자 판단 방법 Download PDF

Info

Publication number
KR20200083685A
KR20200083685A KR1020180165089A KR20180165089A KR20200083685A KR 20200083685 A KR20200083685 A KR 20200083685A KR 1020180165089 A KR1020180165089 A KR 1020180165089A KR 20180165089 A KR20180165089 A KR 20180165089A KR 20200083685 A KR20200083685 A KR 20200083685A
Authority
KR
South Korea
Prior art keywords
voice signal
speaker
users
signal
data processing
Prior art date
Application number
KR1020180165089A
Other languages
English (en)
Inventor
김윤식
Original Assignee
주식회사 엘지유플러스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지유플러스 filed Critical 주식회사 엘지유플러스
Priority to KR1020180165089A priority Critical patent/KR20200083685A/ko
Publication of KR20200083685A publication Critical patent/KR20200083685A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

화자를 판단하는 방법이 개시된다. 서버 및 단말을 포함하는 화자 판단 시스템에서 서버의 동작은 영상 시퀀스 및 오디오 시퀀스를 포함하는 데이터를 획득하는 단계; 영상 시퀀스에 포함되는 복수의 사용자들을 인식하는 단계; 오디오 시퀀스로부터 음성 신호를 추출하는 단계; 복수의 사용자들의 상태 및 음성 신호의 특성에 기초하여, 복수의 사용자들 중 음성 신호의 화자를 판단하는 단계; 및 판단 결과에 기초하여, 음성 신호를 제공하는 단계를 포함한다.

Description

실시간 화자 판단 방법{METHOD FOR REAL-TIME SPEAKER DETERMINATION}
아래 실시예들은 실시간으로 화자를 판단하는 방법에 관한 것으로, 예를 들어 화자인식과 관련된 기술에 관한 것이다.
컴퓨터 연산능력이 발달하고 네트워크 대역폭이 확대되면서 실시간에 가까운 데이터 분석이 가능해지고 있다. 실시간에 가까운 데이터 분석과 딥 러닝 등의 인공지능(AI) 기술이 접목되면서, 특히 모바일 시장에서 음성인식 기술이 빠르게 발전하고 있다.
음성인식 기술이 발전하면서 단순히 음성의 의미를 분석하는 것을 넘어, 개인을 확인하고자 하는 연구도 활발하게 진행되고 있다. 화자인식은 화자 검증(Speaker Verification)과 화자 식별(Speaker Identification) 로 구분된다. 화자 검증은 화자가 그 사람이 맞는지를 확인하는 기술이고, 화자 식별은 여러 사람들 중 화자가 누구인지를 판단하는 기술이다.
화자인식 기술을 활용하면 서비스 사용에 관련된 보안을 강화하고, 개인별로 맞춤형 서비스를 더욱 편리하게 제공할 수 있다.
일실시예에 따른 서버 및 단말을 포함하는 화자 판단 시스템에서 상기 서버의 동작 방법은 상기 단말로부터, 영상 시퀀스 및 오디오 시퀀스를 포함하는 데이터를 획득하는 단계; 상기 영상 시퀀스에 포함되는 복수의 사용자들을 인식하는 단계; 상기 오디오 시퀀스로부터 음성 신호를 추출하는 단계; 상기 복수의 사용자들의 상태 및 상기 음성 신호의 특성에 기초하여, 상기 복수의 사용자들 중 상기 음성 신호의 화자를 판단하는 단계; 및 상기 판단 결과에 기초하여, 상기 음성 신호를 상기 단말로 제공하는 단계를 포함한다.
일실시예에 따르면, 상기 음성 신호의 화자를 판단하는 단계는 상기 복수의 사용자들의 상태에 기초하여, 상기 음성 신호의 화자 후보의 목록을 결정하는 단계; 및 상기 음성 신호의 특성에 기초하여, 상기 화자 후보의 목록에서 상기 음성 신호의 화자를 선택하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 음성 신호의 화자를 선택하는 단계는 상기 음성 신호의 특성에 기초하여, 상기 음성 신호의 화자가 복수인지 여부를 판단하는 단계; 및 상기 음성 신호의 화자가 복수인지 여부에 기초하여, 상기 화자 후보의 목록에서 상기 음성 신호의 화자를 선택하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 음성 신호의 화자가 단수로 판단되는 경우, 상기 음성 신호의 화자를 판단하는 단계는 미리 저장된 복수의 사용자들 중 화자 후보의 음성의 특성과 상기 음성 신호의 특성을 비교하는 단계; 및 상기 비교 결과에 기초하여, 상기 화자 후보의 목록에서 상기 음성 신호의 화자를 결정하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 음성 신호의 화자가 복수로 판단되는 경우,
상기 음성 신호의 화자를 판단하는 단계는 상기 음성 신호를 상기 음성 신호의 특성에 따라 분리하는 단계; 상기 복수의 사용자들 중 화자 후보들의 음성들의 특성들과 상기 분리된 음성 신호들의 특성들을 비교하는 단계; 및 상기 비교 결과에 기초하여, 상기 화자 후보의 목록에서 상기 복수의 분리된 음성 신호들의 화자들을 결정하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 복수의 사용자들의 상태는 상기 복수의 사용자들의 입의 모양 변화에 기초한 발화 가능성에 따라 결정될 수 있다.
일실시예에 따르면, 상기 음성 신호의 특성은 상기 음성 신호의 주파수에 관련된 정보를 포함할 수 있다.
일실시예에 따르면, 상기 음성 신호를 추출하는 단계는 상기 오디오 시퀀스로부터 특징 벡터를 획득하는 단계; 상기 특징 벡터에 기초하여 상기 오디오 시퀀스를 음성 구간 또는 비 음성 구간으로 분류하는 단계; 및 상기 오디오 시퀀스 내 상기 음성 구간에 해당하는 신호를 상기 음성 신호로 추출하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 복수의 사용자들을 인식하는 단계는 상기 복수의 사용자들의 얼굴을 인식하는 단계; 및 상기 인식된 얼굴에 기초하여, 개별 사용자의 입 모양의 변화를 추적하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 음성 신호를 제공하는 단계는 상기 음성 신호에 포함된 정보를 하나 이상의 텍스트로 변환하는 단계; 및 상기 영상 시퀀스에 포함되는 상기 복수의 사용자들 중 상기 음성 신호에 대응하는 하나 이상의 상기 화자의 얼굴에 인접하여 상기 하나 이상의 텍스트를 표시하는 단계를 포함할 수 있다.
일실시예에 따른 단말의 데이터 처리 방법은 영상 시퀀스 및 오디오 시퀀스를 포함하는 데이터를 획득하는 단계; 상기 영상 시퀀스에 포함되는 복수의 사용자들을 인식하는 단계; 상기 오디오 시퀀스로부터 음성 신호를 추출하는 단계; 상기 복수의 사용자들의 상태 및 상기 음성 신호의 특성에 기초하여, 상기 복수의 사용자들 중 상기 음성 신호의 화자를 판단하는 단계; 및 상기 판단 결과에 기초하여, 상기 음성 신호를 제공하는 단계를 포함한다.
도 1은 일실시예에 따른 실시간 화자 판단을 위한 동작 방법을 설명하기 위한 동작 흐름도이다.
도 2는 일실시예에 따른 영상 시퀀스에 포함되는 복수의 사용자들을 인식하는 방법을 설명하기 위한 도면이다.
도 3은 일실시예에 따른 복수의 사용자들의 상태 및 음성 신호의 특성에 기초하여 복수의 사용자들 중 음성 신호의 화자를 판단하기 위한 동작을 설명하기 위한 동작 흐름도이다.
도 4는 일실시예에 따른 복수의 사용자들의 상태를 판단한 결과의 예시도이다.
도 5는 일실시예에 따른 복수의 사용자들의 음성들의 특성들을 설명하기 위한 도면이다.
도 6은 일실시예에 따른 음성 신호를 제공한 결과의 예시도이다.
도 7은 일실시예에 따른 실시간 화자 판단을 수행하는 장치의 구성의 예시도이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
일실시예에 따른 화자 판단 시스템은 서버 및 서버와 연동하는 단말을 포함할 수 있다. 일실시예에 따른 화자 판단을 위한 일련의 동작들은 서버에 의하여 수행될 수 있다. 서버는 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 조합으로 구현될 수 있다. 예를 들어, 서버는 화자 판단과 관련된 동작, 연산, 및 명령 등을 처리할 수 있고, 화자 판단과 관련된 정보를 획득 또는 저장할 수 있다.
다른 실시예에 따른 화자 판단을 위한 일련의 동작들의 일부 또는 전부는 서버와 연동하는 단말에 의하여 수행될 수 있다. 단말은 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 조합으로 구현될 수 있다. 예를 들어, 단말은 화자 판단과 관련된 동작, 연산, 및 명령 등을 처리할 수 있고, 화자 판단과 관련된 정보를 획득 또는 저장할 수 있다.
이하, 설명의 편의를 위하여 화자 판단을 위한 일련의 동작들이 서버에 의하여 수행되는 실시예들을 설명하나, 상술하였듯이 동작들의 일부 또는 전부는 서버와 연동하는 단말에 의하여 수행될 수 있다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일실시예에 따른 실시간 화자 판단을 위한 동작 방법을 설명하기 위한 동작 흐름도이다.
도 1을 참조하면, 서버는 영상 시퀀스 및 오디오 시퀀스를 포함하는 데이터를 획득한다(110). 데이터에 포함된 영상 시퀀스는 복수의 사용자들을 포함하는 영상 시퀀스일 수 있으며, 데이터에 포함된 오디오 시퀀스는 하나 이상의 사용자들의 음성을 포함하는 오디오 시퀀스일 수 있다. 데이터에 포함된 영상 시퀀스 및 오디오 시퀀스는 서로 대응될 수 있다. 예를 들어, 영상 시퀀스는 복수의 사용자들이 참여한 회의를 촬영한 비디오 파일을 포함하고, 오디오 시퀀스는 해당 회의를 녹음한 오디오 파일을 포함할 수 있다.
서버는 획득한 영상 시퀀스에 포함되는 복수의 사용자들을 인식한다(120). 구체적으로, 서버는 영상 시퀀스에 포함되는 복수의 얼굴을 인식함으로써 복수의 사용자들을 인식할 수 있다. 또한, 서버는 인식된 복수의 얼굴에 기초하여, 영상 시퀀스에 포함되는 개별 사용자의 입 모양을 인식할 수 있고, 개별 사용자의 입 모양의 변화를 추적할 수 있다. 후술할 단계 140에서, 개별 사용자의 입 모양의 변화를 추적한 결과에 기초하여 복수의 사용자들의 상태를 판단할 수 있다.
영상 시퀀스에 포함되는 복수의 사용자들을 인식하는 것과 관련된 보다 상세한 사항은 도 2를 통하여 후술한다.
서버는 획득한 오디오 시퀀스로부터 음성 신호를 추출한다(130). 구체적으로, 서버는 오디오 시퀀스로부터 특징 벡터를 획득하고, 특징 벡터에 기초하여 오디오 시퀀스를 음성 구간 또는 비 음성 구간으로 분류할 수 있다. 오디오 시퀀스를 분류한 결과에 기초하여, 서버는 오디오 시퀀스 내 음성 구간에 해당하는 신호를 음성 신호로 추출할 수 있다. 특징 벡터는 오디오 시퀀스의 주파수, 에너지(Energy), 및 MFCC(Mel Frequency Ceptral Coefficient) 중 적어도 하나에 기초하여 결정되는 벡터일 수 있다(MFCC는 획득한 신호로부터 소리의 특징을 추출하는 기법의 일 예시이다). 예를 들어, 특징 벡터는 오디오 시퀀스의 에너지의 시간에 따른 변화량일 수 있다.
서버는 복수의 사용자들의 상태 및 음성 신호의 특성에 기초하여, 복수의 사용자들 중 음성 신호의 화자를 판단한다(140). 서버는 복수의 사용자들의 입 모양의 변화를 추적하고, 입의 모양 변화에 기초한 발화 가능성에 따라 복수의 사용자들의 상태를 결정할 수 있다. 일실시예에 따르면, 서버는 복수의 사용자들의 입들이 미리 정해진 시간 이상 계속하여 모양이 변화하는지 여부를 판단함으로써 복수의 사용자들의 상태를 '화자 후보' 또는 '청취자' 중 어느 하나로 결정할 수 있다.
복수의 사용자들의 상태를 결정하는 것과 관련된 보다 상세한 사항은 도 4를 통하여 후술한다.
음성 신호의 특성은 음성 신호의 주파수와 관련된 정보를 포함할 수 있다. 음성 신호의 주파수와 관련된 정보는 음성 신호의 주파수 대역, 음성 신호의 주파수 파형, 및 음성 신호의 피크 값에 대응되는 주파수 중 적어도 하나를 포함할 수 있다. 예를 들어, 음성 신호의 주파수 대역이 100Hz 이상 300Hz 미만의 범위를 포함하고, 피크 값에 대응되는 주파수는 220Hz이며, 전체적으로 원만한 곡선 형태의 주파수 파형을 보이는 경우, 이들 중 일부 또는 전부는 주파수와 관련된 정보에 포함될 수 있다.
서버는 복수의 사용자들의 상태에 기초하여, 음성 신호의 화자 후보의 목록을 결정할 수 있다. 음성 신호의 화자 후보의 목록은 영상 시퀀스의 시간 범위의 일부 또는 전부에 관련하여 결정될 수 있다. 서버는 음성 신호의 특성에 기초하여, 음성 신호의 화자가 복수인지 여부를 판단할 수 있다. 일실시예에 따르면, 특정 시점에서 음성 신호의 특성이 복수의 주파수 대역에 관련된 정보를 포함하는 경우, 해당 시점에서 복수의 화자가 동시에 발언하였다고 판단할 수 있다. 음성 신호의 화자가 복수인지 여부에 따라 서버에서 음성 신호의 화자를 판단하는 동작이 달라질 수 있다.
음성 신호의 화자를 판단하는 것과 관련된 보다 상세한 사항은 도 3을 통하여 후술한다.
서버는 음성 신호의 화자를 판단한 결과에 기초하여, 음성 신호를 제공할 수 있다(150). 예를 들어, 서버는 영상 시퀀스에 포함된 복수의 사용자들 중 화자에 해당하는 사용자를 청취자에 해당하는 사용자와 구별되도록 표시하면서 음성 신호를 재생하도록, 단말을 제어할 수 있다.
일 실시예에 따르면, 서버는 음성 신호에 포함된 정보를 하나 이상의 텍스트로 변환하고, 영상 시퀀스에 포함되는 복수의 사용자들 중 음성 신호에 대응하는 하나 이상의 화자에 인접하여 해당하는 텍스트를 표시하도록, 단말을 제어할 수 있다. 텍스트는 음성 신호를 인식한 결과일 수 있고, 텍스트는 음성 신호의 언어로 표시될 수 있다.
일실시예에 따르면, 음성 신호는 해당 음성 신호의 번역 결과(예를 들어, 번역문 텍스트 등)와 함께 제공될 수 있다. 번역의 대상이 되는 언어는 다양한 방식으로 미리 설정될 수 있다. 예를 들어, 번역의 대상이 되는 언어는 사용자 단말의 기본 언어 설정에 기초하여 설정되거나, 혹은 사용자의 입력에 의하여 설정될 수 있다.
서버는 음성 신호에 포함된 정보를 하나 이상의 텍스트로 변환하고, 변환된 텍스트를 번역의 대상이 되는 언어로 번역한 뒤, 번역된 텍스트를 음성 신호에 대응하는 하나 이상의 화자에 인접하여 표시하도록, 단말을 제어할 수 있다. 서버는 음성 신호를 인식한 텍스트를 실시간으로 번역함으로써, 사용자에게 동시 번역 서비스를 제공할 수 있다.
또한, 서버는 번역된 텍스트를 번역의 대상이 되는 언어의 음성 신호로 변환하고, 음성 신호 대신 변환된 음성 신호를 재생하도록 단말을 제어할 수 있다.
음성 신호를 제공하는 것과 관련된 보다 상세한 사항은 도 6을 통하여 후술한다.
도 2는 일실시예에 따른 영상 시퀀스에 포함되는 복수의 사용자들을 인식하는 방법을 설명하기 위한 도면이다. 도 2에서 설명되는 방법은 도 1의 단계 120에 대응될 수 있다.
도 2를 참조하면, 서버는 획득한 영상 시퀀스에 포함되는 복수의 사용자들을 인식한다. 서버는 영상 시퀀스에 포함되는 복수의 얼굴을 인식함으로써 복수의 사용자들을 인식할 수 있다. 복수의 사용자들을 인식하는 방법은 복수의 사용자들의 얼굴의 특징이 서버의 메모리에 미리 저장되어 있는지 여부에 따라서 달라질 수 있다. 일실시예에 따르면, 복수의 사용자들의 얼굴의 특징이 서버의 메모리에 미리 저장되어 있는 경우, 서버는 영상 시퀀스에 포함된 하나 이상의 얼굴의 형태를 검출하고, 검출된 하나 이상의 얼굴의 형태를 정렬하고, 하나 이상의 얼굴의 형태에 포함된 하나 이상의 얼굴의 특징을 추출하고, 영상 시퀀스에 포함된 하나 이상의 얼굴의 형태에 포함된 얼굴의 특징과 미리 저장된 복수의 사용자들의 얼굴의 특징을 비교함으로써 복수의 사용자들을 인식할 수 있다. 다른 실시예에 따르면, 복수의 사용자들의 얼굴의 특징이 서버의 메모리에 미리 저장되어 있지 않은 경우, 서버는 영상 시퀀스에 포함된 하나 이상의 얼굴의 형태를 검출하고, 검출된 하나 이상의 얼굴의 형태를 정렬하고, 정렬된 하나 이상의 얼굴의 형태를 개별적으로 명명할 수 있다. 예를 들어, 검출된 네 개의 얼굴의 형태를 정렬한 경우, 정렬한 네 개의 얼굴의 형태에 대응되는 네 명의 사용자들을 순서대로 사용자 1, 사용자 2, 사용자 3, 및 사용자 4로 명명할 수 있다.
서버는 인식된 복수의 얼굴에 기초하여, 영상 시퀀스에 포함되는 개별 사용자의 입 모양을 인식할 수 있다. 서버는 입 모양을 인식한 결과에 기초하여, 시간에 따른 개별 사용자의 입 모양의 변화를 추적할 수 있다. 입의 모양 변화에 기초한 발화 가능성에 따라, 서버는 복수의 사용자들의 상태를 결정할 수 있다.
복수의 사용자들의 상태를 결정하는 것과 관련된 보다 상세한 사항은 도 4를 통하여 후술한다.
도 3은 일실시예에 따른 복수의 사용자들의 상태 및 음성 신호의 특성에 기초하여 복수의 사용자들 중 음성 신호의 화자를 판단하기 위한 동작을 설명하기 위한 동작 흐름도이다. 도 3에 도시된 동작들은 도 1의 단계 140에 대응될 수 있다.
도 3을 참조하면, 서버는 복수의 사용자들의 상태에 기초하여, 음성 신호의 화자 후보의 목록을 결정할 수 있다(310). 복수의 사용자들의 상태는 복수의 사용자들의 입 모양의 변화를 추적하고, 입의 모양 변화에 기초한 발화 가능성에 따라 결정될 수 있다. 서버는 복수의 사용자들의 입들이 미리 정해진 시간 이상 계속하여 모양이 변화하는지 여부를 판단함으로써 복수의 사용자들의 상태를 '화자 후보' 또는 '청취자' 중 어느 하나로 결정할 수 있다. 서버는 복수의 사용자들의 상태에 기초하여, 음성 신호의 화자 후보의 목록을 결정할 수 있다. 음성 신호의 화자 후보의 목록은 영상 시퀀스의 시간 범위의 일부 또는 전부에 관련하여 결정될 수 있다.
복수의 사용자들의 상태를 결정하는 것과 관련된 보다 상세한 사항은 도 4를 통하여 후술한다.
서버는 음성 신호의 특성에 기초하여 음성 신호의 화자가 복수인지 여부를 판단할 수 있다(320). 음성 신호의 특성은 음성 신호의 주파수와 관련된 정보를 포함할 수 있다. 음성 신호의 주파수와 관련된 정보는 음성 신호의 주파수 대역, 음성 신호의 주파수 파형, 및 음성 신호의 피크 값에 대응되는 주파수 중 적어도 하나를 포함할 수 있다. 일실시예에 따르면, 특정 시점에서 음성 신호의 특성이 복수의 주파수 대역에 관련된 정보를 포함하는 경우, 해당 시점에서 복수의 화자가 동시에 말을 하고 있다고 판단할 수 있다.
음성 신호의 화자가 복수로 판단되는 경우, 서버는 주파수에 관련된 정보를 포함하는 음성 신호의 특성에 기초하여 음성 신호를 분리할 수 있다(340). 예를 들어, 음성 신호의 특성이 세 개의 서로 겹치지 않는 주파수 대역에 관련된 정보를 포함하는 경우, 주파수 대역별로 음성 신호를 분리할 수 있다.
미리 저장된 복수의 사용자들의 음성들의 특성들에 기초하여, 서버는 화자 후보의 음성들의 특성들과 분리된 음성 신호들의 특성들을 비교할 수 있다(350). 비교 결과에 기초하여, 서버는 화자 후보의 목록에서 복수의 분리된 음성 신호들의 화자들을 결정할 수 있다(360). 복수의 사용자들의 음성들의 특성들은 복수의 사용자들이 발성하는 음성들의 고유한 주파수에 관련된 정보들을 포함할 수 있다. 일실시예에 따르면, 화자 후보들이 발성하는 음성들의 고유한 피크 값들에 대응되는 주파수들과 분리된 음성 신호들의 피크 값들에 대응되는 주파수들을 비교함으로써, 서버는 화자 후보의 목록에서 복수의 분리된 음성 신호들의 화자들을 결정할 수 있다. 예를 들어, 음성 신호가 n개로 분리되었을 때, 분리된 음성 신호들의 피크 값들에 대응하는 주파수들을 a 1 , a 2 , …, a n 으로 둘 수 있고, 화자 후보들이 m명일 때, 화자 후보들이 발성하는 음성들의 고유한 피크 값들에 대응되는 주파수들을 각각 b 1 , b 2 , …, b m 으로 둘 수 있다. 이 경우,
Figure pat00001
의 값이 최소가 되도록 하는 집합
Figure pat00002
을 결정할 수 있다. 결정된 집합
Figure pat00003
와 관련하여,
Figure pat00004
를 음성의 특성으로써 포함하는 화자 후보가 a k 를 음성 신호의 특성으로써 포함하는 분리된 음성 신호의 화자로 결정될 수 있다(단, x 1 , x 2 , …, x n 의 값은 모두 다를 수 있고, 집합
Figure pat00005
은 집합
Figure pat00006
에 포함되는 집합일 수 있다).
음성 신호의 화자가 단수로 판단되는 경우, 미리 저장된 복수의 사용자들의 음성들의 특성들에 기초하여, 서버는 화자 후보의 음성의 특성과 음성 신호의 특성을 비교할 수 있다(370). 비교 결과에 기초하여, 서버는 화자 후보의 목록에서 음성 신호의 화자를 결정할 수 있다(380). 앞서 설명하였듯이, 복수의 사용자들의 음성들의 특성들은 복수의 사용자들이 발성하는 음성들의 고유한 주파수에 관련된 정보들을 포함할 수 있다. 일실시예에 따르면, 화자 후보들이 발성하는 음성들의 고유한 피크 값들에 대응되는 주파수들과 음성 신호의 피크 값에 대응되는 주파수를 비교함으로써, 음성 신호에 대응되는 화자 후보를 결정할 수 있다. 예를 들어, 음성 신호의 피크 값에 대응하는 주파수를 a로 둘 수 있고, 화자 후보들이 m명일 때, 화자 후보들이 발성하는 음성들의 고유한 피크 값들에 대응되는 주파수들을 각각 b 1 , b 2 , …, b m 으로 둘 수 있다. 이 경우,
Figure pat00007
의 값이 최소가 되도록 하는 b x 를 결정할 수 있다. 결정된 b x 와 관련하여, b x 를 음성의 특성으로써 포함하는 화자 후보가 음성 신호의 화자로 결정될 수 있다(단, x는 1 이상 m 이하의 자연수 값을 가질 수 있다).
복수의 사용자들의 음성들의 특성들과 관련된 보다 상세한 사항은 도 5를 통하여 후술한다.
도 4는 일실시예에 따른 복수의 사용자들의 상태를 판단한 결과의 예시도이다.
도 4를 참조하면, 복수의 사용자들의 입의 모양 변화를 추적하고, 입의 모양 변화에 기초한 발화 가능성에 따라 복수의 사용자들의 상태를 결정할 수 있다.
일실시예에 따르면, 서버는 복수의 사용자들의 입들이 미리 정해진 시간 이상 계속하여 모양이 변화하는지 여부를 판단함으로써 복수의 사용자들의 상태를 '화자 후보' 또는 '청취자' 중 어느 하나로 결정할 수 있다. 예를 들어, 복수의 사용자들 중 한 명인 제1 사용자가 3초 이상 계속하여 입을 움직이는 경우, 서버는 제1 사용자를 해당 시점에서의 화자 후보로 결정할 수 있다.
복수의 사용자들의 상태를 판단한 결과는 영상 시퀀스에 포함되는 복수의 사용자의 얼굴에 인접하여 표시될 수 있다. 예를 들어, 특정 시점에서 제2 사용자 및 제3 사용자가 미리 정해진 시간 이상 계속하여 입을 움직이지 않은 경우, 제2 사용자 및 제3 사용자는 청취자로 판단될 수 있다. 이 경우, 영상 시퀀스에 포함되는 제2 사용자의 얼굴 및 제3 사용자의 얼굴에 인접하여 제2 사용자 및 제3 사용자가 청취자임을 표시할 수 있다(410). 반면, 제1 사용자가 미리 정해진 시간 이상 계속하여 입을 움직인 경우, 제1 사용자는 화자 후보로 판단될 수 있다. 이 경우, 영상 시퀀스에 포함되는 제1 사용자의 얼굴에 인접하여 제1 사용자가 화자 후보임을 표시할 수 있다(420).
도 5는 일실시예에 따른 복수의 사용자들의 음성들의 특성들을 설명하기 위한 도면이다.
도 5를 참조하면, 복수의 사용자들 각각의 음성들의 특성들은 복수의 사용자들이 발성하는 음성들의 고유한 주파수에 관련된 정보들을 포함할 수 있다. 복수의 사용자들 각각의 음성들의 특성들은 서버의 메모리에 미리 저장되어 있을 수 있다.
각각의 사용자가 발성하는 음성의 고유한 주파수에 관련된 정보는 음성 신호의 주파수 대역, 음성 신호의 주파수 파형, 및 음성 신호의 피크 값에 대응되는 주파수 중 적어도 하나를 포함할 수 있다. 음성의 고유한 주파수에 관련된 정보는 다양한 요소에 의하여 영향을 받을 수 있다. 다양한 요소는 성별 및 언어 등을 포함할 수 있다. 다만, 음성의 고유한 주파수에 관련된 정보가 예시된 요소들로 한정되는 것은 아니며, 음성의 고유한 주파수에 관련된 정보는 예시된 요소들 이외에 다른 요소들을 더 포함할 수 있다.
그래프 (a), (b), 및 (c)는 주파수(Hz)를 가로축 값으로, 음성 신호의 세기를 푸리에 변환한 값(FFT Coefficient Magnitude)을 세로축 값으로 하여 도시된 그래프이다. 일실시예에 따르면, 음성의 고유한 주파수에 관련된 정보는 성별에 따라서 달라질 수 있다(a). 일 예시로써, 여성의 음성 신호(510)의 주파수 대역은 남성의 음성 신호(520)의 주파수 대역에 비하여 평균적으로 더 높은 주파수 범위를 포함할 수 있다. 다른 예시로써, 여성의 음성 신호(510)의 피크 값에 대응되는 주파수는 남성의 음성 신호(520)의 피크 값에 대응되는 주파수에 비하여 평균적으로 더 높을 수 있다. 또 다른 예시로써, 여성의 음성 신호(510)의 주파수 파형과 남성의 음성 신호(520)의 주파수 파형은 상이할 수 있는데, 이를테면 여성의 음성 신호(510)의 주파수 파형은 한 번의 주요한 상승 및 하락 곡선이 나타날 수 있는 반면 남성의 음성 신호(520)의 주파수 파형은 두 번의 주요한 상승 및 하락 곡선이 나타날 수 있다.
다른 실시예에 따르면, 음성의 고유한 주파수에 관련된 정보는 언어에 따라서 달라질 수 있다(b, c). 일 예시로써, 영어를 사용하는 집단의 음성 신호(530, 560)의 주파수 파형, 스페인어를 사용하는 집단의 음성 신호(540, 570)의 주파수 파형, 및 러시아어를 사용하는 집단의 음성 신호(550, 580)의 주파수 파형은 각각 상이할 수 있다.
도 6은 일실시예에 따른 음성 신호를 제공한 결과의 예시도이다. 도 6에 도시된 결과는 도 1의 단계 150을 수행한 결과에 대응될 수 있다.
도 6을 참조하면, 서버는 음성 신호의 화자를 판단한 결과에 기초하여, 음성 신호를 제공할 수 있다. 일실시예에 따르면, 서버는 음성 신호에 포함된 정보를 하나 이상의 텍스트로 변환하고, 영상 시퀀스에 포함되는 복수의 사용자들 중 음성 신호에 대응하는 하나 이상의 화자의 얼굴에 인접하여 하나 이상의 텍스트를 표시할 수 있다.
예를 들어, 특정 시간 범위에서 영상 시퀀스에 세 명의 사용자들이 포함될 수 있고, 특정 시간 범위에서 음성 신호의 특성에 따라 음성 신호가 두 개로 분리될 수 있으며, 미리 설정된 언어는 한국어일 수 있다. 첫 번째 분리된 음성 신호에 포함된 정보를 텍스트로 변환한 결과는 "배가 고프다"(610)일 수 있다. 두 번째 분리된 음성 신호에 포함된 정보를 텍스트로 변환한 결과는 "I want to have a meal"(620)일 수 있다. 또한, 첫 번째 분리된 음성 신호에 대응하는 화자는 영상 시퀀스에 포함되는 복수의 사용자들 중 가장 왼쪽에 위치한 사람으로 판단될 수 있으며, 두 번째 분리된 음성 신호에 대응하는 화자는 영상 시퀀스에 포함되는 복수의 사용자들 중 중앙에 위치한 사람으로 판단될 수 있다. 서버는 한국어로 표현된 문장 "배가 고프다"(610)를 영상 시퀀스에 포함되는 복수의 사용자들 중 가장 왼쪽에 위치한 사람의 얼굴에 인접하여 표시할 수 있다. 서버는 영어로 표현된 문장 "I want to have a meal"(620)을 한국어로 번역한 결과인 문장 "식사를 하고 싶다"(620)를 영상 시퀀스에 포함되는 복수의 사용자들 중 중간에 위치한 사람의 얼굴에 인접하여 표시할 수 있다.
도 1 내지 도 6을 통하여 전술한 방법들의 전부 또는 일부는 서버와 연동하는 단말에 의하여 수행될 수 있다. 일실시예에 따르면, 도 1에 도시된 데이터를 획득하는 단계(110), 복수의 사용자들을 인식하는 단계(120), 음성 신호를 추출하는 단계(130), 복수의 사용자들 중 음성 신호의 화자를 판단하는 단계(140), 및 음성 신호를 제공하는 단계(150) 전부가 단말에 의하여 수행될 수 있다. 다른 실시예에 따르면, 도 1에 도시된 데이터를 획득하는 단계(110), 복수의 사용자들을 인식하는 단계(120), 음성 신호를 추출하는 단계(130), 복수의 사용자들 중 음성 신호의 화자를 판단하는 단계(140), 및 음성 신호를 제공하는 단계(150) 중 일부는 서버에 의하여 수행되고, 나머지 일부는 단말에 의하여 수행될 수 있다. 서버와 단말은 각각의 단계를 수행하기 위하여 필요한 정보를 상호간에 교환할 수 있다.
도 7은 일실시예에 따른 실시간 화자 판단을 수행하는 장치의 구성의 예시도이다.
도 7을 참조하면, 실시간 화자 판단을 수행하는 장치(710)는 서버 혹은 단말일 수 있다. 장치(710)는 프로세서(720) 및 메모리(730)를 포함한다. 프로세서(720)는 도 1 내지 도 6을 통하여 전술한 적어도 하나의 방법들을 수행할 수 있다. 메모리(730)는 복수의 사용자들의 얼굴들의 특징들, 복수의 사용자들의 인적 정보들, 및 복수의 사용자들의 음성들의 특성들 중 적어도 하나를 저장하거나 실시간 화자 판단을 수행하는 방법이 구현된 프로그램을 저장할 수 있다. 메모리(730)는 휘발성 메모리 또는 비휘발성 메모리일 수 있다.
프로세서(720)는 프로그램을 실행하고, 실시간 화자 판단을 수행하는 장치(710)를 제어할 수 있다. 프로세서(720)에 의하여 실행되는 프로그램의 코드는 메모리(730)에 저장될 수 있다. 실시간 화자 판단을 수행하는 장치(710)는 입출력 장치(도면 미 표시)를 통하여 외부 장치에 연결되고, 데이터를 교환할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (23)

  1. 서버 및 단말을 포함하는 화자 판단 시스템에서 상기 서버의 동작 방법에 있어서,
    상기 단말로부터, 영상 시퀀스 및 오디오 시퀀스를 포함하는 데이터를 획득하는 단계;
    상기 영상 시퀀스에 포함되는 복수의 사용자들을 인식하는 단계;
    상기 오디오 시퀀스로부터 음성 신호를 추출하는 단계;
    상기 복수의 사용자들의 상태 및 상기 음성 신호의 특성에 기초하여, 상기 복수의 사용자들 중 상기 음성 신호의 화자를 판단하는 단계; 및
    상기 판단 결과에 기초하여, 상기 음성 신호를 상기 단말로 제공하는 단계
    를 포함하는, 서버의 데이터 처리 방법.
  2. 제1항에 있어서,
    상기 음성 신호의 화자를 판단하는 단계는
    상기 복수의 사용자들의 상태에 기초하여, 상기 음성 신호의 화자 후보의 목록을 결정하는 단계; 및
    상기 음성 신호의 특성에 기초하여, 상기 화자 후보의 목록에서 상기 음성 신호의 화자를 선택하는 단계
    를 포함하는, 서버의 데이터 처리 방법.
  3. 제2항에 있어서,
    상기 음성 신호의 화자를 선택하는 단계는
    상기 음성 신호의 특성에 기초하여, 상기 음성 신호의 화자가 복수인지 여부를 판단하는 단계; 및
    상기 음성 신호의 화자가 복수인지 여부에 기초하여, 상기 화자 후보의 목록에서 상기 음성 신호의 화자를 선택하는 단계
    를 포함하는, 서버의 데이터 처리 방법.
  4. 제1항에 있어서,
    상기 음성 신호의 화자가 단수로 판단되는 경우,
    상기 음성 신호의 화자를 판단하는 단계는
    미리 저장된 복수의 사용자들 중 화자 후보의 음성들의 특성들과 상기 음성 신호의 특성을 비교하는 단계; 및
    상기 비교 결과에 기초하여, 상기 화자 후보의 목록에서 상기 음성 신호의 화자를 결정하는 단계
    를 포함하는, 서버의 데이터 처리 방법.
  5. 제1항에 있어서,
    상기 음성 신호의 화자가 복수로 판단되는 경우,
    상기 음성 신호의 화자를 판단하는 단계는
    상기 음성 신호를 상기 음성 신호의 특성에 따라 분리하는 단계;
    상기 복수의 사용자들 중 화자 후보들의 음성들의 특성들과 상기 분리된 음성 신호들의 특성들을 비교하는 단계; 및
    상기 비교 결과에 기초하여, 상기 화자 후보의 목록에서 상기 복수의 분리된 음성 신호들의 화자들을 결정하는 단계
    를 포함하는, 서버의 데이터 처리 방법.
  6. 제1항에 있어서,
    상기 복수의 사용자들의 상태는
    상기 복수의 사용자들의 입의 모양 변화에 기초한 발화 가능성에 따라 결정되는, 서버의 데이터 처리 방법.
  7. 제1항에 있어서,
    상기 음성 신호의 특성은
    상기 음성 신호의 주파수에 관련된 정보
    를 포함하는, 서버의 데이터 처리 방법.
  8. 제1항에 있어서,
    상기 음성 신호를 추출하는 단계는
    상기 오디오 시퀀스로부터 특징 벡터를 획득하는 단계;
    상기 특징 벡터에 기초하여 상기 오디오 시퀀스를 음성 구간 또는 비 음성 구간으로 분류하는 단계; 및
    상기 오디오 시퀀스 내 상기 음성 구간에 해당하는 신호를 상기 음성 신호로 추출하는 단계
    를 포함하는, 서버의 데이터 처리 방법.
  9. 제1항에 있어서,
    상기 복수의 사용자들을 인식하는 단계는
    상기 복수의 사용자들의 얼굴을 인식하는 단계; 및
    상기 인식된 얼굴에 기초하여, 개별 사용자의 입 모양의 변화를 추적하는 단계
    를 포함하는, 서버의 데이터 처리 방법.
  10. 제1항에 있어서,
    상기 음성 신호를 제공하는 단계는
    상기 음성 신호에 포함된 정보를 하나 이상의 텍스트로 변환하는 단계; 및
    상기 영상 시퀀스에 포함되는 상기 복수의 사용자들 중 상기 음성 신호에 대응하는 하나 이상의 상기 화자의 얼굴에 인접하여 상기 하나 이상의 텍스트를 표시하도록 상기 단말을 제어하는 단계
    를 포함하는, 서버의 데이터 처리 방법.
  11. 제1항에 있어서,
    상기 음성 신호를 제공하는 단계는
    상기 음성 신호에 포함된 정보를 하나 이상의 텍스트로 변환하는 단계;
    상기 하나 이상의 텍스트를 미리 설정된 대상 언어로 번역하는 단계; 및
    상기 영상 시퀀스에 포함되는 상기 복수의 사용자들 중 상기 음성 신호에 대응하는 하나 이상의 상기 화자의 얼굴에 인접하여 상기 번역된 텍스트를 표시하도록 상기 단말을 제어하는 단계
    를 포함하는, 서버의 데이터 처리 방법.
  12. 영상 시퀀스 및 오디오 시퀀스를 포함하는 데이터를 획득하는 단계;
    상기 영상 시퀀스에 포함되는 복수의 사용자들을 인식하는 단계;
    상기 오디오 시퀀스로부터 음성 신호를 추출하는 단계;
    상기 복수의 사용자들의 상태 및 상기 음성 신호의 특성에 기초하여, 상기 복수의 사용자들 중 상기 음성 신호의 화자를 판단하는 단계; 및
    상기 판단 결과에 기초하여, 상기 음성 신호를 제공하는 단계
    를 포함하는, 단말의 데이터 처리 방법.
  13. 제12항에 있어서,
    상기 음성 신호의 화자를 판단하는 단계는
    상기 복수의 사용자들의 상태에 기초하여, 상기 음성 신호의 화자 후보의 목록을 결정하는 단계; 및
    상기 음성 신호의 특성에 기초하여, 상기 화자 후보의 목록에서 상기 음성 신호의 화자를 선택하는 단계
    를 포함하는, 단말의 데이터 처리 방법.
  14. 제13항에 있어서,
    상기 음성 신호의 화자를 선택하는 단계는
    상기 음성 신호의 특성에 기초하여, 상기 음성 신호의 화자가 복수인지 여부를 판단하는 단계; 및
    상기 음성 신호의 화자가 복수인지 여부에 기초하여, 상기 화자 후보의 목록에서 상기 음성 신호의 화자를 선택하는 단계
    를 포함하는, 단말의 데이터 처리 방법.
  15. 제12항에 있어서,
    상기 음성 신호의 화자가 단수로 판단되는 경우,
    상기 음성 신호의 화자를 판단하는 단계는
    미리 저장된 복수의 사용자들 중 화자 후보의 음성들의 특성들과 상기 음성 신호의 특성을 비교하는 단계; 및
    상기 비교 결과에 기초하여, 상기 화자 후보의 목록에서 상기 음성 신호의 화자를 결정하는 단계
    를 포함하는, 단말의 데이터 처리 방법.
  16. 제12항에 있어서,
    상기 음성 신호의 화자가 복수로 판단되는 경우,
    상기 음성 신호의 화자를 판단하는 단계는
    상기 음성 신호를 상기 음성 신호의 특성에 따라 분리하는 단계;
    상기 복수의 사용자들 중 화자 후보들의 음성들의 특성들과 상기 분리된 음성 신호들의 특성들을 비교하는 단계; 및
    상기 비교 결과에 기초하여, 상기 화자 후보의 목록에서 상기 복수의 분리된 음성 신호들의 화자들을 결정하는 단계
    를 포함하는, 단말의 데이터 처리 방법.
  17. 제12항에 있어서,
    상기 복수의 사용자들의 상태는
    상기 복수의 사용자들의 입의 모양 변화에 기초한 발화 가능성에 따라 결정되는, 단말의 데이터 처리 방법.
  18. 제12항에 있어서,
    상기 음성 신호의 특성은
    상기 음성 신호의 주파수에 관련된 정보
    를 포함하는, 단말의 데이터 처리 방법.
  19. 제12항에 있어서,
    상기 음성 신호를 추출하는 단계는
    상기 오디오 시퀀스로부터 특징 벡터를 획득하는 단계;
    상기 특징 벡터에 기초하여 상기 오디오 시퀀스를 음성 구간 또는 비 음성 구간으로 분류하는 단계; 및
    상기 오디오 시퀀스 내 상기 음성 구간에 해당하는 신호를 상기 음성 신호로 추출하는 단계
    를 포함하는, 단말의 데이터 처리 방법.
  20. 제12항에 있어서,
    상기 복수의 사용자들을 인식하는 단계는
    상기 복수의 사용자들의 얼굴을 인식하는 단계; 및
    상기 인식된 얼굴에 기초하여, 개별 사용자의 입 모양의 변화를 추적하는 단계
    를 포함하는, 단말의 데이터 처리 방법.
  21. 제12항에 있어서,
    상기 음성 신호를 제공하는 단계는
    상기 음성 신호에 포함된 정보를 하나 이상의 텍스트로 변환하는 단계; 및
    상기 영상 시퀀스에 포함되는 상기 복수의 사용자들 중 상기 음성 신호에 대응하는 하나 이상의 상기 화자의 얼굴에 인접하여 상기 하나 이상의 텍스트를 표시하는 단계
    를 포함하는, 단말의 데이터 처리 방법.
  22. 제12항에 있어서,
    상기 음성 신호를 제공하는 단계는
    상기 음성 신호에 포함된 정보를 하나 이상의 텍스트로 변환하는 단계;
    상기 하나 이상의 텍스트를 미리 설정된 대상 언어로 번역하는 단계; 및
    상기 영상 시퀀스에 포함되는 상기 복수의 사용자들 중 상기 음성 신호에 대응하는 하나 이상의 상기 화자의 얼굴에 인접하여 상기 번역된 텍스트를 표시하는 단계
    를 포함하는, 단말의 데이터 처리 방법.
  23. 하드웨어와 결합되어 제1항 내지 제22항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.

KR1020180165089A 2018-12-19 2018-12-19 실시간 화자 판단 방법 KR20200083685A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180165089A KR20200083685A (ko) 2018-12-19 2018-12-19 실시간 화자 판단 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180165089A KR20200083685A (ko) 2018-12-19 2018-12-19 실시간 화자 판단 방법

Publications (1)

Publication Number Publication Date
KR20200083685A true KR20200083685A (ko) 2020-07-09

Family

ID=71602381

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180165089A KR20200083685A (ko) 2018-12-19 2018-12-19 실시간 화자 판단 방법

Country Status (1)

Country Link
KR (1) KR20200083685A (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102248687B1 (ko) * 2020-09-09 2021-05-06 주식회사 퍼즐에이아이 음성 기술을 이용한 원격 진료 시스템 및 방법
CN113660537A (zh) * 2021-09-28 2021-11-16 北京七维视觉科技有限公司 一种字幕生成方法和装置
CN113660536A (zh) * 2021-09-28 2021-11-16 北京七维视觉科技有限公司 一种字幕显示方法和装置
WO2022065934A1 (ko) * 2020-09-28 2022-03-31 주식회사 아모센스 음성 처리 장치 및 이의 작동 방법
WO2022092790A1 (ko) * 2020-10-28 2022-05-05 주식회사 아모센스 음성을 처리할 수 있는 모바일 단말기 및 이의 작동 방법
WO2022115803A1 (en) * 2020-11-30 2022-06-02 The Regents Of The University Of California Systems and methods for sound-enhanced meeting platforms
WO2024005482A1 (ko) * 2022-06-30 2024-01-04 삼성전자 주식회사 동영상에 포함된 객체별로 음원을 매칭시키는 방법 및 이를 수행하기 위한 컴퓨팅 장치

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102248687B1 (ko) * 2020-09-09 2021-05-06 주식회사 퍼즐에이아이 음성 기술을 이용한 원격 진료 시스템 및 방법
WO2022065934A1 (ko) * 2020-09-28 2022-03-31 주식회사 아모센스 음성 처리 장치 및 이의 작동 방법
WO2022092790A1 (ko) * 2020-10-28 2022-05-05 주식회사 아모센스 음성을 처리할 수 있는 모바일 단말기 및 이의 작동 방법
WO2022115803A1 (en) * 2020-11-30 2022-06-02 The Regents Of The University Of California Systems and methods for sound-enhanced meeting platforms
CN113660537A (zh) * 2021-09-28 2021-11-16 北京七维视觉科技有限公司 一种字幕生成方法和装置
CN113660536A (zh) * 2021-09-28 2021-11-16 北京七维视觉科技有限公司 一种字幕显示方法和装置
WO2024005482A1 (ko) * 2022-06-30 2024-01-04 삼성전자 주식회사 동영상에 포함된 객체별로 음원을 매칭시키는 방법 및 이를 수행하기 위한 컴퓨팅 장치

Similar Documents

Publication Publication Date Title
KR20200083685A (ko) 실시간 화자 판단 방법
Kolbæk et al. Multitalker speech separation with utterance-level permutation invariant training of deep recurrent neural networks
US10621991B2 (en) Joint neural network for speaker recognition
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
Boles et al. Voice biometrics: Deep learning-based voiceprint authentication system
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
Larcher et al. Text-dependent speaker verification: Classifiers, databases and RSR2015
CN112074901A (zh) 语音识别登入
Zmolikova et al. Neural target speech extraction: An overview
JP2017016131A (ja) 音声認識装置及び方法と電子装置
Minotto et al. Multimodal multi-channel on-line speaker diarization using sensor fusion through SVM
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
Yüncü et al. Automatic speech emotion recognition using auditory models with binary decision tree and svm
KR20200044388A (ko) 음성을 인식하는 장치 및 방법, 음성 인식 모델을 트레이닝하는 장치 및 방법
JP6985221B2 (ja) 音声認識装置及び音声認識方法
Wang et al. A network model of speaker identification with new feature extraction methods and asymmetric BLSTM
KR20240053639A (ko) 제한된 스펙트럼 클러스터링을 사용한 화자-턴 기반 온라인 화자 구분
KR20190093962A (ko) 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
KR20200023893A (ko) 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
Cuccovillo et al. Open challenges in synthetic speech detection
Trinh et al. Directly comparing the listening strategies of humans and machines
Wang Supervised speech separation using deep neural networks
Kadyrov et al. Speaker recognition from spectrogram images
KR101023211B1 (ko) 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법
Bear et al. Comparing heterogeneous visual gestures for measuring the diversity of visual speech signals

Legal Events

Date Code Title Description
AMND Amendment
X091 Application refused [patent]
AMND Amendment
E902 Notification of reason for refusal
X601 Decision of rejection after re-examination