KR102339594B1 - 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 - Google Patents

객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 Download PDF

Info

Publication number
KR102339594B1
KR102339594B1 KR1020197038790A KR20197038790A KR102339594B1 KR 102339594 B1 KR102339594 B1 KR 102339594B1 KR 1020197038790 A KR1020197038790 A KR 1020197038790A KR 20197038790 A KR20197038790 A KR 20197038790A KR 102339594 B1 KR102339594 B1 KR 102339594B1
Authority
KR
South Korea
Prior art keywords
information
voice
glottal
object recognition
target object
Prior art date
Application number
KR1020197038790A
Other languages
English (en)
Other versions
KR20200012963A (ko
Inventor
밍위안 장
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20200012963A publication Critical patent/KR20200012963A/ko
Application granted granted Critical
Publication of KR102339594B1 publication Critical patent/KR102339594B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

객체 인식 방법이 제공되며, 상기 객체 인식 방법은, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하는 단계; 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득하는 단계; 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 단계; 및 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득하는 단계를 포함한다.

Description

객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
본 출원은 2017년 10월 23일에 중국 국가 특허청에 제출되고 명칭이 "객체 인식 방법 및 디바이스, 저장 매체 및 단말"인 중국 특허 출원 번호 201710992605.7에 대한 우선권을 주장하는 바이며, 상기 특허 출원은 그 전체로서 원용에 의해 본 명세서에 포함된다.
본 출원은 컴퓨터 기술 분야, 특히 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.
과학과 기술의 지속적인 개발로 생체 인식 기술로서 점차 성숙해지도록 성문 인식(voiceprint recognition)이 개발되었다. 화자(speaker)는 성문 인식을 통해 복수의 화자로부터 식별될 수 있거나, 또는 음성(speech)에 대응하는 화자 신원(identity)은 음성의 성문 특징을 인식하는 것에 의해 결정될 수 있다. 예를 들어, 음성 인식 시스템의 기록 시스템은 성문을 사용하여 시나리오에서 모든 화자를 구별(예를 들어, 기록 시스템에서 성문 인식 기술을 사용하여 법원 재판 시나리오에서 판사와 죄수를 구별함)할 수 있다.
종래 기술에서, 성문 인식은 주로 음향 모델의 성문 특징(예를 들어, 억양, 방언, 리듬 및 비음(nasal sound))을 매칭하는 것에 의해 인식된다. 그러나, 성문 특징의 유사성이 비교적 높은 경우, 성문 매칭 결과의 차이가 비교적 작고 성문 매칭 결과에 따라 화자를 구별하기 어려운 상황이 발생하기 쉽다. 이는 성문 인식 결과의 정확성에 영향을 준다.
본 출원의 실시 예들에 따르면, 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체가 제공된다.
객체 인식 방법은 컴퓨터 디바이스에 의해 수행되고, 컴퓨터 디바이스는 메모리 및 프로세서를 포함하며, 상기 객체 인식 방법은,
현재의 음성 환경(speech environment)에서의 타깃 객체의 음성 정보(speech information) 및 상기 타깃 객체의 위치 정보를 획득하는 단계;
트레이닝된(trained) 성문(voiceprint) 매칭 모델에 기반하여 상기 음성 정보로부터 성문 특징을 추출하여, 상기 성문 특징 추출 후 상기 음성 정보에 대응하는 성문 특징 정보를 획득하는 단계;
상기 성문 특징 정보에 대응하는 보이스 신뢰도 값(voice confidence value)을 획득하는 단계; 및
상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 단계를 포함한다.
상기 컴퓨터 디바이스는 프로세서 및 메모리를 포함하고, 상기 메모리는 컴퓨터 판독 가능 명령을 저장하고, 상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가,
현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 작동;
트레이닝된 성문 매칭 모델에 기반하여 상기 음성 정보로부터 성문 특징을 추출하여, 상기 성문 특징 추출 후 상기 음성 정보에 대응하는 성문 특징 정보를 획득하는 작동;
상기 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 작동; 및
상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 작동을 수행하게 한다.
비휘발성 컴퓨터 판독 가능 저장 매체는 컴퓨터 판독 가능 명령을 저장하고, 하나 이상의 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가,
현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 작동;
트레이닝된 성문 매칭 모델에 기반하여 상기 음성 정보로부터 성문 특징을 추출하여, 상기 성문 특징 추출 후 상기 음성 정보에 대응하는 성문 특징 정보를 획득하는 작동;
상기 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 작동; 및
상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 작동을 수행하게 한다.
본 출원의 하나 이상의 실시 예의 세부 사항은 다음의 첨부 도면 및 설명에 개시되어 있다. 본 출원의 다른 특징, 목적 및 이점은 명세서, 첨부 도면 및 청구 범위로부터 명백해진다.
본 출원의 실시 예에서의 기술적 솔루션을 보다 명확하게 설명하기 위해, 다음은 실시 예에서 사용될 필요가 있는 첨부 도면을 간략하게 설명한다. 명백하게, 이하의 설명에서의 첨부 도면은 본 출원의 일부 실시 예를 도시하고, 당업자는 창조적 노력없이 이들 첨부 도면으로부터 다른 도면을 도출할 수 있다.
도 1은 본 출원의 실시 예에 따른 객체 인식 디바이스의 하드웨어 아키텍처의 개략도이다.
도 2는 본 출원의 실시 예에 따른 객체 인식 디바이스의 시스템 블록도이다.
도 3은 본 출원의 실시 예에 따른 객체 인식 방법의 개략적인 흐름도이다.
도 4는 본 출원의 실시 예에 따른 다른 객체 인식 방법의 개략적인 흐름도이다.
도 5는 본 출원의 실시 예에 따른 빔포밍 방식에 기반한 분리된 음성(speech) 디스플레이의 개략도이다.
도 6은 본 출원의 실시 예에 따른 다른 객체 인식 방법의 개략적인 흐름도이다.
도 7은 본 출원의 실시 예에 따른 다른 객체 인식 방법의 개략적인 흐름도이다.
도 8은 본 출원의 실시 예에 따른 다른 객체 인식 방법의 개략적인 흐름도이다.
도 9는 본 출원의 실시 예에 따른 객체 인식 디바이스의 개략적인 구조도이다.
도 10은 본 출원의 실시 예에 따른 다른 객체 인식 디바이스의 개략적인 구조도이다.
도 11은 본 출원의 실시 예에 따른 객체 정보 획득 모듈의 개략적인 구조도이다.
도 12는 본 출원의 실시 예에 따른 신뢰도 획득 모듈의 개략적인 구조도이다.
도 13은 본 출원의 실시 예에 따른 결과 획득 모듈의 개략적인 구조도이다.
도 14는 본 출원의 실시 예에 따른 제2 결과 획득 유닛의 개략적인 구조도이다.
도 15는 본 출원의 실시 예에 따른 단말의 개략적인 구조도이다.
다음은 본 출원의 실시 예에서의 첨부 도면을 참조하여 본 출원의 실시 예에서의 기술적 솔루션을 명확하고 완전하게 설명한다. 명백하게, 설명된 실시 예는 모든 실시 예가 아니라 본 출원의 일부 실시 예이다. 창조적 노력없이 본 출원의 실시 예들에 기반하여 당업자에 의해 획득된 다른 모든 실시 예들이 본 출원의 보호 범위 내에 속할 것이다.
본 출원의 실시 예에서 제공되는 객체 인식 방법은 다중 음원 환경(multi-sound source environment)에서 음원(sound source) 객체에 대한 성문 인식(voiceprint recognition)을 수행하여 타깃 객체를 식별하는 시나리오에 적용될 수 있다. 예를 들어, 객체 인식 디바이스는 현재 음성(speech) 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하고, 그 다음에 트레이닝된(tranined) 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하며, 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득하고, 최종적으로 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하며, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득한다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가된다.
본 출원의 실시 예에서의 객체 인식 디바이스는 태블릿 컴퓨터, 스마트 폰, 팜탑 컴퓨터, 모바일 인터넷 디바이스(mobile Internet device, MID) 및 마이크로폰 어레이를 통합할 수 있거나 마이크로폰 어레이에 의해 전송된 음원의 위치 정보를 수신할 수 있으면서 또한 성문 인식 기능을 갖는 다른 단말 디바이스일 수 있다. 객체 인식 디바이스의 하드웨어 구조는 도 1에 도시될 수 있다. 오디오 프로세서는 노이즈를 줄이고 방향을 찾도록(locate) 구성되고, 시스템 프로세서는 클라우드에 연결하고 성문 특징을 분석하도록 구성되며, 스토리지 시스템은 객체 인식 애플리케이션을 저장하도록 구성된다. 객체 인식 디바이스의 시스템 블록도가 도 2에 도시될 수 있다. 마이크로폰 어레이는 상이한 위치의 음원들에 대응하는 음성 정보를 인식하고 상이한 음원에 대한 각도 위치찾기(angle location)를 수행할 수 있다.
이하, 도 3 내지 도 8을 참조하여 본 출원의 실시 예들에서 제공되는 객체 인식 방법을 상세히 설명한다.
도 3은 본 출원의 실시 예에 따른 객체 인식 방법의 개략적인 흐름도이다. 도 3에 도시된 바와 같이, 일 실시 예에서, 객체 인식 방법은 다음 단계(S101) 내지 단계(S103)을 포함할 수 있다.
S101. 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득한다.
구체적으로, 객체 인식 디바이스는 마이크로폰 어레이를 기반으로 현재 음성 환경에서 타깃 객체의 음성 정보를 획득하고, 마이크로폰 어레이를 기반으로 타깃 객체의 위치 정보를 획득할 수 있다.
일 실시 예에서, 타깃 객체는 현재 음성 환경에서 유효한 음원 객체(예를 들어, 법원 재판 사건(court trial case) 동안 판사, 변호사, 피고, 또는 원고)일 수 있다. 객체 인식 디바이스에 의해 현재 음성 환경에서 획득된 음성 정보 세트 내의 음성 정보는 타깃 객체의 음성 정보일 수 있거나, 다른 불필요한 음성 정보(예를 들어, 법원 재판 사건 동안 법원에서 청중의 음성 정보 또는 다른 객체의 의한 노이즈)일 수 있다. 현재 음성 환경에서 음성 정보 세트를 획득한 후, 객체 인식 디바이스는 음성 정보 세트에 대해 스크리닝 처리(screening processing)를 수행하여 타깃 객체의 음성 정보를 획득할 수 있다.
일 실시 예에서, 마이크로폰 어레이는 복수의 마이크로폰을 사용하여 상이한 위치로부터 획득된 동일한 타깃 객체의 음성 정보를 획득할 수 있다. 복수의 마이크로폰이 마이크로폰 어레이에서 상이한 위치에 위치되기 때문에, 각각의 마이크로폰은 사운드(sound)의 볼륨(volume)에 따라 타깃 객체의 위상 정보를 획득하고, 획득된 위상 정보에 따라 빔포밍 방식으로 타깃 객체의 위치 정보를 계산(즉, 현재 음성 환경에서 타깃 객체의 위치 정보를 결정)할 수 있다.
S102. 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여, 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득한다.
구체적으로, 객체 인식 디바이스는 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출할 수 있다.
일 실시 예에서, 성문 매칭 모델은 미리 획득된 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 성문 트레이닝 음성에 대응하는 샘플 특징 정보가 트레이닝 알고리즘(예를 들어, 신경망 방법, 히든 마르코프(Hidden Markov)방법 또는 VQ 클러스터링 방법)을 사용하여 트레이닝된 후에 구축된 모델일 수 있다.
일 실시 예에서, 성문 트레이닝 음성 세트에서 음성에 대응하는 음성 취득자(speech acquirer)는 랜덤 실험 객체(random experimental object)일 수 있고, 특정 타깃 객체로 제한되지 않는다. 성문 트레이닝 음성에 대응하는 샘플 특징 정보는 성문 트레이닝 음성의 성문 특징 정보일 수 있다.
일 실시 예에서, 객체 인식 디바이스는 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득할 수 있다. 성문 특징 정보는 타깃 객체의 음성 정보에서 구별되는(distinctive) 특징 정보일 수 있고, 예를 들어 특징 정보는 스펙트럼, 캡스트럼(cepstrum), 조화 최대치(harmonic peak), 피치(pitch), 반사율(reflection ratio)과 같은 정보일 수 있음을 이해할 수 있다.
S103. 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득한다.
구체적으로, 객체 인식 디바이스는 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득할 수 있다. 보이스 신뢰도 값은 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰성(credibility)을 지시할(indicate) 수 있다는 것이 이해될 수 있다. 예를 들어, 보이스 신뢰도 값이 90%인 경우, 보이스 신뢰도 값에 대응하는 성문 특징 정보에 따라 인식된 타깃 객체의 신뢰도가 90%임을 나타낼 수 있다.
일 실시 예에서, 객체 인식 디바이스는 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜 가장 높은 특징 매칭 정도 값(matching degree value)을 획득한 다음, 매칭 정도 값에 따라 성문 특징 정보에 대응하는 보이스 신뢰도 값을 결정할 수 있다. 예를 들어, 성문 특징 정보가 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭된 후에, 성문 트레이닝 음성 A의 샘플 특징 정보와 성문 특징 정보 사이의 매칭 정도가 가장 높고, 가장 높은 값이 90%인 것으로 검출되면, 객체 인식 디바이스는 성문 특징 정보에 대응하는 보이스 신뢰도 값이 90%인 것으로 결정할 수 있다.
S104. 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득한다.
구체적으로, 객체 인식 디바이스는 성문 특징 정보를 사용하여 타깃 객체의 객체 인식 결과를 생성할 수 있으며, 객체 인식 결과는 타깃 객체의 음성 정보가 속하는 타깃 객체를 지시할(indicate) 수 있다. 예를 들어, 현재 음성 환경에 적어도 2개의 타깃 객체가 존재하면, 객체 인식 디바이스는 적어도 2개의 타깃 객체의 성문 특징 정보를 사용하여 적어도 2개의 타깃 객체의 음성 정보를 분류(예를 들어, 법원 재판 중 기록 시스템에서의 모든 타깃 객체의 음성은 판사, 피고, 원고 등으로 분류됨)할 수 있다.
일 실시 예에서, 2개의 유사한 성문 특징이 성문 특징 정보에 존재하는 경우, 객체 인식 디바이스가 2개의 유사한 성문 특징을 사용하여 타깃 객체의 객체 인식 결과를 정확하게 획득할 수 없는 상황이 존재할 수 있다.
전술한 상황에서, 객체 인식 디바이스는 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득할 수 있다. 구체적으로, 객체 인식 디바이스는 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여, 타깃 객체의 객체 인식 결과를 인식하는데 사용되는 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 객체 인식 결과를 획득할 수 있다. 객체 인식 정보는 위치 정보 또는 성문 특징 정보일 수 있음을 이해할 수 있다.
일 실시 예에서, 객체 인식 디바이스는 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 성문 특징 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하고(즉, 성문 특징 정보를 사용하여 타깃 객체를 식별하지만, 위치 정보는 인식에 관여하지 않고 음원의 위치를 찾기 위해서만 사용됨); 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하며(즉, 성문 특징 정보를 사용하여 타깃 객체에 대해 음성 인식 식별을 수행하고, 추가로 위치 정보를 사용하여 찾은 음원 방향을 사용하여 타깃 객체를 인식함); 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우 위치 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득(즉, 음원의 위치 정보를 사용하여 찾은 위치 방향만을 사용하여 타깃 객체를 식별함)한다.
전술한 실시 예에서, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 성문 특징이 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 획득되고; 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되고, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가된다.
성문 인식은 복수의 화자에 대한 식별을 수행하거나 화자에 대해 신원 확인(identity confirmation)을 수행할 수 있기 때문에, 화자 식별을 포함하는 실행 프로세스에 대해서는 도 4에 도시된 다음 실시 예를 참조하며, 화자 신원 확인을 포함하는 실행 프로세스에 대해서는 도 8에 도시된 다음 실시 예를 참조한다.
도 4는 본 출원의 실시 예에 따른 다른 객체 인식 방법의 개략적인 흐름도이다. 도 4에 도시된 바와 같이, 일 실시 예에서, 객체 인식 방법은 다음 단계들을 포함할 수 있다.
S201. 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 트레이닝된 성문 매칭 모델을 생성한다.
구체적으로, 성문 인식을 수행하기 전에, 객체 인식 디바이스는 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 트레이닝된 성문 매칭 모델을 생성할 수 있다. 객체 인식 디바이스는 신경망, 히든 마르코프(Hidden Markov) 또는 VQ 클러스터링과 같은 알고리즘을 사용하여 성문 매칭 모델을 트레이닝시킬 수 있음을 이해할 수 있을 것이다. 성문 트레이닝 음성 세트 내의 음성에 대응하는 음성 취득자는 랜덤 실험 객체일 수 있고, 특정 타깃 객체로 제한되지 않는다. 성문 트레이닝 음성에 대응하는 샘플 특징 정보는 성문 트레이닝 음성의 성문 특징 정보일 수 있다.
S202. 마이크로폰 어레이에 기반하여 현재 음성 환경에서 음성 정보 세트를 획득하고, 음성 정보 세트에 대해 스크리닝 처리를 수행하여 스크리닝 처리 후 타깃 객체의 음성 정보를 획득한다.
구체적으로, 음성 정보 세트는 마이크로폰 어레이에 기반하여 현재 음성 환경에서 음성 정보 세트를 획득할 수 있다. 음성 정보 세트 내의 음성 정보는 타깃 객체의 음성 정보이거나 다른 불필요한 음성 정보(예를 들어, 법원 재판 사건 동안 법원의 청중의 음성 정보 또는 다른 객체에 의해 만들어진 노이즈)일 수 있음이 이해될 수 있다. 타깃 객체는 현재의 음성 환경에서 유효한 음원 객체(예를 들어, 법원 재판 중에 판사, 변호사, 피고, 또는 원고)일 수 있다.
일 실시 예에서, 음성 정보 세트 내의 모든 음성 정보가 타깃 객체의 음성 정보인 것은 아니기 때문에, 객체 인식 디바이스는 음성 정보 세트에 대해 스크리닝 처리를 수행하여 스크리닝 처리 후 타깃 객체의 음성 정보를 획득할 수 있다. 스크리닝 처리는 처리될 타깃 객체의 음성 정보의 특징(음량(voice loudness), 음색(timbre) 또는 다른 특징 정보)에 따라 노이즈 감소를 통한 노이즈 필터링, 에코 제거 또는 비 타깃 객체의 음성을 필터링하는 것일 수 있으며, 또는 다른 음성 필터링 처리일 수 있다.
S203. 음성 정보 세트를 획득하는 동안 마이크로폰 어레이의 위상 정보를 획득하고, 위상 정보에 의해 지시된 음성 위치에 기반하여 타깃 객체의 위치 정보를 결정한다.
마이크로폰 어레이는 음성 정보 세트를 획득하는 동안 음성 정보 세트 내의 음성 정보에 대응하는 위상 정보를 획득할 수 있음이 이해될 수 있다. 구체적으로, 객체 인식 디바이스는 위상 정보를 획득하고, 위상 정보에 의해 지시된 음성 위치에 기반하여 타깃 객체의 위치 정보를 결정할 수 있다. 일 실시 예에서, 위상 정보의 위상은 순간(moment)에서의 음성 정보의 음성 파형의 스케일(scale)을 지시할 수 있고, 음성 신호의 파형 변화의 메트릭(metric)을 기술할 수 있으며, 이는 일반적으로 정도(degree)(각도(angle))를 단위로 사용하며 위상 각도라고도 지칭된다.
일 실시 예에서, 마이크로폰 어레이는 복수의 마이크로폰을 사용하여 상이한 위치로부터 획득된 동일한 타깃 객체의 음성 정보를 획득할 수 있다. 복수의 마이크로폰은 마이크로폰 어레이 내의 상이한 위치에 위치하기 때문에, 각각의 마이크로폰은 사운드의 볼륨에 따라 타깃 객체의 위상 정보를 획득하고, 획득된 위상 정보에 따라 빔포밍 방식으로 타깃 객체의 위치 정보를 계산(즉, 현재 음성 환경에서의 타깃 객체의 위치 정보를 결정)할 수 있다. 빔포밍 방식은 도 5에 도시되어 있으며, 상이한 방향에서 음원에 대한 픽업(pickup) 빔을 개별적으로 형성하고 다른 방향으로 보이스를 억제하여 음성 추출 또는 분리를 수행한다.
S204. 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여, 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득한다.
구체적으로, 객체 인식 디바이스는 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여, 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득할 수 있다. 성문 특징 정보는 타깃 객체의 음성 정보에서 구별되는 특징 정보일 수 있고, 예를 들어 특징 정보는 스펙트럼, 캡스트럼, 조화 최대치, 피치, 반사율과 같은 정보일 수 있음을 이해할 수 있다.
S205. 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜 가장 높은 특징 매칭 정도 값을 획득한다.
구체적으로, 객체 인식 디바이스는 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜서 가장 높은 특징 매칭 정도 값을 획득할 수 있다.
일 실시 예에서, 상이한 화자의 성문 특징은 상이하고, 하나의 화자의 성문 특징은 심지어 화자의 물리적 상태 또는 화자가 위치한 환경이 변화함에 따라 상이하다. 따라서, 성문 특징 정보의 성문 특징이 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭되는 경우, 획득된 매칭 정도 값 또한 변하지만, 모든 매칭 정도 값을 비교하는 것에 의해 가장 높은 특징 매칭 정도 값이 획득될 수 있다.
S206. 매칭 정도 값에 따라 성문 특징 정보에 대응하는 보이스 신뢰도 값을 결정한다.
구체적으로, 객체 인식 디바이스는 매칭 정도 값에 따라 성문 특징 정보에 대응되는 보이스 신뢰도 값을 결정할 수 있다. 보이스 신뢰도 값은 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰도를 지시할 수 있음이 이해될 수 있다. 예를 들어, 보이스 신뢰도 값이 90%인 경우, 보이스 신뢰도 값에 대응하는 성문 특징 정보에 따라 인식된 타깃 객체의 신뢰도가 90%임을 나타낼 수 있다.
일 실시 예에서, 객체 인식 디바이스는 직접 매칭 정도 값을 성문 특징 정보에 대응하는 보이스 신뢰도 값으로 결정할 수 있다. 예를 들어, 성문 특징 정보가 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭된 후에, 성문 트레이닝 음성 A의 샘플 특징 정보와 성문 특징 정보 사이의 매칭 정도가 가장 높고, 가장 높은 값이 90%인 것으로 검출되면, 객체 인식 디바이스는 성문 특징 정보에 대응하는 보이스 신뢰도 값이 90%인 것으로 결정할 수 있다.
S207. 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득한다.
일 실시 예에서, 객체 인식 디바이스는 성문 특징 정보를 사용하여 타깃 객체의 객체 인식 결과를 생성할 수 있다. 객체 인식 결과는 타깃 객체의 음성 정보가 속하는 타깃 객체를 지시할 수 있다. 예를 들어, 현재 음성 환경에 적어도 2개의 타깃 객체가 존재하면, 객체 인식 디바이스는 적어도 2개의 타깃 객체의 성문 특징 정보를 사용하여 적어도 2개의 타깃 객체의 음성 정보를 분류(예를 들어, 법원 재판 중 기록 시스템에서의 모든 타깃 객체의 음성은 판사, 피고, 원고 등으로 분류됨)할 수 있다.
일 실시 예에서, 2개의 유사한 성문 특징이 성문 특징 정보에 존재하는 경우, 객체 인식 디바이스가 2개의 유사한 성문 특징을 사용하여 타깃 객체의 객체 인식 결과를 정확하게 획득할 수 없는 상황이 존재할 수 있다.
전술한 상황에서, 객체 인식 디바이스는 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득할 수 있다. 미리 설정된 보이스 신뢰도 값은 복수의 인식 프로세스의 경험에 따라 획득될 수 있고, 적어도 2개의 미리 설정된 보이스 신뢰도 임계 값을 포함할 수 있음을 이해할 수 있을 것이다. 객체 인식 정보는 타깃 객체를 인식하는 데 사용될 수 있으며, 위치 정보 또는 성문 특징 정보를 포함할 수 있다.
일 실시 예에서, 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하는 단계는, 도 6에 도시된 바와 같이 다음 단계들을 포함할 수 있다.
S301. 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 성문 특징 정보를 사용된 객체 인식 정보로 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득한다.
구체적으로, 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응관계의 신뢰도가 상대적으로 크다는 것을 나타낼 수 있고, 객체 인식 디바이스는 성문 특징을 사용된 객체 인식 정보로서 결정하고, 그 다음에 성문 특징 정보를 사용하여 타깃 객체를 식별한다. 이 경우, 위치 정보는 인식에 관여하지 않고 음원을 찾는 데만 사용된다.
일 실시 예에서, 제1 신뢰도 임계 값은 90%, 95%, 또는 실제 상황에 따라 결정된 다른 값으로 설정될 수 있다.
S302. 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득한다.
구체적으로, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰도가 평균 레벨에 있음을 나타낼 수 있다. 타깃 객체를 더 정확하게 인식하기 위해, 객체 인식 디바이스는 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 그 다음에 성문 특징 정보를 사용하여 성문 인식을 수행하여 타깃 객체를 처음에(initially) 인식하며, 추가로, 위치 정보를 사용하여 찾은 음원 방향을 사용하여 타깃 객체를 인식할 수 있다.
일 실시 예에서, 제1 신뢰도 임계 값은 90%, 95% 또는 실제 상황에 따라 결정된 다른 값으로 설정될 수 있고, 제2 신뢰도 임계 값은 50%, 55%, 60% 또는 평균값을 나타낼 수 있으면서 또한 실제 상황에 따라 결정될 수 있는 다른 데이터로 설정될 수 있다.
S303. 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 위치 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득한다.
구체적으로, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응관계의 신뢰도가 비교적 낮고, 성문 특징을 사용하여 인식되는 타깃 객체의 정확도가 비교적 낮음을 나타낼 수 있다. 객체 인식 디바이스는 위치 정보를 사용된 객체 인식 정보로 결정하고, 음원의 위치 정보를 사용하여 찾은 위치 방향을 사용하여 타깃 객체를 식별하여 동일한 음성 환경에서 음성 분리를 구현할 수 있다. 위치 정보가 객체 인식 정보로 사용되는 경우, 허용된 범위의 에러가 인식 프로세스에서 존재할 수 있음을 이해할 수 있다.
전술한 실시 예에서, 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되며, 이에 따라 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고 객체 인식 효율을 향상시킨다.
일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하는 단계는, 도 7에 도시된 바와 같이 다음 단계들을 포함할 수 있다.
S401. 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우 위치 정보와 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정한다.
보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰도가 평균 레벨에 있음을 지시할 수 있으며, 즉, 타깃 객체의 객체 인식 결과가 성문 특징 정보에 따라 인식될 때, 결정된 객체 인식 결과의 신뢰도는 보통이다(mediocre). 이 경우, 객체 인식 디바이스는 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로 결정할 수 있다.
S402. 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득한다.
구체적으로, 객체 인식 디바이스는 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로 결정한 후, 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득할 수 있다. 일 실시 예에서, 타깃 객체의 성문 특징 정보가 분명히 상이한 경우, 후보 인식 결과는 타깃 객체의 최종 객체 인식 결과일 수 있으며, 즉 객체 인식 디바이스는 복수의 음성 정보를 정확하게 분류할 수 있다. 명확하지 않은 상이한 성문 특징 정보를 갖는 적어도 2개의 타깃 객체가 타깃 객체들 내에 존재하는 경우, 후보 인식 결과에 대응하는 타깃 객체의 음성 정보가 정확하게 분류되지 않는다. 예를 들어, 판사 A와 죄수 B의 성문 특징 정보가 매우 유사하면, 객체 인식 디바이스가 그들의 음성 정보를 분류할 때, 판사 A의 음성 정보가 죄수 B의 음성 정보로 분류될 수 있으며, 또는 죄수 B의 음성 정보가 판사 A의 음성 정보로 분류될 수 있다.
S403. 위치 정보를 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 찾아 낸다(locate).
구체적으로, 객체 인식 디바이스는 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 처음에 인식하는 반면, 객체 인식 디바이스는 추가로, 위치 정보에 따라 찾아진 음원 방향을 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 찾아 낼 수 있으며, 즉, 객체 인식 디바이스는 후보 인식 결과를 조정하고 최종적으로 타깃 객체의 객체 인식 결과를 결정할 수 있다. 예를 들어, 판사 A와 죄수 B의 성문 특징 정보가 매우 유사하면, 객체 인식 디바이스는 추가로, 판사 A와 죄수 B가 위치된 위치에 따라 후보 인식 결과 즉, 부정확하게 분류된 음성 정보로부터 그들의 음성 정보를 더욱 정확하게 분류할 수 있다.
전술한 실시 예에서, 타깃 객체의 객체 인식 결과는 위치 정보 및 성문 특징 정보를 사용하여 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 추가로 증가시킨다.
전술한 객체 인식 방법에서, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 트레이닝된 성문 매칭 모델에 기반하여 성문 특징이 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 획득되고; 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되고, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가되며; 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되므로, 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고, 객체 인식 효율을 개선하고; 위치 정보 및 성문 특징 정보를 사용하여 타깃 객체들의 객체 인식 결과가 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 더 증가시킨다.
도 8은 본 출원의 실시 예에 따른 다른 객체 인식 방법의 개략적인 흐름도이다. 도 8에 도시된 바와 같이, 본 실시 예의 이 실시 예의 방법은 다음 단계들을 포함할 수 있다.
S501. 타깃 객체를 포함하여 음성을 트레이닝하는 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성과 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜, 트레이닝된 성문 매칭 모델을 생성한다.
하나의 음성 정보에 대응하는 화자의 신원 정보는 성문 인식을 통해 확인될 수 있으며, 성문 인식을 통해 복수의 음성 정보로부터 타깃 화자를 식별하는 것과의 차이점은 성문 매칭 모델을 구축하는 프로세스에 있음을 이해할 수 있다.
구체적으로, 객체 인식 디바이스는 타깃 객체를 포함하여 음성을 트레이닝하는 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성과 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜, 트레이닝된 성문 매칭 모델을 생성한다. 객체 인식 디바이스는 신경망, 히든 마르코프(Hidden Markov) 또는 VQ 클러스터링과 같은 알고리즘을 사용하여 성문 매칭 모델을 트레이닝시킬 수 있음을 이해할 수 있을 것이다. 성문 트레이닝 음성 세트 내의 음성에 대응하는 음성 취득자는 단계(S201)에서의 음성 취득자와 상이하다. 이 경우, 성문 트레이닝 음성 세트 내의 음성에 대응하는 음성 취득자는 타깃 객체를 포함할 필요가 있으며, 성문 트레이닝 음성에 대응하는 샘플 특징 정보는 성문 트레이닝 음성의 성문 특징 정보일 수 있다.
S502. 마이크로폰 어레이에 기반하여 현재 음성 환경에서 음성 정보 세트를 획득하고, 음성 정보 세트에 대해 스크리닝 처리를 수행하여 스크리닝 처리 후 타깃 객체의 음성 정보를 획득한다.
S503. 음성 정보 세트를 획득하는 동안 마이크로폰 어레이의 위상 정보를 획득하고, 위상 정보에 의해 지시된 음성 위치에 기반하여 타깃 객체의 위치 정보를 결정한다.
S504. 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여, 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득한다.
S505. 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜 가장 높은 특징 매칭 정도 값을 획득한다.
S506. 매칭 정도 값에 따라 성문 특징 정보에 대응하는 보이스 신뢰도 값을 결정한다.
S507. 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득한다.
객체 인식 디바이스는 성문 특징 정보를 사용하여 타깃 객체의 객체 인식 결과를 생성할 수 있으며, 객체 인식 결과는 타깃 객체의 음성 정보에 대응하는 타깃 객체의 신원 정보를 지시할 수 있음을 이해할 수 있다. 예를 들어, 현재 음성 환경에 적어도 2개의 타깃 객체가 존재하면, 객체 인식 디바이스는 적어도 2개의 타깃 객체의 성문 특징 정보를 사용하여 적어도 2개의 타깃 객체의 음성 정보에 대응하는 타깃 객체를 결정하고, 타깃 객체의 신원 정보를 결정(예를 들어, 법원 재판 중에 기록 시스템에서의 모든 타깃 객체의 음성들이 판사, 피고 및 원고로 분류된 후, 보이스 A가 판사에 속하고, 보이스 B는 피고에 속하며, 보이스 C는 원고 등에 속하는 등으로 결정될 수 있음)한다.
일 실시 예에서, 2개의 유사한 성문 특징이 성문 특징 정보에 존재하는 경우, 객체 인식 디바이스가 2개의 유사한 성문 특징을 사용하여 타깃 객체의 객체 인식 결과를 정확하게 획득할 수 없는 상황이 존재할 수 있다.
전술한 상황에서, 객체 인식 디바이스는 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득할 수 있다.
일 실시 예에서, 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하는 단계는, 다음의 단계를 포함할 수 있다. 세부 사항에 대해서는, 도 6에 도시된 프로세스가 참조될 수 있다.
S301. 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 성문 특징 정보를 사용된 객체 인식 정보로 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득한다.
구체적으로, 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 이는 성문 특징 정보에 따라 확인된 타깃 객체의 신원 정보의 신뢰도가 상대적으로 크다는 것을 나타낼 수 있으며, 객체 인식 디바이스는 성문 특징 정보를 사용된 객체 인식 정보로서 결정하고 그 다음에, 성문 특징 정보를 사용하여 타깃 객체의 신원 정보를 인식할 수 있다. 이 경우, 위치 정보는 신원 확인에 관여하지 않고 음원을 찾는 데만 사용된다.
일 실시 예에서, 제1 신뢰도 임계 값은 90%, 95%, 또는 실제 상황에 따라 결정된 다른 값으로 설정될 수 있다.
S302. 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득한다.
구체적으로, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보에 따라 확인된 타깃 객체의 신원 정보의 신뢰도가 평균 레벨에 있음을 나타낼 수 있다. 타깃 객체의 신원을 보다 정확하게 인식하기 위해, 객체 인식 디바이스는 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로 결정하고, 성문 특징 정보를 사용하여 성문 인식을 수행하여 처음에 타깃 객체의 신원을 결정하고, 추가로, 위치 정보를 사용하여 찾은 음원 방향을 사용하여 타깃 객체의 신원을 인식할 수 있다.
일 실시 예에서, 제1 신뢰도 임계 값은 실제 상황에 따라 결정된 90%, 95% 또는 다른 값으로 설정될 수 있고, 제2 신뢰도 임계 값은 50%, 55%, 60% 또는 평균 값을 나타낼 수 있으면서 또한 실제 상황에 따라 결정되는 다른 데이터로 설정될 수 있다.
S303. 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 위치 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득한다.
구체적으로, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보에 따라 확인된 타깃 객체의 신원 정보의 신뢰도가 상대적으로 낮고, 성문 특징 정보를 사용하여 인식된 타깃 객체의 정확도가 비교적 낮음을 나타낼 수 있다. 객체 인식 디바이스는 위치 정보를 사용된 객체 인식 정보로 결정하고, 음원의 위치 정보를 사용하여 찾은 위치 방향을 사용하여 타깃 객체의 신원을 결정하여 동일한 음성 환경에서 음성 분리를 구현할 수 있다. 위치 정보가 객체 인식 정보로 사용되는 경우, 허용된 범위의 에러가 인식 프로세스에서 존재할 수 있음을 이해할 수 있다. 이 경우, 현재의 음성 환경은 특정 음성 환경, 예를 들어, 타깃 객체의 위치가 결정되는 환경(예를 들어, 판사 및 죄수의 위치는 법원 재판에서 결정됨)이어야 한다.
전술한 실시 예에서, 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되므로, 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고 객체 인식 효율을 향상시킨다.
일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하는 단계는 다음의 단계를 포함할 수 있다. 세부 사항에 대해서, 도 7에 도시된 프로세스가 참조될 수 있다.
S401. 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정한다.
S402. 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득한다.
구체적으로, 객체 인식 디바이스는 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로 결정한 후, 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득할 수 있다. 일 실시 예에서, 타깃 객체의 성문 특징 정보가 명백히 상이한 경우, 후보 인식 결과는 타깃 객체의 최종 객체 인식 결과일 수 있고, 즉 객체 인식 디바이스는 복수의 음성 정보로부터 타깃 객체의 음성 정보를 명확하게 인식할 수 있으며; 명확하지 않은 상이한 성문 특징 정보를 갖는 적어도 2개의 타깃 객체가 타깃 객체에 존재하는 경우, 후보 인식 결과에 의해 지시된 타깃 객체와 음성 정보 사이의 대응관계가 부정확할 수 있다. 예를 들어, 판사 A와 죄수 B의 성문 특징 정보가 매우 유사하면, 객체 인식 디바이스가 법원 재판에서 복수의 음성 정보로부터 판사 A의 음성 정보를 인식하는 경우, 판사 A의 음성 정보를 죄수 B의 음성 정보로 착각하거나 죄수 B의 음성 정보를 판사 A의 음성 정보로 착각할 수 있다.
S403. 위치 정보를 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 찾아낸다.
구체적으로, 객체 인식 디바이스는 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 처음에 인식하는 반면, 객체 인식 디바이스는 추가로, 위치 정보에 따라 찾은 음원 방향을 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 찾아 낼 수 있으며, 즉, 객체 인식 디바이스는 후보 인식 결과를 조정하고 최종적으로 타깃 객체의 객체 인식 결과를 결정할 수 있다. 예를 들어, 판사 A의 성문 특징 정보와 죄수 B의 성문 특징 정보가 매우 유사하며, 후보 인식 결과는 판사 A의 음성 정보가 죄수 B에 대응하는 것으로 지시하고, 그리고 객체 인식 디바이스는 판사 A의 위치 정보를 참조하여 판사 A의 음성 정보를 판사 A에 대응시킬 수 있다.
전술한 실시 예에서, 타깃 객체의 객체 인식 결과는 위치 정보 및 성문 특징 정보를 사용하여 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 추가로 증가시킨다.
전술한 객체 인식 방법에서, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 트레이닝된 성문 매칭 모델에 기반하여 성문 특징이 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 획득되고; 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되며, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가되며; 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되므로, 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고, 객체 인식 효율을 개선하고; 위치 정보 및 성문 특징 정보를 사용하여 타깃 객체들의 객체 인식 결과가 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 더 증가시킨다.
이하, 도 9 내지 도 14를 참조하여 본 출원의 실시 예에서 제공되는 객체 인식 디바이스에 대해 설명한다. 도 9 내지 도 14에 도시된 디바이스는 본 출원의 도 3 내지 도 8에 도시된 실시 예의 방법을 수행하도록 구성된다. 설명의 편의를 위해, 본 출원의 실시 예와 관련된 부분만이 도시되어 있다. 개시되지 않은 특정 기술적 세부 사항에 대해서는 본 출원의 도 3 내지 도 8에 도시된 실시 예를 참조한다.
도 9는 본 출원의 실시 예에 따른 객체 인식 디바이스의 개략적인 구조도이다.
도 9에 도시된 바와 같이, 본 출원의 본 실시 예에서의 객체 인식 디바이스(1)는 객체 정보 획득 모듈(11), 특징 정보 획득 모듈(12), 신뢰도 획득 모듈(13) 및 결과 획득 모듈(14)을 포함할 수 있다.
객체 정보 획득 모듈(11)은 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하도록 구성된다.
구체적으로, 객체 정보 획득 모듈(11)은 마이크로폰 어레이를 기반으로 현재 음성 환경에서 타깃 객체의 음성 정보를 획득하고, 마이크로폰 어레이를 기반으로 타깃 객체의 위치 정보를 획득할 수 있다. 타깃 객체는 현재 음성 환경에서 유효한 음원 객체(예를 들어, 법원 재판 사건 동안 판사, 변호사, 피고, 또는 원고)일 수 있음을 이해할 수 있다. 객체 정보 획득 모듈(11)에 의해 현재 음성 환경에서 획득된 음성 정보 세트 내의 음성 정보는 타깃 객체의 음성 정보일 수 있거나, 다른 불필요한 음성 정보(예를 들어, 법원 재판 사건 동안 법원에서 청중의 음성 정보 또는 다른 객체의 의한 노이즈)일 수 있다. 현재 음성 환경에서 음성 정보 세트를 획득한 후, 객체 정보 획득 모듈(11)은 음성 정보에 대해 스크리닝 처리를 수행하여 타깃 객체의 음성 정보를 획득할 수 있다.
본 출원의 본 실시예에서, 마이크로폰 어레이는 복수의 마이크로폰을 사용하여 상이한 위치로부터 획득된 동일한 타깃 객체의 음성 정보를 획득할 수 있다. 복수의 마이크로폰이 마이크로폰 어레이의 상이한 위치에 위치되기 때문에, 각각의 마이크로폰은 사운드의 볼륨에 따라 타깃 객체의 위상 정보를 획득하고, 획득된 위상 정보에 따라 빔포밍 방식으로 타깃 객체의 위치 정보를 계산(즉, 현재 음성 환경에서 타깃 객체의 위치 정보를 결정)할 수 있다.
특징 정보 획득 모듈(12)은 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하고, 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득하도록 구성된다.
일 실시 예에서, 특징 정보 획득 모듈(12)은 트레이닝된 성문 매칭 모델의 음성 정보로부터 성문 특징을 추출할 수 있다. 성문 매칭 모델은 미리 획득된 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 성문 트레이닝 음성에 대응하는 샘플 특징 정보가 트레이닝 알고리즘(예를 들어, 신경망 방법, 히든 마르코프(Hidden Markov)방법 또는 VQ 클러스터링 방법)을 사용하여 트레이닝된 후에 구축된 모델일 수 있다. 성문 트레이닝 음성 세트에서 음성에 대응하는 음성 취득자는 랜덤 실험 객체일 수 있고, 특정 타깃 객체로 제한되지 않음을 이해할 수 있다. 성문 트레이닝 음성에 대응하는 샘플 특징 정보는 성문 트레이닝 음성의 성문 특징 정보일 수 있다.
또한, 특징 정보 획득 모듈(12)은 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득할 수 있다. 성문 특징 정보는 타깃 객체의 음성 정보에서 구별되는 특징 정보일 수 있고, 예를 들어 특징 정보는 스펙트럼, 캡스트럼, 조화 최대치, 피치, 반사율과 같은 정보일 수 있음을 이해할 수 있다.
신뢰도 획득 모듈(13)은 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하도록 구성된다.
일 실시 예에서, 신뢰도 획득 모듈(13)은 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득할 수 있다. 보이스 신뢰도 값은 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰도를 지시할 수 있음을 이해할 수 있다. 예를 들어, 보이스 신뢰도 값이 90%인 경우, 이는 보이스 신뢰도 값에 대응하는 성문 특징 정보에 따라 인식된 타깃 객체의 신뢰도가 90%임을 나타낼 수 있다.
일 실시 예에서, 신뢰도 획득 모듈(13)은 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜서 가장 높은 특징 매칭 정도 값을 획득한 다음, 매칭 정도 값에 따라 성문 특징 정보에 대응하는 보이스 신뢰도 값을 결정할 수 있다. 예를 들어, 성문 특징 정보가 성문 트레이닝 음성 세트의 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭된 후에, 성문 트레이닝 음성 A의 샘플 특징 정보와 성문 특징 정보 사이의 매칭 정도가 가장 높고, 가장 높은 값이 90%인 것으로 검출되면, 객체 인식 디바이스는 성문 특징 정보에 대응하는 보이스 신뢰도 값이 90%인 것으로 결정할 수 있다.
결과 획득 모듈(14)은 위치 정보, 성문 특징 정보 및 보이스 신뢰도 값을 사용하여 타깃 객체의 객체 인식 결과를 획득하도록 구성된다.
객체 인식 디바이스(1)는 성문 특징 정보를 사용하여 타깃 객체의 객체 인식 결과를 생성할 수 있으며, 객체 인식 결과는 타깃 객체의 음성 정보가 속하는 타깃 객체를 지시할 수 있음을 이해할 수 있다. 예를 들어, 현재 음성 환경에 적어도 2개의 타깃 객체가 존재하면, 객체 인식 디바이스는 적어도 2개의 타깃 객체의 성문 특징 정보를 사용하여 적어도 2개의 타깃 객체의 음성 정보를 분류(예를 들어, 법원 재판 중 기록 시스템에서의 모든 타깃 객체의 음성은 판사, 피고, 원고 등으로 분류됨)할 수 있다.
일 실시 예에서, 2개의 유사한 성문 특징이 성문 특징 정보에 존재하는 경우, 객 객체 인식 디바이스(1)가 2개의 유사한 성문 특징을 사용하여 타깃 객체의 객체 인식 결과를 정확하게 획득할 수 없는 상황이 존재할 수 있다.
전술한 상황에서, 결과 획득 모듈(14)은 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득할 수 있다. 구체적 구현에서, 결과 획득 모듈(14)은 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여, 타깃 객체의 객체 인식 결과를 인식하는데 사용되는 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 객체 인식 결과를 획득할 수 있다. 객체 인식 정보는 위치 정보 또는 성문 특징 정보일 수 있음을 이해할 수 있다.
본 출원의 특정 구현에서, 결과 획득 모듈(14)은 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 성문 특징 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하고(즉, 성문 특징 정보를 사용하여 타깃 객체를 식별하지만, 위치 정보는 인식에 관여하지 않고 음원의 위치를 찾기 위해서만 사용됨); 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하며(즉, 성문 특징 정보를 사용하여 타깃 객체에 대해 음성 인식 식별을 수행하고, 추가로 위치 정보를 사용하여 찾은 음원 방향을 사용하여 타깃 객체를 인식함); 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우 위치 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득(즉, 음원의 위치 정보를 사용하여 찾은 위치 방향만을 사용하여 타깃 객체를 식별함)한다.
본 출원의 본 실시 예에서, 현재 음성 환경에서 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 트레이닝된 성문 매칭 모델에 기반하여 성문 특징이 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 획득되고; 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되고, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가된다.
성문 인식은 복수의 화자에 대한 식별을 수행하거나 화자에 대해 신원 확인을 수행할 수 있기 때문에, 화자 식별을 포함하는 실행 프로세스에 대해서는 도 10에 도시된 제1 구현을 참조하며, 화자 신원 확인을 포함하는 실행 프로세스에 대해서는 도 10에 도시된 제2 구현을 참조한다.
도 10은 본 출원의 실시 예에 따른 다른 객체 인식 디바이스의 개략적인 구조도이다. 도 10에 도시된 바와 같이, 본 출원의 본 실시 예에서의 객체 인식 디바이스(1)는 객체 정보 획득 모듈(11), 특징 정보 획득 모듈(12), 신뢰도 획득 모듈(13), 결과 획득 모듈(14) 및 모델 생성 모듈(15)을 포함할 수 있다. 도 10에 도시된 실시 예의 제1 구현에서.
모델 생성 모듈(15)은 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 트레이닝된 성문 매칭 모델을 생성하도록 구성된다.
일 실시 예에서, 성문 인식을 수행하기 전에, 모델 생성 모듈(15)은 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 트레이닝된 성문 매칭 모델을 생성할 수 있다. 모델 생성 모듈(15)은 신경망, 히든 마르코프(Hidden Markov) 또는 VQ 클러스터링과 같은 알고리즘을 사용하여 성문 매칭 모델을 트레이닝시킬 수 있음을 이해할 수 있다. 성문 트레이닝 음성 세트에서의 음성에 대응하는 음성 취득자는 랜덤 실험 객체일 수 있고, 특정 타깃 객체로 제한되지 않는다. 성문 트레이닝 음성에 대응하는 샘플 특징 정보는 성문 트레이닝 음성의 성문 특징 정보일 수 있다.
객체 정보 획득 모듈(11)은 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하도록 구성된다.
일 실시 예에서, 객체 정보 획득 모듈(11)은 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득할 수 있다.
도 11은 본 출원의 본 실시 예에 따른 객체 정보 획득 모듈의 개략적인 구조도이다. 도 11에 도시된 바와 같이, 객체 정보 획득 모듈(11)은 정보 획득 유닛(111) 및 정보 결정 유닛(112)를 포함할 수 있다.
정보 획득 유닛(111)은 마이크로폰 어레이에 기반하여 현재 음성 환경에서 음성 정보 세트를 획득하고, 음성 정보 세트에 대해 스크리닝 처리를 수행하여, 스크리닝 처리 후 타깃 객체의 객체 음성 정보를 획득하도록 구성된다.
일 실시 예에서, 정보 획득 유닛(111)는 마이크로폰 어레이에 기반하여 현재 음성 환경에서 음성 정보 세트를 획득할 수 있다. 음성 정보 세트 내의 음성 정보는 타깃 객체의 음성 정보이거나 다른 불필요한 음성 정보(예를 들어, 법원 재판 사건 동안 법원의 청중의 음성 정보 또는 다른 객체에 의해 만들어진 노이즈)일 수 있음이 이해될 수 있다. 타깃 객체는 현재의 음성 환경에서 유효한 음원 객체(예를 들어, 판사, 변호사, 피고, 또는 법원 재판 중에 원고)일 수 있다.
일 실시 예에서, 음성 정보 세트 내의 모든 음성 정보가 타깃 객체의 음성 정보인 것은 아니기 때문에, 정보 획득 유닛(111)은 음성 정보 세트에 대해 스크리닝 처리를 수행하여 스크리닝 처리 후 타깃 객체의 음성 정보를 획득할 수 있다. 스크리닝 처리는 처리될 타깃 객체의 음성 정보의 특징(음량, 음색 또는 다른 특징 정보)에 따라 노이즈 감소를 통한 노이즈 필터링, 에코 제거 또는 비 타깃 객체의 음성을 필터링하는 것일 수 있으며, 또는 다른 음성 필터링 처리일 수 있다.
정보 결정 유닛(112)은 음성 정보 세트를 획득하는 동안 마이크로폰 어레이의 위상 정보를 획득하고, 위상 정보에 의해 지시된 음성 위치에 기반하여 타깃 객체의 위치 정보를 결정하도록 구성된다.
일 실시 예에서, 마이크로폰 어레이는 음성 정보 세트를 획득하는 동안 음성 정보 세트 내의 음성 정보에 대응하는 위상 정보를 획득할 수 있다. 구체적 구현에서, 정보 결정 유닛(112)은 위상 정보를 획득하고, 위상 정보에 의해 지시된 음성 위치에 기반하여 타깃 객체의 위치 정보를 결정할 수 있다. 일 실시 예에서, 위상 정보의 위상은 순간에서의 음성 정보의 음성 파형의 스케일을 지시할 수 있고, 음성 신호의 파형 변화의 메트릭을 기술할 수 있으며, 이는 일반적으로 정도(각도)를 단위로 사용하며 위상 각도라고도 지칭된다.
일 실시 예에서, 마이크로폰 어레이는 복수의 마이크로폰을 사용하여 상이한 위치로부터 획득된 동일한 타깃 객체의 음성 정보를 획득할 수 있다. 복수의 마이크로폰은 마이크로폰 어레이 내의 상이한 위치에 위치하기 때문에, 각각의 마이크로폰은 사운드의 볼륨에 따라 타깃 객체의 위상 정보를 획득하고, 획득된 위상 정보에 따라 빔포밍 방식에서 타깃 객체의 위치 정보를 계산(즉, 현재 음성 환경에서의 타깃 객체의 위치 정보를 결정)할 수 있다. 빔포밍 방식이 도 5에 도시되어 있으며, 상이한 방향에서 음원에 대한 픽업 빔을 개별적으로 형성하고 다른 방향으로 보이스를 억제하여 음성 추출 또는 분리를 수행한다.
특징 정보 획득 모듈(12)은 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하고, 성문 특징 추출 후에 음성 정보에 대응하는 성문 특징 정보를 획득하도록 구성된다.
일 실시 예에서, 특징 정보 획득 모듈(12)은 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여, 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득할 수 있다. 성문 특징 정보는 타깃 객체의 음성 정보에서 구별되는 특징 정보일 수 있고, 예를 들어 특징 정보는 스펙트럼, 캡스트럼, 조화 최대치, 피치, 반사율과 같은 정보일 수 있음을 이해할 수 있다.
신뢰도 획득 모듈(13)은 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하도록 구성된다.
특정 구현에서, 신뢰도 획득 모듈(13)은 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득할 수 있다.
도 12는 본 출원의 본 실시 예에 따른 신뢰도 획득 모듈의 개략적인 구조도이다. 도 12에 도시된 바와 같이, 신뢰도 획득 모듈(13)은 매칭 정도 값 획득 유닛(131) 및 신뢰도 결정 유닛(132)를 포함할 수 있다.
매칭 정도 값 획득 유닛(131)은 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜 가장 높은 특징 매칭 정도 값을 획득하도록 구성된다.
일 실시 예에서, 매칭 정도 값 획득 유닛(131)는 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜 가장 높은 특징 매칭 정도 값을 획득할 수 있다. 상이한 화자의 성문 특징은 상이하고, 하나의 화자의 성문 특징은 심지어 화자의 물리적 상태 또는 화자가 위치한 환경이 변화함에 따라 상이하다는 것을 이해할 수 있다. 따라서, 성문 특징 정보의 성문 특징이 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭되는 경우, 획득된 매칭 정도 값 또한 변하지만, 모든 매칭 정도 값을 비교하는 것에 의해 가장 높은 특징 매칭 정도 값이 획득될 수 있다.
신뢰도 결정 유닛(132)은 매칭 정도 값에 따라 성문 특징 정보에 대응하는 보이스 신뢰도 값을 결정하도록 구성된다.
일 실시 예에서, 신뢰도 결정 유닛(132)은 매칭 정도 값에 따라 성문 특징 정보에 대응되는 보이스 신뢰도 값을 결정할 수 있다. 보이스 신뢰도 값은 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰도를 나타낼 수 있다는 것이 이해될 수 있다. 예를 들어, 보이스 신뢰도 값이 90%인 경우, 이는 보이스 신뢰도 값에 대응하는 성문 특징 정보에 따라 인식된 타깃 객체의 신뢰도가 90%임을 나타낼 수 있다.
일 실시 예에서, 신뢰도 결정 유닛(132)은 매칭 정도 값을 성문 특징 정보에 대응하는 보이스 신뢰도 값으로 직접 결정할 수 있다. 예를 들어, 성문 특징 정보가 성문 트레이닝 음성 세트 내 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭된 후에, 성문 트레이닝 음성 A의 샘플 특징 정보와 성문 특징 정보 사이의 매칭 정도가 가장 높고, 가장 높은 값이 90%인 것으로 검출되면, 객체 인식 디바이스는 성문 특징 정보에 대응하는 보이스 신뢰도 값이 90%인 것으로 결정할 수 있다.
결과 획득 모듈(14)은 구체적으로, 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하도록 구성된다.
일 실시 예에서, 객체 인식 디바이스(1)는 성문 특징 정보를 사용하여 타깃 객체의 객체 인식 결과를 생성할 수 있다. 객체 인식 결과는 타깃 객체의 음성 정보가 속하는 타깃 객체를 지시할 수 있다. 예를 들어, 현재 음성 환경에 적어도 2개의 타깃 객체가 존재하면, 객체 인식 디바이스는 적어도 2개의 타깃 객체의 성문 특징 정보를 사용하여 적어도 2개의 타깃 객체의 음성 정보를 분류(예를 들어, 법원 재판 중 기록 시스템에서의 모든 타깃 객체의 음성은 판사, 피고, 원고 등으로 분류됨)할 수 있다.
일 실시 예에서, 2개의 유사한 성문 특징이 성문 특징 정보에 존재하는 경우, 객체 인식 디바이스가 2개의 유사한 성문 특징을 사용하여 타깃 객체의 객체 인식 결과를 정확하게 획득할 수 없는 상황이 존재할 수 있다.
전술한 상황에 대해, 결과 획득 모듈(14)은 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득할 수 있다. 미리 설정된 보이스 신뢰도 값은 복수의 인식 프로세스의 경험에 따라 획득될 수 있고, 적어도 2개의 미리 설정된 보이스 신뢰도 임계 값을 포함할 수 있음을 이해할 수 있을 것이다. 객체 인식 정보는 타깃 객체를 인식하기 위해 사용될 수 있으며, 위치 정보 또는 성문 특징 정보를 포함할 수 있다.
본 출원의 본 실시 예의 특정 구현에서, 결과 획득 모듈(14)은 도 13에 도시된 바와 같이, 제1 결과 획득 유닛(141), 제2 결과 획득 유닛(142) 및 제3 결과 획득 유닛(143)을 포함할 수 있다.
제1 결과 획득 유닛(141)은 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 성문 특징 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하도록 구성된다.
일 실시 예에서, 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응관계의 신뢰도가 상대적으로 크다는 것을 나타낼 수 있고, 제1 결과 획득 유닛(141)은 성문 특징을 사용된 객체 인식 정보로서 결정하고, 그 다음에 성문 특징 정보를 사용하여 타깃 객체를 식별한다. 이 경우 위치 정보는 인식에 관여하지 않고 음원을 찾는 데만 사용된다.
일 실시 예에서, 제1 신뢰도 임계 값은 90%, 95%, 또는 실제 상황에 따라 결정된 다른 값으로 설정될 수 있다.
제2 결과 획득 유닛(142)은 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하도록 구성된다.
일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰도가 평균 레벨에 있음을 나타낼 수 있다. 제2 결과 획득 유닛(142)은 타깃 객체를 더 정확하게 인식하기 위해, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 그 다음에 성문 특징 정보를 사용하여 성문 인식을 수행하여 타깃 객체를 처음에 인식하며, 추가로, 위치 정보를 사용하여 찾은 음원 방향을 사용하여 타깃 객체를 인식할 수 있다.
일 실시 예에서, 제1 신뢰도 임계 값은 90%, 95% 또는 실제 상황에 따라 결정된 다른 값으로 설정될 수 있고, 제2 신뢰도 임계 값은 50%, 55%, 60% 또는 평균 값을 나타낼 수 있으면서 또한 실제 상황에 따라 결정되는 다른 데이터로 설정될 수 있다.
제3 결과 획득 유닛(143)은 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 위치 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하도록 구성된다.
일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응관계의 신뢰도가 비교적 낮고, 성문 특징을 사용하여 인식되는 타깃 객체의 정확도가 비교적 낮음을 나타낼 수 있다. 제3 결과 획득 유닛(143)는 위치 정보를 사용된 객체 인식 정보로 결정하고, 음원의 위치 정보를 사용하여 찾은 위치 방향을 사용하여 타깃 객체를 식별하여 동일한 음성 환경에서 음성 분리를 구현할 수 있다. 위치 정보가 객체 인식 정보로 사용되는 경우, 허용된 범위의 에러가 인식 프로세스에서 존재할 수 있음을 이해할 수 있다.
본 출원의 본 실시 예에서, 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되며, 이에 따라 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고 객체 인식 효율을 향상시킨다.
일 실시 예에서, 도 14에 도시된 바와 같이, 제2 결과 획득 유닛(142)은 정보 결정 서브 유닛(1421), 후보 결과 획득 서브 유닛(1422) 및 결과 획득 서브 유닛(1423)을 포함할 수 있다.
정보 결정 서브 유닛(1421)은 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하도록 구성된다.
일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰도가 평균 레벨에 있음을 지시할 수 있으며, 즉, 타깃 객체의 객체 인식 결과가 성문 특징 정보에 따라 인식될 때, 결정된 객체 인식 결과의 신뢰도는 보통이다. 이 경우, 정보 결정 서브 유닛(1421)은 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로 결정할 수 있다.
후보 결과 획득 서브 유닛(1422)은 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득하도록 구성된다.
일 실시 예에서, 정보 결정 서브 유닛(1421)은 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정한 후, 후보 결과 획득 서브 유닛(1422)은 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득할 수 있다. 타깃 객체의 성문 특징 정보가 분명히 상이한 경우, 후보 인식 결과는 타깃 객체의 최종 객체 인식 결과일 수 있으며, 즉 객체 인식 디바이스는 복수의 음성 정보를 정확하게 분류할 수 있음을 이해할 수 있다. 명확하지 않은 상이한 성문 특징 정보를 갖는 적어도 2개의 타깃 객체가 타깃 객체들 내에 존재하는 경우, 후보 인식 결과에 대응하는 타깃 객체의 음성 정보가 정확하게 분류되지 않는다. 예를 들어, 판사 A와 죄수 B의 성문 특징 정보가 매우 유사하면, 객체 인식 디바이스가 그들의 음성 정보를 분류할 때, 판사 A의 음성 정보가 죄수 B의 음성 정보로 분류될 수 있으며, 또는 죄수 B의 음성 정보가 판사 A의 음성 정보로 분류될 수 있다.
결과 획득 서브 유닛(1423)은 위치 정보를 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 찾도록 구성된다.
일 실시 예에서, 후보 결과 획득 서브 유닛(1422)은 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 처음에 인식하며, 결과 획득 서브 유닛(1423)은 위치 정보에 따라 찾아진 음원 방향을 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 추가로 찾아 낼 수 있으며, 즉 결과 획득 서브 유닛(1423)은 후보 인식 결과를 조정하고 최종적으로 타깃 객체의 객체 인식 결과를 결정할 수 있다. 예를 들어, 판사 A와 죄수 B의 성문 특징 정보가 매우 유사하면, 객체 인식 디바이스는 추가로, 판사 A와 죄수 B가 위치된 위치에 따라 후보 인식 결과 즉, 부정확하게 분류된 음성 정보로부터 그들의 음성 정보를 더욱 정확하게 분류할 수 있다.
본 출원의 본 실시 예에서, 타깃 객체들의 객체 인식 결과는 위치 정보 및 성문 특징 정보를 사용하여 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 더 증가시킨다.
본 출원의 본 실시 예에서, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 트레이닝된 성문 매칭 모델에 기반하여 성문 특징이 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 획득되고; 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되고, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가되며; 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되므로, 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고, 객체 인식 효율을 개선하며; 위치 정보 및 성문 특징 정보를 사용하여 타깃 객체들의 객체 인식 결과가 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 더 증가시킨다.
도 10에 도시된 실시 예의 제2 구현에서:
모델 생성 모듈(15)은 구체적으로, 타깃 객체를 포함하여 음성을 트레이닝하는 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성과 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜, 트레이닝된 성문 매칭 모델을 생성하도록 구성된다.
하나의 음성 정보에 대응하는 화자의 신원 정보는 성문 인식을 통해 확인될 수 있으며, 성문 인식을 통해 복수의 음성 정보로부터 타깃 화자를 식별하는 것과의 차이점은 성문 매칭 모델을 구축하는 프로세스에 있음을 이해할 수 있다.
일 실시 예에서, 모델 생성 모듈(15)은 타깃 객체를 포함하여 음성을 트레이닝하는 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성과 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜, 트레이닝된 성문 매칭 모델을 생성한다. 모델 생성 모듈(15)은 신경망, 히든 마르코프(Hidden Markov) 또는 VQ 클러스터링과 같은 알고리즘을 사용하여 성문 매칭 모델을 트레이닝시킬 수 있음을 이해할 수 있다. 성문 트레이닝 음성 세트 내의 음성에 대응하는 음성 취득자는 도 8에 도시된 실시 예의 제1 구현에서 모델 생성 모듈(15)에서의 것과 상이하다. 이 경우, 성문 트레이닝 음성 세트 내의 음성에 대응하는 음성 취득자는 타깃 객체를 포함할 필요가 있으며, 성문 트레이닝 음성에 대응하는 샘플 특징 정보는 성문 트레이닝 음성의 성문 특징 정보일 수 있다.
객체 정보 획득 모듈(11)은 현재 음성 환경에서 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하도록 구성된다.
일 실시 예에서, 객체 정보 획득 모듈(11)은 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득할 수 있다.
도 11은 본 출원의 본 실시 예에 따른 객체 정보 획득 모듈의 개략적인 구조도이다. 도 11에 도시된 바와 같이, 객체 정보 획득 모듈(11)은 정보 획득 유닛(111) 및 정보 결정 유닛(112)을 포함할 수 있다.
정보 획득 유닛(111)은 마이크로폰 어레이에 기반하여 현재 음성 환경에서 음성 정보 세트를 획득하고, 음성 정보 세트에 대해 스크리닝 처리를 수행하여 스크리닝 처리 후 타깃 객체의 음성 정보를 획득하도록 구성된다.
일 실시 예에서, 타깃 객체의 음성 정보를 획득하는 정보 획득 유닛(111)의 상세한 프로세스에 대해서는 전술한 방법 실시 예의 설명을 참조할 수 있다. 세부 사항은 여기서 다시 설명하지 않는다.
정보 결정 유닛(112)은 음성 정보 세트를 획득하는 동안 마이크로폰 어레이의 위상 정보를 획득하고, 위상 정보에 의해 지시된 음성 위치에 기반하여 타깃 객체의 위치 정보를 결정하도록 구성된다.
특정 구현에서, 타깃 객체의 위치 정보를 획득하는 정보 결정 유닛(112)의 상세한 프로세스에 대해, 전술한 방법 실시 예의 설명을 참조할 수 있다. 세부 사항은 여기서 다시 설명하지 않는다.
특징 정보 획득 모듈(12)은 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하고, 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득하도록 구성된다.
특정 구현에서, 성문 특징 정보를 획득하는 특징 정보 획득 모듈(12)의 상세한 프로세스에 대해서는 전술한 방법 실시 예의 설명을 참조할 수 있다. 세부 사항은 여기서 다시 설명하지 않는다.
신뢰도 획득 모듈(13)은 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하도록 구성된다.
특정 구현에서, 신뢰도 획득 모듈(13)은 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득할 수 있다.
도 12는 본 출원의 본 실시 예에 따른 신뢰도 획득 모듈의 개략적인 구조도이다. 도 12에 도시된 바와 같이, 신뢰도 획득 모듈(13)은 매칭 정도 값 획득 유닛(131) 및 신뢰도 결정 유닛(132)을 포함할 수 있다.
매칭 정도 값 획득 유닛(131)은 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜 가장 높은 특징 매칭 정도 값을 획득하도록 구성된다.
특정 구현에서, 매칭 정도 값을 획득하는 매칭 정도 값 획득 유닛(131)의 상세한 프로세스에 대해, 전술한 방법 실시 예의 설명을 참조할 수 있다. 세부 사항은 여기서 다시 설명하지 않는다.
신뢰도 결정 유닛(132)은 매칭 정도 값에 따라 성문 특징 정보에 대응하는 보이스 신뢰도 값을 결정하도록 구성된다.
특정 구현에서, 보이스 신뢰도 값을 결정하는 신뢰도 결정 유닛(132)의 상세한 프로세스에 대해, 전술한 방법 실시 예의 설명을 참조할 수 있다. 세부 사항은 여기서 다시 설명하지 않는다.
결과 획득 모듈(14)은 구체적으로, 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하도록 구성된다.
객체 인식 디바이스(1)가 성문 특징 정보를 사용하여 타깃 객체의 객체 인식 결과를 생성할 수 있고, 객체 인식 결과는 타깃 객체의 음성 정보에 대응하는 타깃 객체의 신원 정보를 지시할 수 있음을 이해할 수 있다. 예를 들어, 현재 음성 환경에 적어도 2개의 타깃 객체가 존재하면, 객체 인식 디바이스(1)는 적어도 2개의 타깃 객체의 성문 특징 정보를 사용하여 적어도 2개의 타깃 객체의 음성 정보에 대응하는 타깃 객체를 결정하고, 타깃 객체의 신원 정보를 결정(예를 들어, 법원 재판 중에 기록 시스템에서의 모든 타깃 객체의 음성이 판사, 피고 및 원고로 분류된 후, 보이스 A가 판사에 속하고, 보이스 B는 피고에 속하며, 보이스 C는 원고 등에 속하는 등으로 결정될 수 있음)한다.
일 실시 예에서, 2개의 유사한 성문 특징이 성문 특징 정보에 존재하는 경우, 객체 인식 디바이스(1)가 2개의 유사한 성문 특징을 사용하여 타깃 객체의 객체 인식 결과를 정확하게 획득할 수 없는 상황이 존재할 수 있다.
전술한 상황에 대해, 결과 획득 모듈(14)은 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득할 수 있다.
본 출원의 본 실시 예의 특정 구현에서, 결과 획득 모듈(14)은 도 13에 도시된 바와 같이 제1 결과 획득 유닛(141), 제2 결과 획득 유닛(142) 및 제3 결과 획득 유닛(143)을 포함할 수 있다.
제1 결과 획득 유닛(141)은 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 성문 특징 정보를 사용된 객체 인식 정보로 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하도록 구성된다.
일 실시 예에서, 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 이는 성문 특징 정보에 따라 확인된 타깃 객체의 신원 정보의 신뢰도가 상대적으로 크다는 것을 나타낼 수 있으며, 제1 결과 획득 유닛(141)은 성문 특징 정보를 사용된 객체 인식 정보로서 결정하고 그 다음에, 성문 특징 정보를 사용하여 타깃 객체의 신원 정보를 인식할 수 있다. 이 경우, 위치 정보는 신원 확인에 관여하지 않고 음원을 찾는 데만 사용된다.
일 실시 예에서, 제1 신뢰도 임계 값은 90%, 95%, 또는 실제 상황에 따라 결정된 다른 값으로 설정될 수 있다.
제2 결과 획득 유닛(142)은 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하도록 구성된다.
일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보에 따라 확인된 타깃 객체의 신원 정보의 신뢰도가 평균 레벨에 있음을 나타낼 수 있다. 타깃 객체의 신원을 보다 정확하게 인식하기 위해, 제2 결과 획득 유닛(142)는 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 성문 특징 정보를 사용하여 성문 인식을 수행하여 처음에 타깃 객체의 신원을 결정하고, 추가로, 위치 정보를 사용하여 찾은 음원 방향을 사용하여 타깃 객체의 신원을 인식할 수 있다.
일 실시 예에서, 제1 신뢰도 임계 값은 90%, 95% 또는 실제 상황에 따라 결정된 다른 값으로 설정될 수 있고, 제2 신뢰도 임계 값은 50%, 55%, 60% 또는 평균 값을 나타낼 수 있으면서 또한 실제 상황에 따라 결정되는 다른 데이터로 설정될 수 있다.
제3 결과 획득 유닛(143)은 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 위치 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하도록 구성된다.
일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보에 따라 확인된 타깃 객체의 신원 정보의 신뢰도가 상대적으로 낮고, 성문 특징 정보를 사용하여 인식된 타깃 객체의 정확도가 비교적 낮음을 나타낼 수 있다. 제3 결과 획득 서브 유닛(1323)은 위치 정보를 사용된 객체 인식 정보로서 결정하고, 음원의 위치 정보를 사용하여 찾은 위치 방향을 사용하여 타깃 객체의 신원을 결정하여 동일한 음성 환경에서 음성 분리를 구현할 수 있다. 위치 정보가 객체 인식 정보로서 사용되는 경우, 허용된 범위의 에러가 인식 프로세스에서 존재할 수 있음을 이해할 수 있다. 이 경우, 현재의 음성 환경은 특정 음성 환경, 예를 들어, 타깃 객체의 위치가 결정되는 환경(예를 들어, 판사 및 죄수의 위치는 법원 재판에서 결정됨)이어야 한다.
본 출원의 본 실시 예에서, 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되므로, 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고 객체 인식 효율을 향상시킨다.
본 출원의 본 실시 예의 특정 구현에서, 결과 획득 모듈(14)은 도 14에 도시된 바와 같이 정보 결정 서브 유닛(1421), 후보 결과 획득 서브 유닛(1422) 및 결과 획득 서브 유닛(1423)을 포함할 수 있다.
정보 결정 서브 유닛(1421)은 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하도록 구성된다.
특정 구현에서, 객체 인식 정보를 결정하는 정보 결정 서브 유닛(1421)의 상세한 프로세스에 대해서는 전술한 방법 실시 예의 설명을 참조할 수 있다. 세부 사항은 여기서 다시 설명하지 않는다.
후보 결과 획득 서브 유닛(1422)은 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득하도록 구성된다.
특정 구현에서, 정보 결정 서브 유닛(1421)이 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정한 후, 후보 결과 획득 서브 유닛(1422)은 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득할 수 있다. 타깃 객체의 성문 특징 정보가 명백히 상이한 경우, 후보 인식 결과는 타깃 객체의 최종 객체 인식 결과일 수 있으며, 즉 객체 인식 디바이스는 복수의 음성 정보로부터 타깃 객체의 음성 정보를 명확하게 인식할 수 있음을 이해할 수 있다. 명확하지 않은 상이한 성문 특징 정보를 갖는 적어도 2개의 타깃 객체가 타깃 객체에 존재하는 경우, 후보 인식 결과에 의해 지시된 타깃 객체와 음성 정보 사이의 대응관계가 부정확할 수 있다. 예를 들어, 판사 A와 죄수 B의 성문 특징 정보가 매우 유사하면, 객체 인식 디바이스가 법원 재판에서 복수의 음성 정보로부터 판사 A의 음성 정보를 인식하는 경우, 판사 A의 음성 정보를 죄수 B의 음성 정보로 착각하거나 죄수 B의 음성 정보를 판사 A의 음성 정보로 착각할 수 있다.
결과 획득 서브 유닛(1423)은 위치 정보를 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 찾도록 구성된다.
일 실시 예에서, 후보 결과 획득 서브 유닛(1422)은 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 처음에 인식하며, 결과 획득 서브 유닛(1423)은 위치 정보에 따라 찾은 음원 방향을 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 추가로 찾아 낼 수 있으며, 즉 결과 획득 서브 유닛(1423)은 후보 인식 결과를 조정하고 최종적으로 타깃 객체의 객체 인식 결과를 결정할 수 있다. 예를 들어, 판사 A의 성문 특징 정보와 죄수 B의 성문 특징 정보가 매우 유사하며, 후보 인식 결과는 판사 A의 음성 정보가 죄수 B에 대응하는 것으로 지시하고, 그리고 객체 인식 디바이스는 판사 A의 위치 정보를 참조하여 판사 A의 음성 정보를 판사 A에 대응시킬 수 있다.
본 출원의 본 실시 예에서, 타깃 객체들의 객체 인식 결과는 위치 정보 및 성문 특징 정보를 사용하여 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 추가로 증가시킨다.
본 출원의 본 실시 예에서, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 트레이닝된 성문 매칭 모델에 기반하여 성문 특징이 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 획득되고; 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되며, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가되며; 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되므로, 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고, 객체 인식 효율을 개선하며; 위치 정보 및 성문 특징 정보를 사용하여 타깃 객체들의 객체 인식 결과가 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 더 증가시킨다.
일 실시 예에서, 메모리 및 프로세서를 포함하는 컴퓨터 디바이스가 제공되고, 메모리는 컴퓨터 판독 가능 명령을 저장하고, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하는 단계; 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득하는 단계; 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 단계; 및 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득하는 단계를 수행하게 한다.
일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하는 단계를 수행할 때, 마이크로폰 어레이에 기반하여 현재 음성 환경에서 음성 정보 세트를 획득하는 단계; 음성 정보 세트에 대해 스크리닝 처리를 수행하여 스크리닝 처리 후 타깃 객체의 음성 정보를 획득하는 단계; 음성 정보 세트를 획득하는 동안 마이크로폰 어레이의 위상 정보를 획득하는 단계; 및 위상 정보에 의해 지시된 음성 위치에 기반하여 타깃 객체의 위치 정보를 결정하는 단계를 수행하게 한다.
일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가 추가로, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하는 단계를 수행하기 이전에, 성문 트레이닝 음성 세트를 획득하는 단계; 및 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 트레이닝된 성문 매칭 모델을 생성하는 단계를 수행하게 한다.
일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가, 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 단계를 수행할 때, 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜, 가장 높은 특징 매칭 정도 값을 획득하는 단계; 및 매칭 정도 값에 따라 성문 특징 정보에 대응하는 보이스 신뢰도 값을 결정하는 단계를 수행하게 한다.
일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득하는 단계를 수행할 때, 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 단계; 및 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하는 단계를 수행하게 한다.
일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 단계를 수행할 때, 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같을 경우, 성문 특징 정보를 사용된 객체 인식 정보로서 결정하는 단계; 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보 모두를 사용된 객체 인식 정보로서 결정하는 단계; 및 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 위치 정보를 사용된 객체 인식 정보로서 결정하는 단계를 수행하게 한다.
일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보 모두가 사용된 객체 인식 정보로서 결정되며, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하는 동작을 수행할 때, 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득하는 단계; 및 위치 정보를 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 찾아내는 단계를 수행하게 한다.
전술한 컴퓨터 디바이스에서, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 트레이닝된 성문 매칭 모델에 기반하여 성문 특징이 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 추출되고, 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되며, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가된다.
컴퓨터 판독 가능 명령을 저장하는 비 휘발성 컴퓨터 판독 가능 저장 매체가 제공되고, 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 하나 이상의 프로세서가, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하는 단계; 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득하는 단계; 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 단계; 및 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득하는 단계를 수행하게 한다.
일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하는 단계를 수행할 때, 마이크로폰 어레이에 기반하여 현재 음성 환경에서 음성 정보 세트를 획득하는 단계; 음성 정보 세트에 대해 스크리닝 처리를 수행하여 스크리닝 처리 후 타깃 객체의 음성 정보를 획득하는 단계; 음성 정보 세트를 획득하는 동안 마이크로폰 어레이의 위상 정보를 획득하는 단계; 및 위상 정보에 의해 지시된 음성 위치에 기반하여 타깃 객체의 위치 정보를 결정하는 단계를 수행하게 한다.
일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가 추가로, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하는 단계를 수행하기 이전에, 성문 트레이닝 음성 세트를 획득하는 단계; 및 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 트레이닝된 성문 매칭 모델을 생성하는 단계를 수행하게 한다.
일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가, 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 단계를 수행할 때, 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜, 가장 높은 특징 매칭 정도 값을 획득하는 단계; 및 매칭 정도 값에 따라 성문 특징 정보에 대응하는 보이스 신뢰도 값을 결정하는 단계를 수행하게 한다.
일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득하는 단계를 수행할 때, 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 단계; 및 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하는 단계를 수행하게 한다.
일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 단계를 수행할 때, 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 성문 특징 정보를 사용된 객체 인식 정보로서 결정하는 단계; 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보 모두를 사용된 객체 인식 정보로서 결정하는 단계; 및 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 위치 정보를 사용된 객체 인식 정보로서 결정하는 단계를 수행하게 한다.
일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보는 모두 사용된 객체 인식 정보로서 결정되며, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하는 작동을 수행할 때, 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득하는 작동; 및 위치 정보를 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 찾는 작동을 수행하게 한다.
전술한 컴퓨터 판독 가능 저장 매체에서, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 트레이닝된 성문 매칭 모델에 기반하여 성문 특징이 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 획득되고; 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되며, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가된다.
도 15는 본 출원의 실시 예에 따른 단말의 개략적인 구조도이다. 도 15에 도시된 바와 같이, 단말(1000)는 CPU와 같은 적어도 하나의 프로세서(1001), 적어도 하나의 네트워크 인터페이스(1004), 사용자 인터페이스(1003), 메모리(1005) 및 적어도 하나의 통신 버스(1002)를 포함할 수 있다. 통신 버스(1002)는 컴포넌트들 간의 연결 및 통신을 구현하도록 구성된다. 사용자 인터페이스(1003)는 디스플레이, 키보드를 포함할 수 있고, 선택적으로 사용자 인터페이스(1003)는 표준 유선 인터페이스 및 표준 무선 인터페이스를 더 포함할 수 있다. 선택적으로, 네트워크 인터페이스(1004)는 표준 유선 인터페이스 및 표준 무선 인터페이스(예를 들어, WiFi 인터페이스)를 포함할 수 있다. 메모리(1005)는 고속 RAM 메모리일 수 있거나, 비휘발성 메모리, 예를 들어 적어도 하나의 자기 디스크 메모리일 수 있다. 선택적으로, 메모리(1005)는 프로세서(1001)로부터 멀리 떨어진 적어도 하나의 저장 디바이스일 수 있다. 도 15에 도시된 바와 같이, 컴퓨터 저장 매체로 사용되는 메모리(1005)는 운영 체제, 네트워크 통신 모듈, 사용자 인터페이스 모듈 및 객체 인식 애플리케이션을 포함할 수 있다.
도 15에 도시된 단말(1000)에서, 사용자 인터페이스(1003)는 주로 사용자에게 입력 인터페이스를 제공하고 사용자에 의해 입력된 데이터를 획득하도록 구성된다. 네트워크 인터페이스(1004)는 사용자 단말과 데이터 통신을 수행하도록 구성된다. 프로세서(1001)는 메모리(1005)에 저장된 객체 인식 애플리케이션을 호출하고 구체적으로 전술한 객체 인식 방법을 수행하도록 구성될 수 있다.
본 출원의 본 실시 예에서, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 트레이닝된 성문 매칭 모델에 기반하여 성문 특징이 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 획득되고; 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되며, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가되며; 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되므로, 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고, 객체 인식 효율을 개선하며; 위치 정보 및 성문 특징 정보를 사용하여 타깃 객체들의 객체 인식 결과가 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 더 증가시킨다.
당업자는 실시 예에서의 방법의 모든 또는 일부 프로세스가 관련 하드웨어를 지시하는 컴퓨터 프로그램에 의해 구현될 수 있음을 이해할 수 있다. 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 프로그램이 실행될 때, 실시 예에서의 방법의 절차가 수행된다. 저장 매체는 자기 디스크, 광 디스크, ROM(read-only memory) 또는 RAM(random access memory)일 수 있다.
상술한 것은 본 발명의 실시 예의 일례일 뿐이며, 본 발명의 보호 범위를 제한하려는 것은 아니다. 그러므로, 본 개시의 청구 범위에 따라 이루어진 등가 변형은 본 개시의 범위 내에 속한다.

Claims (20)

  1. 메모리 및 프로세서를 포함하는 컴퓨터 디바이스에 의해 수행되는 객체 인식 방법으로서,
    상기 객체 인식 방법은,
    현재의 음성 환경(speech environment)에서의 타깃 객체의 음성 정보(speech information) 및 상기 타깃 객체의 위치 정보를 획득하는 단계;
    트레이닝된(trained) 성문(voiceprint) 매칭 모델에 기반하여 상기 음성 정보로부터 성문 특징을 추출하여, 상기 성문 특징 추출 후 상기 음성 정보에 대응하는 성문 특징 정보를 획득하는 단계;
    상기 성문 특징 정보에 대응하는 보이스 신뢰도 값(voice confidence value)을 획득하는 단계 - 상기 보이스 신뢰도 값은 상기 성문 특징 정보와 상기 타깃 객체 사이의 대응 관계의 신뢰성(credibility)을 지시(indicate)함 -; 및
    상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 단계
    를 포함하며,
    상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 단계는,
    상기 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 상기 위치 정보 및 상기 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 단계; 및
    상기 객체 인식 정보에 따라 상기 타깃 객체의 객체 인식 결과를 획득하는 단계
    를 포함하며,
    상기 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 상기 위치 정보 및 상기 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 단계는,
    상기 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 상기 성문 특징 정보를 상기 사용된 객체 인식 정보로서 결정하는 단계;
    상기 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 상기 제1 신뢰도 임계 값보다 작은 경우, 상기 위치 정보 및 상기 성문 특징 정보 모두를 상기 사용된 객체 인식 정보로서 결정하는 단계; 및
    상기 보이스 신뢰도 값이 상기 제2 신뢰도 임계 값보다 작은 경우, 상기 위치 정보를 상기 사용된 객체 인식 정보로서 결정하는 단계
    를 포함하는,
    객체 인식 방법.
  2. 제1항에 있어서,
    상기 현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 단계는,
    마이크로폰 어레이에 기반하여 상기 현재의 음성 환경에서 음성 정보 세트를 획득하는 단계;
    상기 음성 정보 세트에 대해 스크리닝(screening) 처리를 수행하여, 상기 스크리닝 처리 후 상기 타깃 객체의 상기 음성 정보를 획득하는 단계;
    상기 음성 정보 세트를 획득하는 동안 상기 마이크로폰 어레이의 위상 정보를 획득하는 단계; 및
    상기 위상 정보에 의해 지시된(indicated) 음성 위치(speech position)에 기반하여 상기 타깃 객체의 위치 정보를 결정하는 단계
    를 포함하는, 객체 인식 방법.
  3. 제1항에 있어서,
    상기 현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 단계 이전에, 상기 객체 인식 방법은,
    성문 트레이닝 음성 세트(voiceprint training speech set)를 획득하는 단계; 및
    상기 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 상기 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 상기 트레이닝된 성문 매칭 모델을 생성하는 단계
    를 더 포함하는 객체 인식 방법.
  4. 제3항에 있어서,
    상기 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 단계는,
    상기 성문 특징 정보를 상기 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜서 가장 높은 특징 매칭 정도 값(matching degree value)을 획득하는 단계; 및
    상기 매칭 정도 값에 따라 상기 성문 특징 정보에 대응하는 상기 보이스 신뢰도 값을 결정하는 단계
    를 포함하는, 객체 인식 방법.
  5. 삭제
  6. 삭제
  7. 제1항에 있어서,
    상기 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 상기 제1 신뢰도 임계 값보다 작은 경우, 상기 위치 정보 및 상기 성문 특징 정보 모두가 상기 사용된 객체 인식 정보로서 결정되며, 상기 객체 인식 정보에 따라 상기 타깃 객체의 객체 인식 결과를 획득하는 단계는,
    상기 성문 특징 정보에 따라 상기 타깃 객체의 후보 인식 결과를 획득하는 단계; 및
    상기 위치 정보를 사용하여 상기 후보 인식 결과로부터 상기 타깃 객체의 객체 인식 결과를 찾아내는(locate) 단계
    를 포함하는, 객체 인식 방법.
  8. 컴퓨터 디바이스로서,
    프로세서 및 메모리를 포함하고,
    상기 메모리는 컴퓨터 판독 가능 명령을 저장하고, 상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가,
    현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 작동;
    트레이닝된 성문 매칭 모델에 기반하여 상기 음성 정보로부터 성문 특징을 추출하여, 상기 성문 특징 추출 후 상기 음성 정보에 대응하는 성문 특징 정보를 획득하는 작동;
    상기 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 작동 - 상기 보이스 신뢰도 값은 상기 성문 특징 정보와 상기 타깃 객체 사이의 대응 관계의 신뢰성(credibility)을 지시(indicate)함 - ; 및
    상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 작동
    을 수행하게 하며,
    상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 작동을 수행할 때,
    상기 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 상기 위치 정보 및 상기 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 작동; 및
    상기 객체 인식 정보에 따라 상기 타깃 객체의 객체 인식 결과를 획득하는 작동
    을 수행하게 하며,
    상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 상기 위치 정보 및 상기 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 작동을 수행할 때,
    상기 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 상기 성문 특징 정보를 상기 사용된 객체 인식 정보로서 결정하는 작동;
    상기 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 상기 제1 신뢰도 임계 값보다 작은 경우, 상기 위치 정보 및 상기 성문 특징 정보 모두를 상기 사용된 객체 인식 정보로서 결정하는 작동; 및
    상기 보이스 신뢰도 값이 상기 제2 신뢰도 임계 값보다 작은 경우, 상기 위치 정보를 상기 사용된 객체 인식 정보로서 결정하는 작동
    을 수행하게 하는,
    컴퓨터 디바이스.
  9. 제8항에 있어서,
    상기 현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 작동은,
    마이크로폰 어레이에 기반하여 상기 현재의 음성 환경에서 음성 정보 세트를 획득하는 작동;
    상기 음성 정보 세트에 대해 스크리닝 처리를 수행하여, 상기 스크리닝 처리 후 상기 타깃 객체의 상기 음성 정보를 획득하는 작동;
    상기 음성 정보 세트를 획득하는 동안 상기 마이크로폰 어레이의 위상 정보를 획득하는 작동; 및
    상기 위상 정보에 의해 지시된 음성 위치에 기반하여 상기 타깃 객체의 위치 정보를 결정하는 작동을
    를 포함하는, 컴퓨터 디바이스.
  10. 제8항에 있어서,
    상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가 추가로, 상기 현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 작동을 수행하기 전에,
    성문 트레이닝 음성 세트를 획득하는 작동; 및
    상기 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 상기 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 상기 트레이닝된 성문 매칭 모델을 생성하는 작동
    을 수행하게 하는, 컴퓨터 디바이스.
  11. 제10항에 있어서,
    상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 작동을 수행할 때,
    상기 성문 특징 정보를 상기 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜서 가장 높은 특징 매칭 정도 값을 획득하는 작동; 및
    상기 매칭 정도 값에 따라 상기 성문 특징 정보에 대응하는 상기 보이스 신뢰도 값을 결정하는 작동
    을 수행하게 하는, 컴퓨터 디바이스.
  12. 삭제
  13. 삭제
  14. 제8항에 있어서,
    상기 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 상기 제1 신뢰도 임계 값보다 작은 경우, 상기 위치 정보 및 상기 성문 특징 정보가 모두 상기 사용된 객체 인식 정보로서 결정되며, 상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 객체 인식 정보에 따라 상기 타깃 객체의 객체 인식 결과를 획득하는 작동을 수행할 때,
    상기 성문 특징 정보에 따라 상기 타깃 객체의 후보 인식 결과를 획득하는 작동; 및
    상기 위치 정보를 사용하여 상기 후보 인식 결과로부터 상기 타깃 객체의 객체 인식 결과를 찾아내는 작동
    을 수행하게 하는, 컴퓨터 디바이스.
  15. 컴퓨터 판독 가능 명령을 저장하는 비휘발성 컴퓨터 판독 가능 저장 매체로서,
    하나 이상의 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가,
    현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 작동;
    트레이닝된 성문 매칭 모델에 기반하여 상기 음성 정보로부터 성문 특징을 추출하여, 상기 성문 특징 추출 후 상기 음성 정보에 대응하는 성문 특징 정보를 획득하는 작동;
    상기 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 작동 - 상기 보이스 신뢰도 값은 상기 성문 특징 정보와 상기 타깃 객체 사이의 대응 관계의 신뢰성(credibility)을 지시(indicate)함 - ; 및
    상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 작동
    을 수행하게 하며,
    상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 작동을 수행할 때,
    상기 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 상기 위치 정보 및 상기 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 작동; 및
    상기 객체 인식 정보에 따라 상기 타깃 객체의 객체 인식 결과를 획득하는 작동
    을 수행하게 하며,
    상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 상기 위치 정보 및 상기 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 작동을 수행할 때,
    상기 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 상기 성문 특징 정보를 상기 사용된 객체 인식 정보로서 결정하는 작동;
    상기 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 상기 제1 신뢰도 임계 값보다 작은 경우, 상기 위치 정보 및 상기 성문 특징 정보 모두를 상기 사용된 객체 인식 정보로서 결정하는 작동; 및
    상기 보이스 신뢰도 값이 상기 제2 신뢰도 임계 값보다 작은 경우, 상기 위치 정보를 상기 사용된 객체 인식 정보로서 결정하는 작동
    을 수행하게 하는,
    컴퓨터 판독 가능 저장 매체.
  16. 제15항에 있어서,
    상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 작동을 수행할 때,
    마이크로폰 어레이에 기반하여 상기 현재의 음성 환경에서 음성 정보 세트를 획득하는 작동;
    상기 음성 정보 세트에 대해 스크리닝 처리를 수행하여, 상기 스크리닝 처리 후 상기 타깃 객체의 상기 음성 정보를 획득하는 작동;
    상기 음성 정보 세트를 획득하는 동안 상기 마이크로폰 어레이의 위상 정보를 획득하는 작동; 및
    상기 위상 정보에 의해 지시된 음성 위치에 기반하여 상기 타깃 객체의 위치 정보를 결정하는 작동
    을 수행하게 하는, 컴퓨터 판독 가능 저장 매체.
  17. 제15항에 있어서,
    상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가 추가로, 상기 현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 작동을 수행하기 전에,
    성문 트레이닝 음성 세트를 획득하는 작동; 및
    상기 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 상기 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 상기 트레이닝된 성문 매칭 모델을 생성하는 작동
    을 수행하게 하는, 컴퓨터 판독 가능 저장 매체.
  18. 제17항에 있어서,
    상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 작동을 수행할 때,
    상기 성문 특징 정보를 상기 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜서 가장 높은 특징 매칭 정도 값을 획득하는 작동; 및
    상기 매칭 정도 값에 따라 상기 성문 특징 정보에 대응하는 상기 보이스 신뢰도 값을 결정하는 작동
    을 수행하게 하는, 컴퓨터 판독 가능 저장 매체.
  19. 삭제
  20. 삭제
KR1020197038790A 2017-10-23 2018-08-30 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 KR102339594B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710992605.7A CN108305615B (zh) 2017-10-23 2017-10-23 一种对象识别方法及其设备、存储介质、终端
CN201710992605.7 2017-10-23
PCT/CN2018/103255 WO2019080639A1 (zh) 2017-10-23 2018-08-30 一种对象识别方法、计算机设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
KR20200012963A KR20200012963A (ko) 2020-02-05
KR102339594B1 true KR102339594B1 (ko) 2021-12-14

Family

ID=62869914

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197038790A KR102339594B1 (ko) 2017-10-23 2018-08-30 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체

Country Status (6)

Country Link
US (1) US11289072B2 (ko)
EP (1) EP3614377B1 (ko)
JP (1) JP6938784B2 (ko)
KR (1) KR102339594B1 (ko)
CN (1) CN108305615B (ko)
WO (1) WO2019080639A1 (ko)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305615B (zh) 2017-10-23 2020-06-16 腾讯科技(深圳)有限公司 一种对象识别方法及其设备、存储介质、终端
CN107945815B (zh) * 2017-11-27 2021-09-07 歌尔科技有限公司 语音信号降噪方法及设备
CN108197449A (zh) * 2017-12-27 2018-06-22 廖晓曦 一种基于移动终端的询问笔录装置、系统及其笔录方法
WO2020022055A1 (ja) * 2018-07-24 2020-01-30 ソニー株式会社 情報処理装置および方法、並びにプログラム
CN110782622A (zh) * 2018-07-25 2020-02-11 杭州海康威视数字技术股份有限公司 一种安全监控系统、安全检测方法、装置及电子设备
CN109256147B (zh) * 2018-10-30 2022-06-10 腾讯音乐娱乐科技(深圳)有限公司 音频节拍检测方法、装置及存储介质
CN111199741A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法、声纹验证方法、装置、计算设备及介质
CN109346083A (zh) * 2018-11-28 2019-02-15 北京猎户星空科技有限公司 一种智能语音交互方法及装置、相关设备及存储介质
CN111292733A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 一种语音交互方法和装置
CN109410956B (zh) * 2018-12-24 2021-10-08 科大讯飞股份有限公司 一种音频数据的对象识别方法、装置、设备及存储介质
CN109903522A (zh) * 2019-01-24 2019-06-18 珠海格力电器股份有限公司 一种监控方法、装置、存储介质及家用电器
CN110058892A (zh) * 2019-04-29 2019-07-26 Oppo广东移动通信有限公司 电子设备交互方法、装置、电子设备及存储介质
CN111951809A (zh) * 2019-05-14 2020-11-17 深圳子丸科技有限公司 多人声纹辨别方法及系统
CN110082723B (zh) * 2019-05-16 2022-03-15 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质
CN110505504B (zh) * 2019-07-18 2022-09-23 平安科技(深圳)有限公司 视频节目处理方法、装置、计算机设备及存储介质
CN110491411B (zh) * 2019-09-25 2022-05-17 上海依图信息技术有限公司 结合麦克风声源角度和语音特征相似度分离说话人的方法
CN110767226B (zh) * 2019-10-30 2022-08-16 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
US11664033B2 (en) 2020-06-15 2023-05-30 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN111916101B (zh) * 2020-08-06 2022-01-21 大象声科(深圳)科技有限公司 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
CN111904424B (zh) * 2020-08-06 2021-08-24 苏州国科医工科技发展(集团)有限公司 基于相阵麦克风的睡眠监测及调控系统
CN111988426B (zh) * 2020-08-31 2023-07-18 深圳康佳电子科技有限公司 基于声纹识别的通信方法、装置、智能终端及存储介质
CN112233694B (zh) * 2020-10-10 2024-03-05 中国电子科技集团公司第三研究所 一种目标识别方法、装置、存储介质及电子设备
CN112507294B (zh) * 2020-10-23 2022-04-22 重庆交通大学 一种基于人机交互的英语教学系统及教学方法
CN112530452A (zh) * 2020-11-23 2021-03-19 北京蓦然认知科技有限公司 一种后置滤波补偿方法、装置和系统
CN112820300B (zh) * 2021-02-25 2023-12-19 北京小米松果电子有限公司 音频处理方法及装置、终端、存储介质
CN113113044B (zh) * 2021-03-23 2023-05-09 北京小米松果电子有限公司 音频处理方法及装置、终端及存储介质
US11996087B2 (en) 2021-04-30 2024-05-28 Comcast Cable Communications, Llc Method and apparatus for intelligent voice recognition
CN113707173B (zh) * 2021-08-30 2023-12-29 平安科技(深圳)有限公司 基于音频切分的语音分离方法、装置、设备及存储介质
CN114863932A (zh) * 2022-03-29 2022-08-05 青岛海尔空调器有限总公司 一种工作模式设置方法及装置
CN114694635A (zh) * 2022-03-29 2022-07-01 青岛海尔空调器有限总公司 一种睡眠场景设置方法及装置
CN115331673B (zh) * 2022-10-14 2023-01-03 北京师范大学 一种复杂声音场景下的声纹识别家电控制方法和装置
CN116299179B (zh) * 2023-05-22 2023-09-12 北京边锋信息技术有限公司 一种声源定位方法、声源定位装置和可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150302869A1 (en) * 2014-04-17 2015-10-22 Arthur Charles Tomlin Conversation, presence and context detection for hologram suppression
US20160125879A1 (en) * 2014-11-03 2016-05-05 Microsoft Technology Licensing, Llc Augmentation of key phrase user recognition
US20160307572A1 (en) * 2013-04-26 2016-10-20 Agnitio, S.L. Estimation of reliability in speaker recognition

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2991144B2 (ja) * 1997-01-29 1999-12-20 日本電気株式会社 話者認識装置
FR2761848B1 (fr) * 1997-04-04 2004-09-17 Parrot Sa Dispositif de commande vocale pour radiotelephone, notamment pour utilisation dans un vehicule automobile
US6751590B1 (en) * 2000-06-13 2004-06-15 International Business Machines Corporation Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition
JP2005122128A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 音声認識システム及びプログラム
JP4595364B2 (ja) * 2004-03-23 2010-12-08 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
US20070219801A1 (en) * 2006-03-14 2007-09-20 Prabha Sundaram System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
JP4982807B2 (ja) * 2008-03-06 2012-07-25 独立行政法人産業技術総合研究所 操作方法およびそのための操作装置、プログラム
JP4730404B2 (ja) * 2008-07-08 2011-07-20 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US8442824B2 (en) * 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
JP2010165305A (ja) 2009-01-19 2010-07-29 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8265341B2 (en) * 2010-01-25 2012-09-11 Microsoft Corporation Voice-body identity correlation
US8606579B2 (en) * 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers
CN102270451B (zh) * 2011-08-18 2013-05-29 安徽科大讯飞信息科技股份有限公司 说话人识别方法及系统
US20130162752A1 (en) * 2011-12-22 2013-06-27 Advanced Micro Devices, Inc. Audio and Video Teleconferencing Using Voiceprints and Face Prints
US9401058B2 (en) * 2012-01-30 2016-07-26 International Business Machines Corporation Zone based presence determination via voiceprint location awareness
US9800731B2 (en) * 2012-06-01 2017-10-24 Avaya Inc. Method and apparatus for identifying a speaker
CN102930868A (zh) * 2012-10-24 2013-02-13 北京车音网科技有限公司 身份识别方法和装置
US9711148B1 (en) * 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
US20150302856A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
CN105321520A (zh) * 2014-06-16 2016-02-10 丰唐物联技术(深圳)有限公司 一种语音控制方法及装置
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
CN104219050B (zh) * 2014-08-08 2015-11-11 腾讯科技(深圳)有限公司 声纹验证方法、服务器、客户端及系统
US10397220B2 (en) * 2015-04-30 2019-08-27 Google Llc Facial profile password to modify user account data for hands-free transactions
CN104935819B (zh) * 2015-06-11 2018-03-02 广东欧珀移动通信有限公司 一种控制摄像头拍摄方法及终端
US10178301B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. User identification based on voice and face
CN105280183B (zh) * 2015-09-10 2017-06-20 百度在线网络技术(北京)有限公司 语音交互方法和系统
US20180018973A1 (en) * 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10026403B2 (en) * 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
CN106503513A (zh) * 2016-09-23 2017-03-15 北京小米移动软件有限公司 声纹识别方法及装置
US20190182176A1 (en) * 2016-12-21 2019-06-13 Facebook, Inc. User Authentication with Voiceprints on Online Social Networks
CN106898355B (zh) * 2017-01-17 2020-04-14 北京华控智加科技有限公司 一种基于二次建模的说话人识别方法
CN106961418A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 身份认证方法和身份认证系统
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
CN107123421A (zh) * 2017-04-11 2017-09-01 广东美的制冷设备有限公司 语音控制方法、装置及家电设备
US11250844B2 (en) * 2017-04-12 2022-02-15 Soundhound, Inc. Managing agent engagement in a man-machine dialog
CN107221331A (zh) * 2017-06-05 2017-09-29 深圳市讯联智付网络有限公司 一种基于声纹的身份识别方法和设备
CN108305615B (zh) * 2017-10-23 2020-06-16 腾讯科技(深圳)有限公司 一种对象识别方法及其设备、存储介质、终端
CN107862060B (zh) * 2017-11-15 2021-03-23 吉林大学 一种追踪目标人的语义识别装置及识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160307572A1 (en) * 2013-04-26 2016-10-20 Agnitio, S.L. Estimation of reliability in speaker recognition
US20150302869A1 (en) * 2014-04-17 2015-10-22 Arthur Charles Tomlin Conversation, presence and context detection for hologram suppression
US20160125879A1 (en) * 2014-11-03 2016-05-05 Microsoft Technology Licensing, Llc Augmentation of key phrase user recognition

Also Published As

Publication number Publication date
CN108305615A (zh) 2018-07-20
EP3614377A1 (en) 2020-02-26
EP3614377A4 (en) 2020-12-30
WO2019080639A1 (zh) 2019-05-02
US11289072B2 (en) 2022-03-29
JP2021500616A (ja) 2021-01-07
CN108305615B (zh) 2020-06-16
US20200058293A1 (en) 2020-02-20
EP3614377B1 (en) 2022-02-09
JP6938784B2 (ja) 2021-09-22
KR20200012963A (ko) 2020-02-05

Similar Documents

Publication Publication Date Title
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
Sahidullah et al. Introduction to voice presentation attack detection and recent advances
US10699699B2 (en) Constructing speech decoding network for numeric speech recognition
WO2016150001A1 (zh) 语音识别的方法、装置及计算机存储介质
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
CN109410956B (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN106782508A (zh) 语音音频的切分方法和语音音频的切分装置
JP2019101385A (ja) 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
CN108922543A (zh) 模型库建立方法、语音识别方法、装置、设备及介质
US11611581B2 (en) Methods and devices for detecting a spoofing attack
CN113643707A (zh) 一种身份验证方法、装置和电子设备
Jiang et al. Securing liveness detection for voice authentication via pop noises
GB2576960A (en) Speaker recognition
CN111145748B (zh) 音频识别置信度确定方法、装置、设备及存储介质
EP3816996B1 (en) Information processing device, control method, and program
KR20120079342A (ko) 위치 기반의 음향 처리 장치 및 방법
Zhang et al. A phoneme localization based liveness detection for text-independent speaker verification
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
JP2009042552A (ja) 音声処理装置及び方法
JP6003352B2 (ja) データ生成装置、及びデータ生成方法
KR102661005B1 (ko) 다채널 다화자 환경에서 화자별 음원분리장치 및 방법
JP2001350494A (ja) 照合装置及び照合方法
Lee et al. Space-time voice activity detection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant