KR102339594B1

KR102339594B1 - 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체

Info

Publication number: KR102339594B1
Application number: KR1020197038790A
Authority: KR
Inventors: 밍위안 장
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2017-10-23
Filing date: 2018-08-30
Publication date: 2021-12-14
Also published as: CN108305615A; EP3614377A1; EP3614377A4; WO2019080639A1; US11289072B2; JP2021500616A; CN108305615B; US20200058293A1; EP3614377B1; JP6938784B2; KR20200012963A

Abstract

객체 인식 방법이 제공되며, 상기 객체 인식 방법은, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하는 단계; 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득하는 단계; 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 단계; 및 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득하는 단계를 포함한다.

Description

객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체

본 출원은 2017년 10월 23일에 중국 국가 특허청에 제출되고 명칭이 "객체 인식 방법 및 디바이스, 저장 매체 및 단말"인 중국 특허 출원 번호 201710992605.7에 대한 우선권을 주장하는 바이며, 상기 특허 출원은 그 전체로서 원용에 의해 본 명세서에 포함된다.

본 출원은 컴퓨터 기술 분야, 특히 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.

과학과 기술의 지속적인 개발로 생체 인식 기술로서 점차 성숙해지도록 성문 인식(voiceprint recognition)이 개발되었다. 화자(speaker)는 성문 인식을 통해 복수의 화자로부터 식별될 수 있거나, 또는 음성(speech)에 대응하는 화자 신원(identity)은 음성의 성문 특징을 인식하는 것에 의해 결정될 수 있다. 예를 들어, 음성 인식 시스템의 기록 시스템은 성문을 사용하여 시나리오에서 모든 화자를 구별(예를 들어, 기록 시스템에서 성문 인식 기술을 사용하여 법원 재판 시나리오에서 판사와 죄수를 구별함)할 수 있다.

종래 기술에서, 성문 인식은 주로 음향 모델의 성문 특징(예를 들어, 억양, 방언, 리듬 및 비음(nasal sound))을 매칭하는 것에 의해 인식된다. 그러나, 성문 특징의 유사성이 비교적 높은 경우, 성문 매칭 결과의 차이가 비교적 작고 성문 매칭 결과에 따라 화자를 구별하기 어려운 상황이 발생하기 쉽다. 이는 성문 인식 결과의 정확성에 영향을 준다.

본 출원의 실시 예들에 따르면, 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체가 제공된다.

객체 인식 방법은 컴퓨터 디바이스에 의해 수행되고, 컴퓨터 디바이스는 메모리 및 프로세서를 포함하며, 상기 객체 인식 방법은,

현재의 음성 환경(speech environment)에서의 타깃 객체의 음성 정보(speech information) 및 상기 타깃 객체의 위치 정보를 획득하는 단계;

트레이닝된(trained) 성문(voiceprint) 매칭 모델에 기반하여 상기 음성 정보로부터 성문 특징을 추출하여, 상기 성문 특징 추출 후 상기 음성 정보에 대응하는 성문 특징 정보를 획득하는 단계;

상기 성문 특징 정보에 대응하는 보이스 신뢰도 값(voice confidence value)을 획득하는 단계; 및

상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 단계를 포함한다.

상기 컴퓨터 디바이스는 프로세서 및 메모리를 포함하고, 상기 메모리는 컴퓨터 판독 가능 명령을 저장하고, 상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가,

현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 작동;

트레이닝된 성문 매칭 모델에 기반하여 상기 음성 정보로부터 성문 특징을 추출하여, 상기 성문 특징 추출 후 상기 음성 정보에 대응하는 성문 특징 정보를 획득하는 작동;

상기 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 작동; 및

상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 작동을 수행하게 한다.

비휘발성 컴퓨터 판독 가능 저장 매체는 컴퓨터 판독 가능 명령을 저장하고, 하나 이상의 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가,

본 출원의 하나 이상의 실시 예의 세부 사항은 다음의 첨부 도면 및 설명에 개시되어 있다. 본 출원의 다른 특징, 목적 및 이점은 명세서, 첨부 도면 및 청구 범위로부터 명백해진다.

본 출원의 실시 예에서의 기술적 솔루션을 보다 명확하게 설명하기 위해, 다음은 실시 예에서 사용될 필요가 있는 첨부 도면을 간략하게 설명한다. 명백하게, 이하의 설명에서의 첨부 도면은 본 출원의 일부 실시 예를 도시하고, 당업자는 창조적 노력없이 이들 첨부 도면으로부터 다른 도면을 도출할 수 있다.
도 1은 본 출원의 실시 예에 따른 객체 인식 디바이스의 하드웨어 아키텍처의 개략도이다.
도 2는 본 출원의 실시 예에 따른 객체 인식 디바이스의 시스템 블록도이다.
도 3은 본 출원의 실시 예에 따른 객체 인식 방법의 개략적인 흐름도이다.
도 4는 본 출원의 실시 예에 따른 다른 객체 인식 방법의 개략적인 흐름도이다.
도 5는 본 출원의 실시 예에 따른 빔포밍 방식에 기반한 분리된 음성(speech) 디스플레이의 개략도이다.
도 6은 본 출원의 실시 예에 따른 다른 객체 인식 방법의 개략적인 흐름도이다.
도 7은 본 출원의 실시 예에 따른 다른 객체 인식 방법의 개략적인 흐름도이다.
도 8은 본 출원의 실시 예에 따른 다른 객체 인식 방법의 개략적인 흐름도이다.
도 9는 본 출원의 실시 예에 따른 객체 인식 디바이스의 개략적인 구조도이다.
도 10은 본 출원의 실시 예에 따른 다른 객체 인식 디바이스의 개략적인 구조도이다.
도 11은 본 출원의 실시 예에 따른 객체 정보 획득 모듈의 개략적인 구조도이다.
도 12는 본 출원의 실시 예에 따른 신뢰도 획득 모듈의 개략적인 구조도이다.
도 13은 본 출원의 실시 예에 따른 결과 획득 모듈의 개략적인 구조도이다.
도 14는 본 출원의 실시 예에 따른 제2 결과 획득 유닛의 개략적인 구조도이다.
도 15는 본 출원의 실시 예에 따른 단말의 개략적인 구조도이다.

다음은 본 출원의 실시 예에서의 첨부 도면을 참조하여 본 출원의 실시 예에서의 기술적 솔루션을 명확하고 완전하게 설명한다. 명백하게, 설명된 실시 예는 모든 실시 예가 아니라 본 출원의 일부 실시 예이다. 창조적 노력없이 본 출원의 실시 예들에 기반하여 당업자에 의해 획득된 다른 모든 실시 예들이 본 출원의 보호 범위 내에 속할 것이다.

본 출원의 실시 예에서 제공되는 객체 인식 방법은 다중 음원 환경(multi-sound source environment)에서 음원(sound source) 객체에 대한 성문 인식(voiceprint recognition)을 수행하여 타깃 객체를 식별하는 시나리오에 적용될 수 있다. 예를 들어, 객체 인식 디바이스는 현재 음성(speech) 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하고, 그 다음에 트레이닝된(tranined) 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하며, 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득하고, 최종적으로 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하며, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득한다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가된다.

본 출원의 실시 예에서의 객체 인식 디바이스는 태블릿 컴퓨터, 스마트 폰, 팜탑 컴퓨터, 모바일 인터넷 디바이스(mobile Internet device, MID) 및 마이크로폰 어레이를 통합할 수 있거나 마이크로폰 어레이에 의해 전송된 음원의 위치 정보를 수신할 수 있으면서 또한 성문 인식 기능을 갖는 다른 단말 디바이스일 수 있다. 객체 인식 디바이스의 하드웨어 구조는 도 1에 도시될 수 있다. 오디오 프로세서는 노이즈를 줄이고 방향을 찾도록(locate) 구성되고, 시스템 프로세서는 클라우드에 연결하고 성문 특징을 분석하도록 구성되며, 스토리지 시스템은 객체 인식 애플리케이션을 저장하도록 구성된다. 객체 인식 디바이스의 시스템 블록도가 도 2에 도시될 수 있다. 마이크로폰 어레이는 상이한 위치의 음원들에 대응하는 음성 정보를 인식하고 상이한 음원에 대한 각도 위치찾기(angle location)를 수행할 수 있다.

이하, 도 3 내지 도 8을 참조하여 본 출원의 실시 예들에서 제공되는 객체 인식 방법을 상세히 설명한다.

도 3은 본 출원의 실시 예에 따른 객체 인식 방법의 개략적인 흐름도이다. 도 3에 도시된 바와 같이, 일 실시 예에서, 객체 인식 방법은 다음 단계(S101) 내지 단계(S103)을 포함할 수 있다.

S101. 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득한다.

구체적으로, 객체 인식 디바이스는 마이크로폰 어레이를 기반으로 현재 음성 환경에서 타깃 객체의 음성 정보를 획득하고, 마이크로폰 어레이를 기반으로 타깃 객체의 위치 정보를 획득할 수 있다.

일 실시 예에서, 타깃 객체는 현재 음성 환경에서 유효한 음원 객체(예를 들어, 법원 재판 사건(court trial case) 동안 판사, 변호사, 피고, 또는 원고)일 수 있다. 객체 인식 디바이스에 의해 현재 음성 환경에서 획득된 음성 정보 세트 내의 음성 정보는 타깃 객체의 음성 정보일 수 있거나, 다른 불필요한 음성 정보(예를 들어, 법원 재판 사건 동안 법원에서 청중의 음성 정보 또는 다른 객체의 의한 노이즈)일 수 있다. 현재 음성 환경에서 음성 정보 세트를 획득한 후, 객체 인식 디바이스는 음성 정보 세트에 대해 스크리닝 처리(screening processing)를 수행하여 타깃 객체의 음성 정보를 획득할 수 있다.

일 실시 예에서, 마이크로폰 어레이는 복수의 마이크로폰을 사용하여 상이한 위치로부터 획득된 동일한 타깃 객체의 음성 정보를 획득할 수 있다. 복수의 마이크로폰이 마이크로폰 어레이에서 상이한 위치에 위치되기 때문에, 각각의 마이크로폰은 사운드(sound)의 볼륨(volume)에 따라 타깃 객체의 위상 정보를 획득하고, 획득된 위상 정보에 따라 빔포밍 방식으로 타깃 객체의 위치 정보를 계산(즉, 현재 음성 환경에서 타깃 객체의 위치 정보를 결정)할 수 있다.

S102. 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여, 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득한다.

구체적으로, 객체 인식 디바이스는 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출할 수 있다.

일 실시 예에서, 성문 매칭 모델은 미리 획득된 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 성문 트레이닝 음성에 대응하는 샘플 특징 정보가 트레이닝 알고리즘(예를 들어, 신경망 방법, 히든 마르코프(Hidden Markov)방법 또는 VQ 클러스터링 방법)을 사용하여 트레이닝된 후에 구축된 모델일 수 있다.

일 실시 예에서, 성문 트레이닝 음성 세트에서 음성에 대응하는 음성 취득자(speech acquirer)는 랜덤 실험 객체(random experimental object)일 수 있고, 특정 타깃 객체로 제한되지 않는다. 성문 트레이닝 음성에 대응하는 샘플 특징 정보는 성문 트레이닝 음성의 성문 특징 정보일 수 있다.

일 실시 예에서, 객체 인식 디바이스는 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득할 수 있다. 성문 특징 정보는 타깃 객체의 음성 정보에서 구별되는(distinctive) 특징 정보일 수 있고, 예를 들어 특징 정보는 스펙트럼, 캡스트럼(cepstrum), 조화 최대치(harmonic peak), 피치(pitch), 반사율(reflection ratio)과 같은 정보일 수 있음을 이해할 수 있다.

S103. 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득한다.

구체적으로, 객체 인식 디바이스는 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득할 수 있다. 보이스 신뢰도 값은 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰성(credibility)을 지시할(indicate) 수 있다는 것이 이해될 수 있다. 예를 들어, 보이스 신뢰도 값이 90%인 경우, 보이스 신뢰도 값에 대응하는 성문 특징 정보에 따라 인식된 타깃 객체의 신뢰도가 90%임을 나타낼 수 있다.

일 실시 예에서, 객체 인식 디바이스는 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜 가장 높은 특징 매칭 정도 값(matching degree value)을 획득한 다음, 매칭 정도 값에 따라 성문 특징 정보에 대응하는 보이스 신뢰도 값을 결정할 수 있다. 예를 들어, 성문 특징 정보가 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭된 후에, 성문 트레이닝 음성 A의 샘플 특징 정보와 성문 특징 정보 사이의 매칭 정도가 가장 높고, 가장 높은 값이 90%인 것으로 검출되면, 객체 인식 디바이스는 성문 특징 정보에 대응하는 보이스 신뢰도 값이 90%인 것으로 결정할 수 있다.

S104. 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득한다.

구체적으로, 객체 인식 디바이스는 성문 특징 정보를 사용하여 타깃 객체의 객체 인식 결과를 생성할 수 있으며, 객체 인식 결과는 타깃 객체의 음성 정보가 속하는 타깃 객체를 지시할(indicate) 수 있다. 예를 들어, 현재 음성 환경에 적어도 2개의 타깃 객체가 존재하면, 객체 인식 디바이스는 적어도 2개의 타깃 객체의 성문 특징 정보를 사용하여 적어도 2개의 타깃 객체의 음성 정보를 분류(예를 들어, 법원 재판 중 기록 시스템에서의 모든 타깃 객체의 음성은 판사, 피고, 원고 등으로 분류됨)할 수 있다.

일 실시 예에서, 2개의 유사한 성문 특징이 성문 특징 정보에 존재하는 경우, 객체 인식 디바이스가 2개의 유사한 성문 특징을 사용하여 타깃 객체의 객체 인식 결과를 정확하게 획득할 수 없는 상황이 존재할 수 있다.

전술한 상황에서, 객체 인식 디바이스는 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득할 수 있다. 구체적으로, 객체 인식 디바이스는 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여, 타깃 객체의 객체 인식 결과를 인식하는데 사용되는 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 객체 인식 결과를 획득할 수 있다. 객체 인식 정보는 위치 정보 또는 성문 특징 정보일 수 있음을 이해할 수 있다.

일 실시 예에서, 객체 인식 디바이스는 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 성문 특징 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하고(즉, 성문 특징 정보를 사용하여 타깃 객체를 식별하지만, 위치 정보는 인식에 관여하지 않고 음원의 위치를 찾기 위해서만 사용됨); 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하며(즉, 성문 특징 정보를 사용하여 타깃 객체에 대해 음성 인식 식별을 수행하고, 추가로 위치 정보를 사용하여 찾은 음원 방향을 사용하여 타깃 객체를 인식함); 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우 위치 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득(즉, 음원의 위치 정보를 사용하여 찾은 위치 방향만을 사용하여 타깃 객체를 식별함)한다.

전술한 실시 예에서, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 성문 특징이 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 획득되고; 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되고, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가된다.

성문 인식은 복수의 화자에 대한 식별을 수행하거나 화자에 대해 신원 확인(identity confirmation)을 수행할 수 있기 때문에, 화자 식별을 포함하는 실행 프로세스에 대해서는 도 4에 도시된 다음 실시 예를 참조하며, 화자 신원 확인을 포함하는 실행 프로세스에 대해서는 도 8에 도시된 다음 실시 예를 참조한다.

도 4는 본 출원의 실시 예에 따른 다른 객체 인식 방법의 개략적인 흐름도이다. 도 4에 도시된 바와 같이, 일 실시 예에서, 객체 인식 방법은 다음 단계들을 포함할 수 있다.

S201. 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 트레이닝된 성문 매칭 모델을 생성한다.

구체적으로, 성문 인식을 수행하기 전에, 객체 인식 디바이스는 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 트레이닝된 성문 매칭 모델을 생성할 수 있다. 객체 인식 디바이스는 신경망, 히든 마르코프(Hidden Markov) 또는 VQ 클러스터링과 같은 알고리즘을 사용하여 성문 매칭 모델을 트레이닝시킬 수 있음을 이해할 수 있을 것이다. 성문 트레이닝 음성 세트 내의 음성에 대응하는 음성 취득자는 랜덤 실험 객체일 수 있고, 특정 타깃 객체로 제한되지 않는다. 성문 트레이닝 음성에 대응하는 샘플 특징 정보는 성문 트레이닝 음성의 성문 특징 정보일 수 있다.

S202. 마이크로폰 어레이에 기반하여 현재 음성 환경에서 음성 정보 세트를 획득하고, 음성 정보 세트에 대해 스크리닝 처리를 수행하여 스크리닝 처리 후 타깃 객체의 음성 정보를 획득한다.

구체적으로, 음성 정보 세트는 마이크로폰 어레이에 기반하여 현재 음성 환경에서 음성 정보 세트를 획득할 수 있다. 음성 정보 세트 내의 음성 정보는 타깃 객체의 음성 정보이거나 다른 불필요한 음성 정보(예를 들어, 법원 재판 사건 동안 법원의 청중의 음성 정보 또는 다른 객체에 의해 만들어진 노이즈)일 수 있음이 이해될 수 있다. 타깃 객체는 현재의 음성 환경에서 유효한 음원 객체(예를 들어, 법원 재판 중에 판사, 변호사, 피고, 또는 원고)일 수 있다.

일 실시 예에서, 음성 정보 세트 내의 모든 음성 정보가 타깃 객체의 음성 정보인 것은 아니기 때문에, 객체 인식 디바이스는 음성 정보 세트에 대해 스크리닝 처리를 수행하여 스크리닝 처리 후 타깃 객체의 음성 정보를 획득할 수 있다. 스크리닝 처리는 처리될 타깃 객체의 음성 정보의 특징(음량(voice loudness), 음색(timbre) 또는 다른 특징 정보)에 따라 노이즈 감소를 통한 노이즈 필터링, 에코 제거 또는 비 타깃 객체의 음성을 필터링하는 것일 수 있으며, 또는 다른 음성 필터링 처리일 수 있다.

S203. 음성 정보 세트를 획득하는 동안 마이크로폰 어레이의 위상 정보를 획득하고, 위상 정보에 의해 지시된 음성 위치에 기반하여 타깃 객체의 위치 정보를 결정한다.

마이크로폰 어레이는 음성 정보 세트를 획득하는 동안 음성 정보 세트 내의 음성 정보에 대응하는 위상 정보를 획득할 수 있음이 이해될 수 있다. 구체적으로, 객체 인식 디바이스는 위상 정보를 획득하고, 위상 정보에 의해 지시된 음성 위치에 기반하여 타깃 객체의 위치 정보를 결정할 수 있다. 일 실시 예에서, 위상 정보의 위상은 순간(moment)에서의 음성 정보의 음성 파형의 스케일(scale)을 지시할 수 있고, 음성 신호의 파형 변화의 메트릭(metric)을 기술할 수 있으며, 이는 일반적으로 정도(degree)(각도(angle))를 단위로 사용하며 위상 각도라고도 지칭된다.

일 실시 예에서, 마이크로폰 어레이는 복수의 마이크로폰을 사용하여 상이한 위치로부터 획득된 동일한 타깃 객체의 음성 정보를 획득할 수 있다. 복수의 마이크로폰은 마이크로폰 어레이 내의 상이한 위치에 위치하기 때문에, 각각의 마이크로폰은 사운드의 볼륨에 따라 타깃 객체의 위상 정보를 획득하고, 획득된 위상 정보에 따라 빔포밍 방식으로 타깃 객체의 위치 정보를 계산(즉, 현재 음성 환경에서의 타깃 객체의 위치 정보를 결정)할 수 있다. 빔포밍 방식은 도 5에 도시되어 있으며, 상이한 방향에서 음원에 대한 픽업(pickup) 빔을 개별적으로 형성하고 다른 방향으로 보이스를 억제하여 음성 추출 또는 분리를 수행한다.

S204. 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여, 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득한다.

구체적으로, 객체 인식 디바이스는 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여, 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득할 수 있다. 성문 특징 정보는 타깃 객체의 음성 정보에서 구별되는 특징 정보일 수 있고, 예를 들어 특징 정보는 스펙트럼, 캡스트럼, 조화 최대치, 피치, 반사율과 같은 정보일 수 있음을 이해할 수 있다.

S205. 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜 가장 높은 특징 매칭 정도 값을 획득한다.

구체적으로, 객체 인식 디바이스는 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜서 가장 높은 특징 매칭 정도 값을 획득할 수 있다.

일 실시 예에서, 상이한 화자의 성문 특징은 상이하고, 하나의 화자의 성문 특징은 심지어 화자의 물리적 상태 또는 화자가 위치한 환경이 변화함에 따라 상이하다. 따라서, 성문 특징 정보의 성문 특징이 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭되는 경우, 획득된 매칭 정도 값 또한 변하지만, 모든 매칭 정도 값을 비교하는 것에 의해 가장 높은 특징 매칭 정도 값이 획득될 수 있다.

S206. 매칭 정도 값에 따라 성문 특징 정보에 대응하는 보이스 신뢰도 값을 결정한다.

구체적으로, 객체 인식 디바이스는 매칭 정도 값에 따라 성문 특징 정보에 대응되는 보이스 신뢰도 값을 결정할 수 있다. 보이스 신뢰도 값은 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰도를 지시할 수 있음이 이해될 수 있다. 예를 들어, 보이스 신뢰도 값이 90%인 경우, 보이스 신뢰도 값에 대응하는 성문 특징 정보에 따라 인식된 타깃 객체의 신뢰도가 90%임을 나타낼 수 있다.

일 실시 예에서, 객체 인식 디바이스는 직접 매칭 정도 값을 성문 특징 정보에 대응하는 보이스 신뢰도 값으로 결정할 수 있다. 예를 들어, 성문 특징 정보가 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭된 후에, 성문 트레이닝 음성 A의 샘플 특징 정보와 성문 특징 정보 사이의 매칭 정도가 가장 높고, 가장 높은 값이 90%인 것으로 검출되면, 객체 인식 디바이스는 성문 특징 정보에 대응하는 보이스 신뢰도 값이 90%인 것으로 결정할 수 있다.

S207. 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득한다.

일 실시 예에서, 객체 인식 디바이스는 성문 특징 정보를 사용하여 타깃 객체의 객체 인식 결과를 생성할 수 있다. 객체 인식 결과는 타깃 객체의 음성 정보가 속하는 타깃 객체를 지시할 수 있다. 예를 들어, 현재 음성 환경에 적어도 2개의 타깃 객체가 존재하면, 객체 인식 디바이스는 적어도 2개의 타깃 객체의 성문 특징 정보를 사용하여 적어도 2개의 타깃 객체의 음성 정보를 분류(예를 들어, 법원 재판 중 기록 시스템에서의 모든 타깃 객체의 음성은 판사, 피고, 원고 등으로 분류됨)할 수 있다.

전술한 상황에서, 객체 인식 디바이스는 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득할 수 있다. 미리 설정된 보이스 신뢰도 값은 복수의 인식 프로세스의 경험에 따라 획득될 수 있고, 적어도 2개의 미리 설정된 보이스 신뢰도 임계 값을 포함할 수 있음을 이해할 수 있을 것이다. 객체 인식 정보는 타깃 객체를 인식하는 데 사용될 수 있으며, 위치 정보 또는 성문 특징 정보를 포함할 수 있다.

일 실시 예에서, 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하는 단계는, 도 6에 도시된 바와 같이 다음 단계들을 포함할 수 있다.

S301. 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 성문 특징 정보를 사용된 객체 인식 정보로 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득한다.

구체적으로, 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응관계의 신뢰도가 상대적으로 크다는 것을 나타낼 수 있고, 객체 인식 디바이스는 성문 특징을 사용된 객체 인식 정보로서 결정하고, 그 다음에 성문 특징 정보를 사용하여 타깃 객체를 식별한다. 이 경우, 위치 정보는 인식에 관여하지 않고 음원을 찾는 데만 사용된다.

일 실시 예에서, 제1 신뢰도 임계 값은 90%, 95%, 또는 실제 상황에 따라 결정된 다른 값으로 설정될 수 있다.

S302. 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득한다.

구체적으로, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰도가 평균 레벨에 있음을 나타낼 수 있다. 타깃 객체를 더 정확하게 인식하기 위해, 객체 인식 디바이스는 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 그 다음에 성문 특징 정보를 사용하여 성문 인식을 수행하여 타깃 객체를 처음에(initially) 인식하며, 추가로, 위치 정보를 사용하여 찾은 음원 방향을 사용하여 타깃 객체를 인식할 수 있다.

일 실시 예에서, 제1 신뢰도 임계 값은 90%, 95% 또는 실제 상황에 따라 결정된 다른 값으로 설정될 수 있고, 제2 신뢰도 임계 값은 50%, 55%, 60% 또는 평균값을 나타낼 수 있으면서 또한 실제 상황에 따라 결정될 수 있는 다른 데이터로 설정될 수 있다.

S303. 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 위치 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득한다.

구체적으로, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응관계의 신뢰도가 비교적 낮고, 성문 특징을 사용하여 인식되는 타깃 객체의 정확도가 비교적 낮음을 나타낼 수 있다. 객체 인식 디바이스는 위치 정보를 사용된 객체 인식 정보로 결정하고, 음원의 위치 정보를 사용하여 찾은 위치 방향을 사용하여 타깃 객체를 식별하여 동일한 음성 환경에서 음성 분리를 구현할 수 있다. 위치 정보가 객체 인식 정보로 사용되는 경우, 허용된 범위의 에러가 인식 프로세스에서 존재할 수 있음을 이해할 수 있다.

전술한 실시 예에서, 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되며, 이에 따라 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고 객체 인식 효율을 향상시킨다.

일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하는 단계는, 도 7에 도시된 바와 같이 다음 단계들을 포함할 수 있다.

S401. 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우 위치 정보와 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정한다.

보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰도가 평균 레벨에 있음을 지시할 수 있으며, 즉, 타깃 객체의 객체 인식 결과가 성문 특징 정보에 따라 인식될 때, 결정된 객체 인식 결과의 신뢰도는 보통이다(mediocre). 이 경우, 객체 인식 디바이스는 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로 결정할 수 있다.

S402. 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득한다.

구체적으로, 객체 인식 디바이스는 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로 결정한 후, 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득할 수 있다. 일 실시 예에서, 타깃 객체의 성문 특징 정보가 분명히 상이한 경우, 후보 인식 결과는 타깃 객체의 최종 객체 인식 결과일 수 있으며, 즉 객체 인식 디바이스는 복수의 음성 정보를 정확하게 분류할 수 있다. 명확하지 않은 상이한 성문 특징 정보를 갖는 적어도 2개의 타깃 객체가 타깃 객체들 내에 존재하는 경우, 후보 인식 결과에 대응하는 타깃 객체의 음성 정보가 정확하게 분류되지 않는다. 예를 들어, 판사 A와 죄수 B의 성문 특징 정보가 매우 유사하면, 객체 인식 디바이스가 그들의 음성 정보를 분류할 때, 판사 A의 음성 정보가 죄수 B의 음성 정보로 분류될 수 있으며, 또는 죄수 B의 음성 정보가 판사 A의 음성 정보로 분류될 수 있다.

S403. 위치 정보를 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 찾아 낸다(locate).

구체적으로, 객체 인식 디바이스는 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 처음에 인식하는 반면, 객체 인식 디바이스는 추가로, 위치 정보에 따라 찾아진 음원 방향을 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 찾아 낼 수 있으며, 즉, 객체 인식 디바이스는 후보 인식 결과를 조정하고 최종적으로 타깃 객체의 객체 인식 결과를 결정할 수 있다. 예를 들어, 판사 A와 죄수 B의 성문 특징 정보가 매우 유사하면, 객체 인식 디바이스는 추가로, 판사 A와 죄수 B가 위치된 위치에 따라 후보 인식 결과 즉, 부정확하게 분류된 음성 정보로부터 그들의 음성 정보를 더욱 정확하게 분류할 수 있다.

전술한 실시 예에서, 타깃 객체의 객체 인식 결과는 위치 정보 및 성문 특징 정보를 사용하여 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 추가로 증가시킨다.

전술한 객체 인식 방법에서, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 트레이닝된 성문 매칭 모델에 기반하여 성문 특징이 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 획득되고; 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되고, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가되며; 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되므로, 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고, 객체 인식 효율을 개선하고; 위치 정보 및 성문 특징 정보를 사용하여 타깃 객체들의 객체 인식 결과가 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 더 증가시킨다.

도 8은 본 출원의 실시 예에 따른 다른 객체 인식 방법의 개략적인 흐름도이다. 도 8에 도시된 바와 같이, 본 실시 예의 이 실시 예의 방법은 다음 단계들을 포함할 수 있다.

S501. 타깃 객체를 포함하여 음성을 트레이닝하는 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성과 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜, 트레이닝된 성문 매칭 모델을 생성한다.

하나의 음성 정보에 대응하는 화자의 신원 정보는 성문 인식을 통해 확인될 수 있으며, 성문 인식을 통해 복수의 음성 정보로부터 타깃 화자를 식별하는 것과의 차이점은 성문 매칭 모델을 구축하는 프로세스에 있음을 이해할 수 있다.

구체적으로, 객체 인식 디바이스는 타깃 객체를 포함하여 음성을 트레이닝하는 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성과 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜, 트레이닝된 성문 매칭 모델을 생성한다. 객체 인식 디바이스는 신경망, 히든 마르코프(Hidden Markov) 또는 VQ 클러스터링과 같은 알고리즘을 사용하여 성문 매칭 모델을 트레이닝시킬 수 있음을 이해할 수 있을 것이다. 성문 트레이닝 음성 세트 내의 음성에 대응하는 음성 취득자는 단계(S201)에서의 음성 취득자와 상이하다. 이 경우, 성문 트레이닝 음성 세트 내의 음성에 대응하는 음성 취득자는 타깃 객체를 포함할 필요가 있으며, 성문 트레이닝 음성에 대응하는 샘플 특징 정보는 성문 트레이닝 음성의 성문 특징 정보일 수 있다.

S502. 마이크로폰 어레이에 기반하여 현재 음성 환경에서 음성 정보 세트를 획득하고, 음성 정보 세트에 대해 스크리닝 처리를 수행하여 스크리닝 처리 후 타깃 객체의 음성 정보를 획득한다.

S503. 음성 정보 세트를 획득하는 동안 마이크로폰 어레이의 위상 정보를 획득하고, 위상 정보에 의해 지시된 음성 위치에 기반하여 타깃 객체의 위치 정보를 결정한다.

S504. 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여, 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득한다.

S505. 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜 가장 높은 특징 매칭 정도 값을 획득한다.

S506. 매칭 정도 값에 따라 성문 특징 정보에 대응하는 보이스 신뢰도 값을 결정한다.

S507. 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득한다.

객체 인식 디바이스는 성문 특징 정보를 사용하여 타깃 객체의 객체 인식 결과를 생성할 수 있으며, 객체 인식 결과는 타깃 객체의 음성 정보에 대응하는 타깃 객체의 신원 정보를 지시할 수 있음을 이해할 수 있다. 예를 들어, 현재 음성 환경에 적어도 2개의 타깃 객체가 존재하면, 객체 인식 디바이스는 적어도 2개의 타깃 객체의 성문 특징 정보를 사용하여 적어도 2개의 타깃 객체의 음성 정보에 대응하는 타깃 객체를 결정하고, 타깃 객체의 신원 정보를 결정(예를 들어, 법원 재판 중에 기록 시스템에서의 모든 타깃 객체의 음성들이 판사, 피고 및 원고로 분류된 후, 보이스 A가 판사에 속하고, 보이스 B는 피고에 속하며, 보이스 C는 원고 등에 속하는 등으로 결정될 수 있음)한다.

전술한 상황에서, 객체 인식 디바이스는 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득할 수 있다.

일 실시 예에서, 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하는 단계는, 다음의 단계를 포함할 수 있다. 세부 사항에 대해서는, 도 6에 도시된 프로세스가 참조될 수 있다.

구체적으로, 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 이는 성문 특징 정보에 따라 확인된 타깃 객체의 신원 정보의 신뢰도가 상대적으로 크다는 것을 나타낼 수 있으며, 객체 인식 디바이스는 성문 특징 정보를 사용된 객체 인식 정보로서 결정하고 그 다음에, 성문 특징 정보를 사용하여 타깃 객체의 신원 정보를 인식할 수 있다. 이 경우, 위치 정보는 신원 확인에 관여하지 않고 음원을 찾는 데만 사용된다.

구체적으로, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보에 따라 확인된 타깃 객체의 신원 정보의 신뢰도가 평균 레벨에 있음을 나타낼 수 있다. 타깃 객체의 신원을 보다 정확하게 인식하기 위해, 객체 인식 디바이스는 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로 결정하고, 성문 특징 정보를 사용하여 성문 인식을 수행하여 처음에 타깃 객체의 신원을 결정하고, 추가로, 위치 정보를 사용하여 찾은 음원 방향을 사용하여 타깃 객체의 신원을 인식할 수 있다.

일 실시 예에서, 제1 신뢰도 임계 값은 실제 상황에 따라 결정된 90%, 95% 또는 다른 값으로 설정될 수 있고, 제2 신뢰도 임계 값은 50%, 55%, 60% 또는 평균 값을 나타낼 수 있으면서 또한 실제 상황에 따라 결정되는 다른 데이터로 설정될 수 있다.

구체적으로, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보에 따라 확인된 타깃 객체의 신원 정보의 신뢰도가 상대적으로 낮고, 성문 특징 정보를 사용하여 인식된 타깃 객체의 정확도가 비교적 낮음을 나타낼 수 있다. 객체 인식 디바이스는 위치 정보를 사용된 객체 인식 정보로 결정하고, 음원의 위치 정보를 사용하여 찾은 위치 방향을 사용하여 타깃 객체의 신원을 결정하여 동일한 음성 환경에서 음성 분리를 구현할 수 있다. 위치 정보가 객체 인식 정보로 사용되는 경우, 허용된 범위의 에러가 인식 프로세스에서 존재할 수 있음을 이해할 수 있다. 이 경우, 현재의 음성 환경은 특정 음성 환경, 예를 들어, 타깃 객체의 위치가 결정되는 환경(예를 들어, 판사 및 죄수의 위치는 법원 재판에서 결정됨)이어야 한다.

전술한 실시 예에서, 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되므로, 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고 객체 인식 효율을 향상시킨다.

일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하는 단계는 다음의 단계를 포함할 수 있다. 세부 사항에 대해서, 도 7에 도시된 프로세스가 참조될 수 있다.

S401. 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정한다.

구체적으로, 객체 인식 디바이스는 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로 결정한 후, 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득할 수 있다. 일 실시 예에서, 타깃 객체의 성문 특징 정보가 명백히 상이한 경우, 후보 인식 결과는 타깃 객체의 최종 객체 인식 결과일 수 있고, 즉 객체 인식 디바이스는 복수의 음성 정보로부터 타깃 객체의 음성 정보를 명확하게 인식할 수 있으며; 명확하지 않은 상이한 성문 특징 정보를 갖는 적어도 2개의 타깃 객체가 타깃 객체에 존재하는 경우, 후보 인식 결과에 의해 지시된 타깃 객체와 음성 정보 사이의 대응관계가 부정확할 수 있다. 예를 들어, 판사 A와 죄수 B의 성문 특징 정보가 매우 유사하면, 객체 인식 디바이스가 법원 재판에서 복수의 음성 정보로부터 판사 A의 음성 정보를 인식하는 경우, 판사 A의 음성 정보를 죄수 B의 음성 정보로 착각하거나 죄수 B의 음성 정보를 판사 A의 음성 정보로 착각할 수 있다.

S403. 위치 정보를 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 찾아낸다.

구체적으로, 객체 인식 디바이스는 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 처음에 인식하는 반면, 객체 인식 디바이스는 추가로, 위치 정보에 따라 찾은 음원 방향을 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 찾아 낼 수 있으며, 즉, 객체 인식 디바이스는 후보 인식 결과를 조정하고 최종적으로 타깃 객체의 객체 인식 결과를 결정할 수 있다. 예를 들어, 판사 A의 성문 특징 정보와 죄수 B의 성문 특징 정보가 매우 유사하며, 후보 인식 결과는 판사 A의 음성 정보가 죄수 B에 대응하는 것으로 지시하고, 그리고 객체 인식 디바이스는 판사 A의 위치 정보를 참조하여 판사 A의 음성 정보를 판사 A에 대응시킬 수 있다.

전술한 객체 인식 방법에서, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 트레이닝된 성문 매칭 모델에 기반하여 성문 특징이 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 획득되고; 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되며, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가되며; 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되므로, 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고, 객체 인식 효율을 개선하고; 위치 정보 및 성문 특징 정보를 사용하여 타깃 객체들의 객체 인식 결과가 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 더 증가시킨다.

이하, 도 9 내지 도 14를 참조하여 본 출원의 실시 예에서 제공되는 객체 인식 디바이스에 대해 설명한다. 도 9 내지 도 14에 도시된 디바이스는 본 출원의 도 3 내지 도 8에 도시된 실시 예의 방법을 수행하도록 구성된다. 설명의 편의를 위해, 본 출원의 실시 예와 관련된 부분만이 도시되어 있다. 개시되지 않은 특정 기술적 세부 사항에 대해서는 본 출원의 도 3 내지 도 8에 도시된 실시 예를 참조한다.

도 9는 본 출원의 실시 예에 따른 객체 인식 디바이스의 개략적인 구조도이다.

도 9에 도시된 바와 같이, 본 출원의 본 실시 예에서의 객체 인식 디바이스(1)는 객체 정보 획득 모듈(11), 특징 정보 획득 모듈(12), 신뢰도 획득 모듈(13) 및 결과 획득 모듈(14)을 포함할 수 있다.

객체 정보 획득 모듈(11)은 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하도록 구성된다.

구체적으로, 객체 정보 획득 모듈(11)은 마이크로폰 어레이를 기반으로 현재 음성 환경에서 타깃 객체의 음성 정보를 획득하고, 마이크로폰 어레이를 기반으로 타깃 객체의 위치 정보를 획득할 수 있다. 타깃 객체는 현재 음성 환경에서 유효한 음원 객체(예를 들어, 법원 재판 사건 동안 판사, 변호사, 피고, 또는 원고)일 수 있음을 이해할 수 있다. 객체 정보 획득 모듈(11)에 의해 현재 음성 환경에서 획득된 음성 정보 세트 내의 음성 정보는 타깃 객체의 음성 정보일 수 있거나, 다른 불필요한 음성 정보(예를 들어, 법원 재판 사건 동안 법원에서 청중의 음성 정보 또는 다른 객체의 의한 노이즈)일 수 있다. 현재 음성 환경에서 음성 정보 세트를 획득한 후, 객체 정보 획득 모듈(11)은 음성 정보에 대해 스크리닝 처리를 수행하여 타깃 객체의 음성 정보를 획득할 수 있다.

본 출원의 본 실시예에서, 마이크로폰 어레이는 복수의 마이크로폰을 사용하여 상이한 위치로부터 획득된 동일한 타깃 객체의 음성 정보를 획득할 수 있다. 복수의 마이크로폰이 마이크로폰 어레이의 상이한 위치에 위치되기 때문에, 각각의 마이크로폰은 사운드의 볼륨에 따라 타깃 객체의 위상 정보를 획득하고, 획득된 위상 정보에 따라 빔포밍 방식으로 타깃 객체의 위치 정보를 계산(즉, 현재 음성 환경에서 타깃 객체의 위치 정보를 결정)할 수 있다.

특징 정보 획득 모듈(12)은 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하고, 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득하도록 구성된다.

일 실시 예에서, 특징 정보 획득 모듈(12)은 트레이닝된 성문 매칭 모델의 음성 정보로부터 성문 특징을 추출할 수 있다. 성문 매칭 모델은 미리 획득된 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 성문 트레이닝 음성에 대응하는 샘플 특징 정보가 트레이닝 알고리즘(예를 들어, 신경망 방법, 히든 마르코프(Hidden Markov)방법 또는 VQ 클러스터링 방법)을 사용하여 트레이닝된 후에 구축된 모델일 수 있다. 성문 트레이닝 음성 세트에서 음성에 대응하는 음성 취득자는 랜덤 실험 객체일 수 있고, 특정 타깃 객체로 제한되지 않음을 이해할 수 있다. 성문 트레이닝 음성에 대응하는 샘플 특징 정보는 성문 트레이닝 음성의 성문 특징 정보일 수 있다.

또한, 특징 정보 획득 모듈(12)은 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득할 수 있다. 성문 특징 정보는 타깃 객체의 음성 정보에서 구별되는 특징 정보일 수 있고, 예를 들어 특징 정보는 스펙트럼, 캡스트럼, 조화 최대치, 피치, 반사율과 같은 정보일 수 있음을 이해할 수 있다.

신뢰도 획득 모듈(13)은 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하도록 구성된다.

일 실시 예에서, 신뢰도 획득 모듈(13)은 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득할 수 있다. 보이스 신뢰도 값은 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰도를 지시할 수 있음을 이해할 수 있다. 예를 들어, 보이스 신뢰도 값이 90%인 경우, 이는 보이스 신뢰도 값에 대응하는 성문 특징 정보에 따라 인식된 타깃 객체의 신뢰도가 90%임을 나타낼 수 있다.

일 실시 예에서, 신뢰도 획득 모듈(13)은 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜서 가장 높은 특징 매칭 정도 값을 획득한 다음, 매칭 정도 값에 따라 성문 특징 정보에 대응하는 보이스 신뢰도 값을 결정할 수 있다. 예를 들어, 성문 특징 정보가 성문 트레이닝 음성 세트의 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭된 후에, 성문 트레이닝 음성 A의 샘플 특징 정보와 성문 특징 정보 사이의 매칭 정도가 가장 높고, 가장 높은 값이 90%인 것으로 검출되면, 객체 인식 디바이스는 성문 특징 정보에 대응하는 보이스 신뢰도 값이 90%인 것으로 결정할 수 있다.

결과 획득 모듈(14)은 위치 정보, 성문 특징 정보 및 보이스 신뢰도 값을 사용하여 타깃 객체의 객체 인식 결과를 획득하도록 구성된다.

객체 인식 디바이스(1)는 성문 특징 정보를 사용하여 타깃 객체의 객체 인식 결과를 생성할 수 있으며, 객체 인식 결과는 타깃 객체의 음성 정보가 속하는 타깃 객체를 지시할 수 있음을 이해할 수 있다. 예를 들어, 현재 음성 환경에 적어도 2개의 타깃 객체가 존재하면, 객체 인식 디바이스는 적어도 2개의 타깃 객체의 성문 특징 정보를 사용하여 적어도 2개의 타깃 객체의 음성 정보를 분류(예를 들어, 법원 재판 중 기록 시스템에서의 모든 타깃 객체의 음성은 판사, 피고, 원고 등으로 분류됨)할 수 있다.

일 실시 예에서, 2개의 유사한 성문 특징이 성문 특징 정보에 존재하는 경우, 객 객체 인식 디바이스(1)가 2개의 유사한 성문 특징을 사용하여 타깃 객체의 객체 인식 결과를 정확하게 획득할 수 없는 상황이 존재할 수 있다.

전술한 상황에서, 결과 획득 모듈(14)은 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득할 수 있다. 구체적 구현에서, 결과 획득 모듈(14)은 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여, 타깃 객체의 객체 인식 결과를 인식하는데 사용되는 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 객체 인식 결과를 획득할 수 있다. 객체 인식 정보는 위치 정보 또는 성문 특징 정보일 수 있음을 이해할 수 있다.

본 출원의 특정 구현에서, 결과 획득 모듈(14)은 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 성문 특징 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하고(즉, 성문 특징 정보를 사용하여 타깃 객체를 식별하지만, 위치 정보는 인식에 관여하지 않고 음원의 위치를 찾기 위해서만 사용됨); 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하며(즉, 성문 특징 정보를 사용하여 타깃 객체에 대해 음성 인식 식별을 수행하고, 추가로 위치 정보를 사용하여 찾은 음원 방향을 사용하여 타깃 객체를 인식함); 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우 위치 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득(즉, 음원의 위치 정보를 사용하여 찾은 위치 방향만을 사용하여 타깃 객체를 식별함)한다.

본 출원의 본 실시 예에서, 현재 음성 환경에서 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 트레이닝된 성문 매칭 모델에 기반하여 성문 특징이 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 획득되고; 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되고, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가된다.

성문 인식은 복수의 화자에 대한 식별을 수행하거나 화자에 대해 신원 확인을 수행할 수 있기 때문에, 화자 식별을 포함하는 실행 프로세스에 대해서는 도 10에 도시된 제1 구현을 참조하며, 화자 신원 확인을 포함하는 실행 프로세스에 대해서는 도 10에 도시된 제2 구현을 참조한다.

도 10은 본 출원의 실시 예에 따른 다른 객체 인식 디바이스의 개략적인 구조도이다. 도 10에 도시된 바와 같이, 본 출원의 본 실시 예에서의 객체 인식 디바이스(1)는 객체 정보 획득 모듈(11), 특징 정보 획득 모듈(12), 신뢰도 획득 모듈(13), 결과 획득 모듈(14) 및 모델 생성 모듈(15)을 포함할 수 있다. 도 10에 도시된 실시 예의 제1 구현에서.

모델 생성 모듈(15)은 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 트레이닝된 성문 매칭 모델을 생성하도록 구성된다.

일 실시 예에서, 성문 인식을 수행하기 전에, 모델 생성 모듈(15)은 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 트레이닝된 성문 매칭 모델을 생성할 수 있다. 모델 생성 모듈(15)은 신경망, 히든 마르코프(Hidden Markov) 또는 VQ 클러스터링과 같은 알고리즘을 사용하여 성문 매칭 모델을 트레이닝시킬 수 있음을 이해할 수 있다. 성문 트레이닝 음성 세트에서의 음성에 대응하는 음성 취득자는 랜덤 실험 객체일 수 있고, 특정 타깃 객체로 제한되지 않는다. 성문 트레이닝 음성에 대응하는 샘플 특징 정보는 성문 트레이닝 음성의 성문 특징 정보일 수 있다.

일 실시 예에서, 객체 정보 획득 모듈(11)은 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득할 수 있다.

도 11은 본 출원의 본 실시 예에 따른 객체 정보 획득 모듈의 개략적인 구조도이다. 도 11에 도시된 바와 같이, 객체 정보 획득 모듈(11)은 정보 획득 유닛(111) 및 정보 결정 유닛(112)를 포함할 수 있다.

정보 획득 유닛(111)은 마이크로폰 어레이에 기반하여 현재 음성 환경에서 음성 정보 세트를 획득하고, 음성 정보 세트에 대해 스크리닝 처리를 수행하여, 스크리닝 처리 후 타깃 객체의 객체 음성 정보를 획득하도록 구성된다.

일 실시 예에서, 정보 획득 유닛(111)는 마이크로폰 어레이에 기반하여 현재 음성 환경에서 음성 정보 세트를 획득할 수 있다. 음성 정보 세트 내의 음성 정보는 타깃 객체의 음성 정보이거나 다른 불필요한 음성 정보(예를 들어, 법원 재판 사건 동안 법원의 청중의 음성 정보 또는 다른 객체에 의해 만들어진 노이즈)일 수 있음이 이해될 수 있다. 타깃 객체는 현재의 음성 환경에서 유효한 음원 객체(예를 들어, 판사, 변호사, 피고, 또는 법원 재판 중에 원고)일 수 있다.

일 실시 예에서, 음성 정보 세트 내의 모든 음성 정보가 타깃 객체의 음성 정보인 것은 아니기 때문에, 정보 획득 유닛(111)은 음성 정보 세트에 대해 스크리닝 처리를 수행하여 스크리닝 처리 후 타깃 객체의 음성 정보를 획득할 수 있다. 스크리닝 처리는 처리될 타깃 객체의 음성 정보의 특징(음량, 음색 또는 다른 특징 정보)에 따라 노이즈 감소를 통한 노이즈 필터링, 에코 제거 또는 비 타깃 객체의 음성을 필터링하는 것일 수 있으며, 또는 다른 음성 필터링 처리일 수 있다.

정보 결정 유닛(112)은 음성 정보 세트를 획득하는 동안 마이크로폰 어레이의 위상 정보를 획득하고, 위상 정보에 의해 지시된 음성 위치에 기반하여 타깃 객체의 위치 정보를 결정하도록 구성된다.

일 실시 예에서, 마이크로폰 어레이는 음성 정보 세트를 획득하는 동안 음성 정보 세트 내의 음성 정보에 대응하는 위상 정보를 획득할 수 있다. 구체적 구현에서, 정보 결정 유닛(112)은 위상 정보를 획득하고, 위상 정보에 의해 지시된 음성 위치에 기반하여 타깃 객체의 위치 정보를 결정할 수 있다. 일 실시 예에서, 위상 정보의 위상은 순간에서의 음성 정보의 음성 파형의 스케일을 지시할 수 있고, 음성 신호의 파형 변화의 메트릭을 기술할 수 있으며, 이는 일반적으로 정도(각도)를 단위로 사용하며 위상 각도라고도 지칭된다.

일 실시 예에서, 마이크로폰 어레이는 복수의 마이크로폰을 사용하여 상이한 위치로부터 획득된 동일한 타깃 객체의 음성 정보를 획득할 수 있다. 복수의 마이크로폰은 마이크로폰 어레이 내의 상이한 위치에 위치하기 때문에, 각각의 마이크로폰은 사운드의 볼륨에 따라 타깃 객체의 위상 정보를 획득하고, 획득된 위상 정보에 따라 빔포밍 방식에서 타깃 객체의 위치 정보를 계산(즉, 현재 음성 환경에서의 타깃 객체의 위치 정보를 결정)할 수 있다. 빔포밍 방식이 도 5에 도시되어 있으며, 상이한 방향에서 음원에 대한 픽업 빔을 개별적으로 형성하고 다른 방향으로 보이스를 억제하여 음성 추출 또는 분리를 수행한다.

특징 정보 획득 모듈(12)은 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하고, 성문 특징 추출 후에 음성 정보에 대응하는 성문 특징 정보를 획득하도록 구성된다.

일 실시 예에서, 특징 정보 획득 모듈(12)은 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여, 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득할 수 있다. 성문 특징 정보는 타깃 객체의 음성 정보에서 구별되는 특징 정보일 수 있고, 예를 들어 특징 정보는 스펙트럼, 캡스트럼, 조화 최대치, 피치, 반사율과 같은 정보일 수 있음을 이해할 수 있다.

특정 구현에서, 신뢰도 획득 모듈(13)은 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득할 수 있다.

도 12는 본 출원의 본 실시 예에 따른 신뢰도 획득 모듈의 개략적인 구조도이다. 도 12에 도시된 바와 같이, 신뢰도 획득 모듈(13)은 매칭 정도 값 획득 유닛(131) 및 신뢰도 결정 유닛(132)를 포함할 수 있다.

매칭 정도 값 획득 유닛(131)은 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜 가장 높은 특징 매칭 정도 값을 획득하도록 구성된다.

일 실시 예에서, 매칭 정도 값 획득 유닛(131)는 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜 가장 높은 특징 매칭 정도 값을 획득할 수 있다. 상이한 화자의 성문 특징은 상이하고, 하나의 화자의 성문 특징은 심지어 화자의 물리적 상태 또는 화자가 위치한 환경이 변화함에 따라 상이하다는 것을 이해할 수 있다. 따라서, 성문 특징 정보의 성문 특징이 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭되는 경우, 획득된 매칭 정도 값 또한 변하지만, 모든 매칭 정도 값을 비교하는 것에 의해 가장 높은 특징 매칭 정도 값이 획득될 수 있다.

신뢰도 결정 유닛(132)은 매칭 정도 값에 따라 성문 특징 정보에 대응하는 보이스 신뢰도 값을 결정하도록 구성된다.

일 실시 예에서, 신뢰도 결정 유닛(132)은 매칭 정도 값에 따라 성문 특징 정보에 대응되는 보이스 신뢰도 값을 결정할 수 있다. 보이스 신뢰도 값은 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰도를 나타낼 수 있다는 것이 이해될 수 있다. 예를 들어, 보이스 신뢰도 값이 90%인 경우, 이는 보이스 신뢰도 값에 대응하는 성문 특징 정보에 따라 인식된 타깃 객체의 신뢰도가 90%임을 나타낼 수 있다.

일 실시 예에서, 신뢰도 결정 유닛(132)은 매칭 정도 값을 성문 특징 정보에 대응하는 보이스 신뢰도 값으로 직접 결정할 수 있다. 예를 들어, 성문 특징 정보가 성문 트레이닝 음성 세트 내 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭된 후에, 성문 트레이닝 음성 A의 샘플 특징 정보와 성문 특징 정보 사이의 매칭 정도가 가장 높고, 가장 높은 값이 90%인 것으로 검출되면, 객체 인식 디바이스는 성문 특징 정보에 대응하는 보이스 신뢰도 값이 90%인 것으로 결정할 수 있다.

결과 획득 모듈(14)은 구체적으로, 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하도록 구성된다.

일 실시 예에서, 객체 인식 디바이스(1)는 성문 특징 정보를 사용하여 타깃 객체의 객체 인식 결과를 생성할 수 있다. 객체 인식 결과는 타깃 객체의 음성 정보가 속하는 타깃 객체를 지시할 수 있다. 예를 들어, 현재 음성 환경에 적어도 2개의 타깃 객체가 존재하면, 객체 인식 디바이스는 적어도 2개의 타깃 객체의 성문 특징 정보를 사용하여 적어도 2개의 타깃 객체의 음성 정보를 분류(예를 들어, 법원 재판 중 기록 시스템에서의 모든 타깃 객체의 음성은 판사, 피고, 원고 등으로 분류됨)할 수 있다.

전술한 상황에 대해, 결과 획득 모듈(14)은 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득할 수 있다. 미리 설정된 보이스 신뢰도 값은 복수의 인식 프로세스의 경험에 따라 획득될 수 있고, 적어도 2개의 미리 설정된 보이스 신뢰도 임계 값을 포함할 수 있음을 이해할 수 있을 것이다. 객체 인식 정보는 타깃 객체를 인식하기 위해 사용될 수 있으며, 위치 정보 또는 성문 특징 정보를 포함할 수 있다.

본 출원의 본 실시 예의 특정 구현에서, 결과 획득 모듈(14)은 도 13에 도시된 바와 같이, 제1 결과 획득 유닛(141), 제2 결과 획득 유닛(142) 및 제3 결과 획득 유닛(143)을 포함할 수 있다.

제1 결과 획득 유닛(141)은 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 성문 특징 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하도록 구성된다.

일 실시 예에서, 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응관계의 신뢰도가 상대적으로 크다는 것을 나타낼 수 있고, 제1 결과 획득 유닛(141)은 성문 특징을 사용된 객체 인식 정보로서 결정하고, 그 다음에 성문 특징 정보를 사용하여 타깃 객체를 식별한다. 이 경우 위치 정보는 인식에 관여하지 않고 음원을 찾는 데만 사용된다.

제2 결과 획득 유닛(142)은 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하도록 구성된다.

일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰도가 평균 레벨에 있음을 나타낼 수 있다. 제2 결과 획득 유닛(142)은 타깃 객체를 더 정확하게 인식하기 위해, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 그 다음에 성문 특징 정보를 사용하여 성문 인식을 수행하여 타깃 객체를 처음에 인식하며, 추가로, 위치 정보를 사용하여 찾은 음원 방향을 사용하여 타깃 객체를 인식할 수 있다.

일 실시 예에서, 제1 신뢰도 임계 값은 90%, 95% 또는 실제 상황에 따라 결정된 다른 값으로 설정될 수 있고, 제2 신뢰도 임계 값은 50%, 55%, 60% 또는 평균 값을 나타낼 수 있으면서 또한 실제 상황에 따라 결정되는 다른 데이터로 설정될 수 있다.

제3 결과 획득 유닛(143)은 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 위치 정보를 사용된 객체 인식 정보로서 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하도록 구성된다.

일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응관계의 신뢰도가 비교적 낮고, 성문 특징을 사용하여 인식되는 타깃 객체의 정확도가 비교적 낮음을 나타낼 수 있다. 제3 결과 획득 유닛(143)는 위치 정보를 사용된 객체 인식 정보로 결정하고, 음원의 위치 정보를 사용하여 찾은 위치 방향을 사용하여 타깃 객체를 식별하여 동일한 음성 환경에서 음성 분리를 구현할 수 있다. 위치 정보가 객체 인식 정보로 사용되는 경우, 허용된 범위의 에러가 인식 프로세스에서 존재할 수 있음을 이해할 수 있다.

본 출원의 본 실시 예에서, 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되며, 이에 따라 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고 객체 인식 효율을 향상시킨다.

일 실시 예에서, 도 14에 도시된 바와 같이, 제2 결과 획득 유닛(142)은 정보 결정 서브 유닛(1421), 후보 결과 획득 서브 유닛(1422) 및 결과 획득 서브 유닛(1423)을 포함할 수 있다.

정보 결정 서브 유닛(1421)은 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하도록 구성된다.

일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보와 타깃 객체 사이의 대응 관계의 신뢰도가 평균 레벨에 있음을 지시할 수 있으며, 즉, 타깃 객체의 객체 인식 결과가 성문 특징 정보에 따라 인식될 때, 결정된 객체 인식 결과의 신뢰도는 보통이다. 이 경우, 정보 결정 서브 유닛(1421)은 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로 결정할 수 있다.

후보 결과 획득 서브 유닛(1422)은 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득하도록 구성된다.

일 실시 예에서, 정보 결정 서브 유닛(1421)은 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정한 후, 후보 결과 획득 서브 유닛(1422)은 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득할 수 있다. 타깃 객체의 성문 특징 정보가 분명히 상이한 경우, 후보 인식 결과는 타깃 객체의 최종 객체 인식 결과일 수 있으며, 즉 객체 인식 디바이스는 복수의 음성 정보를 정확하게 분류할 수 있음을 이해할 수 있다. 명확하지 않은 상이한 성문 특징 정보를 갖는 적어도 2개의 타깃 객체가 타깃 객체들 내에 존재하는 경우, 후보 인식 결과에 대응하는 타깃 객체의 음성 정보가 정확하게 분류되지 않는다. 예를 들어, 판사 A와 죄수 B의 성문 특징 정보가 매우 유사하면, 객체 인식 디바이스가 그들의 음성 정보를 분류할 때, 판사 A의 음성 정보가 죄수 B의 음성 정보로 분류될 수 있으며, 또는 죄수 B의 음성 정보가 판사 A의 음성 정보로 분류될 수 있다.

결과 획득 서브 유닛(1423)은 위치 정보를 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 찾도록 구성된다.

일 실시 예에서, 후보 결과 획득 서브 유닛(1422)은 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 처음에 인식하며, 결과 획득 서브 유닛(1423)은 위치 정보에 따라 찾아진 음원 방향을 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 추가로 찾아 낼 수 있으며, 즉 결과 획득 서브 유닛(1423)은 후보 인식 결과를 조정하고 최종적으로 타깃 객체의 객체 인식 결과를 결정할 수 있다. 예를 들어, 판사 A와 죄수 B의 성문 특징 정보가 매우 유사하면, 객체 인식 디바이스는 추가로, 판사 A와 죄수 B가 위치된 위치에 따라 후보 인식 결과 즉, 부정확하게 분류된 음성 정보로부터 그들의 음성 정보를 더욱 정확하게 분류할 수 있다.

본 출원의 본 실시 예에서, 타깃 객체들의 객체 인식 결과는 위치 정보 및 성문 특징 정보를 사용하여 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 더 증가시킨다.

본 출원의 본 실시 예에서, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 트레이닝된 성문 매칭 모델에 기반하여 성문 특징이 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 획득되고; 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되고, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가되며; 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되므로, 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고, 객체 인식 효율을 개선하며; 위치 정보 및 성문 특징 정보를 사용하여 타깃 객체들의 객체 인식 결과가 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 더 증가시킨다.

도 10에 도시된 실시 예의 제2 구현에서:

모델 생성 모듈(15)은 구체적으로, 타깃 객체를 포함하여 음성을 트레이닝하는 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성과 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜, 트레이닝된 성문 매칭 모델을 생성하도록 구성된다.

일 실시 예에서, 모델 생성 모듈(15)은 타깃 객체를 포함하여 음성을 트레이닝하는 성문 트레이닝 음성 세트를 획득하고, 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성과 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜, 트레이닝된 성문 매칭 모델을 생성한다. 모델 생성 모듈(15)은 신경망, 히든 마르코프(Hidden Markov) 또는 VQ 클러스터링과 같은 알고리즘을 사용하여 성문 매칭 모델을 트레이닝시킬 수 있음을 이해할 수 있다. 성문 트레이닝 음성 세트 내의 음성에 대응하는 음성 취득자는 도 8에 도시된 실시 예의 제1 구현에서 모델 생성 모듈(15)에서의 것과 상이하다. 이 경우, 성문 트레이닝 음성 세트 내의 음성에 대응하는 음성 취득자는 타깃 객체를 포함할 필요가 있으며, 성문 트레이닝 음성에 대응하는 샘플 특징 정보는 성문 트레이닝 음성의 성문 특징 정보일 수 있다.

객체 정보 획득 모듈(11)은 현재 음성 환경에서 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하도록 구성된다.

도 11은 본 출원의 본 실시 예에 따른 객체 정보 획득 모듈의 개략적인 구조도이다. 도 11에 도시된 바와 같이, 객체 정보 획득 모듈(11)은 정보 획득 유닛(111) 및 정보 결정 유닛(112)을 포함할 수 있다.

정보 획득 유닛(111)은 마이크로폰 어레이에 기반하여 현재 음성 환경에서 음성 정보 세트를 획득하고, 음성 정보 세트에 대해 스크리닝 처리를 수행하여 스크리닝 처리 후 타깃 객체의 음성 정보를 획득하도록 구성된다.

일 실시 예에서, 타깃 객체의 음성 정보를 획득하는 정보 획득 유닛(111)의 상세한 프로세스에 대해서는 전술한 방법 실시 예의 설명을 참조할 수 있다. 세부 사항은 여기서 다시 설명하지 않는다.

특정 구현에서, 타깃 객체의 위치 정보를 획득하는 정보 결정 유닛(112)의 상세한 프로세스에 대해, 전술한 방법 실시 예의 설명을 참조할 수 있다. 세부 사항은 여기서 다시 설명하지 않는다.

특정 구현에서, 성문 특징 정보를 획득하는 특징 정보 획득 모듈(12)의 상세한 프로세스에 대해서는 전술한 방법 실시 예의 설명을 참조할 수 있다. 세부 사항은 여기서 다시 설명하지 않는다.

도 12는 본 출원의 본 실시 예에 따른 신뢰도 획득 모듈의 개략적인 구조도이다. 도 12에 도시된 바와 같이, 신뢰도 획득 모듈(13)은 매칭 정도 값 획득 유닛(131) 및 신뢰도 결정 유닛(132)을 포함할 수 있다.

특정 구현에서, 매칭 정도 값을 획득하는 매칭 정도 값 획득 유닛(131)의 상세한 프로세스에 대해, 전술한 방법 실시 예의 설명을 참조할 수 있다. 세부 사항은 여기서 다시 설명하지 않는다.

특정 구현에서, 보이스 신뢰도 값을 결정하는 신뢰도 결정 유닛(132)의 상세한 프로세스에 대해, 전술한 방법 실시 예의 설명을 참조할 수 있다. 세부 사항은 여기서 다시 설명하지 않는다.

객체 인식 디바이스(1)가 성문 특징 정보를 사용하여 타깃 객체의 객체 인식 결과를 생성할 수 있고, 객체 인식 결과는 타깃 객체의 음성 정보에 대응하는 타깃 객체의 신원 정보를 지시할 수 있음을 이해할 수 있다. 예를 들어, 현재 음성 환경에 적어도 2개의 타깃 객체가 존재하면, 객체 인식 디바이스(1)는 적어도 2개의 타깃 객체의 성문 특징 정보를 사용하여 적어도 2개의 타깃 객체의 음성 정보에 대응하는 타깃 객체를 결정하고, 타깃 객체의 신원 정보를 결정(예를 들어, 법원 재판 중에 기록 시스템에서의 모든 타깃 객체의 음성이 판사, 피고 및 원고로 분류된 후, 보이스 A가 판사에 속하고, 보이스 B는 피고에 속하며, 보이스 C는 원고 등에 속하는 등으로 결정될 수 있음)한다.

일 실시 예에서, 2개의 유사한 성문 특징이 성문 특징 정보에 존재하는 경우, 객체 인식 디바이스(1)가 2개의 유사한 성문 특징을 사용하여 타깃 객체의 객체 인식 결과를 정확하게 획득할 수 없는 상황이 존재할 수 있다.

전술한 상황에 대해, 결과 획득 모듈(14)은 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득할 수 있다.

본 출원의 본 실시 예의 특정 구현에서, 결과 획득 모듈(14)은 도 13에 도시된 바와 같이 제1 결과 획득 유닛(141), 제2 결과 획득 유닛(142) 및 제3 결과 획득 유닛(143)을 포함할 수 있다.

제1 결과 획득 유닛(141)은 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 성문 특징 정보를 사용된 객체 인식 정보로 결정하고, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하도록 구성된다.

일 실시 예에서, 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 이는 성문 특징 정보에 따라 확인된 타깃 객체의 신원 정보의 신뢰도가 상대적으로 크다는 것을 나타낼 수 있으며, 제1 결과 획득 유닛(141)은 성문 특징 정보를 사용된 객체 인식 정보로서 결정하고 그 다음에, 성문 특징 정보를 사용하여 타깃 객체의 신원 정보를 인식할 수 있다. 이 경우, 위치 정보는 신원 확인에 관여하지 않고 음원을 찾는 데만 사용된다.

일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보에 따라 확인된 타깃 객체의 신원 정보의 신뢰도가 평균 레벨에 있음을 나타낼 수 있다. 타깃 객체의 신원을 보다 정확하게 인식하기 위해, 제2 결과 획득 유닛(142)는 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정하고, 성문 특징 정보를 사용하여 성문 인식을 수행하여 처음에 타깃 객체의 신원을 결정하고, 추가로, 위치 정보를 사용하여 찾은 음원 방향을 사용하여 타깃 객체의 신원을 인식할 수 있다.

일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 이는 성문 특징 정보에 따라 확인된 타깃 객체의 신원 정보의 신뢰도가 상대적으로 낮고, 성문 특징 정보를 사용하여 인식된 타깃 객체의 정확도가 비교적 낮음을 나타낼 수 있다. 제3 결과 획득 서브 유닛(1323)은 위치 정보를 사용된 객체 인식 정보로서 결정하고, 음원의 위치 정보를 사용하여 찾은 위치 방향을 사용하여 타깃 객체의 신원을 결정하여 동일한 음성 환경에서 음성 분리를 구현할 수 있다. 위치 정보가 객체 인식 정보로서 사용되는 경우, 허용된 범위의 에러가 인식 프로세스에서 존재할 수 있음을 이해할 수 있다. 이 경우, 현재의 음성 환경은 특정 음성 환경, 예를 들어, 타깃 객체의 위치가 결정되는 환경(예를 들어, 판사 및 죄수의 위치는 법원 재판에서 결정됨)이어야 한다.

본 출원의 본 실시 예에서, 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되므로, 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고 객체 인식 효율을 향상시킨다.

본 출원의 본 실시 예의 특정 구현에서, 결과 획득 모듈(14)은 도 14에 도시된 바와 같이 정보 결정 서브 유닛(1421), 후보 결과 획득 서브 유닛(1422) 및 결과 획득 서브 유닛(1423)을 포함할 수 있다.

특정 구현에서, 객체 인식 정보를 결정하는 정보 결정 서브 유닛(1421)의 상세한 프로세스에 대해서는 전술한 방법 실시 예의 설명을 참조할 수 있다. 세부 사항은 여기서 다시 설명하지 않는다.

특정 구현에서, 정보 결정 서브 유닛(1421)이 위치 정보 및 성문 특징 정보를 모두 사용된 객체 인식 정보로서 결정한 후, 후보 결과 획득 서브 유닛(1422)은 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득할 수 있다. 타깃 객체의 성문 특징 정보가 명백히 상이한 경우, 후보 인식 결과는 타깃 객체의 최종 객체 인식 결과일 수 있으며, 즉 객체 인식 디바이스는 복수의 음성 정보로부터 타깃 객체의 음성 정보를 명확하게 인식할 수 있음을 이해할 수 있다. 명확하지 않은 상이한 성문 특징 정보를 갖는 적어도 2개의 타깃 객체가 타깃 객체에 존재하는 경우, 후보 인식 결과에 의해 지시된 타깃 객체와 음성 정보 사이의 대응관계가 부정확할 수 있다. 예를 들어, 판사 A와 죄수 B의 성문 특징 정보가 매우 유사하면, 객체 인식 디바이스가 법원 재판에서 복수의 음성 정보로부터 판사 A의 음성 정보를 인식하는 경우, 판사 A의 음성 정보를 죄수 B의 음성 정보로 착각하거나 죄수 B의 음성 정보를 판사 A의 음성 정보로 착각할 수 있다.

일 실시 예에서, 후보 결과 획득 서브 유닛(1422)은 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 처음에 인식하며, 결과 획득 서브 유닛(1423)은 위치 정보에 따라 찾은 음원 방향을 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 추가로 찾아 낼 수 있으며, 즉 결과 획득 서브 유닛(1423)은 후보 인식 결과를 조정하고 최종적으로 타깃 객체의 객체 인식 결과를 결정할 수 있다. 예를 들어, 판사 A의 성문 특징 정보와 죄수 B의 성문 특징 정보가 매우 유사하며, 후보 인식 결과는 판사 A의 음성 정보가 죄수 B에 대응하는 것으로 지시하고, 그리고 객체 인식 디바이스는 판사 A의 위치 정보를 참조하여 판사 A의 음성 정보를 판사 A에 대응시킬 수 있다.

본 출원의 본 실시 예에서, 타깃 객체들의 객체 인식 결과는 위치 정보 및 성문 특징 정보를 사용하여 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 추가로 증가시킨다.

본 출원의 본 실시 예에서, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 트레이닝된 성문 매칭 모델에 기반하여 성문 특징이 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 획득되고; 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되며, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가되며; 객체 인식에 사용된 객체 인식 정보는 보이스 신뢰도 값을 사용하여 결정되므로, 객체 인식 프로세스에서 불필요한 정보에 대한 인식 프로세스를 피하고, 객체 인식 효율을 개선하며; 위치 정보 및 성문 특징 정보를 사용하여 타깃 객체들의 객체 인식 결과가 동시에 인식되어, 획득된 객체 인식 결과의 정확도를 더 증가시킨다.

일 실시 예에서, 메모리 및 프로세서를 포함하는 컴퓨터 디바이스가 제공되고, 메모리는 컴퓨터 판독 가능 명령을 저장하고, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하는 단계; 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득하는 단계; 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 단계; 및 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득하는 단계를 수행하게 한다.

일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하는 단계를 수행할 때, 마이크로폰 어레이에 기반하여 현재 음성 환경에서 음성 정보 세트를 획득하는 단계; 음성 정보 세트에 대해 스크리닝 처리를 수행하여 스크리닝 처리 후 타깃 객체의 음성 정보를 획득하는 단계; 음성 정보 세트를 획득하는 동안 마이크로폰 어레이의 위상 정보를 획득하는 단계; 및 위상 정보에 의해 지시된 음성 위치에 기반하여 타깃 객체의 위치 정보를 결정하는 단계를 수행하게 한다.

일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가 추가로, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하는 단계를 수행하기 이전에, 성문 트레이닝 음성 세트를 획득하는 단계; 및 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 트레이닝된 성문 매칭 모델을 생성하는 단계를 수행하게 한다.

일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가, 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 단계를 수행할 때, 성문 특징 정보를 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜, 가장 높은 특징 매칭 정도 값을 획득하는 단계; 및 매칭 정도 값에 따라 성문 특징 정보에 대응하는 보이스 신뢰도 값을 결정하는 단계를 수행하게 한다.

일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득하는 단계를 수행할 때, 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 단계; 및 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하는 단계를 수행하게 한다.

일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 단계를 수행할 때, 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같을 경우, 성문 특징 정보를 사용된 객체 인식 정보로서 결정하는 단계; 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보 모두를 사용된 객체 인식 정보로서 결정하는 단계; 및 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 위치 정보를 사용된 객체 인식 정보로서 결정하는 단계를 수행하게 한다.

일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보 모두가 사용된 객체 인식 정보로서 결정되며, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하는 동작을 수행할 때, 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득하는 단계; 및 위치 정보를 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 찾아내는 단계를 수행하게 한다.

전술한 컴퓨터 디바이스에서, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 트레이닝된 성문 매칭 모델에 기반하여 성문 특징이 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 추출되고, 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되며, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가된다.

컴퓨터 판독 가능 명령을 저장하는 비 휘발성 컴퓨터 판독 가능 저장 매체가 제공되고, 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 하나 이상의 프로세서가, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보를 획득하는 단계; 트레이닝된 성문 매칭 모델에 기반하여 음성 정보로부터 성문 특징을 추출하여 성문 특징 추출 후 음성 정보에 대응하는 성문 특징 정보를 획득하는 단계; 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 단계; 및 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과를 획득하는 단계를 수행하게 한다.

일 실시 예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 위치 정보 및 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 단계를 수행할 때, 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 성문 특징 정보를 사용된 객체 인식 정보로서 결정하는 단계; 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보 모두를 사용된 객체 인식 정보로서 결정하는 단계; 및 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 작은 경우, 위치 정보를 사용된 객체 인식 정보로서 결정하는 단계를 수행하게 한다.

일 실시 예에서, 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 제1 신뢰도 임계 값보다 작은 경우, 위치 정보 및 성문 특징 정보는 모두 사용된 객체 인식 정보로서 결정되며, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 프로세서가, 객체 인식 정보에 따라 타깃 객체의 객체 인식 결과를 획득하는 작동을 수행할 때, 성문 특징 정보에 따라 타깃 객체의 후보 인식 결과를 획득하는 작동; 및 위치 정보를 사용하여 후보 인식 결과로부터 타깃 객체의 객체 인식 결과를 찾는 작동을 수행하게 한다.

전술한 컴퓨터 판독 가능 저장 매체에서, 현재 음성 환경에서의 타깃 객체의 음성 정보 및 타깃 객체의 위치 정보가 획득되고, 트레이닝된 성문 매칭 모델에 기반하여 성문 특징이 음성 정보로부터 추출되며, 성문 특징이 추출된 후 음성 정보에 대응하는 성문 특징 정보가 획득되고; 그리고, 최종적으로, 성문 특징 정보에 대응하는 보이스 신뢰도 값이 획득되며, 보이스 신뢰도 값, 위치 정보 및 성문 특징 정보에 기반하여 타깃 객체의 객체 인식 결과가 획득된다. 객체 인식 결과를 획득할 때 보이스 신뢰도 값의 변조 효과를 분석하는 것에 의해, 위치 정보 또는 성문 특징 정보에 따라 객체 인식 결과가 획득되어, 획득된 객체 인식 결과의 정확도가 증가된다.

도 15는 본 출원의 실시 예에 따른 단말의 개략적인 구조도이다. 도 15에 도시된 바와 같이, 단말(1000)는 CPU와 같은 적어도 하나의 프로세서(1001), 적어도 하나의 네트워크 인터페이스(1004), 사용자 인터페이스(1003), 메모리(1005) 및 적어도 하나의 통신 버스(1002)를 포함할 수 있다. 통신 버스(1002)는 컴포넌트들 간의 연결 및 통신을 구현하도록 구성된다. 사용자 인터페이스(1003)는 디스플레이, 키보드를 포함할 수 있고, 선택적으로 사용자 인터페이스(1003)는 표준 유선 인터페이스 및 표준 무선 인터페이스를 더 포함할 수 있다. 선택적으로, 네트워크 인터페이스(1004)는 표준 유선 인터페이스 및 표준 무선 인터페이스(예를 들어, WiFi 인터페이스)를 포함할 수 있다. 메모리(1005)는 고속 RAM 메모리일 수 있거나, 비휘발성 메모리, 예를 들어 적어도 하나의 자기 디스크 메모리일 수 있다. 선택적으로, 메모리(1005)는 프로세서(1001)로부터 멀리 떨어진 적어도 하나의 저장 디바이스일 수 있다. 도 15에 도시된 바와 같이, 컴퓨터 저장 매체로 사용되는 메모리(1005)는 운영 체제, 네트워크 통신 모듈, 사용자 인터페이스 모듈 및 객체 인식 애플리케이션을 포함할 수 있다.

도 15에 도시된 단말(1000)에서, 사용자 인터페이스(1003)는 주로 사용자에게 입력 인터페이스를 제공하고 사용자에 의해 입력된 데이터를 획득하도록 구성된다. 네트워크 인터페이스(1004)는 사용자 단말과 데이터 통신을 수행하도록 구성된다. 프로세서(1001)는 메모리(1005)에 저장된 객체 인식 애플리케이션을 호출하고 구체적으로 전술한 객체 인식 방법을 수행하도록 구성될 수 있다.

당업자는 실시 예에서의 방법의 모든 또는 일부 프로세스가 관련 하드웨어를 지시하는 컴퓨터 프로그램에 의해 구현될 수 있음을 이해할 수 있다. 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 프로그램이 실행될 때, 실시 예에서의 방법의 절차가 수행된다. 저장 매체는 자기 디스크, 광 디스크, ROM(read-only memory) 또는 RAM(random access memory)일 수 있다.

상술한 것은 본 발명의 실시 예의 일례일 뿐이며, 본 발명의 보호 범위를 제한하려는 것은 아니다. 그러므로, 본 개시의 청구 범위에 따라 이루어진 등가 변형은 본 개시의 범위 내에 속한다.

Claims

메모리 및 프로세서를 포함하는 컴퓨터 디바이스에 의해 수행되는 객체 인식 방법으로서,
상기 객체 인식 방법은,
현재의 음성 환경(speech environment)에서의 타깃 객체의 음성 정보(speech information) 및 상기 타깃 객체의 위치 정보를 획득하는 단계;
트레이닝된(trained) 성문(voiceprint) 매칭 모델에 기반하여 상기 음성 정보로부터 성문 특징을 추출하여, 상기 성문 특징 추출 후 상기 음성 정보에 대응하는 성문 특징 정보를 획득하는 단계;
상기 성문 특징 정보에 대응하는 보이스 신뢰도 값(voice confidence value)을 획득하는 단계 - 상기 보이스 신뢰도 값은 상기 성문 특징 정보와 상기 타깃 객체 사이의 대응 관계의 신뢰성(credibility)을 지시(indicate)함 -; 및
상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 단계
를 포함하며,
상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 단계는,
상기 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 상기 위치 정보 및 상기 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 단계; 및
상기 객체 인식 정보에 따라 상기 타깃 객체의 객체 인식 결과를 획득하는 단계
를 포함하며,
상기 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 상기 위치 정보 및 상기 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 단계는,
상기 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 상기 성문 특징 정보를 상기 사용된 객체 인식 정보로서 결정하는 단계;
상기 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 상기 제1 신뢰도 임계 값보다 작은 경우, 상기 위치 정보 및 상기 성문 특징 정보 모두를 상기 사용된 객체 인식 정보로서 결정하는 단계; 및
상기 보이스 신뢰도 값이 상기 제2 신뢰도 임계 값보다 작은 경우, 상기 위치 정보를 상기 사용된 객체 인식 정보로서 결정하는 단계
를 포함하는,
객체 인식 방법.
제1항에 있어서,
상기 현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 단계는,
마이크로폰 어레이에 기반하여 상기 현재의 음성 환경에서 음성 정보 세트를 획득하는 단계;
상기 음성 정보 세트에 대해 스크리닝(screening) 처리를 수행하여, 상기 스크리닝 처리 후 상기 타깃 객체의 상기 음성 정보를 획득하는 단계;
상기 음성 정보 세트를 획득하는 동안 상기 마이크로폰 어레이의 위상 정보를 획득하는 단계; 및
상기 위상 정보에 의해 지시된(indicated) 음성 위치(speech position)에 기반하여 상기 타깃 객체의 위치 정보를 결정하는 단계
를 포함하는, 객체 인식 방법.
제1항에 있어서,
상기 현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 단계 이전에, 상기 객체 인식 방법은,
성문 트레이닝 음성 세트(voiceprint training speech set)를 획득하는 단계; 및
상기 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 상기 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 상기 트레이닝된 성문 매칭 모델을 생성하는 단계
를 더 포함하는 객체 인식 방법.
제3항에 있어서,
상기 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 단계는,
상기 성문 특징 정보를 상기 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜서 가장 높은 특징 매칭 정도 값(matching degree value)을 획득하는 단계; 및
상기 매칭 정도 값에 따라 상기 성문 특징 정보에 대응하는 상기 보이스 신뢰도 값을 결정하는 단계
를 포함하는, 객체 인식 방법.
삭제
삭제
제1항에 있어서,
상기 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 상기 제1 신뢰도 임계 값보다 작은 경우, 상기 위치 정보 및 상기 성문 특징 정보 모두가 상기 사용된 객체 인식 정보로서 결정되며, 상기 객체 인식 정보에 따라 상기 타깃 객체의 객체 인식 결과를 획득하는 단계는,
상기 성문 특징 정보에 따라 상기 타깃 객체의 후보 인식 결과를 획득하는 단계; 및
상기 위치 정보를 사용하여 상기 후보 인식 결과로부터 상기 타깃 객체의 객체 인식 결과를 찾아내는(locate) 단계
를 포함하는, 객체 인식 방법.
컴퓨터 디바이스로서,
프로세서 및 메모리를 포함하고,
상기 메모리는 컴퓨터 판독 가능 명령을 저장하고, 상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가,
현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 작동;
트레이닝된 성문 매칭 모델에 기반하여 상기 음성 정보로부터 성문 특징을 추출하여, 상기 성문 특징 추출 후 상기 음성 정보에 대응하는 성문 특징 정보를 획득하는 작동;
상기 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 작동 - 상기 보이스 신뢰도 값은 상기 성문 특징 정보와 상기 타깃 객체 사이의 대응 관계의 신뢰성(credibility)을 지시(indicate)함 - ; 및
상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 작동
을 수행하게 하며,
상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 작동을 수행할 때,
상기 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 상기 위치 정보 및 상기 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 작동; 및
상기 객체 인식 정보에 따라 상기 타깃 객체의 객체 인식 결과를 획득하는 작동
을 수행하게 하며,
상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 상기 위치 정보 및 상기 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 작동을 수행할 때,
상기 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 상기 성문 특징 정보를 상기 사용된 객체 인식 정보로서 결정하는 작동;
상기 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 상기 제1 신뢰도 임계 값보다 작은 경우, 상기 위치 정보 및 상기 성문 특징 정보 모두를 상기 사용된 객체 인식 정보로서 결정하는 작동; 및
상기 보이스 신뢰도 값이 상기 제2 신뢰도 임계 값보다 작은 경우, 상기 위치 정보를 상기 사용된 객체 인식 정보로서 결정하는 작동
을 수행하게 하는,
컴퓨터 디바이스.
제8항에 있어서,
상기 현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 작동은,
마이크로폰 어레이에 기반하여 상기 현재의 음성 환경에서 음성 정보 세트를 획득하는 작동;
상기 음성 정보 세트에 대해 스크리닝 처리를 수행하여, 상기 스크리닝 처리 후 상기 타깃 객체의 상기 음성 정보를 획득하는 작동;
상기 음성 정보 세트를 획득하는 동안 상기 마이크로폰 어레이의 위상 정보를 획득하는 작동; 및
상기 위상 정보에 의해 지시된 음성 위치에 기반하여 상기 타깃 객체의 위치 정보를 결정하는 작동을
를 포함하는, 컴퓨터 디바이스.
제8항에 있어서,
상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가 추가로, 상기 현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 작동을 수행하기 전에,
성문 트레이닝 음성 세트를 획득하는 작동; 및
상기 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 상기 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 상기 트레이닝된 성문 매칭 모델을 생성하는 작동
을 수행하게 하는, 컴퓨터 디바이스.
제10항에 있어서,
상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 작동을 수행할 때,
상기 성문 특징 정보를 상기 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜서 가장 높은 특징 매칭 정도 값을 획득하는 작동; 및
상기 매칭 정도 값에 따라 상기 성문 특징 정보에 대응하는 상기 보이스 신뢰도 값을 결정하는 작동
을 수행하게 하는, 컴퓨터 디바이스.
삭제
삭제
제8항에 있어서,
상기 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 상기 제1 신뢰도 임계 값보다 작은 경우, 상기 위치 정보 및 상기 성문 특징 정보가 모두 상기 사용된 객체 인식 정보로서 결정되며, 상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 객체 인식 정보에 따라 상기 타깃 객체의 객체 인식 결과를 획득하는 작동을 수행할 때,
상기 성문 특징 정보에 따라 상기 타깃 객체의 후보 인식 결과를 획득하는 작동; 및
상기 위치 정보를 사용하여 상기 후보 인식 결과로부터 상기 타깃 객체의 객체 인식 결과를 찾아내는 작동
을 수행하게 하는, 컴퓨터 디바이스.
컴퓨터 판독 가능 명령을 저장하는 비휘발성 컴퓨터 판독 가능 저장 매체로서,
하나 이상의 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가,
현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 작동;
트레이닝된 성문 매칭 모델에 기반하여 상기 음성 정보로부터 성문 특징을 추출하여, 상기 성문 특징 추출 후 상기 음성 정보에 대응하는 성문 특징 정보를 획득하는 작동;
상기 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 작동 - 상기 보이스 신뢰도 값은 상기 성문 특징 정보와 상기 타깃 객체 사이의 대응 관계의 신뢰성(credibility)을 지시(indicate)함 - ; 및
상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 작동
을 수행하게 하며,
상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 보이스 신뢰도 값, 상기 위치 정보 및 상기 성문 특징 정보에 기반하여 상기 타깃 객체의 객체 인식 결과를 획득하는 작동을 수행할 때,
상기 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 상기 위치 정보 및 상기 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 작동; 및
상기 객체 인식 정보에 따라 상기 타깃 객체의 객체 인식 결과를 획득하는 작동
을 수행하게 하며,
상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 보이스 신뢰도 값과 미리 설정된 보이스 신뢰도 임계 값 사이의 관계에 기반하여 상기 위치 정보 및 상기 성문 특징 정보에서, 사용된 객체 인식 정보를 결정하는 작동을 수행할 때,
상기 보이스 신뢰도 값이 제1 신뢰도 임계 값보다 크거나 같은 경우, 상기 성문 특징 정보를 상기 사용된 객체 인식 정보로서 결정하는 작동;
상기 보이스 신뢰도 값이 제2 신뢰도 임계 값보다 크거나 같고 상기 제1 신뢰도 임계 값보다 작은 경우, 상기 위치 정보 및 상기 성문 특징 정보 모두를 상기 사용된 객체 인식 정보로서 결정하는 작동; 및
상기 보이스 신뢰도 값이 상기 제2 신뢰도 임계 값보다 작은 경우, 상기 위치 정보를 상기 사용된 객체 인식 정보로서 결정하는 작동
을 수행하게 하는,
컴퓨터 판독 가능 저장 매체.
제15항에 있어서,
상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 작동을 수행할 때,
마이크로폰 어레이에 기반하여 상기 현재의 음성 환경에서 음성 정보 세트를 획득하는 작동;
상기 음성 정보 세트에 대해 스크리닝 처리를 수행하여, 상기 스크리닝 처리 후 상기 타깃 객체의 상기 음성 정보를 획득하는 작동;
상기 음성 정보 세트를 획득하는 동안 상기 마이크로폰 어레이의 위상 정보를 획득하는 작동; 및
상기 위상 정보에 의해 지시된 음성 위치에 기반하여 상기 타깃 객체의 위치 정보를 결정하는 작동
을 수행하게 하는, 컴퓨터 판독 가능 저장 매체.
제15항에 있어서,
상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가 추가로, 상기 현재의 음성 환경에서의 타깃 객체의 음성 정보 및 상기 타깃 객체의 위치 정보를 획득하는 작동을 수행하기 전에,
성문 트레이닝 음성 세트를 획득하는 작동; 및
상기 성문 트레이닝 음성 세트 내의 성문 트레이닝 음성 및 상기 성문 트레이닝 음성에 대응하는 샘플 특징 정보에 기반하여, 구축된 성문 매칭 모델을 트레이닝시켜 상기 트레이닝된 성문 매칭 모델을 생성하는 작동
을 수행하게 하는, 컴퓨터 판독 가능 저장 매체.
제17항에 있어서,
상기 프로세서에 의해 실행될 때, 상기 컴퓨터 판독 가능 명령은 상기 프로세서가, 상기 성문 특징 정보에 대응하는 보이스 신뢰도 값을 획득하는 작동을 수행할 때,
상기 성문 특징 정보를 상기 성문 트레이닝 음성에 대응하는 샘플 특징 정보와 매칭시켜서 가장 높은 특징 매칭 정도 값을 획득하는 작동; 및
상기 매칭 정도 값에 따라 상기 성문 특징 정보에 대응하는 상기 보이스 신뢰도 값을 결정하는 작동
을 수행하게 하는, 컴퓨터 판독 가능 저장 매체.
삭제
삭제