JPWO2021211836A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2021211836A5
JPWO2021211836A5 JP2022561448A JP2022561448A JPWO2021211836A5 JP WO2021211836 A5 JPWO2021211836 A5 JP WO2021211836A5 JP 2022561448 A JP2022561448 A JP 2022561448A JP 2022561448 A JP2022561448 A JP 2022561448A JP WO2021211836 A5 JPWO2021211836 A5 JP WO2021211836A5
Authority
JP
Japan
Prior art keywords
inbound
computer
speaker
new
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022561448A
Other languages
Japanese (ja)
Other versions
JP2023521768A (en
Publication date
Application filed filed Critical
Priority claimed from PCT/US2021/027474 external-priority patent/WO2021211836A1/en
Publication of JP2023521768A publication Critical patent/JP2023521768A/en
Publication of JPWO2021211836A5 publication Critical patent/JPWO2021211836A5/ja
Pending legal-status Critical Current

Links

Claims (20)

コンピュータ実装方法であって、
前記コンピュータによって、インバウンド音声信号に機械学習モデルを適用することによって、インバウンド話者のインバウンド埋め込みを抽出することと、
前記コンピュータによって、前記インバウンド埋め込みと、話者プロファイルデータベース中の話者プロファイルに記憶された声紋と、の間の距離に基づいて、類似度スコアを生成することと、
前記コンピュータが、前記インバウンド埋め込みの前記類似度スコアが類似度閾値を充足しないと判定することに応答して、
前記コンピュータによって、前記話者プロファイルデータベース中に、前記インバウンド埋め込みを包含する、前記インバウンド話者の新しい話者プロファイルを生成することであって、前記新しい話者プロファイルは、前記インバウンド埋め込みを新しい声紋として記憶するデータベースレコードである、生成することと、を含む、方法。
1. A computer-implemented method comprising:
extracting, by the computer, an inbound embedding for the inbound speaker by applying a machine learning model to the inbound speech signal;
generating, by the computer, a similarity score based on a distance between the inbound embedding and a voiceprint stored in a speaker profile in a speaker profile database;
In response to the computer determining that the similarity score of the inbound embedding does not satisfy a similarity threshold,
generating, by the computer, a new speaker profile for the inbound speaker in the speaker profile database that includes the inbound embedding, the new speaker profile being a database record that stores the inbound embedding as a new voiceprint.
前記コンピュータによって、中間サーバを介して、エンドユーザデバイスから前記インバウンド音声信号を受信することと、
前記コンピュータによって、前記新しい話者プロファイルに関連付けられた新しい話者識別子を前記中間サーバに伝送することと、を更に含む、請求項1に記載の方法。
receiving, by the computer, the inbound voice signal from an end user device via an intermediate server;
The method of claim 1 , further comprising transmitting, by the computer, a new speaker identifier associated with the new speaker profile to the intermediate server.
前記コンピュータによって、前記インバウンド音声信号から1つ以上の特徴を抽出することを更に含み、前記コンピュータは、前記インバウンド音声信号から抽出された前記コンピュータの前記1つ以上の特徴に前記機械学習モデルを適用することによって、前記インバウンド埋め込みを生成する、請求項1に記載の方法。 The method of claim 1, further comprising extracting, by the computer, one or more features from the inbound speech signal, and the computer generating the inbound embedding by applying the machine learning model to the one or more features extracted from the inbound speech signal. 前記コンピュータによって、第2のインバウンド信号から第2のインバウンド埋め込みを、前記第2のインバウンド信号に前記機械学習モデルを適用することによって抽出することと、
前記コンピュータによって、前記第2のインバウンド埋め込みと、前記新しい話者プロファイルに記憶された前記新しい声紋と、の間の前記距離に基づいて、第2の類似度スコアを生成することと、
前記コンピュータが、前記第2のインバウンド埋め込みの前記第2の類似度スコアが類似度閾値を充足すると判定することに応答して、
前記コンピュータによって、前記第2のインバウンド信号に基づいて、前記インバウンド話者の前記新しい声紋を更新することと、を更に含む、請求項1に記載の方法。
extracting, by the computer, a second inbound embedding from a second inbound signal by applying the machine learning model to the second inbound signal;
generating, by the computer, a second similarity score based on the distance between the second inbound embedding and the new voiceprint stored in the new speaker profile;
In response to the computer determining that the second similarity score of the second inbound embedding satisfies a similarity threshold,
2. The method of claim 1, further comprising: updating, by the computer, the new voiceprint of the inbound speaker based on the second inbound signal.
前記コンピュータによって、前記インバウンド音声信号に関連付けられた加入者識別子を受信することと、
前記コンピュータによって、前記話者プロファイルデータベースに記憶された、前記加入者識別子に関連付けられた1つ以上の話者プロファイルを識別することであって、前記コンピュータは、前記加入者識別子に関連付けられた前記1つ以上の話者プロファイルに記憶された1つ以上の声紋に基づいて、前記インバウンド埋め込みの1つ以上の類似度スコアを生成する、識別することと、を更に含む、請求項1に記載の方法。
receiving, by the computer, a subscriber identifier associated with the inbound voice signal;
10. The method of claim 1, further comprising: identifying, by the computer, one or more speaker profiles stored in the speaker profile database associated with the subscriber identifier, wherein the computer generates one or more similarity scores for the inbound embeddings based on one or more voiceprints stored in the one or more speaker profiles associated with the subscriber identifier.
前記コンピュータは、1つ以上のインバウンド埋め込みに基づいて、前記新しい声紋を生成し、前記方法は、
前記コンピュータによって、前記1つ以上のインバウンド埋め込みに基づいて、前記新しい声紋の1つ以上の成熟度因子を識別することと、
前記コンピュータによって、前記1つ以上の成熟度因子に基づいて、前記新しい声紋の成熟度のレベルを判定することと、を更に含む、請求項1に記載の方法。
The computer generates the new voiceprint based on one or more inbound embeddings, the method comprising:
identifying, by the computer, one or more maturity factors of the new voiceprint based on the one or more inbound embeddings;
The method of claim 1 , further comprising determining, by the computer, a level of maturity of the new voiceprint based on the one or more maturity factors.
前記コンピュータによって、前記コンピュータが、前記新しい声紋の前記成熟度のレベルが成熟度閾値を充足すると判定することに応答して、前記新しい話者プロファイルの新しい類似度閾値を更新することを更に含む、請求項6に記載の方法。 The method of claim 6, further comprising updating, by the computer, a new similarity threshold for the new speaker profile in response to the computer determining that the maturity level of the new voiceprint satisfies a maturity threshold. 前記コンピュータが、前記成熟度のレベルが成熟度閾値に至らないと判定することに応答して、
前記コンピュータによって、能動的登録プロンプトを生成することであって、前記能動的登録プロンプトは、追加のインバウンド音声信号に対する要求を表示するように構成されたユーザインターフェースを含む、生成することと、
前記コンピュータによって、前記追加のインバウンド信号から追加の埋め込みを抽出することと、
前記コンピュータによって、前記追加のインバウンド信号から抽出された追加の埋め込みに従って、前記新しい声紋を更新することと、を更に含む、請求項6に記載の方法。
In response to the computer determining that the maturity level is below a maturity threshold,
generating, by the computer, an active enrollment prompt, the active enrollment prompt including a user interface configured to display a request for an additional inbound voice signal;
extracting, by the computer, an additional embedding from the additional inbound signal; and
7. The method of claim 6, further comprising: updating, by the computer, the new voiceprint according to additional embeddings extracted from the additional inbound signals.
前記コンピュータが、前記成熟度のレベルが成熟度閾値を充足すると判定することに応答して、前記コンピュータによって、前記新しい話者プロファイルを一時的なプロファイルから永続的なプロファイルに更新することを更に含む、請求項6に記載の方法。 The method of claim 6, further comprising updating, by the computer, the new speaker profile from a temporary profile to a permanent profile in response to the computer determining that the level of maturity satisfies a maturity threshold. システムであって、
話者プロファイルを包含するデータレコードを記憶するように構成された非一時的機械可読記憶媒体を備える話者プロファイルデータベースと、
プロセッサを備えるコンピュータと、を備え、前記プロセッサは、
インバウンド音声信号に機械学習モデルを適用することによって、インバウンド話者のインバウンド埋め込みを抽出することと、
前記インバウンド埋め込みと、前記話者プロファイルデータベース中の話者プロファイルに記憶された声紋と、の間の距離に基づいて、類似度スコアを生成することと、
前記コンピュータが、前記インバウンド埋め込みの前記類似度スコアが類似度閾値を充足しないと判定することに応答して、
前記話者プロファイルデータベース中に、前記インバウンド埋め込みを包含する、前記インバウンド話者の新しい話者プロファイルを生成することであって、前記新しい話者プロファイルは、前記インバウンド埋め込みを新しい声紋として記憶するデータベースレコードである、生成することと、を行うように構成されている、システム。
1. A system comprising:
a speaker profile database comprising a non-transitory machine-readable storage medium configured to store data records containing speaker profiles;
and a computer including a processor, the processor comprising:
extracting an inbound embedding for an inbound speaker by applying a machine learning model to the inbound speech signal;
generating a similarity score based on a distance between the inbound embedding and a voiceprint stored in a speaker profile in the speaker profile database;
In response to the computer determining that the similarity score of the inbound embedding does not satisfy a similarity threshold,
and generating a new speaker profile for the inbound speaker in the speaker profile database that includes the inbound embedding, the new speaker profile being a database record that stores the inbound embedding as a new voiceprint.
前記コンピュータは、
中間サーバを介して、エンドユーザデバイスから前記インバウンド音声信号を受信することと、
前記新しい話者プロファイルに関連付けられた新しい話者識別子を前記中間サーバに伝送することと、を行うように更に構成されている、請求項10に記載のシステム。
The computer includes:
receiving the inbound voice signal from an end user device via an intermediate server;
The system of claim 10 , further configured to: transmit a new speaker identifier associated with the new speaker profile to the intermediate server.
前記エンドユーザデバイスは、スマートテレビ、テレビに結合されたメディアデバイス、及びエッジデバイスのうちの少なくとも1つである、請求項11に記載のシステム。 The system of claim 11, wherein the end user device is at least one of a smart television, a media device coupled to a television, and an edge device. 前記コンピュータは、前記インバウンド音声信号から1つ以上の特徴を抽出するように更に構成されており、前記コンピュータは、前記コンピュータが前記インバウンド音声信号から抽出した前記1つ以上の特徴に前記機械学習モデルを適用することによって、前記インバウンド埋め込みを生成する、請求項10に記載のシステム。 The system of claim 10, wherein the computer is further configured to extract one or more features from the inbound speech signal, and the computer generates the inbound embedding by applying the machine learning model to the one or more features that the computer extracted from the inbound speech signal. 前記コンピュータは、
第2のインバウンド音声信号から第2のインバウンド埋め込みを、前記第2のインバウンド音声信号に前記機械学習モデルを適用することによって抽出することと、
前記第2のインバウンド埋め込みと、前記新しい話者プロファイルに記憶された前記新しい声紋と、の間の前記距離に基づいて、第2の類似度スコアを生成することと、
前記コンピュータが、前記第2のインバウンド埋め込みの前記第2の類似度スコアが類似度閾値を充足すると判定することに応答して、
前記第2のインバウンド音声信号に基づいて、前記インバウンド話者の前記新しい声紋を更新することと、を行うように更に構成されている、請求項10に記載のシステム。
The computer includes:
extracting a second inbound embedding from a second inbound speech signal by applying the machine learning model to the second inbound speech signal;
generating a second similarity score based on the distance between the second inbound embedding and the new voiceprint stored in the new speaker profile;
In response to the computer determining that the second similarity score of the second inbound embedding satisfies a similarity threshold,
11. The system of claim 10, further configured to: update the new voiceprint of the inbound speaker based on the second inbound voice signal.
前記コンピュータは、
前記インバウンド音声信号に関連付けられた加入者識別子を受信することと、
前記話者プロファイルデータベースに記憶された、前記加入者識別子に関連付けられた1つ以上の話者プロファイルを識別することであって、前記コンピュータは、前記加入者識別子に関連付けられた前記1つ以上の話者プロファイルに記憶された1つ以上の声紋に基づいて、前記インバウンド埋め込みの1つ以上の類似度スコアを生成する、識別することと、を行うように更に構成されている、請求項10に記載のシステム。
The computer includes:
receiving a subscriber identifier associated with the inbound voice signal;
11. The system of claim 10, further configured to: identify one or more speaker profiles associated with the subscriber identifier stored in the speaker profile database, wherein the computer is configured to generate one or more similarity scores for the inbound embeddings based on one or more voiceprints stored in the one or more speaker profiles associated with the subscriber identifier.
前記加入者識別子は、1つ以上の話者識別子に関連付けられており、各話者プロファイルは、対応する話者識別子に関連付けられている、請求項15に記載のシステム。 The system of claim 15, wherein the subscriber identifier is associated with one or more speaker identifiers, and each speaker profile is associated with a corresponding speaker identifier. 前記加入者識別子及び各話者識別子のうちの少なくとも1つは、匿名化された識別子である、請求項16に記載のシステム。 The system of claim 16, wherein at least one of the subscriber identifier and each speaker identifier is an anonymized identifier. 前記コンピュータは、1つ以上のインバウンド埋め込みに基づいて、前記新しい声紋を生成し、前記コンピュータは、
前記1つ以上のインバウンド埋め込みに基づいて、前記新しい声紋の1つ以上の成熟度因子を識別することと、
前記1つ以上の成熟度因子に基づいて、前記新しい声紋の成熟度のレベルを判定することと、を行うように更に構成されている、請求項10に記載のシステム。
The computer generates the new voiceprint based on one or more inbound embeddings, the computer further comprising:
identifying one or more maturity factors of the new voiceprint based on the one or more inbound embeddings;
The system of claim 10 , further configured to: determine a level of maturity of the new voiceprint based on the one or more maturity factors.
前記コンピュータは、
前記成熟度のレベルが成熟度閾値に至らないと判定することに応答して、
能動的登録プロンプトを生成することであって、前記能動的登録プロンプトは、追加のインバウンド音声信号に対する要求を表示するように構成されたユーザインターフェースを含む、生成することと、
前記追加のインバウンド信号から追加の埋め込みを抽出することと、
前記追加のインバウンド信号から抽出された追加の埋め込みに従って、前記新しい声紋を更新することと、を行うように更に構成されている、請求項18に記載のシステム。
The computer includes:
in response to determining that the level of maturity is below a maturity threshold;
generating an active registration prompt, the active registration prompt including a user interface configured to display a request for an additional inbound voice signal;
extracting an additional embedding from the additional inbound signal; and
20. The system of claim 18, further configured to: update the new voiceprint according to an additional embedding extracted from the additional inbound signal.
前記コンピュータは、前記コンピュータが、前記成熟度のレベルが成熟度閾値を充足すると判定することに応答して、前記新しい話者プロファイルを一時的なプロファイルから永続的なプロファイルに更新するように更に構成されている、請求項18に記載のシステム。 The system of claim 18, wherein the computer is further configured to update the new speaker profile from a temporary profile to a permanent profile in response to the computer determining that the level of maturity satisfies a maturity threshold.
JP2022561448A 2020-04-15 2021-04-15 Passive and continuous multi-speaker voice biometrics Pending JP2023521768A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063010504P 2020-04-15 2020-04-15
US63/010,504 2020-04-15
PCT/US2021/027474 WO2021211836A1 (en) 2020-04-15 2021-04-15 Passive and continuous multi-speaker voice biometrics

Publications (2)

Publication Number Publication Date
JP2023521768A JP2023521768A (en) 2023-05-25
JPWO2021211836A5 true JPWO2021211836A5 (en) 2024-04-24

Family

ID=78082506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022561448A Pending JP2023521768A (en) 2020-04-15 2021-04-15 Passive and continuous multi-speaker voice biometrics

Country Status (7)

Country Link
US (1) US20210326421A1 (en)
EP (1) EP4136637A4 (en)
JP (1) JP2023521768A (en)
KR (1) KR20230011307A (en)
AU (1) AU2021254787A1 (en)
CA (1) CA3184478A1 (en)
WO (1) WO2021211836A1 (en)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019246219A1 (en) 2018-06-19 2019-12-26 Securelogix Corporation Active audio calling device identification system
JP7347244B2 (en) * 2020-01-29 2023-09-20 トヨタ自動車株式会社 Agent devices, agent systems and programs
US11699447B2 (en) * 2020-06-22 2023-07-11 Rovi Guides, Inc. Systems and methods for determining traits based on voice analysis
TWI807203B (en) * 2020-07-28 2023-07-01 華碩電腦股份有限公司 Voice recognition method and electronic device using the same
WO2022072655A1 (en) 2020-10-01 2022-04-07 Pindrop Security, Inc. Enrollment and authentication over a phone call in call centers
KR20220133414A (en) * 2021-03-25 2022-10-05 삼성전자주식회사 Method for providing voice assistant service and electronic device supporting the same
CN113656609A (en) * 2021-08-13 2021-11-16 阿波罗智联(北京)科技有限公司 Method and device for recommending multimedia information, electronic equipment and storage medium
CN115862658A (en) * 2021-09-24 2023-03-28 祖玛视频通讯公司 System and method for extracting target speaker voice
US20230129467A1 (en) * 2021-10-22 2023-04-27 Citrix Systems, Inc. Systems and methods to analyze audio data to identify different speakers
US20230131359A1 (en) * 2021-10-27 2023-04-27 Nuance Communications System and Method for Generating Synthetic Cohorts Using Generative Modeling
US20230214839A1 (en) * 2022-01-04 2023-07-06 Bank Of America Corporation System for enhanced authentication using voice modulation matching
US20230239290A1 (en) * 2022-01-21 2023-07-27 Capital One Services, Llc Systems and methods for coherent and tiered voice enrollment
EP4328904A1 (en) * 2022-08-24 2024-02-28 Harman International Industries, Incorporated Techniques for authorizing and prioritizing commands directed towards a virtual private assistant device from multiple sources
US20240105206A1 (en) * 2022-09-23 2024-03-28 Qualcomm Incorporated Seamless customization of machine learning models
US20240112681A1 (en) * 2022-09-30 2024-04-04 Nuance Communications, Inc. Voice biometrics for anonymous identification and personalization

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4403426B2 (en) * 2007-01-09 2010-01-27 サイレックス・テクノロジー株式会社 Biometric authentication device and biometric authentication program
US9172808B2 (en) * 2013-02-22 2015-10-27 Verint Americas Inc. Systems and methods for identifying a caller
US20160292149A1 (en) * 2014-08-02 2016-10-06 Google Inc. Word sense disambiguation using hypernyms
US10325601B2 (en) * 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
US10032451B1 (en) * 2016-12-20 2018-07-24 Amazon Technologies, Inc. User recognition for speech processing systems
US20180293221A1 (en) * 2017-02-14 2018-10-11 Microsoft Technology Licensing, Llc Speech parsing with intelligent assistant
CN109147770B (en) * 2017-06-16 2023-07-28 阿里巴巴集团控股有限公司 Voice recognition feature optimization and dynamic registration method, client and server
US11562243B2 (en) * 2017-11-17 2023-01-24 Meta Platforms, Inc. Machine-learning models based on non-local neural networks
EP3496090A1 (en) * 2017-12-07 2019-06-12 Thomson Licensing Device and method for privacy-preserving vocal interaction
US20190236102A1 (en) * 2018-01-29 2019-08-01 Planet Data Solutions System and method for differential document analysis and storage
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US10964330B2 (en) * 2019-05-13 2021-03-30 Cisco Technology, Inc. Matching speakers to meeting audio
DK201970511A1 (en) * 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
FR3098000B1 (en) * 2019-06-27 2022-05-13 Ea4T Method and device for obtaining an answer from an oral question posed to a man-machine interface.

Similar Documents

Publication Publication Date Title
US10650826B2 (en) Diarization using acoustic labeling
EP3206205B1 (en) Voiceprint information management method and device as well as identity authentication method and system
CN107818798B (en) Customer service quality evaluation method, device, equipment and storage medium
JPWO2021211836A5 (en)
US10412214B2 (en) Systems and methods for cluster-based voice verification
US10068588B2 (en) Real-time emotion recognition from audio signals
JP6394709B2 (en) SPEAKER IDENTIFYING DEVICE AND FEATURE REGISTRATION METHOD FOR REGISTERED SPEECH
US10204619B2 (en) Speech recognition using associative mapping
WO2020228173A1 (en) Illegal speech detection method, apparatus and device and computer-readable storage medium
CN108538293B (en) Voice awakening method and device and intelligent device
JP2019053126A (en) Growth type interactive device
CN107808423A (en) A kind of staff attendance based on service robot is registered system and implementation method
US11501546B2 (en) Media management system for video data processing and adaptation data generation
CN116312552B (en) Video speaker journaling method and system
CN111402892A (en) Conference recording template generation method based on voice recognition
WO2018072327A1 (en) Method and device for preventing misrecognition of voice command
CN108735200A (en) A kind of speaker's automatic marking method
TW201643863A (en) Voice recognition device and method
CN111091809A (en) Regional accent recognition method and device based on depth feature fusion
CN110853674A (en) Text collation method, apparatus, and computer-readable storage medium
CN111081261B (en) Text-independent voiceprint recognition method based on LDA
KR102291113B1 (en) Apparatus and method for producing conference record
CN108831230B (en) Learning interaction method capable of automatically tracking learning content and intelligent desk lamp
WO2016197755A1 (en) Audio data processing method and terminal
CN115954007B (en) Voiceprint detection method and device, electronic equipment and storage medium