JPWO2021211836A5 - - Google Patents
Download PDFInfo
- Publication number
- JPWO2021211836A5 JPWO2021211836A5 JP2022561448A JP2022561448A JPWO2021211836A5 JP WO2021211836 A5 JPWO2021211836 A5 JP WO2021211836A5 JP 2022561448 A JP2022561448 A JP 2022561448A JP 2022561448 A JP2022561448 A JP 2022561448A JP WO2021211836 A5 JPWO2021211836 A5 JP WO2021211836A5
- Authority
- JP
- Japan
- Prior art keywords
- inbound
- computer
- speaker
- new
- embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims 10
- 230000004044 response Effects 0.000 claims 9
- 238000010801 machine learning Methods 0.000 claims 6
Claims (20)
前記コンピュータによって、インバウンド音声信号に機械学習モデルを適用することによって、インバウンド話者のインバウンド埋め込みを抽出することと、
前記コンピュータによって、前記インバウンド埋め込みと、話者プロファイルデータベース中の話者プロファイルに記憶された声紋と、の間の距離に基づいて、類似度スコアを生成することと、
前記コンピュータが、前記インバウンド埋め込みの前記類似度スコアが類似度閾値を充足しないと判定することに応答して、
前記コンピュータによって、前記話者プロファイルデータベース中に、前記インバウンド埋め込みを包含する、前記インバウンド話者の新しい話者プロファイルを生成することであって、前記新しい話者プロファイルは、前記インバウンド埋め込みを新しい声紋として記憶するデータベースレコードである、生成することと、を含む、方法。 1. A computer-implemented method comprising:
extracting, by the computer, an inbound embedding for the inbound speaker by applying a machine learning model to the inbound speech signal;
generating, by the computer, a similarity score based on a distance between the inbound embedding and a voiceprint stored in a speaker profile in a speaker profile database;
In response to the computer determining that the similarity score of the inbound embedding does not satisfy a similarity threshold,
generating, by the computer, a new speaker profile for the inbound speaker in the speaker profile database that includes the inbound embedding, the new speaker profile being a database record that stores the inbound embedding as a new voiceprint.
前記コンピュータによって、前記新しい話者プロファイルに関連付けられた新しい話者識別子を前記中間サーバに伝送することと、を更に含む、請求項1に記載の方法。 receiving, by the computer, the inbound voice signal from an end user device via an intermediate server;
The method of claim 1 , further comprising transmitting, by the computer, a new speaker identifier associated with the new speaker profile to the intermediate server.
前記コンピュータによって、前記第2のインバウンド埋め込みと、前記新しい話者プロファイルに記憶された前記新しい声紋と、の間の前記距離に基づいて、第2の類似度スコアを生成することと、
前記コンピュータが、前記第2のインバウンド埋め込みの前記第2の類似度スコアが類似度閾値を充足すると判定することに応答して、
前記コンピュータによって、前記第2のインバウンド信号に基づいて、前記インバウンド話者の前記新しい声紋を更新することと、を更に含む、請求項1に記載の方法。 extracting, by the computer, a second inbound embedding from a second inbound signal by applying the machine learning model to the second inbound signal;
generating, by the computer, a second similarity score based on the distance between the second inbound embedding and the new voiceprint stored in the new speaker profile;
In response to the computer determining that the second similarity score of the second inbound embedding satisfies a similarity threshold,
2. The method of claim 1, further comprising: updating, by the computer, the new voiceprint of the inbound speaker based on the second inbound signal.
前記コンピュータによって、前記話者プロファイルデータベースに記憶された、前記加入者識別子に関連付けられた1つ以上の話者プロファイルを識別することであって、前記コンピュータは、前記加入者識別子に関連付けられた前記1つ以上の話者プロファイルに記憶された1つ以上の声紋に基づいて、前記インバウンド埋め込みの1つ以上の類似度スコアを生成する、識別することと、を更に含む、請求項1に記載の方法。 receiving, by the computer, a subscriber identifier associated with the inbound voice signal;
10. The method of claim 1, further comprising: identifying, by the computer, one or more speaker profiles stored in the speaker profile database associated with the subscriber identifier, wherein the computer generates one or more similarity scores for the inbound embeddings based on one or more voiceprints stored in the one or more speaker profiles associated with the subscriber identifier.
前記コンピュータによって、前記1つ以上のインバウンド埋め込みに基づいて、前記新しい声紋の1つ以上の成熟度因子を識別することと、
前記コンピュータによって、前記1つ以上の成熟度因子に基づいて、前記新しい声紋の成熟度のレベルを判定することと、を更に含む、請求項1に記載の方法。 The computer generates the new voiceprint based on one or more inbound embeddings, the method comprising:
identifying, by the computer, one or more maturity factors of the new voiceprint based on the one or more inbound embeddings;
The method of claim 1 , further comprising determining, by the computer, a level of maturity of the new voiceprint based on the one or more maturity factors.
前記コンピュータによって、能動的登録プロンプトを生成することであって、前記能動的登録プロンプトは、追加のインバウンド音声信号に対する要求を表示するように構成されたユーザインターフェースを含む、生成することと、
前記コンピュータによって、前記追加のインバウンド信号から追加の埋め込みを抽出することと、
前記コンピュータによって、前記追加のインバウンド信号から抽出された追加の埋め込みに従って、前記新しい声紋を更新することと、を更に含む、請求項6に記載の方法。 In response to the computer determining that the maturity level is below a maturity threshold,
generating, by the computer, an active enrollment prompt, the active enrollment prompt including a user interface configured to display a request for an additional inbound voice signal;
extracting, by the computer, an additional embedding from the additional inbound signal; and
7. The method of claim 6, further comprising: updating, by the computer, the new voiceprint according to additional embeddings extracted from the additional inbound signals.
話者プロファイルを包含するデータレコードを記憶するように構成された非一時的機械可読記憶媒体を備える話者プロファイルデータベースと、
プロセッサを備えるコンピュータと、を備え、前記プロセッサは、
インバウンド音声信号に機械学習モデルを適用することによって、インバウンド話者のインバウンド埋め込みを抽出することと、
前記インバウンド埋め込みと、前記話者プロファイルデータベース中の話者プロファイルに記憶された声紋と、の間の距離に基づいて、類似度スコアを生成することと、
前記コンピュータが、前記インバウンド埋め込みの前記類似度スコアが類似度閾値を充足しないと判定することに応答して、
前記話者プロファイルデータベース中に、前記インバウンド埋め込みを包含する、前記インバウンド話者の新しい話者プロファイルを生成することであって、前記新しい話者プロファイルは、前記インバウンド埋め込みを新しい声紋として記憶するデータベースレコードである、生成することと、を行うように構成されている、システム。 1. A system comprising:
a speaker profile database comprising a non-transitory machine-readable storage medium configured to store data records containing speaker profiles;
and a computer including a processor, the processor comprising:
extracting an inbound embedding for an inbound speaker by applying a machine learning model to the inbound speech signal;
generating a similarity score based on a distance between the inbound embedding and a voiceprint stored in a speaker profile in the speaker profile database;
In response to the computer determining that the similarity score of the inbound embedding does not satisfy a similarity threshold,
and generating a new speaker profile for the inbound speaker in the speaker profile database that includes the inbound embedding, the new speaker profile being a database record that stores the inbound embedding as a new voiceprint.
中間サーバを介して、エンドユーザデバイスから前記インバウンド音声信号を受信することと、
前記新しい話者プロファイルに関連付けられた新しい話者識別子を前記中間サーバに伝送することと、を行うように更に構成されている、請求項10に記載のシステム。 The computer includes:
receiving the inbound voice signal from an end user device via an intermediate server;
The system of claim 10 , further configured to: transmit a new speaker identifier associated with the new speaker profile to the intermediate server.
第2のインバウンド音声信号から第2のインバウンド埋め込みを、前記第2のインバウンド音声信号に前記機械学習モデルを適用することによって抽出することと、
前記第2のインバウンド埋め込みと、前記新しい話者プロファイルに記憶された前記新しい声紋と、の間の前記距離に基づいて、第2の類似度スコアを生成することと、
前記コンピュータが、前記第2のインバウンド埋め込みの前記第2の類似度スコアが類似度閾値を充足すると判定することに応答して、
前記第2のインバウンド音声信号に基づいて、前記インバウンド話者の前記新しい声紋を更新することと、を行うように更に構成されている、請求項10に記載のシステム。 The computer includes:
extracting a second inbound embedding from a second inbound speech signal by applying the machine learning model to the second inbound speech signal;
generating a second similarity score based on the distance between the second inbound embedding and the new voiceprint stored in the new speaker profile;
In response to the computer determining that the second similarity score of the second inbound embedding satisfies a similarity threshold,
11. The system of claim 10, further configured to: update the new voiceprint of the inbound speaker based on the second inbound voice signal.
前記インバウンド音声信号に関連付けられた加入者識別子を受信することと、
前記話者プロファイルデータベースに記憶された、前記加入者識別子に関連付けられた1つ以上の話者プロファイルを識別することであって、前記コンピュータは、前記加入者識別子に関連付けられた前記1つ以上の話者プロファイルに記憶された1つ以上の声紋に基づいて、前記インバウンド埋め込みの1つ以上の類似度スコアを生成する、識別することと、を行うように更に構成されている、請求項10に記載のシステム。 The computer includes:
receiving a subscriber identifier associated with the inbound voice signal;
11. The system of claim 10, further configured to: identify one or more speaker profiles associated with the subscriber identifier stored in the speaker profile database, wherein the computer is configured to generate one or more similarity scores for the inbound embeddings based on one or more voiceprints stored in the one or more speaker profiles associated with the subscriber identifier.
前記1つ以上のインバウンド埋め込みに基づいて、前記新しい声紋の1つ以上の成熟度因子を識別することと、
前記1つ以上の成熟度因子に基づいて、前記新しい声紋の成熟度のレベルを判定することと、を行うように更に構成されている、請求項10に記載のシステム。 The computer generates the new voiceprint based on one or more inbound embeddings, the computer further comprising:
identifying one or more maturity factors of the new voiceprint based on the one or more inbound embeddings;
The system of claim 10 , further configured to: determine a level of maturity of the new voiceprint based on the one or more maturity factors.
前記成熟度のレベルが成熟度閾値に至らないと判定することに応答して、
能動的登録プロンプトを生成することであって、前記能動的登録プロンプトは、追加のインバウンド音声信号に対する要求を表示するように構成されたユーザインターフェースを含む、生成することと、
前記追加のインバウンド信号から追加の埋め込みを抽出することと、
前記追加のインバウンド信号から抽出された追加の埋め込みに従って、前記新しい声紋を更新することと、を行うように更に構成されている、請求項18に記載のシステム。 The computer includes:
in response to determining that the level of maturity is below a maturity threshold;
generating an active registration prompt, the active registration prompt including a user interface configured to display a request for an additional inbound voice signal;
extracting an additional embedding from the additional inbound signal; and
20. The system of claim 18, further configured to: update the new voiceprint according to an additional embedding extracted from the additional inbound signal.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063010504P | 2020-04-15 | 2020-04-15 | |
US63/010,504 | 2020-04-15 | ||
PCT/US2021/027474 WO2021211836A1 (en) | 2020-04-15 | 2021-04-15 | Passive and continuous multi-speaker voice biometrics |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023521768A JP2023521768A (en) | 2023-05-25 |
JPWO2021211836A5 true JPWO2021211836A5 (en) | 2024-04-24 |
Family
ID=78082506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022561448A Pending JP2023521768A (en) | 2020-04-15 | 2021-04-15 | Passive and continuous multi-speaker voice biometrics |
Country Status (7)
Country | Link |
---|---|
US (1) | US20210326421A1 (en) |
EP (1) | EP4136637A4 (en) |
JP (1) | JP2023521768A (en) |
KR (1) | KR20230011307A (en) |
AU (1) | AU2021254787A1 (en) |
CA (1) | CA3184478A1 (en) |
WO (1) | WO2021211836A1 (en) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019246219A1 (en) | 2018-06-19 | 2019-12-26 | Securelogix Corporation | Active audio calling device identification system |
JP7347244B2 (en) * | 2020-01-29 | 2023-09-20 | トヨタ自動車株式会社 | Agent devices, agent systems and programs |
US11699447B2 (en) * | 2020-06-22 | 2023-07-11 | Rovi Guides, Inc. | Systems and methods for determining traits based on voice analysis |
TWI807203B (en) * | 2020-07-28 | 2023-07-01 | 華碩電腦股份有限公司 | Voice recognition method and electronic device using the same |
WO2022072655A1 (en) | 2020-10-01 | 2022-04-07 | Pindrop Security, Inc. | Enrollment and authentication over a phone call in call centers |
KR20220133414A (en) * | 2021-03-25 | 2022-10-05 | 삼성전자주식회사 | Method for providing voice assistant service and electronic device supporting the same |
CN113656609A (en) * | 2021-08-13 | 2021-11-16 | 阿波罗智联(北京)科技有限公司 | Method and device for recommending multimedia information, electronic equipment and storage medium |
CN115862658A (en) * | 2021-09-24 | 2023-03-28 | 祖玛视频通讯公司 | System and method for extracting target speaker voice |
US20230129467A1 (en) * | 2021-10-22 | 2023-04-27 | Citrix Systems, Inc. | Systems and methods to analyze audio data to identify different speakers |
US20230131359A1 (en) * | 2021-10-27 | 2023-04-27 | Nuance Communications | System and Method for Generating Synthetic Cohorts Using Generative Modeling |
US20230214839A1 (en) * | 2022-01-04 | 2023-07-06 | Bank Of America Corporation | System for enhanced authentication using voice modulation matching |
US20230239290A1 (en) * | 2022-01-21 | 2023-07-27 | Capital One Services, Llc | Systems and methods for coherent and tiered voice enrollment |
EP4328904A1 (en) * | 2022-08-24 | 2024-02-28 | Harman International Industries, Incorporated | Techniques for authorizing and prioritizing commands directed towards a virtual private assistant device from multiple sources |
US20240105206A1 (en) * | 2022-09-23 | 2024-03-28 | Qualcomm Incorporated | Seamless customization of machine learning models |
US20240112681A1 (en) * | 2022-09-30 | 2024-04-04 | Nuance Communications, Inc. | Voice biometrics for anonymous identification and personalization |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4403426B2 (en) * | 2007-01-09 | 2010-01-27 | サイレックス・テクノロジー株式会社 | Biometric authentication device and biometric authentication program |
US9172808B2 (en) * | 2013-02-22 | 2015-10-27 | Verint Americas Inc. | Systems and methods for identifying a caller |
US20160292149A1 (en) * | 2014-08-02 | 2016-10-06 | Google Inc. | Word sense disambiguation using hypernyms |
US10325601B2 (en) * | 2016-09-19 | 2019-06-18 | Pindrop Security, Inc. | Speaker recognition in the call center |
US10032451B1 (en) * | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
US20180293221A1 (en) * | 2017-02-14 | 2018-10-11 | Microsoft Technology Licensing, Llc | Speech parsing with intelligent assistant |
CN109147770B (en) * | 2017-06-16 | 2023-07-28 | 阿里巴巴集团控股有限公司 | Voice recognition feature optimization and dynamic registration method, client and server |
US11562243B2 (en) * | 2017-11-17 | 2023-01-24 | Meta Platforms, Inc. | Machine-learning models based on non-local neural networks |
EP3496090A1 (en) * | 2017-12-07 | 2019-06-12 | Thomson Licensing | Device and method for privacy-preserving vocal interaction |
US20190236102A1 (en) * | 2018-01-29 | 2019-08-01 | Planet Data Solutions | System and method for differential document analysis and storage |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
US10964330B2 (en) * | 2019-05-13 | 2021-03-30 | Cisco Technology, Inc. | Matching speakers to meeting audio |
DK201970511A1 (en) * | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
FR3098000B1 (en) * | 2019-06-27 | 2022-05-13 | Ea4T | Method and device for obtaining an answer from an oral question posed to a man-machine interface. |
-
2021
- 2021-04-15 JP JP2022561448A patent/JP2023521768A/en active Pending
- 2021-04-15 US US17/231,672 patent/US20210326421A1/en active Pending
- 2021-04-15 KR KR1020227039892A patent/KR20230011307A/en active Search and Examination
- 2021-04-15 CA CA3184478A patent/CA3184478A1/en active Pending
- 2021-04-15 AU AU2021254787A patent/AU2021254787A1/en active Pending
- 2021-04-15 EP EP21789203.3A patent/EP4136637A4/en active Pending
- 2021-04-15 WO PCT/US2021/027474 patent/WO2021211836A1/en unknown
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10650826B2 (en) | Diarization using acoustic labeling | |
EP3206205B1 (en) | Voiceprint information management method and device as well as identity authentication method and system | |
CN107818798B (en) | Customer service quality evaluation method, device, equipment and storage medium | |
JPWO2021211836A5 (en) | ||
US10412214B2 (en) | Systems and methods for cluster-based voice verification | |
US10068588B2 (en) | Real-time emotion recognition from audio signals | |
JP6394709B2 (en) | SPEAKER IDENTIFYING DEVICE AND FEATURE REGISTRATION METHOD FOR REGISTERED SPEECH | |
US10204619B2 (en) | Speech recognition using associative mapping | |
WO2020228173A1 (en) | Illegal speech detection method, apparatus and device and computer-readable storage medium | |
CN108538293B (en) | Voice awakening method and device and intelligent device | |
JP2019053126A (en) | Growth type interactive device | |
CN107808423A (en) | A kind of staff attendance based on service robot is registered system and implementation method | |
US11501546B2 (en) | Media management system for video data processing and adaptation data generation | |
CN116312552B (en) | Video speaker journaling method and system | |
CN111402892A (en) | Conference recording template generation method based on voice recognition | |
WO2018072327A1 (en) | Method and device for preventing misrecognition of voice command | |
CN108735200A (en) | A kind of speaker's automatic marking method | |
TW201643863A (en) | Voice recognition device and method | |
CN111091809A (en) | Regional accent recognition method and device based on depth feature fusion | |
CN110853674A (en) | Text collation method, apparatus, and computer-readable storage medium | |
CN111081261B (en) | Text-independent voiceprint recognition method based on LDA | |
KR102291113B1 (en) | Apparatus and method for producing conference record | |
CN108831230B (en) | Learning interaction method capable of automatically tracking learning content and intelligent desk lamp | |
WO2016197755A1 (en) | Audio data processing method and terminal | |
CN115954007B (en) | Voiceprint detection method and device, electronic equipment and storage medium |