JPWO2018212055A1 - ドキュメント識別装置、ドキュメント識別方法、プログラム - Google Patents
ドキュメント識別装置、ドキュメント識別方法、プログラム Download PDFInfo
- Publication number
- JPWO2018212055A1 JPWO2018212055A1 JP2019519202A JP2019519202A JPWO2018212055A1 JP WO2018212055 A1 JPWO2018212055 A1 JP WO2018212055A1 JP 2019519202 A JP2019519202 A JP 2019519202A JP 2019519202 A JP2019519202 A JP 2019519202A JP WO2018212055 A1 JPWO2018212055 A1 JP WO2018212055A1
- Authority
- JP
- Japan
- Prior art keywords
- stream
- primary
- document identification
- expression
- stream expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 16
- 230000014509 gene expression Effects 0.000 claims abstract description 97
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 23
- 230000015654 memory Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
- H04M2201/405—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition involving speaker-dependent recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42221—Conversation recording systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
入力:各話者の音声に対応する単語系列。各ストリームの単語系列ともいう。k種類目のストリーム(k人目の話者、k=1,2,…,K)のTk個(Tkは任意の正の整数)の単語からなる単語系列をwk1,wk2,…,wkTkと表現する。
出力:1次ストリーム表現
入力:各ストリームの1次ストリーム表現
出力:1次マルチストリーム表現
入力:各ストリームの単語系列、1次マルチストリーム表現
出力:2次ストリーム表現
入力:各ストリームの2次ストリーム表現
出力:2次マルチストリーム表現
入力:2次マルチストリーム表現
出力:各クラスに対する事後確率
上述の実施例において、ステップS13、S14はそれぞれ一度のみ実行された。しかし上述の実施例に限らず、ステップS13、S14は再帰的に実行されてもよい。つまりステップS14において2次マルチストリーム表現生成部14が生成した2次マルチストリーム表現を、2次ストリーム表現生成部13で再帰的に用いてもよい。すなわち、二回目以降に実行されるステップS13において、2次ストリーム表現生成部13はステップS14で生成された2次マルチストリーム表現と単語系列を用いて、各ストリームについて固定長ベクトルを再び生成してもよい。ステップS13、S14を繰り返し実行することにより、重要な情報をより際立たせることができる。たとえば、ステップS13、S14を3回繰り返した場合のV-をクラス識別部15の入力とすることができる。
本実施例のドキュメント識別装置1によれば、各ストリームを固定長ベクトル化する際に、マルチストリームドキュメント全体を通して重要な部分を重視した埋め込みを行うことができる。これにより、高精度なマルチストリームドキュメントの識別モデルを構築することが可能である。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (7)
- 複数の話者を含む場面で録音された話者ごとの音声に対応する単語系列の固定長ベクトルである1次ストリーム表現を、話者ごとに生成する1次ストリーム表現生成部と、
前記1次ストリーム表現を統合してなる1次マルチストリーム表現を生成する1次マルチストリーム表現生成部と、
話者ごとの前記単語系列と前記1次マルチストリーム表現に基づいて生成される固定長ベクトルである2次ストリーム表現を、話者ごとに生成する2次ストリーム表現生成部と、
前記2次ストリーム表現を統合してなる2次マルチストリーム表現を生成する2次マルチストリーム表現生成部
を含むドキュメント識別装置。 - 請求項1に記載のドキュメント識別装置であって、
前記2次マルチストリーム表現に基づいて、所定のクラスに対する事後確率を算出するクラス識別部
を含むドキュメント識別装置。 - 請求項1または2に記載のドキュメント識別装置であって、
前記2次ストリーム表現は、前記単語系列と前記1次マルチストリーム表現に基づいて、リカレントニューラルネットワーク機能を有する関数を演算することにより生成した固定長ベクトルである
ドキュメント識別装置。 - ドキュメント識別装置が実行するドキュメント識別方法であって、
複数の話者を含む場面で録音された話者ごとの音声に対応する単語系列の固定長ベクトルである1次ストリーム表現を、話者ごとに生成するステップと、
前記1次ストリーム表現を統合してなる1次マルチストリーム表現を生成するステップと、
話者ごとの前記単語系列と前記1次マルチストリーム表現に基づいて生成される固定長ベクトルである2次ストリーム表現を、話者ごとに生成するステップと、
前記2次ストリーム表現を統合してなる2次マルチストリーム表現を生成するステップを含むドキュメント識別方法。 - 請求項4に記載のドキュメント識別方法であって、
前記2次マルチストリーム表現に基づいて、所定のクラスに対する事後確率を算出するステップ
を含むドキュメント識別方法。 - 請求項4または5に記載のドキュメント識別方法であって、
前記2次ストリーム表現は、前記単語系列と前記1次マルチストリーム表現に基づいて、リカレントニューラルネットワーク機能を有する関数を演算することにより生成した固定長ベクトルである
ドキュメント識別方法。 - コンピュータを請求項1から3の何れかに記載のドキュメント識別装置として機能させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017098365 | 2017-05-17 | ||
JP2017098365 | 2017-05-17 | ||
PCT/JP2018/018051 WO2018212055A1 (ja) | 2017-05-17 | 2018-05-10 | ドキュメント識別装置、ドキュメント識別方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018212055A1 true JPWO2018212055A1 (ja) | 2020-03-12 |
JP6947211B2 JP6947211B2 (ja) | 2021-10-13 |
Family
ID=64273707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019519202A Active JP6947211B2 (ja) | 2017-05-17 | 2018-05-10 | マルチストリーム表現生成装置、マルチストリーム表現生成方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11462212B2 (ja) |
JP (1) | JP6947211B2 (ja) |
WO (1) | WO2018212055A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07114572A (ja) * | 1993-10-18 | 1995-05-02 | Sharp Corp | 文書分類装置 |
JP2012248065A (ja) * | 2011-05-30 | 2012-12-13 | Nippon Telegr & Teleph Corp <Ntt> | 怒り感情推定装置、怒り感情推定方法およびそのプログラム |
WO2016004266A2 (en) * | 2014-07-03 | 2016-01-07 | Microsoft Technology Licensing, Llc | Generating computer responses to social conversational inputs |
-
2018
- 2018-05-10 US US16/613,304 patent/US11462212B2/en active Active
- 2018-05-10 WO PCT/JP2018/018051 patent/WO2018212055A1/ja active Application Filing
- 2018-05-10 JP JP2019519202A patent/JP6947211B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07114572A (ja) * | 1993-10-18 | 1995-05-02 | Sharp Corp | 文書分類装置 |
JP2012248065A (ja) * | 2011-05-30 | 2012-12-13 | Nippon Telegr & Teleph Corp <Ntt> | 怒り感情推定装置、怒り感情推定方法およびそのプログラム |
WO2016004266A2 (en) * | 2014-07-03 | 2016-01-07 | Microsoft Technology Licensing, Llc | Generating computer responses to social conversational inputs |
Also Published As
Publication number | Publication date |
---|---|
US20210082415A1 (en) | 2021-03-18 |
JP6947211B2 (ja) | 2021-10-13 |
WO2018212055A1 (ja) | 2018-11-22 |
US11462212B2 (en) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7255811B2 (ja) | オーディオ・ストリームに含まれるセンシティブ・データの自動ブロッキング | |
Xue et al. | Online end-to-end neural diarization with speaker-tracing buffer | |
JP2017032839A (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
US9972308B1 (en) | Splitting utterances for quick responses | |
JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
CN111177350A (zh) | 智能语音机器人的话术形成方法、装置和系统 | |
Soboleva et al. | Replacing human audio with synthetic audio for on-device unspoken punctuation prediction | |
Javed et al. | Indicsuperb: A speech processing universal performance benchmark for indian languages | |
US11797769B1 (en) | Artificial intelligence system using hybrid technique for task-oriented dialog management | |
JP2019139000A (ja) | 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム | |
CN117476035A (zh) | 话音活动检测集成以改进自动讲话检测 | |
WO2023139015A1 (en) | Data sorting for generating speech recognition models | |
Ferrer et al. | A discriminative hierarchical PLDA-based model for spoken language recognition | |
JP6947211B2 (ja) | マルチストリーム表現生成装置、マルチストリーム表現生成方法、プログラム | |
JP6988756B2 (ja) | タグ推定装置、タグ推定方法、プログラム | |
WO2020162238A1 (ja) | 音声認識装置、音声認識方法、プログラム | |
WO2020162239A1 (ja) | パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム | |
US11710098B2 (en) | Process flow diagram prediction utilizing a process flow diagram embedding | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
JP6699945B2 (ja) | 音響モデル学習装置、その方法、及びプログラム | |
Dong et al. | Utterance clustering using stereo audio channels | |
JP2020129061A (ja) | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 | |
WO2023281659A1 (ja) | 学習装置、推定装置、学習方法、プログラム | |
Avdeeva et al. | Deep Speaker Embeddings Based Online Diarization | |
WO2021014649A1 (ja) | 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201215 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210817 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210830 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6947211 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |