JPWO2018212055A1 - ドキュメント識別装置、ドキュメント識別方法、プログラム - Google Patents

ドキュメント識別装置、ドキュメント識別方法、プログラム Download PDF

Info

Publication number
JPWO2018212055A1
JPWO2018212055A1 JP2019519202A JP2019519202A JPWO2018212055A1 JP WO2018212055 A1 JPWO2018212055 A1 JP WO2018212055A1 JP 2019519202 A JP2019519202 A JP 2019519202A JP 2019519202 A JP2019519202 A JP 2019519202A JP WO2018212055 A1 JPWO2018212055 A1 JP WO2018212055A1
Authority
JP
Japan
Prior art keywords
stream
primary
document identification
expression
stream expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019519202A
Other languages
English (en)
Other versions
JP6947211B2 (ja
Inventor
亮 増村
亮 増村
浩和 政瀧
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2018212055A1 publication Critical patent/JPWO2018212055A1/ja
Application granted granted Critical
Publication of JP6947211B2 publication Critical patent/JP6947211B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • H04M2201/405Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition involving speaker-dependent recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42221Conversation recording systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

マルチストリームドキュメントのクラス識別精度が向上するドキュメント識別装置を提供する。複数の話者を含む場面で録音された話者ごとの音声に対応する単語系列の固定長ベクトルである1次ストリーム表現を、話者ごとに生成する1次ストリーム表現生成部と、1次ストリーム表現を統合してなる1次マルチストリーム表現を生成する1次マルチストリーム表現生成部と、話者ごとの単語系列と1次マルチストリーム表現に基づいて生成される固定長ベクトルである2次ストリーム表現を、話者ごとに生成する2次ストリーム表現生成部と、2次ストリーム表現を統合してなる2次マルチストリーム表現を生成する2次マルチストリーム表現生成部を含む。

Description

本発明は話者ごとに収録された音声を書き起こしたドキュメントなどを所定のクラスに識別するためのドキュメント識別装置、ドキュメント識別方法、プログラムに関する。
コールセンタやミーティングなどにおける音声の自動認識結果や、当該音声を人手で書き起こしたドキュメントを所定のクラスに識別(分類)する技術(クラス分類)に対するニーズがある。例えばコールセンタでは、電話の目的を自動で識別することが求められる。当該技術によれば、例えば解約、新規契約、パスワードやIDの問い合わせ、など電話の目的を分類するクラスのうちから一つのクラスを自動で識別し、これをデータマイニングに活用することが可能である。
例えばコールセンタやミーティングでは、話者ごとに別々に音声を収録する環境が一般的である。従って、通話やミーティングに参加した人毎に音声をテキスト化することが可能であり、どの話者がどの言葉を話したかは明確である。ここでは、各話者の音声認識結果や人手で書き起こしたドキュメントを統合したドキュメントをマルチストリームドキュメントと呼ぶ。例えばコールセンタでは、カスタマの音声認識結果とオペレータの音声認識結果を統合してマルチストリームドキュメントを生成する。
クラス分類器を構築する場合は、ラベルが付いたデータを準備しておき、機械学習により自動構築する方法が主流である。マルチストリームドキュメントを扱う場合は、1つのマルチストリームドキュメントに1つのラベルが付いたデータを大量に準備しておくことで、クラス分類器を学習できる。
マルチストリームドキュメントを用いてドキュメントをクラス識別する技術として例えば非特許文献1がある。非特許文献1では、対象のマルチストリームドキュメントに対して、ストリーム(通話やミーティングに参加した各人が発した音声に対応するテキスト)ごとにRNN(リカレントニューラルネットワーク、Recurrent Neural Network)構造を準備して、ストリームごとに固定長(固定次元)ベクトル化したあとに、その情報を統合して識別を行うという方法がとられている。なお好適には、RNN構造として、long short-term memory、gated recurrent unit、bidirectional RNNを含む。RNNは深層学習に基づく技術の1つであり公知の技術であるため、ここでは省略する。RNN構造を使うポイントとしては、任意数の単語を含むドキュメントを固定長ベクトルに変換する仕組みを備えている点であり、それにより識別関数で直接入力データを扱うことができる。K種類(Kは参加人数に対応)のストリームを用いる場合に、k種類目のストリームの単語系列をwk1,wk2,…,wkTkと表す場合、非特許文献1では以下のような処理を実行する。
Figure 2018212055
ここで、skはk種類目のストリームに対応した固定長ベクトルである。また、Oは各クラスに対応した事後確率を表す出力である。RNN()はRNNの機能を持つ関数、DISCRIMINATEは固定長化されたベクトルから識別を行う関数であり、例えばsoftmax関数を用いることができる。softmax関数については公知の技術であるためここでは省略する。識別時は、Oにおける最大の確率を持つクラスに識別を行う。個々の処理の詳細については非特許文献1に開示されている。
M. Bouaziz, M. Morchid, R. Dufour, G. Linars, and R. D. Mori, "Parallel long short-term memory for multi-stream classification," In Proc. IEEE Spoken Language Technology Workshop (SLT), pp. 218-223, 2016. Z. Yang, D. Yang, C. Dyer, X. He, A. J. Smola, and E. H. Hovy,"Hierarchical attention networks for document classification," In Proc. Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), pp. 1480-1489, 2016.
非特許文献1では、各ストリームを固定長ベクトル化する際に、他のストリームの情報を全く利用していない。各ストリームの固定長ベクトルは、各ストリームの情報を埋め込んだものであり、識別に有用と考えられる情報を残すように埋め込まれている。したがって、この各ストリームに対応した固定長ベクトルに識別に有用な情報が埋め込まれていなければ、高い識別性能は期待できない。
識別に有用な情報は、ストリーム間で共通の情報であることが多い。つまり、あるストリームにおいて重要な情報は、他のストリームでも重要な情報であると考えられる。例えば、コールセンタであれば、オペレータの話した言葉とカスタマが話した言葉で、共通の話題が重要な情報であると言える。このような知見を前述の非特許文献1では利用することができていない。
そこで、上述の課題を解決するために上述の知見をRNN構造で実現することとした。すなわち、あるストリームを固定長ベクトルにする際に、他のストリームに含まれる情報も用いる仕組みを導入する。具体的には、一度全ストリームの情報を固定長ベクトルとして統合したあとに、再び各ストリームを読み込む際に付加的情報として利用する。これにより、各ストリームについて、重要な部分を重視した固定長ベクトルを構成することができる。
上述の処理を実現するために本発明のドキュメント識別装置は、1次ストリーム表現生成部と、1次マルチストリーム表現生成部と、2次ストリーム表現生成部と、2次マルチストリーム表現生成部を含む。1次ストリーム表現生成部は、複数の話者を含む場面で録音された話者ごとの音声に対応する単語系列の固定長ベクトルである1次ストリーム表現を、話者ごとに生成する。1次マルチストリーム表現生成部は、1次ストリーム表現を統合してなる1次マルチストリーム表現を生成する。2次ストリーム表現生成部は、話者ごとの単語系列と1次マルチストリーム表現に基づいて生成される固定長ベクトルである2次ストリーム表現を、話者ごとに生成する。2次マルチストリーム表現生成部は、2次ストリーム表現を統合してなる2次マルチストリーム表現を生成する。
本発明のドキュメント識別装置によれば、マルチストリームドキュメントのクラス識別精度が向上する。
実施例1のドキュメント識別装置の構成を示すブロック図。 実施例1のドキュメント識別装置の動作を示すフローチャート。 RNN関数による演算を説明する模式図であって、図3(a)は、各単語をRNN構造に順番に入れ、その中間層を出力して固定長ベクトルskとする演算を説明する模式図、図3(b)は、Tk個の単語からなる単語系列wk1,wk2,…,wkTkと1次マルチストリーム表現として表される固定長ベクトルVを同時にRNNに入力する作業を各単語について行い、その中間層の出力をk種類目のストリームについて、再生成されたストリーム表現を表す固定長ベクトルs- kとして取得する演算を説明する模式図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図1を参照して実施例1のドキュメント識別装置の構成を説明する。図1に示すように本実施例のドキュメント識別装置1は、1次ストリーム表現生成部11と、1次マルチストリーム表現生成部12と、2次ストリーム表現生成部13と、2次マルチストリーム表現生成部14と、クラス識別部15を含む。
以下、図2を参照して各構成要件の動作を説明する。
<1次ストリーム表現生成部11>
入力:各話者の音声に対応する単語系列。各ストリームの単語系列ともいう。k種類目のストリーム(k人目の話者、k=1,2,…,K)のTk個(Tkは任意の正の整数)の単語からなる単語系列をwk1,wk2,…,wkTkと表現する。
出力:1次ストリーム表現
1次ストリーム表現生成部11は、複数の話者を含む場面で録音された話者ごとの音声のうち、各話者の音声に対応する単語系列(各ストリームの単語系列)から固定長ベクトルを生成する(S11)。ステップS11で生成される固定長ベクトルを1次ストリーム表現と呼ぶこととする。ステップS11は各ストリームに対して実行される。例えばコールセンタであれば、オペレータとカスタマの2ストリームであるため、1次ストリーム表現生成部11は、2ストリームそれぞれに対して1次ストリーム表現を生成する。
k種類目のストリームに対応するTk個の単語からなる単語系列wk1,wk2,…,wkTkについて、1次ストリーム表現生成部11は、例えば以下のような処理を実行する。
Figure 2018212055
ここで、skはk種類目のストリームの1次ストリーム表現として表される固定長ベクトルである。RNN()はRNNの機能を持つ関数であり、long short-term memory やGRUなどを含む。例えば、典型的なRNNでは図3(a)に示すように、各単語をRNN構造に順番に入れ、その中間層を出力してskとする。この演算では、任意の長さの系列を固定長ベクトルとして扱うことが可能な関数であれば、任意のものを利用して良く、例えば非特許文献2で用いられるような、Hierarchical Attention Networkなどを用いてもよい。
<1次マルチストリーム表現生成部12>
入力:各ストリームの1次ストリーム表現
出力:1次マルチストリーム表現
1次マルチストリーム表現生成部12は、各ストリームの1次ストリーム表現を統合して、1次マルチストリーム表現を生成する(S12)。例えば、1次マルチストリーム表現生成部12は、2つの1次ストリーム表現から1つの1次マルチストリーム表現を生成する。
ストリームが全部でK種類あるものとし、各ストリームの1次ストリーム表現をs1,s2,…,sKと表す場合、1次マルチストリーム表現生成部12は、例えば以下のような処理を実行する。
Figure 2018212055
ここで、Vは、1次マルチストリーム表現として表される固定長ベクトルである。なおステップS12においてs1,s2,…,sKから固定長ベクトルを生成する演算であれば、任意のものを利用して良い。例えば1次マルチストリーム表現生成部12は、s1,s2,…,sKの結合ベクトルを1次マルチストリーム表現としてもよい。
なお上に述べた数式では、1次ストリーム表現s1,s2,…,sKを全て統合して1次マルチストリーム表現Vを生成したが、これに限定されず1次ストリーム表現s1,s2,…,sKの一部のみ(例えばsi,…,sjのみ、1≦i<j≦K)を統合して1次マルチストリーム表現Vを生成してもよい。
<2次ストリーム表現生成部13>
入力:各ストリームの単語系列、1次マルチストリーム表現
出力:2次ストリーム表現
2次ストリーム表現生成部13は、1次マルチストリーム表現を付加的情報として用い、話者ごとの単語系列を読み込み直して、ストリーム表現を再生成する構成要件である。すなわち、2次ストリーム表現生成部13は、各ストリームの単語系列と、生成した1次マルチストリーム表現に基づいて、各ストリームについて固定長ベクトルを再び生成する(S13)。ステップS13で再生成される固定長ベクトルを2次ストリーム表現と呼ぶこととする。例えばコールセンタであれば、オペレータとカスタマの2ストリームであるため、2次ストリーム表現生成部13は、2ストリームそれぞれに対して2次ストリーム表現を生成する。
2次ストリーム表現生成部13は、k種類目のストリームの単語系列(wk1,wk2,…,wkTk)と1次マルチストリーム表現として表される固定長ベクトルVから2次ストリーム表現と呼ばれる固定長ベクトルを再び生成する。2次ストリーム表現生成部13は、例えば以下のような処理を実行する。
Figure 2018212055
s- kはk種類目のストリームについて、再生成されたストリーム表現(2次ストリーム表現)を表す固定長ベクトルである。RNN()はRNN(リカレントニューラルネットワーク)の機能を有する関数であり、上述した場合と同様に、同様の機能を持つ関数であれば任意のものを用いてよい。例えば2次ストリーム表現生成部13は、図3(b)に示すように、wk1,wk2,…,wkTkとVを同時にRNNに入力する作業を各単語について行い、その中間層の出力をs- kとして取得する。
<2次マルチストリーム表現生成部14>
入力:各ストリームの2次ストリーム表現
出力:2次マルチストリーム表現
2次マルチストリーム表現生成部14は、再生成されたストリーム表現を統合して、再度マルチストリーム表現を生成する構成要件である。すなわち、2次マルチストリーム表現生成部14は、2次ストリーム表現を統合して2次マルチストリーム表現を生成する(S14)。例えば2次マルチストリーム表現生成部14は、2つの2次ストリーム表現から、1つの2次マルチストリーム表現を生成する。
K種類のストリームの各ストリームの2次ストリーム表現をs- 1,s- 2,...,s- Kと表す場合、2次マルチストリーム表現生成部14は、例えば以下のような処理を実行する。
Figure 2018212055
ここで、V-は、2次マルチストリーム表現として表される固定長ベクトルである。なお、1次マルチストリーム表現生成部12と同じ演算を行うという前提があれば、2次マルチストリーム表現生成部14は他の同様の機能を有する関数の演算を実行してもよい。
<クラス識別部15>
入力:2次マルチストリーム表現
出力:各クラスに対する事後確率
クラス識別部15は、2次マルチストリーム表現に基づいて、所定のクラスに対する事後確率を算出する(S15)。ステップS15は、各クラスに対して実行される。
例えばクラス識別部15は、2次マルチストリーム表現として表される固定長ベクトルV-から、以下の式により各クラスに対する事後確率を算出する。
Figure 2018212055
<変形例>
上述の実施例において、ステップS13、S14はそれぞれ一度のみ実行された。しかし上述の実施例に限らず、ステップS13、S14は再帰的に実行されてもよい。つまりステップS14において2次マルチストリーム表現生成部14が生成した2次マルチストリーム表現を、2次ストリーム表現生成部13で再帰的に用いてもよい。すなわち、二回目以降に実行されるステップS13において、2次ストリーム表現生成部13はステップS14で生成された2次マルチストリーム表現と単語系列を用いて、各ストリームについて固定長ベクトルを再び生成してもよい。ステップS13、S14を繰り返し実行することにより、重要な情報をより際立たせることができる。たとえば、ステップS13、S14を3回繰り返した場合のV-をクラス識別部15の入力とすることができる。
<効果>
本実施例のドキュメント識別装置1によれば、各ストリームを固定長ベクトル化する際に、マルチストリームドキュメント全体を通して重要な部分を重視した埋め込みを行うことができる。これにより、高精度なマルチストリームドキュメントの識別モデルを構築することが可能である。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 複数の話者を含む場面で録音された話者ごとの音声に対応する単語系列の固定長ベクトルである1次ストリーム表現を、話者ごとに生成する1次ストリーム表現生成部と、
    前記1次ストリーム表現を統合してなる1次マルチストリーム表現を生成する1次マルチストリーム表現生成部と、
    話者ごとの前記単語系列と前記1次マルチストリーム表現に基づいて生成される固定長ベクトルである2次ストリーム表現を、話者ごとに生成する2次ストリーム表現生成部と、
    前記2次ストリーム表現を統合してなる2次マルチストリーム表現を生成する2次マルチストリーム表現生成部
    を含むドキュメント識別装置。
  2. 請求項1に記載のドキュメント識別装置であって、
    前記2次マルチストリーム表現に基づいて、所定のクラスに対する事後確率を算出するクラス識別部
    を含むドキュメント識別装置。
  3. 請求項1または2に記載のドキュメント識別装置であって、
    前記2次ストリーム表現は、前記単語系列と前記1次マルチストリーム表現に基づいて、リカレントニューラルネットワーク機能を有する関数を演算することにより生成した固定長ベクトルである
    ドキュメント識別装置。
  4. ドキュメント識別装置が実行するドキュメント識別方法であって、
    複数の話者を含む場面で録音された話者ごとの音声に対応する単語系列の固定長ベクトルである1次ストリーム表現を、話者ごとに生成するステップと、
    前記1次ストリーム表現を統合してなる1次マルチストリーム表現を生成するステップと、
    話者ごとの前記単語系列と前記1次マルチストリーム表現に基づいて生成される固定長ベクトルである2次ストリーム表現を、話者ごとに生成するステップと、
    前記2次ストリーム表現を統合してなる2次マルチストリーム表現を生成するステップを含むドキュメント識別方法。
  5. 請求項4に記載のドキュメント識別方法であって、
    前記2次マルチストリーム表現に基づいて、所定のクラスに対する事後確率を算出するステップ
    を含むドキュメント識別方法。
  6. 請求項4または5に記載のドキュメント識別方法であって、
    前記2次ストリーム表現は、前記単語系列と前記1次マルチストリーム表現に基づいて、リカレントニューラルネットワーク機能を有する関数を演算することにより生成した固定長ベクトルである
    ドキュメント識別方法。
  7. コンピュータを請求項1から3の何れかに記載のドキュメント識別装置として機能させるプログラム。
JP2019519202A 2017-05-17 2018-05-10 マルチストリーム表現生成装置、マルチストリーム表現生成方法、プログラム Active JP6947211B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017098365 2017-05-17
JP2017098365 2017-05-17
PCT/JP2018/018051 WO2018212055A1 (ja) 2017-05-17 2018-05-10 ドキュメント識別装置、ドキュメント識別方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2018212055A1 true JPWO2018212055A1 (ja) 2020-03-12
JP6947211B2 JP6947211B2 (ja) 2021-10-13

Family

ID=64273707

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019519202A Active JP6947211B2 (ja) 2017-05-17 2018-05-10 マルチストリーム表現生成装置、マルチストリーム表現生成方法、プログラム

Country Status (3)

Country Link
US (1) US11462212B2 (ja)
JP (1) JP6947211B2 (ja)
WO (1) WO2018212055A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置
JP2012248065A (ja) * 2011-05-30 2012-12-13 Nippon Telegr & Teleph Corp <Ntt> 怒り感情推定装置、怒り感情推定方法およびそのプログラム
WO2016004266A2 (en) * 2014-07-03 2016-01-07 Microsoft Technology Licensing, Llc Generating computer responses to social conversational inputs

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置
JP2012248065A (ja) * 2011-05-30 2012-12-13 Nippon Telegr & Teleph Corp <Ntt> 怒り感情推定装置、怒り感情推定方法およびそのプログラム
WO2016004266A2 (en) * 2014-07-03 2016-01-07 Microsoft Technology Licensing, Llc Generating computer responses to social conversational inputs

Also Published As

Publication number Publication date
US20210082415A1 (en) 2021-03-18
JP6947211B2 (ja) 2021-10-13
WO2018212055A1 (ja) 2018-11-22
US11462212B2 (en) 2022-10-04

Similar Documents

Publication Publication Date Title
JP7255811B2 (ja) オーディオ・ストリームに含まれるセンシティブ・データの自動ブロッキング
Xue et al. Online end-to-end neural diarization with speaker-tracing buffer
JP2017032839A (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
US9972308B1 (en) Splitting utterances for quick responses
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
CN111177350A (zh) 智能语音机器人的话术形成方法、装置和系统
Soboleva et al. Replacing human audio with synthetic audio for on-device unspoken punctuation prediction
Javed et al. Indicsuperb: A speech processing universal performance benchmark for indian languages
US11797769B1 (en) Artificial intelligence system using hybrid technique for task-oriented dialog management
JP2019139000A (ja) 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム
CN117476035A (zh) 话音活动检测集成以改进自动讲话检测
WO2023139015A1 (en) Data sorting for generating speech recognition models
Ferrer et al. A discriminative hierarchical PLDA-based model for spoken language recognition
JP6947211B2 (ja) マルチストリーム表現生成装置、マルチストリーム表現生成方法、プログラム
JP6988756B2 (ja) タグ推定装置、タグ推定方法、プログラム
WO2020162238A1 (ja) 音声認識装置、音声認識方法、プログラム
WO2020162239A1 (ja) パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム
US11710098B2 (en) Process flow diagram prediction utilizing a process flow diagram embedding
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
JP6699945B2 (ja) 音響モデル学習装置、その方法、及びプログラム
Dong et al. Utterance clustering using stereo audio channels
JP2020129061A (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
WO2023281659A1 (ja) 学習装置、推定装置、学習方法、プログラム
Avdeeva et al. Deep Speaker Embeddings Based Online Diarization
WO2021014649A1 (ja) 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201215

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210817

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210830

R150 Certificate of patent or registration of utility model

Ref document number: 6947211

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150