WO2020153159A1

WO2020153159A1 - 系列ラベリング装置、系列ラベリング方法、およびプログラム

Info

Publication number: WO2020153159A1
Application number: PCT/JP2020/000696
Authority: WO
Inventors: 智大田中; 亮増村; 隆伸大庭
Original assignee: 日本電信電話株式会社
Priority date: 2019-01-24
Filing date: 2020-01-10
Publication date: 2020-07-30
Also published as: JP2020119271A; US20220093079A1; JP7211103B2

Abstract

音声を単語や文字の単位に分割することなく、その音声に対応するテキストに対してラベル付けする。音声分散表現系列変換部１１は、音響特徴量系列を音声分散表現に変換する。シンボル分散表現変換部１２は、音響特徴量系列に対応するシンボル系列に含まれる各シンボルをシンボル分散表現に変換する。ラベル推定部１３は、音声分散表現とシンボル分散表現と前後のシンボルの固定長ベクトルとを用いて生成した当該シンボルの固定長ベクトルから当該シンボルに対応するラベルを推定する。

Description

系列ラベリング装置、系列ラベリング方法、およびプログラム

　この発明は、テキストに対する系列ラベリング技術に関する。

　テキストに対して系列ラベリングを行う技術として、双方向再帰型ニューラルネットワーク（RNN: Recurrent Neural Network）が広く利用されている（例えば、非特許文献１参照）。双方向RNNはテキスト全体の文脈を考慮することができるニューラルネットワークである。双方向RNNを用いた系列ラベリングでは、入力されたシンボル（文字や単語）をそれぞれ固定長連続値ベクトルに変換し、前後の文脈を考慮しながらそれぞれのシンボルに対してラベル付けを行う。ここではK種類のラベル{l₁, l₂, …, l_k, …, l_K}を付与する場合について説明する。入力されるシンボル系列を{c₁, c₂, …, c_s, …, c_S}と表す場合、系列内のシンボルc_sに対するラベルの確率は以下のように推定される。

ここで、E_sはシンボルc_sの分散表現である。NN（・）はニューラルネットワーク（NN: Neural Network）の機能を持つ関数である。h^→ _sおよびh^← _sはシンボルの分散表現をNNにより変換した固定長連続値ベクトルである。h_sは２つのベクトルh^→ _sおよびh^← _sを統合した固定長連続値ベクトルである。以下、h^→ _sは前向き固定長ベクトル、h^← _sは後向き固定長ベクトルとも呼ぶ。O_sはすべてのラベルに対応した確率を表す出力である。

　EMBEDDING(・)はシンボルを固定長ベクトルに変換する機能を持つ関数であり、例えば線形変換の関数を利用することができる。CONCAT(・)は複数のベクトルを統合する関数であり、１つのベクトルに変換できる微分可能な関数を利用することができる。DISTRIBUTE(・)は固定長化されたベクトルからすべてのラベルの生起確率を計算する関数であり、例えばsoftmax関数を用いることができる。softmax関数は公知の技術であるため、ここでは説明を省略する。上記で計算されたO_sではすべてのラベルに対する確率が計算され、ラベルl_kに対応する値を、ラベルl_kがシンボルc_sに対するラベルとして付与される確率とする。

　音響情報と言語情報を組み合わせて利用する方法として、音響信号を単語や文字等の単位に分割して利用するものがある（例えば、非特許文献２参照）。このような方法では、あらかじめ音響信号とテキストの対応付けを獲得し、ラベリング等の後段の処理を行う。単純な方法としては、事前に構築した音声認識システムを用いて一度音声認識をすることで、音響信号の分割を行うことができる。

Jason P. C. Chiu and Eric Nichols, "Named entity recognition with bidirectional LSTM-CNNs," Transactions of the Association for Computational Linguistics (TACL), vol. 4, pp. 357-370, 2016. Yu-Wun Wang, Hen-Hsen Huang, Kuan-Yu Chen, and Hsin-Hsi Chen, "Discourse marker detection for hesitation events on mandarin conversation," In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 1721-1725, 2018.

　音響信号を単語や文字の単位に分割するためには、音声認識等のシステムを事前に構築する必要がある。しかしながら、この方法では音声とテキストとを対応付けるモデルとラベル付けを行うモデルとを別々に最適化する必要があるため、非常に正確な対応付けが必要になる。また、別々にモデルを構築するコストや別々にチューニングを行うコストがかかることが課題である。

　この発明の目的は、上記のような技術的課題に鑑みて、音声を単語や文字の単位に分割することなく、その音声に対応するテキストに対してラベル付けすることを可能とする系列ラベリング技術を実現することである。

　上記の課題を解決するために、この発明の一態様の系列ラベリング装置は、音響特徴量系列を音声分散表現に変換する音声分散表現系列変換部と、音響特徴量系列に対応するシンボル系列に含まれる各シンボルをシンボル分散表現に変換するシンボル分散表現変換部と、音声分散表現とシンボル分散表現と前後のシンボルの固定長ベクトルとを用いて生成した当該シンボルの固定長ベクトルから当該シンボルに対応するラベルを推定するラベル推定部と、を含む。

　この発明の系列ラベリング技術によれば、音声を単語や文字の単位に分割することなく、その音声に対応するテキストに対してラベル付けすることが可能となる。

図１は、系列ラベリング装置の機能構成を例示する図である。図２は、系列ラベリング方法の処理手順を例示する図である。

　以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　文中で使用する記号「^→」「^←」「^」は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。例えば、「a^→」は数式中では次式で表される。

　本発明では、下記参考文献１に記載された注意機構を用いることで、上述した課題を解決する。注意機構はニューラルネットワークに関する技術の一つであり、ある系列から異なる長さの別の系列を予測するモデルに利用される。それと同時に２つの系列の対応関係を学習できることが知られている。この注意機構を利用することで、音声と言語間の関係を考慮しながらテキストに対してラベル付けを行うことが可能となる。

　〔参考文献１〕Minh-Thang Luong, Hieu Pham, Christopher D. Manning, “Effective Approaches to Attention-based Neural Machine Translation”, In Proc. EMNLP, pp. 1412-1421, 2015.

　［第一実施形態］
　本発明が対象とする問題は、音声信号とそれに対応するテキストが与えられた場合に、そのテキスト内の各シンボル（単語や文字）に対してラベルを付与するものである。

　本発明の第一実施形態は、音響特徴量系列とその音響特徴量系列に対応するシンボル系列とを入力とし、シンボル系列内の各シンボルにラベルを付与したラベル系列を出力する系列ラベリング装置および方法である。第一実施形態の系列ラベリング装置１は、図１に示すように、音声分散表現系列変換部１１、シンボル分散表現変換部１２、およびラベル推定部１３を備える。この系列ラベリング装置１が、図２に例示する各ステップの処理を行うことにより第一実施形態の系列ラベリング方法が実現される。

　系列ラベリング装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。系列ラベリング装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。系列ラベリング装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。系列ラベリング装置１の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

　ステップＳ１１において、音声分散表現系列変換部１１は、系列ラベリング装置１の入力である音響特徴量系列を入力とし、その音響特徴量系列を１つの音声分散表現に変換して出力する。音声分散表現系列変換部１１が出力する音声分散表現はラベル推定部１３へ入力される。

　音響特徴量系列を{x₁, x₂, …, x_T}、対応するシンボル系列内のシンボルをc_sと表す場合、シンボルc_sに対応する音声分散表現は以下のように計算する。

ここで、NN(・)は可変長の連続値ベクトル系列を固定長の連続値ベクトルに変換する機能を持つ関数であり、その機能を持つ関数であれば任意のものを利用でき、例えばRNNを用いることができる。C^→ _sおよびC^← _sはNNによって変換した固定長の連続値ベクトルであり、音響特徴量系列{x₁, x₂, …, x_T}の入力順序により異なるベクトルが計算される。以下、C^→ _sは前向き音声分散表現、C^← _sは後向き音声分散表現とも呼ぶ。h^→ _s-1およびh^← _s+1は後述するラベル推定部１３で計算される固定長連続値ベクトルである。

　ステップＳ１２において、シンボル分散表現変換部１２は、系列ラベリング装置１の入力であるシンボル系列に含まれる各シンボルを入力とし、そのシンボルを固定長の分散表現に変換して出力する。シンボル分散表現変換部１２が出力するシンボル分散表現はラベル推定部１３へ入力される。

　テキスト内のシンボル系列を{c₁, c₂, …, c_s, …, c_S}と表す場合、シンボルc_sのシンボル分散表現は以下のように計算する。

　ステップＳ１３において、ラベル推定部１３は、音声分散表現系列変換部１１が出力する音声分散表現C_sとシンボル分散表現変換部１２が出力するシンボル分散表現E_sとを入力とし、そのシンボルに対して付与されるラベルを推定する。

　まず、固定長連続値ベクトルh^→ _sおよびh^← _sを以下のように計算する。

　次に、計算された２つのベクトルh^→ _sおよびh^← _sを以下のように結合し、１つのベクトルh_sとする。

　最後に、結合したベクトルh_sを用いて各ラベルが付与される確率O_sを計算する。

　ラベル推定部１３は、計算したラベルの確率O_sに基づいて、シンボルc_sに付与されるラベルl^_sを推定する。

　系列ラベリング装置１は、ステップＳ１１～Ｓ１３の手順を、入力されたシンボル系列内のすべてのシンボル{c₁, c₂, …, c_s, …, c_S}に対して適用することで、各シンボルに対してラベル付けしたラベル系列{l^₁, l^₂, …, l^_s, …, l^_S}を生成し、出力する。

　［第二実施形態］
　第二実施形態では、第一実施形態と異なるラベル推定方法を説明する。第二実施形態の方法の方が第一実施形態の方法と較べて計算量を削減することができる。以下、第一実施形態との相違点を中心に説明する。

　第二実施形態の音声分散表現系列変換部１１は、音響特徴量系列に対する音声分散表現を以下のように計算する。なお、h_s-1はラベル推定部１３で計算される固定長連続値ベクトルである。

　第二実施形態のラベル推定部１３は、シンボルc_sに対するラベルの確率O_sを以下のように計算する。

ここで、g_sは第一実施形態のh_sに相当する固定長連続値ベクトルである。

　その他の手順については第一実施形態と同様に行う。

　［第三実施形態］
　第一実施形態あるいは第二実施形態で示した系列ラベリング技術は以下の設定において利用可能である。

　（１）音声と書き起こしテキストに対する利用
　音声認識システムを構築するためには、音声とその書き起こしテキストの組が大量に必要である。それらの組は大量に蓄積されているが、様々なメタ情報に関するラベルは付与するコストが大きいため、すべてのデータに人手で付与することは現実的でない。一方で、蓄積されているデータにメタ情報が付与されていれば、より高度な音声認識システムや、音声対話システムの構築を行うことが可能となる。第一実施形態あるいは第二実施形態に従い、音声と書き起こしテキストの組から書き起こしテキストにラベル付けを行うことで、メタ情報のラベル付きのデータを大量に作成することが可能となる。

　（２）音声認識の後段処理としての利用
　第一実施形態あるいは第二実施形態の入力として、音声と音声認識結果（テキスト）を用いることで音声認識の後処理として利用することが可能である。音声認識結果には意味の理解や後段処理には不要な箇所が含まれたり、単なるテキストに変換されたりしてしまうため、メタ情報が抜け落ちてしまう。第一実施形態あるいは第二実施形態に従い、音声認識結果にラベル付けを行うことで、音声認識結果の不要箇所の特定や削除、音声認識では抜け落ちてしまう情報を付与することが可能になる。すなわち、音声認識結果の整形や、音声認識の後段のアプリケーションの高度化を目的とした利用が可能である。

　以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

　［プログラム、記録媒体］
　上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１　系列ラベリング装置
１１　音声分散表現系列変換部
１２　シンボル分散表現変換部
１３　ラベル推定部

Claims

　音響特徴量系列を音声分散表現に変換する音声分散表現系列変換部と、
　上記音響特徴量系列に対応するシンボル系列に含まれる各シンボルをシンボル分散表現に変換するシンボル分散表現変換部と、
　上記音声分散表現と上記シンボル分散表現と前後のシンボルの固定長ベクトルとを用いて生成した当該シンボルの固定長ベクトルから当該シンボルに対応するラベルを推定するラベル推定部と、
　を含む系列ラベリング装置。
　請求項１に記載の系列ラベリング装置であって、
　上記音声分散表現系列変換部は、上記音響特徴量系列と前のシンボルの前向き固定長ベクトルとを用いて生成する前向き音声分散表現と、上記音響特徴量系列と後のシンボルの後向き固定長ベクトルとを用いて生成する後向き音声分散表現とを生成するものであり、
　上記ラベル推定部は、上記前向き音声分散表現と上記シンボル分散表現と前のシンボルの前向き固定長ベクトルとを用いて生成する当該シンボルの前向き固定長ベクトルと、上記後向き音声分散表現と上記シンボル分散表現と後のシンボルの後向き固定長ベクトルとを用いて生成する当該シンボルの後向き固定長ベクトルとを結合して当該シンボルの固定長ベクトルを生成するものである、
　系列ラベリング装置。
　請求項１に記載の系列ラベリング装置であって、
　上記音声分散表現系列変換部は、上記音響特徴量系列と前のシンボルの固定長ベクトルとを用いて上記音声分散表現を生成するものであり、
　上記ラベル推定部は、上記シンボル分散表現と前のシンボルの前向き固定長ベクトルとを用いて生成する当該シンボルの前向き固定長ベクトルと、上記シンボル分散表現と後のシンボルの後向き固定長ベクトルとを用いて生成する当該シンボルの後向き固定長ベクトルとを結合して当該シンボルの固定長ベクトルを生成した上で、上記音声分散表現と当該シンボルの固定長ベクトルとを用いて生成した固定長ベクトルから当該シンボルに対応するラベルを推定するものである、
　系列ラベリング装置。
　音声分散表現系列変換部が、音響特徴量系列を音声分散表現に変換し、
　シンボル分散表現変換部が、上記音響特徴量系列に対応するシンボル系列に含まれる各シンボルをシンボル分散表現に変換し、
　ラベル推定部が、上記音声分散表現と上記シンボル分散表現と前後のシンボルの固定長ベクトルとを用いて生成した当該シンボルの固定長ベクトルから当該シンボルに対応するラベルを推定する、
　系列ラベリング方法。
　請求項１から３のいずれかに記載の系列ラベリング装置としてコンピュータを機能させるためのプログラム。