WO2021234967A1

WO2021234967A1 - 音声波形生成モデル学習装置、音声合成装置、それらの方法、およびプログラム

Info

Publication number: WO2021234967A1
Application number: PCT/JP2020/020378
Authority: WO
Inventors: 裕紀金川
Original assignee: 日本電信電話株式会社
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2021-11-25

Abstract

１回あたりの順伝搬に要する計算量を削減する。音声波形生成モデル学習部（１０）は、音声波形とその音声波形から計算した音響特徴量とを用いて、複数の全結合層とそれぞれに対応する重み行列とを含み、音響特徴量を音声波形に変換する音声波形生成モデルを学習する。音声波形生成モデル軽量化部（２０）は、音声波形生成モデルに含まれる重み行列をテンソルにまとめた重みテンソルを低ランク近似した重みパラメータを用いる軽量化音声波形生成モデルを生成する。音声波形生成部（３０）は、入力された音響特徴量を軽量化音声波形生成モデルへ入力して音声波形を得る。

Description

音声波形生成モデル学習装置、音声合成装置、それらの方法、およびプログラム

　この発明は、音声合成技術に関し、特に、音響特徴量から音声波形を生成する技術に関する。

　任意のテキストから統計的手法により音声合成するためには、主に二つのモジュールが必要である。一つ目は、スペクトルや声の高さといった音響特徴量を生成するモジュールである。このモジュールは、主に隠れマルコフモデルやディープニューラルネットワーク（DNN: Deep Neural Network）により構成される。DNN音声合成の登場当初は、テキスト解析結果を変換したフレーム単位の言語特徴量をDNNの入力とし、音響特徴量を予測する方式が主流であった（例えば、非特許文献１）。特に近年では、テキスト解析を介さずに生のテキストもしくは生に近いテキスト情報から直接音響特徴量を予測する手法が提案されている（例えば、非特許文献２）。

　二つ目は、音響特徴量から音声波形を生成するモジュールである。これまで、このモジュールは、MLSAフィルタやSTRAIGHTといった信号処理ベースの手法により構成することが主流であった（例えば、非特許文献３，４）。近年は、このモジュールをニューラルネットワークに置き換える手法が提案されており、信号処理ベースの手法により合成した音声よりも自然性の高い音声を合成できることが示されている（非特許文献５参照）。しかしながら、一般的にニューラルネットワークに基づく手法（以下、「ニューラル波形生成」とも呼ぶ）は信号処理ベースの手法よりも計算量が多い。また非特許文献５で開示された手法は、前の時刻の波形サンプルに依存して次の時刻の波形サンプルを予測する、自己回帰(AR: Auto Regressive)モデルを使用していたため、並列化が困難であった。そのため、ニューラル波形生成でリアルタイム動作を目指すのであれば、波形の並列生成もしくは軽量なモデル構造を検討しなければならない。波形の並列生成の検討例としては、知識蒸留（Knowledge Distillation）と画像処理装置（GPU: Graphics Processing Unit）を活用した非ARモデルによる順伝搬処理の並列化が挙げられる（例えば、非特許文献６）。軽量なモデル構造の検討例としては、中央演算処理装置（CPU: Central Processing Unit）でもニューラル波形生成を実現できる、従来の音声波形の知見を活用した軽量なモデル構造が挙げられる（例えば、非特許文献７）。

　非特許文献７のモデル構造は、音響特徴量から中間表現にするエンコーダーと、中間表現から音声波形に変換するデコーダーの二つのネットワークから構成される。特に、デコーダーには再帰型ニューラルネットワーク（RNN: Recurrent Neural Network）が用いられ、その出力層に２混合の全結合層が用いられている。

H. Zen, A. Senior, and M. Schuster, "Statistical parametric speech synthesis using deep neural networks," in Proc. ICASSP, pp. 7962-7966, 2013. Y. Wang, R. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N. Jaitly, Z. Yang, Y. Xiao, Z. Chen, S. Bengio, Q. Le, Y. Agiomyrgiannakis, R. Clark, and R. A. Saurous, "Tacotron: Towards end-to-end speech synthesis," in Proc. Interspeech, pp. 4006-4010, Aug. 2017. 今井聖, 住田一男, 古市千枝子, "音声合成のためのメル対数スペクトル近似（MLSA）フィルタ", 電子情報通信学会論文誌A, Vol. J66-A, No. 2, pp. 122-129, 1983. H. Kawahara, I. Masuda-Katsuse, and A. de Cheveigne, "Restructuring speech representations using a pitch-adaptive time frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds," Speech Communication, vol. 27, no. 3-4, pp. 187-207, 1999. Aaron van den Oord, Sander Dieleman, Heiga Zen, et al, "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499, Sep 2016. Aaron van den Oord, Yazhe Li, Igor Babuschkin, et al, "Parallel WaveNet: Fast High-Fidelity Speech Synthesis," arXiv:1711.10433, Nov 2017. J. Valin and J. Skoglund, "LPCNET: Improving Neural Speech Synthesis through Linear Prediction," ICASSP 2019, pp. 5891-5895, 2019.

　非特許文献７に記載されたニューラル波形生成では、RNNを使用しているため、音声を１サンプル生成するたびにニューラルネットワークを順伝搬する必要がある。非特許文献７はCPUでのリアルタイム動作を主張し、サンプリング周波数16kHzの波形生成でリアルタイム動作を達成している。しかしながら、高品質化のためにサンプリング周波数を上げた場合、24kHzでは1.5倍、48kHzでは３倍の回数の順伝搬が必要となるため、リアルタイム動作が困難となっていく。

　この発明の目的は、上記のような技術的課題に鑑みて、ニューラル波形生成において、１回あたりの順伝搬に要する計算量を削減することである。

　上記の課題を解決するために、この発明の第一の態様の音声波形生成モデル学習装置は、音声波形と当該音声波形から計算した音響特徴量とを用いて、複数の全結合層とそれぞれに対応する重み行列とを含み、音響特徴量を音声波形に変換する音声波形生成モデルを学習するモデル学習部と、音声波形生成モデルに含まれる重み行列をテンソルにまとめた重みテンソルを低ランク近似した重みパラメータを用いる軽量化音声波形生成モデルを生成するモデル軽量化部と、を含む。

　この発明の第二の態様の音声合成装置は、複数の全結合層それぞれに対応する重み行列をテンソルにまとめた重みテンソルを低ランク近似した重みパラメータを用い、音響特徴量を音声波形に変換する音声波形生成モデルを記憶するモデル記憶部と、入力された音響特徴量を音声波形生成モデルへ入力して音声波形を得る音声波形生成部と、を含む。

　この発明によれば、ニューラル波形生成において、１回あたりの順伝搬に要する計算量を削減することができる。

図１は第一実施形態の音声合成装置の機能構成を例示する図である。図２は第一実施形態の音声合成方法の処理手順を例示する図である。図３は第二実施形態の音声合成装置の機能構成を例示する図である。図４は第二実施形態の音声合成方法の処理手順を例示する図である。図５はコンピュータの機能構成を例示する図である。

　以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　文中で使用する記号「^－」は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記載している。例えば、文中の「^－X」は、数式中では以下となる。

　［第一実施形態］
　この発明の第一実施形態は、学習データとなる音声波形から音声波形生成モデルを生成し、その音声波形生成モデルを用いて音響特徴量から音声波形を生成する音声合成装置および方法である。図１に示すように、第一実施形態の音声合成装置１は、例えば、音声波形生成モデル学習部１０、音声波形生成モデル軽量化部２０、音声波形生成部３０、学習データ記憶部１００、およびモデル記憶部１１０を備える。音声波形生成モデル学習部１０は、例えば、音響特徴量計算部１１およびモデル学習部１２を備える。音声波形生成モデル軽量化部２０は、例えば、テンソル化部２１およびテンソル分解部２２を備える。この音声合成装置１が、図２に示す各ステップを実行することにより、第一実施形態の音声合成方法が実現される。

　音声合成装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声合成装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声合成装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声合成装置１の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声合成装置１が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

　以下、図２を参照して、第一実施形態の音声合成装置１が実行する音声合成方法について説明する。

　学習データ記憶部１００には、音声波形生成モデルの学習に用いるための十分な量の学習データが記憶されている。各学習データは、予め収集した音声信号から生成した音声波形である。

　ステップＳ１１において、音声波形生成モデル学習部１０の音響特徴量計算部１１は、学習データ記憶部１００に記憶された音声波形から音響特徴量を計算する。ここで、音響特徴量として、例えば、メルケプストラムなどのスペクトル情報、または基本周波数などの韻律情報が用いられる。これらの代わりにフーリエ変換により得た生のスペクトルを人間の聴覚に合わせて変換したメルスペクトログラムを用いてもよい。音響特徴量計算部１１は、計算した音響特徴量をモデル学習部１２へ出力する。

　ステップＳ１２において、音声波形生成モデル学習部１０のモデル学習部１２は、学習データ記憶部１００に記憶された音声波形と、音響特徴量計算部１１から入力された音響特徴量とを用いて、音声波形生成モデルを学習する。この音声波形生成モデルは、非特許文献７に記載されたモデルと同様であり、デコーダーに用いられる２混合の全結合層が、２個の全結合層とその重みパラメータからなるデュアルフルコネクト（以下、「DualFC（=full connect）」とも呼ぶ）で構成される。音声波形生成モデルは、音響特徴量から音声波形を予測し、予測された音声波形と実際の音声波形との誤差が小さくなるように学習される。電話音声等の狭帯域音声でない限り、音声波形は通常16ビットで量子化されている。しかしながら、音声波形の各サンプルを直接予測するのは2¹⁶個のクラス分類問題を解くことと等しく、学習や予測が困難である。このため、μ-lawアルゴリズムにより事前に音声を８ビットに落として2⁸個のクラス分類問題に置換することで、波形生成を実現できることが報告されている。モデル学習部１２は、学習した音声波形生成モデルをモデル記憶部１１０へ記憶する。

　ステップＳ２１において、音声波形生成モデル軽量化部２０のテンソル化部２１は、モデル記憶部１１０に記憶された音声波形生成モデルに含まれるDualFCをテンソル化する。すなわち、DualFCのパラメータをテンソルとしてまとめて扱えるように変換する。なお、音声波形生成モデルに含まれるRNN部分は従来と同様であるため、そのままコピーすればよい。テンソル化部２１は、テンソル化した音声波形生成モデルをテンソル分解部２２へ出力する。

　DualFCのテンソル化についてより詳しく説明する。従来のDualFCは、次式によって入力ベクトルx∈R^Dを出力ベクトルy∈R^Nに変換する。

　ここで、W₁∈R^N×D, W₂∈R^N×Dはそれぞれ重み行列であり、b₁∈R^N, b₂∈R^Nはそれぞれバイアスベクトルである。また、a₁∈R^N, a₂∈R^Nは２個の全結合層の重みベクトルである。

　テンソル化部２１は、重み行列W₁, W₂をテンソルとしてまとめ、重みベクトルa₁, a₂およびバイアスベクトルb₁, b₂をそれぞれ行列としてまとめることで、DualFCを次式に変換する。

　ここで、A=[a₁, a₂], W=[W₁, W₂], B=[b₁, b₂]である。以下、Wを「重みテンソル」と呼ぶ。

　ステップＳ２２において、音声波形生成モデル軽量化部２０のテンソル分解部２２は、テンソル化部２１でテンソル化された音声波形生成モデルに含まれるDualFCの重みテンソルWを低ランク近似（low-rank approximation）することで、計算量が削減された軽量化音声波形生成モデルを生成する。テンソル分解部２２は、生成した軽量化音声波形生成モデルをモデル記憶部１１０へ記憶する。

　以下、重みテンソルの低ランク近似についてより詳しく説明する。ここでは、低ランク近似として、高次特異度分解（HOSVD: higher-order singular value decomposition）を用いる。重みテンソルW∈R^N×D×2は３階テンソルであるため、特異値分解で扱えるように重みテンソルWをモード１展開およびモード２展開して、行列W₍₁₎∈R^N×2D, W₍₂₎∈R^D×2Nを得る。次に、これらの行列W₍₁₎, W₍₂₎それぞれに対して、次式のように特異値分解を適用する。

　こうして得られたU₍₁₎∈R^N×N, U₍₂₎∈R^D×Dに対し、降順に並び替えられた対角の特異値行列Σ₍₁₎, Σ₍₂₎に対応する上位N', D'列を抽出した行列を^－U₍₁₎∈R^N'×N, ^－U₍₂₎∈R^D'×Dとすると、低ランク近似後の軽量化重みテンソル^－Wは次式で表すことができる。

　ここで×₁、×₂はそれぞれモード１積、モード２積である。・^Tは行列の転置を表す。Sは次式である。

　このように軽量化重みテンソル^－Wを構成することで、2ND個のパラメータであった重みテンソルWを、2N'D'+ND'+N'D個のパラメータに削減することができる。例えば非特許文献７のように、N=256, D=16とするならば、従来のDualFCのパラメータ数はバイアスと重みベクトルを含めて9,216であるが、N'=4, D'=4として低ランク近似したDualFCのパラメータ数は2,144となり、パラメータ数を約８割削減できる。パラメータの行列やテンソルのサイズが小さいほど演算量が減るため、メモリ使用量の削減だけでなく順伝搬の高速化にもつながる。

もちろん重み行列W₍₁₎, W₍₂₎のそれぞれに特異値分解を適用して低ランク近似することも可能である。しかしテンソル化してから高次特異度分解を用いることで、それぞれを特異値分解する場合と同じパラメータ数削減率でありながら、これらの重み行列同士の関係を考慮しながらの低ランク近似が可能である。

　ステップＳ３０において、音声波形生成部３０は、音声波形生成モデル軽量化部２０により生成された軽量化音声波形生成モデルに、音声合成装置１へ入力された音響特徴量を入力し、音声波形を予測する。音声波形生成部３０は、軽量化音声波形生成モデルを順伝搬し、DualFCの出力値からサンプリングにより得た８ビットの値をμ-lawアルゴリズムにより逆変換することで16ビットの音声波形に変換する。音声波形生成部３０は、予測された音声波形を音声合成装置１の出力とする。

　上記のように、第一実施形態の音声合成装置によれば、音声波形生成モデルのパラメータ数を削減することができる。音声波形生成モデルのデコーダーの構成要素であるDualFCは、２個の全結合層とその重みパラメータから構成されるが、これらをまとめてテンソルとして扱うようにネットワークを再構成することで、テンソル分解に基づく低ランク近似を可能とした。このようにパラメータを削減することにより、メモリ使用量および順伝搬に要する計算量を削減することができる。結果として、ニューラル波形生成を搭載できるデバイスの範囲を広げることや、高サンプリング周波数でのリアルタイム動作を実現することにも繋がる。

　［変形例］
　第一実施形態では、学習データから軽量化音声波形生成モデルを生成し、その軽量化音声波形生成モデルを用いて音声波形を生成する１台の音声合成装置の例を示した。しかしながら、この音声合成装置は備えるべき機能が異なる複数台の装置に分割して構成してもよい。例えば、学習データから軽量化音声波形生成モデルを学習する機能を持つ音声波形生成モデル学習装置と、学習済みの軽量化音声波形生成モデルを用いて音声波形を生成する機能を持つ音声合成装置とに分割することができる。この場合、変形例の音声波形生成モデル学習装置は、第一実施形態の音声波形生成モデル学習部１０、音声波形生成モデル軽量化部２０、学習データ記憶部１００、およびモデル記憶部１１０のみを備えればよい。また、変形例の音声合成装置は、第一実施形態の音声波形生成部３０およびモデル記憶部１１０のみを備え、モデル記憶部１１０には学習済みの軽量化音声波形生成モデルを予め記憶しておけばよい。

　［第二実施形態］
　第一実施形態による軽量化音声波形生成モデルは、高次特異値分解による特異値の大小のみを考慮しており、実際に音声波形を生成することに適した重み係数になっているとは限らない。第二実施形態では、この問題を解決するために、第一実施形態による軽量化音声波形生成モデルを初期値として再度学習を行うことで、パラメータ削減効果を得つつ音声波形の精度を向上する。

　図３に示すように、第二実施形態の音声合成装置２は、音声波形生成モデル学習部１０、音声波形生成モデル軽量化部２０、音声波形生成部３０、学習データ記憶部１００、およびモデル記憶部１１０に加えて、例えば、音声波形生成モデル再学習部４０を備える。この音声合成装置２が、図４に示す各ステップを実行することにより、第二実施形態の音声合成方法が実現される。

　以下、図４を参照して、第二実施形態の音声合成装置２が実行する音声合成方法について、第一実施形態との相違点を中心に説明する。

　ステップＳ４０において、音声波形生成モデル再学習部４０は、音声波形生成モデル軽量化部２０により生成された軽量化音声波形生成モデルを初期値として、学習データ記憶部１００に記憶された学習データの音声波形と、音響特徴量計算部１１により得た音響特徴量とを用いて、モデル学習部１２と同様にして音声波形生成モデルを再学習する。音声波形生成モデル再学習部４０は、再学習した軽量化音声波形生成モデルをモデル記憶部１１０へ記憶する。

　ステップＳ３０において、音声波形生成部３０は、音声波形生成モデル再学習部４０により再学習された軽量化音声波形生成モデルに、音声合成装置２へ入力された音響特徴量を入力し、音声波形を予測する。音声波形生成部３０は、予測された音声波形を音声合成装置２の出力とする。

　以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

　［プログラム、記録媒体］
　上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図５に示すコンピュータの記憶部１０２０に読み込ませ、演算処理部１０１０、入力部１０３０、出力部１０４０などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、磁気記録装置、光ディスク等である。

　また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部１０５０に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部１０５０に格納されたプログラムを一時的な記憶装置である記憶部１０２０に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　音声波形と当該音声波形から計算した音響特徴量とを用いて、複数の全結合層とそれぞれに対応する重み行列とを含み、音響特徴量を音声波形に変換する音声波形生成モデルを学習するモデル学習部と、
　前記音声波形生成モデルに含まれる重み行列をテンソルにまとめた重みテンソルを低ランク近似した重みパラメータを用いる軽量化音声波形生成モデルを生成するモデル軽量化部と、
　を含む音声波形生成モデル学習装置。
　請求項１に記載の音声波形生成モデル学習装置であって、
　前記低ランク近似は、高次特異値分解である、
　音声波形生成モデル学習装置。
　請求項２に記載の音声波形生成モデル学習装置であって、
　W₁は第一の全結合層に対応する重み行列であり、W₂は第二の全結合層に対応する重み行列であり、Wは前記重みテンソルであり、W₍₁₎はWをモード１展開した行列であり、W₍₂₎はWをモード２展開した行列であり、U₍₁₎はW₍₁₎に対して特異値分解して得られた行列であり、U₍₂₎はW₍₂₎に対して特異値分解して得られた行列であり、^－U₍₁₎はU₍₁₎の所定の列を抽出した行列であり、^－U₍₂₎はU₍₂₎の所定の列を抽出した行列であり、×₁はモード１積であり、×₂はモード２積であり、S=W×₁ ^－U₍₁₎ ^T×₂ ^－U₍₂₎ ^Tであり、
　前記重みパラメータは^－W≒S×₁ ^－U₍₁₎×₂ ^－U₍₂₎で表される、
　音声波形生成モデル学習装置。
　請求項１から３のいずれかに記載の音声波形生成モデル学習装置であって、
　前記モデル軽量化部が生成した軽量化音声波形生成モデルを初期値として、前記音声波形と前記音響特徴量とを用いて前記軽量化音声波形生成モデルを学習するモデル再学習部をさらに含む、
　音声波形生成モデル学習装置。
　複数の全結合層それぞれに対応する重み行列をテンソルにまとめた重みテンソルを低ランク近似した重みパラメータを用い、音響特徴量を音声波形に変換する音声波形生成モデルを記憶するモデル記憶部と、
　入力された音響特徴量を前記音声波形生成モデルへ入力して音声波形を得る音声波形生成部と、
　を含む音声合成装置。
　モデル学習部が、音声波形と当該音声波形から計算した音響特徴量とを用いて、複数の全結合層とそれぞれに対応する重み行列とを含み、音響特徴量を音声波形に変換する音声波形生成モデルを学習し、
　モデル軽量化部が、前記音声波形生成モデルに含まれる重み行列をテンソルにまとめた重みテンソルを低ランク近似した重みパラメータを用いる軽量化音声波形生成モデルを生成する、
　音声波形生成モデル学習方法。
　モデル記憶部に、複数の全結合層それぞれに対応する重み行列をテンソルにまとめた重みテンソルを低ランク近似した重みパラメータを用い、音響特徴量を音声波形に変換する音声波形生成モデルが記憶されており、
　音声波形生成部が、入力された音響特徴量を前記音声波形生成モデルへ入力して音声波形を得る、
　音声合成方法。
　請求項１から４のいずれかに記載の音声波形生成モデル学習装置もしくは請求項５に記載の音声合成装置としてコンピュータを機能させるためのプログラム。