明 細 害 音特性変换装 IR、 音,ラベル対応付け装 Bおよびこれらの方法 技術分野 Description Damage Sound characteristics conversion equipment IR, sound, label matching equipment B and their methods
この発明は、 音声、 楽音、 自然耷等の音に対する特性变换に関するものであり、 特にその変換操作の容易化に閣するものである。 また、 当該特性変換に好迹な音 とラベルの対応付けに関するものである, 背景技術 The present invention relates to characteristics 变换 for sounds such as voices, musical sounds, and natural sounds, and more particularly to facilitating the conversion operation. In addition, the present invention relates to the association between a sound and a label that is a miracle for the characteristic conversion.
音声等の音に対して、 その特性を変換し、 所 gの特性を得ることが行われてい る, 特性を変換するためには、 音の時間領城波形や周波数スぺク トルに対して、 その波形やスぺク トルを変形することにより行われるのが、一 «的である, 例え ば、 アナログの音声信号を取り込み、 これをディジタルデータに変換し、 このデ イジタルデータに対して希望する特性変換に対応する波形変形を施した後、 再び アナログ倌母に変換する、 という操作が行われている。 これにより、 音声倌母の 特性を所望の特性に変換することができる。 It has been practiced to convert the characteristics of sound such as voice to obtain the characteristic of g. In order to convert the characteristics, it is necessary to convert the time domain waveform and frequency spectrum of the sound. This is typically performed by transforming the waveform or the spectrum. For example, an analog audio signal is fetched and converted into digital data. After performing waveform deformation corresponding to the desired characteristic conversion, an operation is performed to convert it back to analog 倌. This makes it possible to convert the characteristics of the voice to the desired characteristics.
しかしながら、 上記のような従来の特性変換においては、 次のような問題点が あった。 特性変換の処理は、 音の時間領城波形、 两波数スぺク トルや線形予 ¾分 折 (L P C) のパラメータ等をディスプレイに表示し、 これらを換作することに より行われる。 この操作によって、 所望の特性を得るためには、 時間領域波形、 用波数スぺクトノ Ι^ί ^予測分析 (L P C) のバラメータ等に対する専門知 ttを 有していなければならないという節ほがあった。 さらに、 専 ffl知據を有していて も、 所望の特性変換を行うためには、 十分な甽練が必要であるという間埋もあつ た, 発明の M示 However, the conventional characteristics conversion as described above has the following problems. The processing of the characteristic conversion is performed by displaying the parameters of the time domain waveform of the sound, the frequency spectrum, the linear prediction (LPC), etc. on the display, and modifying them. By this operation, in order to obtain the desired characteristics, it is necessary to have specialized knowledge tt on the parameters of the time domain waveform and the wave number spectrum ぺ ^ ί ^ predictive analysis (LPC). Was. In addition, even if they have specialized ffl knowledge, there is a shortcoming that sufficient training is required to perform the desired characteristic conversion.
この 明は、 上記のような問題点を解決して、 変換操作の容易な音質変換装 fit および方法、 ならびに、 これらに好適な音 ·ラベル対応付け装置および方法を提
供することを目的とする, The present invention solves the above-described problems and provides a sound quality conversion device fit and method that can be easily converted, and a sound-label association device and method suitable for these. Intended to be offered,
繭求項 1の音特性変换装置は、 所定の区分にしたがって区分けされた音デ一タ , および当 音データの各区分ごとに対応づけられたラベルデ一タを保持する音 · ラベノ^ータ (^手段と、 ラベルデータに対して修飾データが与えられると、 当 飾データに基づいて、 ラベ/げータに基づくラベルを視 ¾:的に^ «ίして表示 手段に表示させる表示制御手段と、 当 Κラベルデータに対応づけられた音データ に対して、 ラベルデータに対応して与えられた データに墓づき、 対応する特 性変換を行う変換手段とを備えている, The sound characteristic changing device of the cocoon finding 1 is a sound data holding sound data classified according to a predetermined division and label data associated with each division of the sound data. (^ When the decoration data is given to the label data and the label data, based on the decoration data, the label based on the label / data is displayed. Means for converting the sound data associated with the label data into data provided corresponding to the label data and performing a corresponding characteristic conversion.
請求項 2の音特性変換装 gは、 入力された音データを音の区切りに基づいて区 分する音データ区分手段と、 前記音の区切りに対応する区切り符母が付されて入 力されたラベルデータを、 当該区切り符号に基づいて区分するラベルデータ区分 手段と、 区分された音デ一タおよび区切られたラベノ^一タを互いに対応づける 対応形成手段とを備えている, The sound characteristic conversion device g according to claim 2 is input with sound data classification means for classifying input sound data based on sound breaks, and a delimiter corresponding to the sound breaks. Label data dividing means for dividing the label data based on the delimiter, and correspondence forming means for associating the divided sound data and the divided label data with each other,
»求項 3の音特性変換装匿は、 ラベルに る視覚的な修飾が、 ラベルに る文字飾りであることを特傲としている, »Sound characteristic conversion concealment in claim 3 makes it arrogant that the visual modification in the label is the character decoration in the label.
精求項 4の音特性変換装 Bは、 ラベルに対する視 K的な修飾が、 ラベルの順序 であることを特徴としている。 The sound characteristic conversion device B of the refinement 4 is characterized in that the visual K modification to the label is the order of the label.
精求項 5の音特性変换方法は、 音データにラベルデータを対応づけておくとと もに、 音特性変換内容と修飾処理とを対応づけておき、 ラベ Λ ^—タにより表さ れるラベルを、 与えられた修飾処理に基づいて視覚的に して表示し、 当 ラ ベルデータに対応づけられた音データに対して、 ラベルデータに対して与えられ た修飾処理に対応する特性変換を行うことを特潋としている. In the sound characteristic changing method of the refinement item 5, the sound data is associated with the label data, and the sound characteristic conversion content is associated with the modification processing, and is represented by a label. The label is visually displayed based on the given decoration processing, and the characteristic conversion corresponding to the decoration processing given to the label data is performed on the sound data associated with the label data. It is characterized by doing.
»求項 6の音特性変換方法は、 入力された音データを音の区切りに基づいて区 分し、 ラベノ タを前記音の区切りに対応して区分するとともに、 区分したラ ベ —タを区分した音データに対応づけるようにしたことを特徴としている, »The sound characteristic conversion method of claim 6 divides the input sound data based on sound breaks, classifies lab notes according to the sound breaks, and classifies the categorized labels. It is characterized by being associated with the sound data
»求項 7の音特性変换装置は、 所定の区分にしたがって区分けされた音データ、 および当眩音データの各区分ごとに対応づけられたラベルデ一タを保持する音 · ラベルデータ 手段と、 ラベ タに対応づけられた音データに対して、 ラ ベルデータに対応して与えられた修飾データに基づき、 対応する特性変換を行う
変换手 Sとを備えている。 »The sound characteristic converting apparatus according to claim 7 includes: sound and label data means for holding sound data classified according to a predetermined section and label data associated with each section of the glare sound data; Performs the corresponding characteristic conversion on the sound data associated with the label based on the modification data given corresponding to the label data It has a modifier S.
請求項 8の音特性変換方法は、 耷データにラベルデ一タを対応づけておくととも に、 特性変換内容と修飾処理とを対応づけておき、 ラベルデータに対応づけられ た音データに対して、 ラベルデータに対して施された修飾処理に対応する特性変 换を行うことを特微としている β According to the sound characteristic conversion method of claim 8, 耷 the label data is associated with the data, the characteristic conversion content is associated with the modification processing, and the sound data associated with the label data is associated with the sound data. , and wherein there to make the characteristics Transformations corresponding to modification treatment was performed on the label data β
請求項 9のシステムは、 通倌路を介して通儒可能である送信側装置と受侰側装 置を有しており、 送信側装置から受慣側装 fiへ音データを伝送するシステムであ つて、 The system according to claim 9 has a transmitting device and a receiving device that are communicable through a communication path, and is a system that transmits sound data from the transmitting device to the receiving device fi. Then,
¾fl側装置は、 ラベノレデータおよび修飾デ一タを入力するデータ入力手段と、 ラベ Λ ^—タおよび修飾データを通信路を介して受信側装 fgに伝送する通信手段 とを備えており、 The 側 fl-side device includes data input means for inputting label data and modification data, and communication means for transmitting the label and the modification data to the receiving device fg via a communication path.
受信側手段は、 ¾fl側装置からのラベ /i^一タおよび修飾デ一タを受信する通 信手段と、 当该ラベルデータに基づいて锞準音データを生成する摞準音データ生 成手段と、 摞準音データを修飾データに基づいて音特性を変換し、 音特性変換デ ータを^ figする変換手段とを備えて 、る, The receiving means comprises: a communication means for receiving the label / i data and the modification data from the fl side device; and a standard sound data generating means for generating standard sound data based on the label data. And converting means for converting the sound characteristics of the reference sound data based on the modification data, and converting the sound characteristic conversion data.
»求項 1 0の伝送方法は、 通信路を介して、 ¾it側から受倌側へ音データを伝 送する方法であって、 »The transmission method of claim 10 is a method of transmitting sound data from the ¾it side to the receiving side via a communication path,
送倌側においては、 ラベルデータおよび修飾データを入力し、 ラベルデータお よび修飾データを通 AT路を介して受信側に伝送し、 The transmitting side inputs the label data and the modification data, transmits the label data and the modification data to the receiving side via the AT path,
受信側は、 送信側からのラベルデータおよび データを受侰し、 当該ラベル データに基づいて標準音データを生成するとともに、 棵準音データを修飾データ に基づいて音特性を変換し、 音特性変換データを生成することを特徴としている, 請求項 1 1の音'ラベル対応付け装置は、 音データを入力する音データ入力手 段と、 音データによって表される音の大きさに基づいて、 #データを区分けする 音データ区分手段と、 音データの前記区分に対応する位 Bに区切り符母が付され たラベ Λ ^—タを入力するラベ ータ入力手段と、 区切り符号に基づいて、 ラ ベ ^—タを区分けするラベルデ一タ区分手段と、 区分された音データおよび区 分されたラベ/^ータを互いに対応づける対応形成手段とをを備えている, 請求項 1 2の音 'ラベル対応付け装置は、 耷データを入力する音データ入力手
段と、 音データに対応するラベルデータを入力するラベ/! ^ータ入力手段と、 ラ ベルデ一タによって表される各ラベルの平均 時 IWと音データの 時 (Wとに 基づいて、 音データを各ラベルに対応づけて区分する烊細対応形成手段とを備え ている。 The receiving side receives the label data and the data from the transmitting side, generates standard sound data based on the label data, converts the standard sound data into sound characteristics based on the modification data, and converts the sound characteristics. 11. The sound 'label associating device according to claim 11, wherein the sound data is generated based on a sound data input means for inputting sound data and a sound volume represented by the sound data. Sound data classification means for classifying data, label data input means for inputting a label having a delimiter at the position B corresponding to the classification of sound data, and label data input means for inputting a label based on the delimiter code. 13. The sound according to claim 12, further comprising: label data classifying means for classifying the data; and correspondence forming means for associating the classified sound data and the classified labels / data with each other. Label mapping Location, the sound data input hand to enter the 耷 data Data input means for inputting label data corresponding to the sound data, and the average time IW of each label represented by the label data and the time of the sound data (based on the sound And a detailed correspondence forming means for classifying the data in association with each label.
»求項 1 3の音 ·ラベル対応付け装 fiは、 対応形成手段によって対応づけられ たラベ Λ^—タと音データに関し、 ラベ Λ ^—タによって表される各ラベルの平 均継統時間と データの継読時間とに基づいて、 音データを各ラベルに対応づけ て区分する詳細対応形成手段を備えている, »Sound of claim 13 The label fi associating unit is related to the label and sound data associated by the correspondence forming means, and the average continuous time of each label represented by the label Λ ^ —ta And detailed correspondence forming means for classifying the sound data in association with each label based on the data and the data read time.
求項 1 4の音 ·ラベル対応付け装置は、 音データによって表される音の性質 を視¾的に表示するための音表示部と、 ラベルデータによって表されるラベルを 表示するためのラベル表示部とを備え、 音表示部において、 音の区切りを表す区 切りマークを表示するようにしたことを特徴としている。 The sound / label associating device according to claim 14, wherein the sound display unit for visually displaying the properties of the sound represented by the sound data, and the label display for displaying the label represented by the label data And a sound display section for displaying a separation mark indicating a sound separation.
ϋ求項 1 5の音.ラベル対応付け方法は、 音データによって表される音の大き さに基づいて、 音データを区分けし、 音データの前記区分に対応する位置に区切 り符母が付されたラベノ^ータを受け、 当該区切り符号に基づいて、 ラベ /U^— タを区分けし、 区分された音データおよび区分されたラベルデ一タを互いに対応 づけることを特微としている。 The sound of claim 15 is a method of associating a label with sound data based on the loudness of the sound represented by the sound data, and adding a delimiter at a position corresponding to the sound data in the sound data. Receiving the classified label data, the label / U data is divided based on the delimiter, and the classified sound data and the classified label data are associated with each other.
銪求項 1 6の音'ラベル対応付け方法は、 音データとラベルとの対応付けを行 う方法であって、 各ラベルごとの平均 時間を予め用意しておき、 ラベ 一 タによって表される各ラベルの平均継統時問と音データの維統時 ffiとに基づいて、 音データを各ラベルに対応づけて区分するようにしたことを特徴としている · 鑌求項 1 7の音'ラベル対応付け方法は、 各ラベルごとの平均維接時間を予め 用意しておき、 対応づけられたラベルデータと音データに閱し、 ラベルデータに よって表される各ラベルの平均 «U¾時閉と音データの 時間とに基づいて、 耷 データを各ラベルに対 づけて区分するようにしたことを特»としている · The sound 'label associating method of claim 16 is a method of associating sound data with a label, and an average time for each label is prepared in advance and is represented by a label. It is characterized in that sound data is classified according to each label based on the average continuous time of each label and the restoration time ffi of sound data. For the labeling method, the average welding time for each label is prepared in advance, the associated label data and sound data are added, and the average of each label represented by the label data «U¾ closing and sound data耷 Data is classified according to each label based on the time of
I»求項 1 8の音 ·ラベル対応付けのための表示方法は、 耷データによって表さ れる音の性質を視覚的に表示するための音表示部、 ラベルデータによって表され るラベルを表示するためのラベ/ U¾示部を備え、 耷表示部において、 音の区切り を表す区切りマークを表示するようにしたことを特徵としている。
この発明において、 ラベルデータとは、 音声や自然音等の音と対応づけ可能な、 文字列、 図^ I、 記母列, 桧の列等およびこれらの組合わせをいうものであり、 例えば、 テキストデータや文字に対応したアイコンデータ等がこれに含まれる。 音データとは、 音の波形を直接又は IW接的に表現したデータであり、 例えば、 音のアナログ波形をディジタノレ化したデータや、 音を L P Cパラメータによって 表現したデータ等がこれに含まれる。 I »Solution 18 for sound · Display method for label matching is as follows: 音 Sound display section for visually displaying the nature of the sound represented by the data, displaying the label represented by the label data And a delimiter mark indicating a sound delimiter is displayed on the display unit. In the present invention, the label data refers to a character string, a figure ^ I, a syllabary column, a column of hinoki, and a combination thereof, which can be associated with a sound such as a voice or a natural sound. This includes text data, icon data corresponding to characters, and the like. The sound data is data representing a sound waveform directly or in an IW manner, and includes, for example, data obtained by digitizing an analog sound waveform and data representing a sound represented by LPC parameters.
修飾とは、 音データに基づいて得られる音の特性を変換するため、 ラベルに対 してなされる、 強 1¾、 アンダーラインの付加、 符号等の付加、 順序の入れ養え等 を含む «½;である。 修飾データの内容は、 特性変換の内容を示していてもよいが、 修飾データに基づいてラベルデータを視覚的に修飾する場合には、 視 的 の 内容を示すようにする方が好ましいことがある, Modification includes strong 1¾, addition of underline, addition of sign, etc., addition of order, etc., performed on labels in order to convert the characteristics of sound obtained based on sound data. It is. The contents of the decoration data may indicate the contents of the property conversion, but when the label data is visually modified based on the decoration data, it may be preferable to indicate the contents of the visualization. ,
音の特性変換とは、 音の何等かの性質を変化させることをいうものであり、 例 えば、 ピッチ変更、 強度変更、 ビブラートの付与, 周波欲スぺク トルの変更、 継 統時間の変更、 サンプリング閲隔の変更、 音質の女性化、 男性化、 明瞭化、 不明 I»化等やこれらの組み合わせ等の音質変换だけでなく、 音を出す順序の入; ί «え、 音の一部削除等も含む概念である, Sound characteristic conversion refers to changing some property of a sound, for example, changing pitch, changing intensity, adding vibrato, changing frequency spectrum, changing duration. , Change of sampling interval, feminization of sound quality, masculinization, clarification, unknown I », etc., as well as sound quality change such as combination of these, etc., input of the order of sound output; It is a concept that includes deletion of parts, etc.
¾求項 1の耷特性変换装置および請求項 5の音特性変換方法は、 音データにラ ベルデータを対応づけておくとともに、 音特性変換内容と修飾処理とを対応づけ ておき、 ラベルデータにより表されるラベルを、 与えられた修飾 ftt理に基づいて 視覚的に^して表示し、 当該ラベルデータに対応づけられた音データに対して、 ラベルデータに対して与えられた修飾処理に対応する特性変換を行うことを特» としている * したがって、 対応するラベルに対して視覚的な修飾を行うだけで、 音に対する特性変換を行うことができる, The color characteristic conversion device of claim 1 and the sound characteristic conversion method of claim 5 associate label data with sound data, associate sound characteristic conversion contents with modification processing, and generate label data. Is visually displayed based on the given modification ftt theory, and the sound data associated with the label data is subjected to the modification processing given to the label data. It is featured to perform the corresponding characteristic conversion. * Therefore, it is possible to perform the characteristic conversion for the sound only by visually modifying the corresponding label.
»求項 2の音特性変換装置および »求項 6の音特性変換方法は、 入力された音 データを音の区切りに基づいて区分し、 ラベルデータを前記音の区切りに対応し て区分するとともに、 区分したラベ —タを区分した音データに対応づけるよ うにしている, したがって、 音データおよびラベノレデータを入力するだけで、 両 者の対応づけを行うことができる。 The sound characteristic conversion device of claim 2 and the sound characteristic conversion method of claim 6 classify input sound data based on a sound segment, and label data according to the sound segment. The classified labels are made to correspond to the classified sound data. Therefore, the two can be correlated only by inputting the sound data and the label data.
請求項 7の音特性変換装 fiおよび請求項 8の音特性変換方法は、 音データにラ
ベルデータを対応づけておくとともに、 特性変換内容と 理とを対応づけて おき、 ラベ/ ^—タに対応づけられた耷データに対して、 ラベルデータに対して 拖された β¾ϋ処理に対応する特性変換を行うことを特徴としている。 したがって、 音データに比べて音節の区切りが明瞭なラベノ^—タに対し、 処理を施すだ けで、 音に ¾ る特性変換を行うことができる。 According to the sound characteristic conversion device fi of claim 7 and the sound characteristic conversion method of claim 8, In addition to associating the label data with the characteristic conversion contents and the logic, the data corresponding to the label / ^-data corresponds to the β processing applied to the label data. Characteristic conversion is performed. Therefore, it is possible to perform the characteristic conversion on the sound only by performing the processing on the label that has clear syllable divisions compared to the sound data.
請求項 9の音伝送システムおよび »求項 1 0の音伝送方法は、 送信側において、 ラベノ ータおよび修飾データを入力し、 受侰側において、 当該ラベルデータに 基づいて搮準音データを生成するとともに、 標準音データを修飾データに基づい て音 4½変換し、 音質変換データを生成するようにしている, したがって、 ラベ ルデータおよび修飾データを送るだけで、 所望の音特性の音を送ることができる。 The sound transmission system according to claim 9 and the sound transmission method according to claim 10 are configured such that a transmitting side inputs a labeler and modification data, and a receiving side generates standard sound data based on the label data. In addition, the standard sound data is converted to sound based on the modification data to generate sound quality conversion data. Therefore, it is possible to send the sound with the desired sound characteristics only by sending the label data and the modification data. it can.
If求項 1 1の音'ラベル対応付け装置および精求項 1 5の耷'ラベル対応付け 方法は、 耷データによって表される音の大きさに基づいて、 音データを区分けし、 音データの前お区分に対応する位 ϋに区切り符号が付されたラベルデータを受け、 当該区切り符号に基づいて、 ラベルデータを区分けし、 区分された音データおよ び区分されたラベルデータを互いに対応づけることを特»としている。 したがつ て、 区分けした音データと区分けしたラベノ^ータとを容易に対応づけることが できる, If the eleventh term 'sound' label associating device and the fifteenth term '耷' label associating method, the sound data is divided based on the loudness of the sound represented by the 耷 data. Receiving label data with a delimiter attached to the position corresponding to the previous division, classifying the label data based on the delimiter, and associating the classified sound data and the classified label data with each other It has a special feature. Therefore, the segmented sound data can be easily associated with the segmented lab notes.
»求項 1 2の音 ·ラベル対応付け装置および »求項 1 6の音 ·ラベル対応付け 方法は、 音データとラベルとの対応付けを行う方法であって、 各ラベルごとの平 均 Ji»tt時間を予め用意しておき、 ラベルデータによって表される各ラベルの平均 fttt時問と音データの継練時節とに基づいて、 音データを各ラベルに対応づけて 区分するようにしたことを特徴としている, したがって、 各ラベルごとに耷デー タを対応づけることを、 容易に行うことができる。 »Sound of claim 1 2 · Label associating device and» Sound of claim 16 · Sound and label associating method is a method of associating sound data with a label. tt time is prepared in advance, and the sound data is classified according to each label based on the average fttt time of each label represented by the label data and the joint time of the sound data. It is a feature. Therefore, it is easy to associate 耷 data for each label.
請求項 1 4の音 ·ラベル対応付け装置およ ««求項 1 8の音 ·ラベル対応付け のための表示方法は、 音データによって表される音の性質を視覚的に表示するた めの音表示 »、 ラベルデ一タによって表されるラベルを表示するためのラベ 示郎を備え、 音表示部において, 音の区切りを表す区切りマークを表示するよう にしたことを特»としている, したがって、 音データの区切り位置を確 18しなが ら、 ラベルデータの入力、 表示等を行うことができる。
図面の筒単な説明 The sound / label associating device according to claim 14 and the display method for sound / label associating according to claim 18 are provided for visually displaying the properties of the sound represented by the sound data. Sound display », which is equipped with a label Jiro that displays a label represented by label data, and is characterized in that a delimiter mark indicating a sound delimiter is displayed on the sound display unit. Label data can be input and displayed while confirming the delimiter position of the sound data. Simple explanation of the drawing
図 1は、 この発明の位置実施例による音特性変換装置の表示画面を示す 0であ る。 FIG. 1 shows a display screen 0 of the sound characteristic conversion device according to an embodiment of the present invention.
図 2は、 この発明の一実施例による音質変换装置の全体構成を示す図である, 03は、 図 2の機能を実現するために C P Uを用いた »合のハードウエア構成 を示す図である。 FIG. 2 is a diagram showing an overall configuration of a sound quality conversion device according to an embodiment of the present invention. 03 is a diagram showing a hardware configuration in which a CPU is used to realize the functions of FIG. is there.
図 4は、 音特性変換装置の動作を示すフローチャートである。 FIG. 4 is a flowchart showing the operation of the sound characteristic conversion device.
図 5は、 音特性変換装置の動作を示すフローチャートである。 FIG. 5 is a flowchart showing the operation of the sound characteristic conversion device.
図 6は、 音声データと関連づけて記ほされたラベルデータを示す図である, 図 7は、 音声データの記慷状饍を示す図である。 FIG. 6 is a diagram showing label data written in association with audio data. FIG. 7 is a diagram showing a useful state of audio data.
図 8は、 C R T 1 6に表示されたラベルを示す図である。 FIG. 8 is a diagram showing a label displayed on CRT16.
図 9は、 視覚的修飾と音質変换内容との対応関係を示す図である。 FIG. 9 is a diagram showing the correspondence between the visual modification and the sound quality change content.
図 1 0は、 修飾データが付加されたラベルデータを示す図である, FIG. 10 is a diagram showing label data to which modification data is added.
図 1 1は、 視覚的修飾が施されたラベルを示す面である。 Figure 11 is the side showing the label with the visual modification.
図 1 2は、 音声データの区分けを説明するための図である。 FIG. 12 is a diagram for explaining the division of audio data.
図 1 3は、 ピッチ変換の処理を示す図である, Fig. 13 is a diagram showing the pitch conversion process.
図 1 4 Aは、 ピッチ変換前の音源波形を示す図である, Figure 14A shows the sound source waveform before pitch conversion.
図 1 4 Bは、 ピッチ変換後の音源波形を示す図である, Figure 14B is a diagram showing the sound source waveform after pitch conversion.
図 1 5 Aは、 パワー変更前の音声データおよびその短時間区間平均パワーを示 す Eである。 Figure 15A is E that shows the voice data before the power change and its short-term average power.
図 1 5 Bは、 パワー変更後の音声データおよびその短時 TO区間平均パワーを示 す 0である, Figure 15B is 0, which shows the voice data after the power change and its short-time TO section average power.
図 1 6 Aは、 元の音声データを示す図である。 FIG. 16A shows the original audio data.
0 1 6 Bは、 音の時間長さを変更した音声データを示す図である 0 16 B is a diagram showing audio data in which the duration of the sound has been changed.
図 1 6 Cは、 ビブラートを施した音声データを示す図である。 FIG. 16C is a diagram showing audio data subjected to vibrato.
図 1 7は、 アイコンに対して fiEfldiとして用いる記号の例を示す図である。 図 1 8は、 音の傾序の入れ ¾fえを示す図である。 FIG. 17 is a diagram showing an example of a symbol used as fiEfldi for the icon. FIG. 18 is a diagram showing how the inclination of the sound is inserted.
図 1 9は、 日本薛に対する区切り処理の例を示す図である。
図 2 0は、 ラベルごとの区分の例を示す図である。 FIG. 19 is a diagram illustrating an example of the delimitation process for Nissei. FIG. 20 is a diagram showing an example of classification for each label.
図 2 1は、 音声伝送装置の一実施例を示す図である, FIG. 21 is a diagram showing one embodiment of a voice transmission device.
図 2 2は、 困 2 1の実施例において伝送されるデータの例を示す図である, 図 2 3は、 修飾データを符兮化したテーブルを示す図である。 発明を実 »するための最良の形態 FIG. 22 is a diagram showing an example of data transmitted in the embodiment of the problem 21. FIG. 23 is a diagram showing a table in which the modified data is converted into a code. Best mode for carrying out the invention »
図 2に、 この発明の一実施例による音質変換装置の全体構成を示す, 音データ 区分手段 2は、 入力された音データを、 音の区切りに基づいて区分けする, ラベ ノ^ータ区分手段 4には、 音の区切りに対応する区切り符号が付されたラベルデ —タが入力される。 ラベ Λ ^—タ区分手段 4は、 このラベルデータを区切り符号 に基づいて区分けする. 区分けされた音データと、 区分けされたラベルデータは、 対応形成手段 6に入力され、 区分ごとに互いに対応づけられる。 対応づけられた 音データとラベルデータは、 音 ·ラベノ^持手 S 8に保持される, FIG. 2 shows the overall configuration of a sound quality conversion apparatus according to one embodiment of the present invention. Sound data classification means 2 classifies input sound data based on sound divisions, and label data classification means. In 4, label data with a delimiter corresponding to the sound delimiter is input. Labeling means 4 classifies the label data based on the delimiter code. The classified sound data and the classified label data are input to the correspondence forming means 6 and are associated with each other for each division. Can be The associated sound data and label data are stored in the sound
表示制御手段 1 0は、 各区分に対する修飾データを受けて、 対応するラベノ ータを修飾し、 修飾されたラベルを表示手段 1 4に表示する, これにより、 どの 区分に対してどのような修飾が施されたのかを、 容易に確 することができる, 変換手段 1 2は、 各区分に対する修飾データを受けて、 対応する耷データを修飾 し、 修飾された音データを出力する, The display control means 10 receives the modification data for each division, modifies the corresponding labeler, and displays the modified label on the display means 14. The conversion means 12 receives the modification data for each section, modifies the corresponding 耷 data, and outputs the modified sound data,
図 3に、 02の構成を、 C P Uを用いて実現した »合のハードウェア構成を示 す, バスライン 4 0には、 表示手段である C R T 1 6、 C P U 1 8、 音'ラベル データ保持手段であるメモリ 2 0、 入力インターフェイス 2 2、 ハードディスク 2 4、 出力インターフェイス 2 6、 フロッピーディスクドライブ (F D D) 1 5 が接 されている。 入力インターフェイス 2 2には、 AZDコンバータ 2 8を介 して、 マイク 3 0が接統されている。 また、 入力インターフェイス 2 2には、 キ 一ボード 3 2、 マウス 3 4も接統されている · 出力インターフェイス 2 6には、 DZAコンバータ 3 6を介して、 スピーカ 3 8が接統されている, ハードデイス ク 2 4には、 図 3、 図 4にフローチャートを示したプログラムが格納されている, なお、 このプログラムは、 F DD 1 5によってフロッピーディスク (記 »媒体) から、 ハードディスク 2 4にインストールされたものである。 もちろん、 C D—
ROM等の JE録媒体からインストールするようにしてもよい。 メモリ 20は、 音'ラベルデータ保持手段であるとともに、 プログラムを実行するためのワーク エリアとしても用いられる。 Fig. 3 shows a hardware configuration that realizes the configuration of 02 using a CPU. The bus line 40 has display means such as CRT 16 and CPU 18 and sound and label data holding means. Memory 20, input interface 22, hard disk 24, output interface 26, and floppy disk drive (FDD) 15 are connected. A microphone 30 is connected to the input interface 22 via an AZD converter 28. The input interface 22 also has a keyboard 32 and a mouse 34 connected to it.The output interface 26 has a speaker 38 connected to it via a DZA converter 36. The hard disk 24 stores a program whose flow chart is shown in FIGS. 3 and 4. The program is installed on the hard disk 24 from a floppy disk (recording medium) by the FDD 15. It is a thing. Of course, CD— It may be installed from a JE recording medium such as a ROM. The memory 20 is used as a sound / label data holding unit and also as a work area for executing a program.
図 4および図 5にしたがって、 CPU 18の処理勖作を ftt明する。 まず、 ステ ッブ S 1において、 マイク 30により音声信号 (アナログ音声データ) が入力さ れる, CPU 18は、 音声信号が入力されると、 A/D変換器 28により変換さ れたディジタ Λ ^—タ (ディジタル音声データ) を取り込む。 さらに、 CPU1 8は、 この音声データの波形を CRT 16の音表示部 80に表示する。 この表示 状態を、 図 1に示す。 According to FIGS. 4 and 5, the processing operation of the CPU 18 will be described. First, in step S1, an audio signal (analog audio data) is input by the microphone 30. When the audio signal is input, the CPU 18 converts the digital signal converted by the A / D converter 28 into a digital signal. Data (digital audio data). Further, the CPU 18 displays the waveform of the audio data on the sound display section 80 of the CRT 16. This display state is shown in FIG.
次に、 このディジタノレ音声データを、 音の区切りに基づいて区分けする (ステ ップ S 2) . この 分けは、 次のようにして行う。 たとえば、 「Hi my name is John Nice to meet youj という音声が入力されたとする。 この時得られたデイジ タメ!^声データが図 12の上段のようであったとする。 なお、 図 12の上段はデ イジタル音声データの波形表示である, CPU 18は、 このディジタノレき声デー タに基づき、 その短時間区問平均パヮ一を算出する。 算出された短時間区間平均 パワーを、 012の下段に示す。 Next, the digital audio data is divided based on sound divisions (step S2). This division is performed as follows. For example, suppose that the voice “Hi my name is John Nice to meet youj” is input. The digital data obtained at this time is as shown in the upper row of FIG. 12. The upper row of FIG. The CPU 18, which is a waveform display of the digital voice data, calculates the short-term average average power based on the digital voice data.The calculated short-time average power is shown in the lower part of 012. .
次に、 CPU 18は、 データレベルとスキップレベルの 2つのしきい値に基づ いて、 区分けを行う。 区分け終了の後、 短時間区間平均パワーが、 l OOmS以 上速統してデータレベルを越えた »合には、 区分けの始りとする, また、 区分け 始まりの後、 短時間区間平均パワーが、 8 OmS以上連統してスキップレベルを 下回った場合には、 区分けの終了とする。 このようにして、 区分けを行う, なお、 この実施例では、 データレベルを 50dB、 スキップレベルを 40 d Bとした, 上記区分けに基づき、 囡 12に示すように, 220mS〜56 OmSが第 1区 分、 630tnS〜189 OmSが第 2区分、 2060mS〜239 OmSが第 3 区分であると決定できる。 CPU 18は、 決定した区分に基づき、 CRT16の 音表示都 80の波形上に、 区分位置を示すライン 84 a、 84 b, 84 c、 84 dを表示する (回 1参照) β Next, the CPU 18 performs classification based on two thresholds of a data level and a skip level. After the end of the segmentation, if the short-term average power exceeds the data level for more than lOOmS, then the segmentation starts. After the segmentation starts, the short-term average power increases. If the value falls below the skip level for 8 OmS or more consecutively, the classification is terminated. In this manner, the division is performed. In this embodiment, the data level is set to 50 dB and the skip level is set to 40 dB. Based on the above classification, as shown in FIG. It can be determined that 630tnS to 189 OmS is the second category, and 2060mS to 239 OmS is the third category. CPU 18 is based on the determined division, on the waveform of the sound display Prefecture 80 of CRT 16, a line 84 represents a distribution position a, 84 b, 84 c, 84 d displays (see times 1) beta
また、 CPU 18は、 この区分けしたディジタル音声データを、 メモリ 20に 記憶する (ステップ S3) β メモリ 20に記 tSされた各音声データを、 図 7に示
す, 第 1区分はアドレス ADR S 1以下に、 第 2区分はアドレス ADR S 2以下 に、 第 3区分はアドレス ADRS 3以下に、 それぞれ記 βされている。 The CPU 18 stores the divided digital audio data in the memory 20 (step S3). Each audio data recorded in the β memory 20 by tS is shown in FIG. The first section is described below the address ADRS 1, the second section is described below the address ADRS 2, and the third section is described below the address ADRS 3.
次に、 図 1に示す CRT 16のラベル表示郎 82に対し、 キーボード 32から、 上記の音声データに対応するラベルデータを入力する (ステップ S 4) · この BR、 上記音声の区切りと同じ位置に、 区切り符号として句読点を付して入力する · た とえば、 上記の音声データに対してなら、 「 Hi, ray name is John. Nice to meet you. J と入力する, CPU 18は、 この入力を受けて、 ラベルデータを句読 点にした力 sつて、 Γ Hi J Γ my name is John J 「 Nice to meet you J の 3つ に、 区分する。 Next, the label data corresponding to the above sound data is input from the keyboard 32 to the label display 82 of the CRT 16 shown in FIG. 1 (step S4). Enter with punctuation as a delimiter. For example, for the above audio data, enter “Hi, ray name is John. Nice to meet you. J. received, the force s go-between in which the label data to the punctuation point, three of Γ Hi J Γ my name is John J "Nice to meet you J, is divided.
この実施例では、 図 1に示すように、 音声データに対する区分位置を示すライ ン 84 a, 84 b, 84 c, 84 dを表示するようにしている。 したがって、 ラ ベルデータを入力する際に、 これに対応づけて区切り符^を入力することが容易 である。 In this embodiment, as shown in FIG. 1, lines 84a, 84b, 84c, and 84d indicating the division positions for the audio data are displayed. Therefore, when inputting label data, it is easy to input the delimiter ^ in association with this.
CPU18は、 区分したラベ/ ^ータを、 順次、 区分した音声データに対応づ けて記使する (ステップ S 5) . すなわち、 図 6に示すように、 各ラベルデータ とともに、 対応する音声データの先頓アドレスが記镓される, The CPU 18 sequentially writes the divided labels / data in correspondence with the classified audio data (step S5). That is, as shown in FIG. The first address of the
なお、 音声データの区分数とラベルデータの区分数が合致しない場合には、 ラ ベノ^ータの区分数に基づいて音声データの区分数を修正することが好ましい, すなわち、 音声データの区分けのしきい値 (データレベルとスキップレベル) を 変更して、 再度音声データの区分を行い、 区分数を合致させるようにすればよい。 あるいは、 ラベ —タの文字数から推測して、 音声データの区分位置を新たに 設定したり, 削除したりして、 区分数を合致させてもよい。 また、 マウス 30や キ一ボード 32を用いて、 ^者が区分けを修正するようにしてもよい, If the number of audio data divisions does not match the number of label data divisions, it is preferable to correct the number of audio data divisions based on the number of label data divisions. The thresholds (data level and skip level) should be changed and the audio data should be re-classified to match the number of categories. Alternatively, by inferring from the number of characters in the label, the position of the audio data may be newly set or deleted to match the number of segments. Also, the person may correct the division using the mouse 30 or the keyboard 32.
次に、 CPU18は、 入力されたラベノ ータに基づくラベルを、 CRT16 のラベU¾示 «?82 (図 1参照) に表示する (ステップ S 6) 。 表示されたラベ ルを、 図 8に示す。 次に、 者は、 この表示されたラベルに対して、 各音特性 変換の内容に対応して予め定められた視覚的修飾を施す。 視覚的修飾と音特性変 换の対応の例を図 9に示す。 これを対応テーブルとして記慷しておけば、 この内 容を変えることにより、 視覚的修飾と音 ^変換の対応関係を変更することがで
きる。 なお、 図 8の内容は、 図 1に示すように、 CRT 16上にアイコンとして 表示されているので、 ガイダンスとなって操作が容易である。 Next, the CPU 18 displays a label based on the input labeler on the label U display 82 of the CRT 16 (see FIG. 1) (step S6). Figure 8 shows the displayed label. Next, the user applies a predetermined visual modification to the displayed label in accordance with the content of each sound characteristic conversion. Figure 9 shows an example of the correspondence between visual modification and sound characteristic variation. If this is useful as a correspondence table, it is possible to change the correspondence between visual modification and sound ^ conversion by changing this content. Wear. Note that the contents of FIG. 8 are displayed as icons on the CRT 16 as shown in FIG. 1, so that guidance is provided for easy operation.
Γ my name is John J の «J分のみ、 パワーを上げたい場合には、 次のような操 作を行う。 まず、 キーボード 32またはマウス 34を用いて、 図 1のラベル表示 部 82の Γ ay name is John J の部分を選択する。 次に、 選おした 「 my name is John j の郎分を、 強 W文字にするアイコン 90をマウス 34によってクリツ クする。 これにより、 図 10に示すように、 メモリ 20には Γ my name is John j に対して修飾データ 「\強調』 が付加される, なお、 ここで、 「\j は、 次以降の文^が、 制御コード (修飾データ) であることを示す符号である, CPU18は、 ステップ S 7において、 この修飾データに基づいて修飾された ラベルを CRT 16のラベル表示部 82に表示する (図 1 1参照) 。 図 11から 明らかなように、 特性変換の施される苗所、 およびその内容を容易に確 »するこ とができる。 Γ my name is If you want to increase the power only for John J's «J, perform the following operation. First, using the keyboard 32 or the mouse 34, select a part of “ラ ベ ル ay name is John J” in the label display part 82 of FIG. Next, click on the selected icon “my name is John j”, using the mouse 34, as an icon 90 to make it a strong W character. As shown in FIG. 10, メ モ リmy name is Modification data "\ emphasis" is added to John j, where "\ j is a code indicating that the following sentence ^ is a control code (modification data). In step S7, the label modified based on the modification data is displayed on the label display section 82 of the CRT 16 (see FIG. 11) .As is clear from FIG. , And its contents can be easily ascertained.
次に、 CPU18は、 010に示すラベルデータの ft初の区分を読み出し、 先 頭アドレス ADRS 1に基づいて、 対応する音声データを読み込む (ステップ S 8) 。 これにより、 012に示す Γ Hi j の部分のディジタル音声データが、 狭 み出される, 次に、 当該ラベルデータに対し、 データが付加されている力 かを判 Wfl"る (ステップ S 9) 。 ここでは、 ^データが付加されていないので、 ステップ S 1 1に進む。 Next, the CPU 18 reads the first ft section of the label data indicated by 010, and reads the corresponding audio data based on the first address ADRS1 (step S8). As a result, the digital audio data in the portion of Γ Hi j indicated by 012 is narrowed out. Next, it is determined whether the label data is added to the label data (Wfl ") (step S9). Here, since no ^ data is added, the process proceeds to step S11.
ステップ S I 1において、 CPU18は、 全ての区分について処理したか否か を判断する, まだであれば、 次の区分について (ステップ S 12) 、 ステップ S 8以下を »返して実行する, 次の区分 Γ my name is John J に対しては、 修飾デ —タ が付加されている。 したがって、 ステップ S 9から、 ステップ S 10に進む β In step SI1, the CPU 18 determines whether or not processing has been performed for all sections. If not, the next section (step S12) returns and executes steps S8 and subsequent steps.修飾 Qualified data is added to my name is John J. Therefore, from step S9, proceed to step S10.
ステップ S 10においては、 Γ my name is John J のディジタル音声データに 対し、 「ヽ! WWJ について予め定められた特性変换を実行する, ここでは、 囡 9 のテーブルに従って、 音声データに対しパワーの塘加が施される。 パワーの墙大 は、 ディジタル音声データによって示される波形の振蜴を大きくすることにより、 行っている。 このようにして特性変換された音声データは、 再び、 図 7のァドレ
ス ADR S 2以下に記使される (オリジナルの音声データを保持するため、 他の アドレスに記 USするようにしてもよい) . In step S10, a predetermined characteristic change is performed on “デ ィ ジ タ ル! WWJ” for the digital voice data of Γ my name is John J. Here, the power of the voice data is calculated according to the table of 囡 9. The power is increased by enlarging the waveform of the waveform represented by the digital audio data. Adre ADR S2 and below (may be recorded at another address to retain the original audio data).
全ての区分についての処理が終了すると、 CPU18は、 音質変換を施したデ イジタ /^声データを、 出力インターフェイス 26から出力する (ステップ S 1 3) β 図 15 Αに特性変換前の音声データを、 図 15 Bに特性変換後の音声デー タを示す。 Γ my name is John J の部分のパワーが大きくなるよう変換されてい ることが分かる。 このように変換されたディジタル音声データが D/ A変 «WI 3 6によってアナログ音声データに変換され、 スピーカ 38から特性変換された音 声として出力される。 つまり、 Γ my name is John J の部分が大きくなって出力 される。 When the processing for all segments completed, CPU 18 is a de Ijita / ^ voice data subjected to sound quality conversion is outputted from the output interface 26 (Step S 1 3) beta audio data before characteristic conversion in Figure 15 Alpha Figure 15B shows the audio data after the characteristic conversion. Γ You can see that the power of my name is John J has been converted to be larger. The digital audio data thus converted is converted into analog audio data by the D / A converter WI 36, and is output from the speaker 38 as voice whose characteristics have been converted. That is, Γ my name is John J is enlarged and output.
上記のように、 ラベルに対して視覚的修飾を施すだけで、 音 «の変換を行うこ とができ、 操作が極めて容易である, さらに、 どの区分に対して、 どのような音 変換が施されているのかを容易に できる。 As described above, sound can be converted simply by applying visual modification to the label, making operation extremely easy. In addition, what kind of sound conversion is applied to which category Can be easily done.
なお、 同様にして、 ピッチの上界も行うことができる。 この場合には、 ピッチ を上昇させたい部分を透択した後、 アイコン 92を選択すればよい (図 1参照) β ピッチ上界の処理手順を、 図 13に示す。 CPU18は、 まず、 対象となるデ イジタル音声データに対して、 綠形予測分析 (LPC) を行い、 耷声データを音 源データと声道伝逢特性データとに分離する, 次に、 分離した音源データに対し て、 ピッチの変更を施す。 その後、 声道伝達特性データと再合成し、 ピッチ上昇 の施されたディジタル音声データを得る。 なお、 線形予測分析に閣しては、 "音 声の 予測" (J.D. arker.A.H.Gray.Jr¾, 鈴木久 «釈、 コロナ社) が咩しい, 図 14に、 ピッチ上昇前のディジタル音声データの一部分と、 ピッチ上昇後のデ ィジタル音声データの一部分を示す β In the same manner, the upper bound of the pitch can be set. In this case, select the icon 92 after selecting the part where the pitch is to be increased (see FIG. 1). FIG. 13 shows the procedure for processing the upper bound of the β pitch. The CPU 18 first performs morphological prediction analysis (LPC) on the target digital voice data, and separates the vocal data into sound source data and vocal tract transmission characteristic data. The pitch of the sound source data is changed. After that, it is re-synthesized with the vocal tract transfer characteristic data to obtain digital voice data with an increased pitch. For linear prediction analysis, “voice prediction” (JD arker.AHGray.Jr¾, Hisashi Suzuki, Corona Co.) is common. Figure 14 shows a part of the digital voice data before the pitch rise. And β indicating a part of the digital voice data after the pitch rise
その他の音特性の変換例を、 図 16Α、 図 16Β、 図 16Cに示す, 図 16 A は変換前の音声データであり、 図 16Bは 「 my nane is John J に関し、 音の時 RI長を変更した後の音芦データである。 ラベルの大きさが時 1«*に対応するよう に処理されている, Other examples of conversion of sound characteristics are shown in Fig. 16 変 換, Fig. 16Β, and Fig. 16C. Fig. 16A shows the audio data before conversion. Fig. 16B shows "my nane is John J. The label size has been processed to correspond to the time 1 «*.
図 16Cは Γ my name is John」 に関し、 ビブラートを施した後の音声データ である。 ラベルに対して下線が付されている * 下線の によって、 ビブラート
の種類を変えるようにしてもよい。 Figure 16C relates Γ m y name is John ", a voice data after the vibrato. Label is underlined * Underlined by vibrato May be changed.
全ての音特性変换について述べることは、 κ明上困難であるため省略したが、 本発明はその他の音特性変換一般を対象とするものである。 なお、 周波数 «域に おける音特性変换を施す場合には、 F F T等によって用波数スベタトラムを得て、 処理を行えばよい β The description of all the sound characteristic changes is omitted because it is difficult in terms of κ, but the present invention is directed to other sound characteristic conversions in general. Incidentally, in the case of performing the sound characteristics Hen换the definitive frequency «zone, with the use wavenumber Subetatoramu by FFT or the like, processing may be performed β
音特性変換としては、 上記のように主として音質を変更するものの他、 音の順 序を変えたり、 音の一部を削除したり、 操り返したりする処理も含むものである β たとえば、 0 1 8に示すように、 音と対応づけられたラベルの順序を入; える ことにより、 音の出力順序を変えるようにしてもよい。 この例では、 「 Hi my name is John Nice to meet you J を Γ Hi Nice to meet you ray name isThe sound characteristic conversion, others to change primarily quality as described above, changing the order of sounds, or remove some sounds, beta such as those including processing or return manipulation, 0 1 8 As shown, the order of output of sounds may be changed by entering the order of labels associated with sounds. In this example, `` Hi my name is John Nice to meet you J Γ Hi Nice to meet you ray name is
John j に変更している. 同じようにして、 ラベルを削 ることにより音を削除 したり、 ラベルを複製することにより音を操り返したりすることができる, また, 上 IB実施例では、 ラベルとして文字列を例に取って説明したが、 12 、 符号等でもよく、 アイコン等を用いてもよい。 また、 その修飾の方法も、 音声の 男性化の場合には図 1 7 Aの男性に対するマークを、 女性化の場合には図 1 7 B の女性に ¾M "るマークを、 対象とするアイコンに重ねあわせるようにして行って もよい。 John J. In the same way, the sound can be deleted by deleting the label, and the sound can be replayed by duplicating the label. Although the description has been made using a character string as an example, a symbol 12, etc. may be used, and an icon may be used. In addition, in the case of voice masculinization, the mark for men is shown in Fig. 17A, and in the case of feminization, the symbol る M "for women is shown in Fig. 17B. It may be done so as to overlap.
あるいはまた、 面面上に表示された顔写真に対応づけて音 K変換の内容を定め ておき、 マウス等によって顔写真を選択することにより、 音 5Γ変換の内容を決定 するようにしてもよい。 Alternatively, the content of the sound K conversion may be determined in association with the face photo displayed on the surface, and the content of the sound 5 表示 conversion may be determined by selecting the face photo using a mouse or the like. .
さらに、 上 2S実旌例では、 音声について説明したが、 楽音や風の音、 波の音等 の自然音等の全ての音に対して適用可能である. Furthermore, although the sound was described in the above 2S example, it can be applied to all sounds such as natural sounds such as musical sounds, wind sounds, and wave sounds.
また、 上記実施例では音をマイク 3 0から入力しているが、 ラベルデータに基 づいて、 音を合成するようにしてもよい, この際には、 ラベルデータに基づいて 基本音を合成し、 当該ラベルデータに施された ^内容に基づき、 合成された基 本音を特性変換して出力する。 あるいはまた、 L P Cパラメータ等によって音を データとして記述して与えるようにしてもよい。 In the above embodiment, the sound is input from the microphone 30. However, the sound may be synthesized based on the label data. In this case, the basic sound is synthesized based on the label data. Based on the ^ content applied to the label data, the synthesized basic sound is converted into a characteristic and output. Alternatively, the sound may be described as data using an LPC parameter or the like.
上記の例では、 英語の耷声について躭明したが、 本発明は言語を問わずに適用 可能である。 図 1 9に、 日本語の 「はい わかりました ありがとうございまし
た J という音声入力に対する区分けの ½理状態を示す。 In the above example, English voice has been described, but the present invention is applicable regardless of language. Figure 19 shows the Japanese word "Yes It shows the processing state of the classification for the voice input J.
なお、 上記各実施例においては、 区分ごとに鶴を施して、 音質変換をするよ うにしている, し:^し、 各区分内のラベノ^—タの数に基づいて、 音声データを 耷節ごとに区分すれば、 各音節ごとに音質変換を施すことが可能となる, このよ うなさらに細かい区分けを、 Γたっする j という B本麻の音声入力を例にとって Ift明する (もちろん、 他の言 Rにも適用可能である) , In each of the above embodiments, the sound quality is converted by applying a crane to each section. Then, the sound data is converted into 耷 based on the number of lab notes in each section. If it is divided into syllables, it will be possible to perform sound quality conversion for each syllable. Such finer divisions will be described ift, taking the example of the B-Honma voice input of j Is also applicable to the statement R)
まず、 何人かの被 »者にラベルの各要素を発声させた場合の平均継統時聞長を 計測しておく。 これを、 表 1に示すテーブルとしてハードディスク 2 4に予め記 «しておく。 First, we measure the average successive length of time when some subjects uttered each element of the label. This is described in advance in the hard disk 24 as a table shown in Table 1.
[以下余白]
[Margins below]
表 1 table 1
カテゴリ 要素 平均維練時間長 Category Element Average training time
(傷差) か、 き、 く、 け、 こ 、 さ、 し, す、 せ、 そ、 た、 ち、 つ、 て、 (Scratch),,,,,,,,,,,,,,,,,
と、 な、 に、 ね、 ね、 の、 は、 ひ、 ふ、 へ、 ほ、 ま、 み、 む、 ,,,,,,,,,,,,,,,,,,,
c v め、 も、 や、 ゆ、 よ 、 ら、 り、 る、 れ, ろ、 わ、 が、 ぎ、 ぐ、 204. 0ms げ、 ご、 ざ、 じ、ず、ぜ、 ぞ、 だ、 ぢ、 づ、 で、 ど、 ば、 ぴ、 (40. 0ms) ぶ、 ベ、 ぼ、 ぱ、 び, ぶ、 ぺ、 ぼ、 しゃ、 しゅ、 しょ « りャ、 cv,,,,,,,,,,,,,,,,, 204.0 ms,,,,,,,, ,,,,,,, ぴ, (40.0 ms), ベ, 、, 、, ぱ, ,, 、, ぺ, 、, し ゃ, ゅ, ゅ, り,
ちゆ、 ちょ, じヰ、 じゅ、 じょ、 ちゃ、 ぢゅ、 ぢょ Chiyu, cho, ju, ju, jo, cha, ぢ ゅ, ぢ
さや、 きゆ、 きょ、 にや、 にゆ、 によ、 ひや、 ひゆ、 丄、 Pods, pods, pods, pods, pods, pods, pods
C Y V みや、 みゆ、 みよ、 りや、 りゆ、 りよ、 ぎや, ぎゆ、 ぎよ、 169. 3ms C Y V Miya, Miyu, Miyo, Riya, Riyu, Riyo, Giya, Giyu, Giyo, 169.3ms
びや、 びゆ、 びよ、 びや、 びゆ、 びよ (19. 6ms) つか, つき、 つ , つけ、 つこ、 つさ、 つし、 つす、 つせ, や, ゆ, よ, 、, び, び (19.6 ms),, 、, ,, 、, こ, つ, つ, 、, つ, つ
つそ、 つ , つち、 ゥっ、 つて、 つと、 つは、 つひ、 つふ、 Tsutsu, tsu, tsu, tsu, tsu, tsu, tsu, tsu, tsu,
つへ、 つほ、 つや、 つゆ、 つよ、 つら、 つり、 つる、 つれ, To, Tsuho, Tsuya, Tsuyu, Tsuyo, Tsuru, Tsuru, Tsuru, Tsuru,
DV つろ、 つわ、 つが、 つぎ、 つぐ、 つげ、 つご、 つざ、 つじ、 381. 0ms つず、 っぜ、 っぞ、 つだ、 つ 、 つつ、 つで、 つど、 つば、 (49. 4ms) び、 づぶ, ·^. つぼ、 ■ tf, び ¼ つぶ、 つへ、 っぽ、 DV Tsuru, Tsutsumi, Tsutsugi, Tsuki, Tsugu, Tsutsugi, Tsutsugo, Tsutsuji, Tsuji, 381.0 ms, Tsutsu, Tsutsu, Tsutsuda, Tsu, Tsutsutsu, Tsutsu, Tsutsumi, (49 . 4ms) beauty, Dzubu, - ^. pot, ■ tf, fine ¼ grain, Tsue, whiff,
つしや、 つしゆ、 つしよ、 つちや、 つ ゆ、 つちょ, つじや, Tsushiya, Tsushiyu, Tsushiyo, Tsuchiya, Tsuyu, Tsucho, Tsujiya,
つじゆ、 つじよ, つちゃ、 つちゆ、 つりよ Tsujiyu, Tsujiyo, Tsucha, Tsuchiyu, Tsuriyo
つきや、 つきゆ、 つきょ、 つひや, つひゆ、 つひよ、 つりや、 Tsukiya, Tsukiyu, Tsuyo, Tsuhiya, Tsuhiyu, Tsuhiyo, Tsuriya,
D Y V つりゆ、 つりよ、 つぎや、 つ Sゆ、 つ Sよ、 つびや、 つびゆ、 356. 3ms D Y V Tsuriyu, Tsuriyo, Tsujiya, Tsu Syu, Tsu Syo, Tsubiya, Tsubyu, 356.3ms
つびよ、 つびや、 つびゆ、 つびよ (24. 2ms) Tsubyo, Tsubaya, Tsubyu, Tsubyo (24.2ms)
V あ、 い、 う、 え、 お 143. Bins V Oh, I, U, E, O 143. Bins
(34. 0ms) (34.0 ms)
N ん 118. 5ms N 118.5 ms
(29.4ms)
まず、 入力された音声データ 「たっする」 の全時間長 τを実 JWする。 ここでは、 たとえば、 実測した全時 IW長 Tが 802msであったとする, 次に、 音声データ に対応付けられたラベルデータ 「たっする j の各要素を、 ¾1にしたがってカテ ゴリに分る。 つまり、 「た j Γつす」 Γる j に分解し、 それぞれ、 カテゴリ CV、 DV、 CVであると判 »f"fる。 CPU18は、 表 1に基づき、 各要素の平均 Kfett 時閱長 t l、 t 2、 t 3を合計する。 ここでは、 204.0ns+381.0ms+204.0ms= 789. Omsが得られる。 さらに、 この合計時間長 tと各要素の平均時 K長 t 1、 t 2, t 3に基づき、 各要素の時問畏割合 r 1、 r 2、 r 3を算出する, たとえば、 耍 素 「た」 の時間長割合 r 1は、 204.0/789.0である。 同様に、 要素 「つす J 「る』 の時 長割合 r 2、 r 3は、 それぞれ、 381.0/789.0、 204.0Z789.0であ る * (29.4ms) First, the total time length τ of the input voice data “tatsuru” is actually JWed. Here, for example, it is assumed that the measured IW length T at all times is 802 ms. Next, each element of the label data “j” which is associated with the audio data is classified into categories according to ¾1. , J た j Γ 」分解 j Γ 、 カ テ ゴ リ カ テ ゴ リ カ テ ゴ リ カ テ ゴ リ カ テ ゴ リ カ テ ゴ リ カ テ ゴ リ CPU カ テ ゴ リ カ テ ゴ リ CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU CPU. , T2, and t3, where 204.0ns + 381.0ms + 204.0ms = 789.Oms is obtained, and the total time length t and the average time K length t1, t2 of each element are obtained. Based on t 3, calculate the time ratios r 1, r 2, and r 3 of each element. For example, the time length ratio r 1 of the element “ta” is 204.0 / 789.0. Similarly, the time ratios r 2 and r 3 of the element “sutsu J” are 381.0 / 789.0 and 204.0Z789.0, respectively. *
このようにして算出した各要素の時間長割合 r 1、 r 2、 r 3に基づいて、 実 測した全時問長 Tを各要素に配分する。 たとえば、 要素 「た j に配分される実時 問 T1は、 Based on the time length ratios r1, r2, and r3 of each element calculated in this way, the measured total time length T is allocated to each element. For example, the real-time question T1 allocated to the element "
T 1 =T · r 1 T 1 = Tr 1
で算出される。 要素 Γつす j 「る』 に配分される実時 TOT 2、 T 3も同様に、 Is calculated. The real-time TOT 2 and T 3 allocated to the element j
T 2 = T · r 2 T 2 = Tr 2
T3=T · r 3 T3 = Tr3
として算出される, このようにして算出した実時 ΜΤ1、 Τ2、 Τ 3に基づいて、 図 20に示すように音声データを区分する, 以上のような処理を行うことにより、 より詳細に (ラベルの耍索ごとに) 音声データを区分し、 ラベルと対応付けるこ とができる (洋細対応の形成) · したがって、 ラベルの要素単位で、 耷の特性変 换を施すことが可能となる。 たとえば、 「る」 のみに下線を付けて^すること により、 「る j のみにビブラートを施すことができる。 Based on the real-time ΜΤ1, Τ2, and 算出 3 calculated in this way, the audio data is divided as shown in FIG. 20. By performing the processing described above, a more detailed (label Audio data can be classified (for each search) and associated with a label (formation of international standards). Therefore, it is possible to perform characteristic changes of colors on a label element basis. For example, you can apply vibrato only to "ru" by underlining only "ru" and ^.
このようにして、 簡易な方法で、 各音節ごとに区分することができる。 なお、 各音節を、 音声 »«手法を用いてより正確に推定するようにしてもよい。 In this way, it is possible to categorize each syllable in a simple manner. Note that each syllable may be estimated more accurately by using a speech »« method.
上 実施例では、 表示制御手段 10、 表示手段 14を 89:け、 ラベルデータに対 する を ¾»しながら行えるようにしている。 しかしながら、 これら手段 10、 14を Kけなくとも、 図 10のように修飾データの構造が分っていれば、 ^デ
ータを入力することが可能である。 この場合、 表示手段 1 4によって ^を することはできないが、 次のような効果を有する。 In the above embodiment, the display control means 10 and the display means 14 are set to 89 so that the label data can be displayed while performing the operations. However, even if these means 10 and 14 are not used, if the structure of the modification data is known as shown in FIG. Data can be entered. In this case, ^ cannot be displayed by the display means 14, but the following effects are obtained.
音データに対して、 修飾データを <H~ことも可能ではあるが、 耷データそのも のでは各音節の区分が明眛でないため、 所定の音節範囲にわたって音質変換を施 すことが困難である。 これに対し、 ラベルデータは、 文字間の区分 (各音節の区 分に対応している) が明瞭であり、 所定の音節範囲にわたって音 K変換を施すこ とが容易である。 すなわち、 所望の範囲にわたる音節に対して、 音質変換を施す ことが容易となる。 Modification data can be <H ~ for sound data, but it is difficult to perform sound quality conversion over a given syllable range because 音 syllables are not clear in the data itself. . On the other hand, in the label data, the division between characters (corresponding to the division of each syllable) is clear, and it is easy to perform sound K conversion over a predetermined syllable range. That is, it is easy to perform sound quality conversion on syllables in a desired range.
なお、 上記実施例では、 図 2の各ブロックの機能を実現するために C P Uを用 いているが、 その一部または全部をハードウェアロジックによって実現してもよ い. In the above embodiment, the CPU is used to realize the function of each block in FIG. 2, but a part or the whole may be realized by hardware logic.
図 2 1に、 音声伝送システムの一実施例を示す。 通信路 5 0を介して、 送信側 装 S 5 2と受信側装 S 6 0とが接統されている。 なお、 通信路 5 0は、 有線、 無 線を問わない。 送 (I側装 tt 5 2は、 キーボード等のデータ入力手段 5 4と通信手 段 5 6を備えている, また、 受倌側装置 6 0は、 標準音声データ生成手段 6 2、 通信手段 6 4、 変 段 6 6、 音声出力手段 6 8を備えている。 FIG. 21 shows an embodiment of the voice transmission system. The transmitting device S52 and the receiving device S60 are connected via the communication channel 50. The communication path 50 may be wired or wireless. Sending (I side device tt 52 includes data input means 54 such as a keyboard and communication means 56, and receiving side device 60 includes standard voice data generating means 62 and communication means 6 4, a stage 66 and audio output means 68 are provided.
以下、 ^側装置 5 2から受信側装置 6 0へ、 音声を伝送する場合を例にとつ て説明する。 まず、 データ入力手段 5 4から、 図 2 2のようなラベノ ^—タおよ び修飾データを入力する。 「\女性』 「\男性」 の部分は^ データであり、 こ の後に統く { } 内のラベルデータの音 R変換の内容を决定するものである。 こ の実施例では、 「\女性 j は女性的な声に変換することを意味し、 「\男性 j は 男性的な声に変换することを意味している, Hereinafter, a case where voice is transmitted from the ^ -side device 52 to the receiving-side device 60 will be described as an example. First, the data input means 54 inputs the label and the modification data as shown in FIG. The “\ female” and “\ male” parts are ^ data, which determine the content of the sound R conversion of the label data following {}. In this example, "\ female j means transforming into a feminine voice, and" \ male j means transforming into a masculine voice,
次に、 このデータは、 通信手段 5 6により、 通倌路 5 0を介して受信側装置 6 0に伝送される. 受信側装置 6 0の通信手段 6 4はこれを受信し、 これを一^ 持する · 標準耷声データ生成手段 6 2は、 保持されたデータを取得し、 その中か らラベノ I ^ータのみを取り出す。 ここでは、 「おはようございます」 「ごきげん いがですか J が取り出される。 標準音声データ生成手段 6 2は、 このラベルデ一 タに基づいて、 音声合成手法などにより、 これに対応する標準音声データを生成 する。
一方、 変換手段 6 6は、 通信手段 6 4に保持されたデータの中から修飾データ のみを取り出す。 ここでは、 「\女性 J Γ\男性」 が取り出される。 変換手段 6 6は、 標準音声データの対応する部分を、 この修飾データに基づいて、 音質変換 する。 データと音質変換の内容との関係は、 予め定められている。 ここでは、 「おはようございます」 が女性化された音声データに変換され、 「ごきげんいが ですか』 が男性化された音声データに変換される。 変换手段 6 6は、 このように して得られた音質変換データを出力する。 Next, this data is transmitted to the receiving device 60 via the communication channel 50 by the communication device 56. The communication device 64 of the receiving device 60 receives this, and The possession · The standard voice data generating means 62 acquires the retained data, and extracts only the Raveno I data from the data. Here, “Good morning” and “OK” are extracted. The standard voice data generating means 62 uses the voice data synthesis method based on this label data to generate the corresponding standard voice. Generate data. On the other hand, the conversion means 66 extracts only the decoration data from the data held in the communication means 64. Here, “\ female J Γ \ male” is retrieved. The conversion means 66 converts the sound quality of the corresponding part of the standard audio data based on the modified data. The relationship between the data and the content of the sound quality conversion is predetermined. Here, "Good morning" is converted to feminized voice data, and "Gekigenga is" is converted to masculinized voice data. And output the sound quality conversion data obtained.
音声出力手段 6 8は、 音質変換データをアナログ信号に変換し、 スピーカから 出力する, The audio output means 68 converts the sound quality conversion data into an analog signal, and outputs the analog signal from a speaker.
以上のようにして、 ¾ ^側装置 5 2から受信側装 fS6 0に向けて、 音声が伝送 される, この実施例によれば、 データ量の少ないラベルデータおよび修飾データ を送るだけで、 音声を送ることができる。 また、 標準的な声だけでなく、 修飾デ 一夕に £づいて、 所望の音 Wの声を送ることができる, As described above, the voice is transmitted from the ¾ ^ -side device 52 to the receiving-side device fS60. According to this embodiment, the voice is transmitted only by sending the label data and the modification data with a small data amount. Can be sent. Also, in addition to the standard voice, it is possible to send the voice of the desired sound W based on the modified de
従来の装置においては、 データ の多い音声データを送っていたので、 伝送速 度が gかったが、 この実施例によれば、 これを飛理的に向上させることができる · なお、 修飾データが である場合には、 当 飾データに符号を付して受信 側装 β 6 0に iStftしておき、 符号のみを送るようにしてもよい。 たとえば、 図 2 3に示すように、 \強翻 \斜体 \ 2 5ポイントという修飾データを、 「Aj とい う符哥で記 ftしておけば、 便利である, In the conventional device, the transmission speed was g because the voice data with much data was transmitted. However, according to this embodiment, the transmission speed can be improved significantly. In this case, a code may be attached to the decoration data and iStft may be applied to the receiving device β60, and only the code may be transmitted. For example, as shown in Fig. 23, it is convenient to write the modified data of \ inflection \ italic \ 25 points with the code "Aj ft,"
また、 送信側装 figにおいて、 ラベ/ ^ータに対してどのような修飾データが付 されているのかを確 Sするため、 図 2の実施例のように修飾データによってラベ ルを修飾し、 表示するようにしてもよい. In addition, in order to confirm what kind of modification data is attached to the label / data in the transmitting device, the label is modified with the modification data as in the embodiment of FIG. It may be displayed.
なお、 囡 2の実旌例において述べた種々の変形、 応用、 拡おは、 本実施例にも 遍用することができる, 例えば、 この実施例では伝送の対象を音声としているが、 その他の音^ Jftに速用することができる,
Note that the various modifications, applications, and expansions described in the actual example of 囡 2 can be applied to this embodiment as well. For example, in this embodiment, the transmission target is voice, Can be used for sound ^ Jft,