JPWO2013031677A1 - 発音動作可視化装置および発音学習装置 - Google Patents

発音動作可視化装置および発音学習装置 Download PDF

Info

Publication number
JPWO2013031677A1
JPWO2013031677A1 JP2013531279A JP2013531279A JPWO2013031677A1 JP WO2013031677 A1 JPWO2013031677 A1 JP WO2013031677A1 JP 2013531279 A JP2013531279 A JP 2013531279A JP 2013531279 A JP2013531279 A JP 2013531279A JP WO2013031677 A1 JPWO2013031677 A1 JP WO2013031677A1
Authority
JP
Japan
Prior art keywords
image
pronunciation
vocal tract
articulation
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013531279A
Other languages
English (en)
Other versions
JP6206960B2 (ja
Inventor
百合絵 入部
百合絵 入部
恒雄 新田
恒雄 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyohashi University of Technology NUC
Original Assignee
Toyohashi University of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyohashi University of Technology NUC filed Critical Toyohashi University of Technology NUC
Publication of JPWO2013031677A1 publication Critical patent/JPWO2013031677A1/ja
Application granted granted Critical
Publication of JP6206960B2 publication Critical patent/JP6206960B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B23/00Models for scientific, medical, or mathematical purposes, e.g. full-sized devices for demonstration purposes
    • G09B23/28Models for scientific, medical, or mathematical purposes, e.g. full-sized devices for demonstration purposes for medicine
    • G09B23/30Anatomical models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Algebra (AREA)
  • Quality & Reliability (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Chemical & Material Sciences (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

学習者の発音誤りを矯正することを容易にするため、学習者の音声から発音動作を可視化することができる装置を提供することであり、また、当該可視化装置を使用した学習装置を提供する。入力音声を取得する音声取得手段21と、音声取得手段により取得した音声データを声道パラメータ系列に変換する声道パラメータ変換手段26と、声道パラメータ系列を調音器官の輪郭を示す座標ベクトル系列に変換する座標ベクトル系列変換手段29と、座標ベクトル系列から調音器官の動作の画像を生成する画像生成手段と、画像生成手段により生成された画像を表示する画像表示手段とを含む。

Description

本発明は、発音動作可視化装置および発音学習装置に関するものである。
現在、語学教育において発音のトレーニングを行うために、音声認識技術を用いてユーザの発音誤りを指摘する自主学習用発音ソフトウエアが開発されていることは周知である。これらの発音ソフトウエアは、正しい発音方法のみを教示することが主であり、各学習者の発音方法の誤りに対して、発音器官やその動きをどのように矯正すべきであるのか的確に指示する機能を有していないものである。さらに、教示用コンテンツは、テキストや静止画による発音器官の状態を示すものが主であるため、詳細な発音動作を把握することは困難であった。
一方で、発音器官の動きを示すために動画ビデオやCGアニメーションを用いた発音ソフトウエアも開発されているが、それらは予め用意した正しい発音動作を表示するものであり、学習者自身の誤った発音動作を再現するものではなかった。
ところで、学習者の発音から、その発音が正しい調音器官の状態によるものであるかどうかを判定する技術が提案されている(特許文献1参照)。この技術は、学習者の音声から音響的特徴を抽出し、発音するときに起こり得る不正解の音素と正解の場合の音素との対を2値分類することで音素と調音的属性(口腔内の舌、唇、顎の状態などの組合せ)を推測するものであった。
また、発音学習のために正面の口唇と口腔内の発音動作をCGアニメーションによって可視化する研究も存在する(非特許文献1参照)。この研究は、各調音器官を最小単位とし、調音器官ごとの動きを予めアニメーションで表現しておき、音素ごとにそれらの調音器官のアニメーションを組み合わせるものである。そして、前後の音素に関する始端および終端の発音動作情報からモーフィング技術により音素間での調音器官の動きを補完するものであった。
特開2007−122004号公報 WO/2010/104040公報
Wong,K.H.,Lo,W.K. and Meng,H.(2011)."Allophonic variationsin visual speech synthesis for correctivefeedback in capt, "Proc.ICASSP2011,pp.5708-5711. http://www.prontest.co.jp/soft/ http://www.smocca.co.jp/SMOCCA/hatuon/
ところが、前掲の特許文献1に記載の技術は、前記のとおり、不正解の音素と正解の音素との対を2値分類することで音素と調音的属性を推測するものであることから、音素と調音的属性の認識は設定した音素対に依存した任意の属性に関するものに限定されていた。また、上記技術における音素認識手法が2値分類であることから、音素認識の精度に問題があり、その認識結果に基づいて抽出される調音的属性に良い影響を与えるものではなかった。さらに、この技術は、抽出した音素および調音的属性から動画アニメーションを生成するものではなかった。
他方、前掲の非特許文献1に記載の研究は、前記のとおり、調音器官ごとにアニメーション表現し、これを合成することによるものであることから、学習者が単語を入力すると、その単語に含まれる音素系列が単語辞書により抽出され、当該単語に対する正しい発音動作のCGアニメーションが自動的に生成されるものであった。従って、音声から調音運動を直接抽出し、その発音動作を可視化するものではなかった。また、学習者の音声からアニメーションを生成することがなく、調音器官の誤りや矯正方法を指導する機能を有するものではなかった。
なお、発音診断用のソフトウエアも存在しているが(非特許文献2および3参照)、これらは、学習者の音声を単語単位または注目音素のみに対して誤りを提示するものであり、誤りの内容や、矯正方法については、テキストや静止画によって指示しているものであって、学習者は発音器官の動きや具体的な矯正方法を理解することは困難であった。
さらには、本願の出願人は、音声合成に関する技術(特許文献2参照)を開発したが、この音声合成技術は、入力音声から直接抽出した調音特徴系列データを声道パラメータ系列に変換し、音声合成する技術であることから、学習者が発した音声から検出される調音特徴の相違、すなわち、調音様式(母音、子音、破裂、摩擦など)や調音位置(前舌、半狭、半広など)の諸属性の相違を合成された音声により把握できるものであって、これらの相違点を視覚により認識することができるものではなかった。そこで、上記技術を発展させることによって、すなわち調音特徴系列を利用して、調音器官の動作を可視化することができる技術が切望されていた。
本発明は、上記諸点にかんがみてなされたものであって、その目的とするところは、学習者の発音誤りを矯正することを容易にするため、学習者の音声から発音動作を可視化することができる装置を提供することであり、また、当該可視化装置を使用した学習装置を提供することである。
そこで、発音動作可視化装置にかかる本発明は、入力音声を取得する音声取得手段と、前記音声取得手段により取得した音声データを声道パラメータ系列に変換する声道パラメータ変換手段と、前記声道パラメータ系列を調音器官の輪郭を示す座標ベクトル系列に変換する座標ベクトル系列変換手段と、前記座標ベクトル系列から調音器官の動作の画像を生成する画像生成手段と、前記画像生成手段により生成された画像を表示する画像表示手段とを含むことを特徴とするものである。
ここで、座標ベクトルとは、口腔形状(舌、口蓋、口唇、下顎など)の初期状態に付与した特徴点の位置から所定時間ごとの移動量を計算したものである。
上記構成によれば、取得された入力音声から調音器官の座標ベクトルを得ることができ、上記座標ベクトルに従って調音器官の動作を画像化することにより学習者の発音器官の動作を再現させることが可能となる。なお、現実の発音器官の動作状況には個人差がある(つまり口腔および各器官の大きさが異なる)が、座標ベクトルを使用することにより、画像化された口腔形状の動作に変換することが容易となるのである。
また、本発明は、上記構成において、さらに、前記音声取得手段により取得した音声から調音特徴系列を抽出する調音特徴抽出手段と、予め複数話者の音声について、前記調音特徴抽出手段により抽出した調音特徴系列から計算した調音運動の状態遷移モデルを記憶する調音運動記憶手段と、前記調音特徴抽出手段により抽出された入力音声に関する調音特徴系列と前記状態遷移モデルとを比較しつつ調音特徴系列を生成する調音特徴系列生成手段とを備え、前記声道パラメータ変換手段は、前記調音特徴系列を声道パラメータ系列に変換するものであることを特徴とするものである。
上記構成によれば、声道パラメータは、話者による音声から取得される調音特徴系列に基づいて生成されることとなり、話者が発音した音声の調音様式(母音、子音、破裂、摩擦など)および調音位置(前舌、半狭、半広など)の諸属性を検出することができる。
また、本発明は、上記両発明において、さらに、前記声道パラメータに基づき音声を合成する音声合成手段を備え、前記画像表示手段は、生成された画像を表示するとともに前記音声合成手段により合成された音声を出力するものであることを特徴とするものである。
上記構成によれば、取得された入力音声がどのように聞こえるかを学習者が確認することができる。従って、学習者が発した音声を聞くことができ、調音器官の動作とともに発音を聞くことによって、調音器官をどのように作動させることにより発音が変化するかを、学習者自らが聞いて把握することができる。
また、上記各発明において、前記座標ベクトル系列変換手段は、予め複数話者の音声から抽出した声道パラメータを入力データとし、かつ、同時に発話状態の透視画像から前記声道パラメータに対応する透視画像中の調音器官の輪郭を示す座標ベクトル系列を教師データとするものであることを特徴とするものである。
ここで、透視画像とは、調音器官の動作をあらわすことができる口腔内部の画像であって、代表的には、声道部分を透視した状態で表現し得る画像を意味する。このような画像としては、例えば、磁気共鳴画像装置(Magnetic Resonance Imaging system:MRI)を使用したMRI画像、コンピュータ断層撮影(Computed Tomography:CT)による画像、または、X線撮影による画像を使用することができるが、これらに限定されるものではない。
上記構成によれば、人間が発話したときの口腔形状の状態を表示する透視画像に基づき、座標ベクトルを算出することから、調音器官の詳細な動作を分析することができ、また、透視画像から変形したCGアニメーション上で座標ベクトルに基づき、調音器官の動作状態を再現することにより、実際の人間に発音動作に近い画像を生成することができる。このとき、声道パラメータと座標ベクトルをリンクすることにより、各発音時における調音器官の状態を一致させることができる。
さらに、上記各発明において、前記画像生成手段は、座標ベクトルの時系列を非線形に平滑化する手段と、調音器官の輪郭を示す座標値を曲線補完する手段とを備えていることを特徴とするものである。
上記構成により、所定時間ごとに口腔形状(舌、口蓋、口唇、下顎など)の特徴点の位置の移動量を平均化するとともに、各特徴点の移動状態を滑らかにすることができる。
また、上記各発明において、前記画像生成手段は、調音器官のうち音源部位を特徴ある状態の画像を生成するものであることを特徴とするものである。
ここで、特徴ある状態とは、当該部分を明確に視認できる状態とすることを意味するものであって、例えば、当該部分のみを着色し、もしくは、他の色彩と異なる色彩を使用し、または、部分的に明るさを変化させる(ハイライト表示)などにより、画像が表示されるとき、その画像中の一部を際立たせるようにするものである。さらに、これらに限定されることなく、当該部分を囲むように図形を表示させる方法でもよい。
上記構成によれば、生成されて表示される口腔形状のうち、特に重要な音源部位を強調させることができ、学習者による確認のポイントを明確に表示できることとなる。
発音学習装置にかかる本発明は、上記各発音動作可視化装置を使用するものであって、理想とすべき発音動作における座標ベクトル系列から目標画像を生成する目標画像生成手段を備え、前記画像生成手段により生成された学習者画像とともに画像表示手段に表示してなることを特徴とするものである。
上記構成によれば、目標画像生成手段は、学習者が学習しようとする単語やフレーズについて、本来あるべき理想の発音動作と、学習者が発音した音声により生成された学習者画像とを比較することができる。これにより、調音器官の動作の相違を明確に把握することができることから、誤りのある発音を矯正する方法の提示を受けることができる。
また、上記発明において、前記画像生成手段は、前記学習者画像のうち、前記目標画像との間で調音器官の異なる部位を特徴ある状態で生成するものであることを特徴とするものである。
上記構成により、調音器官の動作のうち、学習者画像が目標画像と異なる部位を強調することができ、学習者が自ら発見できない調音器官の相違部分や、僅かに異なる相違点を学習者に知らせることができる。
さらに、上記各発明において、前記画像表示手段は、再生速度を可変としたものであることを特徴とするものである。
上記構成によれば、画像表示手段の再生速度を遅くする場合には、高速で動く調音器官の動作の状態を確認することができ、また、同じ単語やフレーズをゆっくり発音した後、再生速度を速くすることにより、例えばナチュラルスピードによる調音器官の動作を確認することも可能となる。
発音動作可視化装置にかかる本発明によれば、話者の調音運動を調音特徴として直接抽出しているため、音素認識結果に依存せずに音素ごとに正確な調音特徴を取得することができる。そして、話者に依存する音響的特徴量ではなく話者不変の調音特徴を用いることから頑健な音素認識を実現することができる。これにより、話者の調音特徴を口腔形状の座標ベクトルに変換することが可能になり、話者の発音状態を画像により確認することが可能となる。
また、複数話者による発音から入手した声道パラメータと、透視画像における座標ベクトルとを使用することから、学習者の入力音声を声道パラメータに変換したとき、同じ声道パラメータによる座標ベクトルによって画像生成することができる。これにより、学習者の音声特性に依存することなく調音器官の動作を視覚的に把握することができる。
さらに、入力音声を声道パラメータに基づき合成し、これを画像表示とともに出力する場合には、話者の音声を耳で確認するとともに、調音器官の状態を目で確認することができることから、発音の誤りを視覚および聴覚の双方で把握することができる。そして、同じ語について発音を繰り返すことにより、調音器官を変化させた際の音声の変化を知ることも可能となる。
他方、発音学習装置にかかる本発明によれば、目標画像と学習者画像とを比較することができることから、学習者の発音の誤りが、どの調音器官の動きによるものであるかを把握することができる。このとき、画像生成手段が音声合成された音声を出力する機能を有する場合には、発音の誤りの程度の大小を聴覚的に把握することができる。
また、目標画像と学習者画像とが異なる部位を特徴ある状態で表示する場合には、調音器官の微妙な相違についても把握でき、発音学習における矯正の方法を知ることができる。
発音動作可視化装置の電気的構成を示す模式図である。 発音動作可視化装置の構成例を示す説明図である。 MRI画像と座標ベクトルの関係を示す説明図である。 調音抽出手段のブロック図である。 声道パラメータから画像を生成する手段のブロック図である。 アニメーション画像とMRI画像との特徴点の相関係数結果を示すグラフである。 アニメーション画像とMRI画像との特徴点の相関係数結果を示すグラフである。 アンカーポイントを設定した場合のアニメーション画像とMRI画像との特徴点の相関係数結果を示すグラフである。
以下、本発明の実施の形態を図面に基づいて説明する。図1は、発音可視化装置にかかる本発明の電気的構成を示す図である。この図に示すように、本実施形態は、サーバと端末機とを通信回線で接続可能とするものである。サーバは、中央演算処理装置11、記憶装置12、外部記憶装置13および通信インターフェース14を備えており、これらがバス10を介して電気的に接続されている。また、端末機は、通信インターフェース15、入力装置16および出力装置17のほかに、記憶装置18および操作部19を備えており、これらがバス20を介して電気的に接続されている。従って、端末機の入力装置16から入力されたデータは、端末機側の通信インターフェース15、通信回線およびサーバ側の通信インターフェース14を介してサーバ側に送信され、サーバ内において処理され、再び端末機に送信されて、当該端末機の出力部から出力できるようになっている。端末機におけるデータの送受信は操作部19により行うことができるようになっている。
ここで、中央演算処理装置11は、数値演算・制御などの処理を行うために設けられており、本実施の形態において説明する処理手順に従って演算・処理を行う。例えばプロセッサー等が使用可能である。入力装置16は、マイクロホンやキーボード等で構成され、利用者が発声した音声やキー入力された文字列が入力される。出力装置17は、ディスプレーやスピーカ等で構成され、画像生成された調音器官の動作画像の情報、あるいは音声合成結果を処理することによって得られた情報が出力される。サーバ側の記憶装置12は、中央演算処理装置11によって実行される処理手順(音声認識プログラム)や、その処理に必要な一時データが格納され、端末機側の記憶装置18は、送信された画像データや音声データを一時的に格納される。これらの記憶装置には、例えば、ROM(リード・オンリー・メモリ)やRAM(ランダム・アクセス・メモリ)装置が使用可能である。
また、外部記憶装置13は、音声認識・音声合成処理に使用される各種情報を記憶するために設けられている。例えば、ハードディスクドライブ(HDD)が使用可能である。そして、これらは、互いにデータの送受信が可能なように、バス10を介して電気的に接続されている。
なお、本発明のハードウエア構成は、図1に示す構成に限定されるものではない。従って、必要に応じてサーバ側または端末機側に各種機能を備える構成としてもよく、全ての装置を一つにまとめた構成としてもよい。
次に、発音動作可視化装置の詳細を説明する。図2は、本実施形態の構成例を示す図である。音声取得手段(マイクロホンなど)21により取得した入力音声は、調音特徴抽出手段22により調音特徴系列が抽出され、調音運動記憶手段24に記憶される状態遷移モデルとの比較により識別された音声単位系列に基づき、調音特徴系列生成手段において調音特徴系列が生成される。
ここで、調音運動記憶手段24には、複数話者の音声を予め調音特徴抽出手段22によって抽出した調音特徴系列から調音運動の状態遷移モデルが計算され、その結果が記憶されている。音声取得手段21から入力される入力音声の調音特徴系列は、上記調音運動記憶手段24に記憶されている状態遷移モデルとの比較により、音声単位系列の状態が識別されるのである。このようにして識別された音声単位系列は調音特徴系列生成手段25によって調音特徴系列が生成され、さらに、声道パラメータ変換部(声道パラメータ変換手段)26に出力されるのである。
声道パラメータ変換手段26では、調音特徴系列のデータが、声道パラメータ系列に変換される。声道パラメータへの変換は、記憶手段27に記憶されている声道モデルに基づいて規則的に変換される。また、音声パラメータの系列ごとに、調音器官に重要な口腔形状(舌、口蓋、口唇、下顎など)の座標ベクトルが予め計算され記憶手段28に記憶されており、この座標ベクトルを参照しつつ上記音声パラメータ系列は、座標ベクトル変換手段29によって座標ベクトル系列に変換される。変換された座標ベクトル系列は、当該系列に従って画像化(アニメーション化)され、表示手段によって表示可能となる。
なお、図2は、同時に音声合成を可能にするものであり、声道パラメータ変換手段26により声道パラメータ系列に変換されたデータは、音源パラメータとともに音声合成部(音声合成手段)30に送られ、音声合成された音声を出力手段(スピーカなど)31から出力することができるものである。
また、声道パラメータ変換手段26に入力すべき音声データは、調音特徴抽出手段22などを経由せず、音声取得手段21によって取得された音声データとしてもよく、調音特徴系列が生成されていない音声データを声道パラメータ変換手段26によって声道パラメータに変換することも可能である。
次に、座標ベクトルについて説明する。座標ベクトルは、透視画像を用いて算出されるが、ここでは、MRI画像を用いて算出する場合について説明する。図3は、MRI画像をモデル化した口腔形状(右図)と座標ベクトル(左図)の関係を示す図である。座標ベクトルとは、MRI画像の口腔形状(舌、口蓋、口唇、下顎など)の初期状態に付与した特徴点の位置から所定時間ごとに移動量を計算したものである。その際には、例えば、MRI画像をデジタル画像に変換するが、このとき、MRI画像は所定のサイズ(256×256ピクセル)を使用する。また、画像変化(特徴点の移動量)を計算するための所定時間は、0.01秒(10ms)を1フレームとして画像を取り込む。そして、取り込んだ各画像において、特徴点の座標データを取得し、各画像間における各特徴点の移動量を計算するのである。
ここで、特徴点としては、変化量の大きい部位を中心として選定するものであり、図3中の右図に示されているように舌、口蓋、上唇、下唇について、それぞれ複数箇所を特徴点とすることができる。ここでは、舌の表面について5点(図中第1〜第5の点)、上唇について1点(図中第6の点)、口蓋(軟口蓋)の鼻腔側について1点(図中第7の点)、および、下唇について1点(図中第8の点)の合計8点を特徴点としている。このような特徴点の選定は、調音方法や調音位置の違いを全般的に表現するうえで重要である。そこで、上記8点の特徴点は、かつ、変形の激しい舌を中心に、破裂音の調音方法や口の高低による調音位置に大きく関与する上唇および下唇、ならびに、鼻音を発する際に大きく変化する軟口蓋をそれぞれ選定した。なお、口蓋には、硬口蓋と軟口蓋があり、硬口蓋は口腔の入り口側に、軟口蓋が口腔の奥側に位置し、また、硬口蓋は発音時においてもほとんど変化しないが、軟口蓋は鼻音を発する際に変化する。
なお、上記特徴点の選定は、当然に上記8点に限定されるものではない。すなわち、多数の位置を特徴点とすることができ、特徴点が多ければそれだけ調音器官の動作を詳細に分析することができる。この場合、特徴点の位置や数は、分析すべき各国言語の特徴に応じて異ならせてもよい。
このような特徴点の移動量を計算する際には、座標の原点を任意に設定し、X方向(X座標)とY方向(Y座標)のそれぞれについて計算することとなる。この場合、図3中の左図に示されているように、調音器官の部位から離れた位置を原点とすることができ、図中横方向をX座標とし、図中縦方向をY座標として計算することができる。ただし、前述のように、硬口蓋は発音時にほとんど変化しないことから、硬口蓋の位置を基準に各特徴点の移動量を計算することもできる。その際、各特徴点のみの移動量を把握するため、例えば、舌の移動量については、口蓋の移動量と舌の移動量との差によって舌のみの移動量を計算することができる。また、各特徴点の移動方向が一方向のみに著しい場合、例えば、舌の動きは、X方向に比較してY方向の移動が僅少である場合のように、調音方法に関与しない移動量を無視して座標データを求めてもよい。
また、調音器官の動作を明確化するために、上記特徴点の選定に付加して、アンカーポイントを設定してもよい。アンカーポイントとは、調音に際して変化する調音器官の重要な部位を意味し、調音器官の部位が特定の状態で定まる特定音素について、その音素を発音する際の調音器官の部位の座標を固定(アンカー)させるために設定するのである。例えば、「p、b、m」を発音する場合には、唇を閉じるように両唇(上唇および下唇)を密着させることから、当該音素について両唇をアンカーポイントと定めるのである。このようなアンカーポイントは、上記「b、p、m」以外の音素を調音する場合においても設定され得る。すなわち、特定の音素を調音する場合、両唇のほかに舌と口蓋により声道中に狭めや閉鎖を生じさせる特徴があるものについて、調音器官の部位を選択することができるのである。そこで、声道を部分的に閉鎖するように調音部位が動作する音素についてアンカーポイントを設定することにより、声道の部分的閉鎖を伴う特徴のある特定の音素について、調音動作を明確にすることができる。そして、そのような種類の音素については、各国言語の特徴に応じて異なることとなるが、その概略は次の表に記載のとおりである。なお、アンカーポイントの設定は声道の部分的閉鎖を伴う音素に限定されるものではなく、各種言語における特徴ある音素について、アンカーポイントを設定してもよい。
Figure 2013031677
なお、設定されたアンカーポイントの座標値は、調音器官の部位が所定の状態となるように特定される。例えば、上記において例示した特定音素「p、b、m」について、アンカーポイントを設定した場合には、上唇の特徴点の座標値に対し、下唇の特徴点の座標値を一致させることによって、両唇が閉鎖した状態の座標とすることができるのである。アンカーポイントにおける座標値の特定は、表1に例示した音素について、それぞれの調音部位について座標値を特定することとなる。
また、上記X方向(X座標)とY方向(Y座標)に加えてZ方向(Z座標)についても特徴点の移動量を計算することにより、三次元画像の生成を可能にすることとなる。このように、特徴点および座標の選定は生成すべき画像の種類等に応じて適宜増減させることができるものである。
上記特徴点についてのフレームごとの座標データと、当該口腔形状における音声データとの整合は、MRI画像とともに取得可能な音声データから調音特徴を得ることによって行われる。すなわち、MRI画像とともに取得された音声データは、図4に示すように、分析処理された後に局所特徴が抽出され、多層ニューラルネットワークなどの識別器に通されて調音特徴が抽出されるものである。
入力音声は、調音特徴が抽出される前の段階において分析処理されるものである。本実施形態の分析処理としては、16kHzでサンプリングされた後、25msのハミング窓で10msごとに、512点の高速フーリエ変換(Fast Fourier Transform:FFT)処理を受ける。この結果はパワースペクトルの形で積分され、中心周波数をメル尺度間隔で設計した24−chの帯域通過フィルタ(Band Pass Filter:BPF)出力にまとめられる。ここまでが分析処理である。
続いて、パワースペクトル系列上の音響特徴抽出が行われる。パワースペクトル系列が構成する曲面は、多様体として見ると時間と周波数方向の局所的な微分要素で表現できる(微分多様体)。そこで、BPF出力を時間方向および周波数方向について数点の微分成分に変換する(例えば、時間方向に3つの微分成分と、周波数方向の3つの微分成分に変換する)ことにより、局所的な要素によって特定(変換)することができる。そのため、時間軸と周波数軸上でそれぞれ数点(例えば3点)の線形回帰演算を行うのである。これらの演算結果によって、前記パワースペクトルが微分特徴としての局所特徴として抽出されるのである。なお、局所特徴は、音声スペクトル系列の時間微分と周波数微分から求めたベクトルであるが、これらの局所特徴のデータが膨大であるため離散余弦変換処理によって圧縮することができる。
調音特徴は、単音分類に用いられる調音様式(母音、子音、破裂、摩擦など)と、調音位置(前舌、半狭、半広など)の諸属性を指す。調音特徴では、あらゆる音素が調音特徴の有無(+/−)を示すベクトルで表現される。調音特徴を音声認識で利用する際の利点は、調音的に近い音素同士を距離の近いベクトルとして表現できることである。そこで、本実施形態では、各調音器官の位置や動作方法の特徴量である調音特徴を各調音器官のベクトル座標にマッピングすることで発音動作を可視化するものである。すなわち調音特徴と調音器官の座標ベクトルとを関連づけることにより、調音特徴の系列に対応した座標ベクトルを選択することができるのである。また、調音特徴系列は、上述した声道パラメータ系列に変換され、この声道パラメータ系列に基づいて、座標ベクトル系列を生成することができるのである。
なお、調音特徴は、局所特徴を識別器に通すことによって得られる。識別器としては、例えば、多層ニューラルネットワークを使用することができる。多層ニューラルネットワークは、高精度な調音特徴を抽出させるため2段構成とし、二つの多層ニューラルネットワークにより、識別器を構成することができる。なお、識別器としては、これに限定されるものではなく、SVM(Support Vector Machine)等を使用することも可能である。
ところで、話者の音声データ(入力音声)から発話動作の画像を生成するためには、音声パラメータ系列を入力とし、座標ベクトルを教師データとして、識別器により画像データを生成することとなる。図5は、その手法を示すブロック図である。
この図に示すように、記憶手段41には、透視画像(MRI画像)から計算された座標ベクトルが調音特徴とともに記憶され、声道パラメータ系列が識別器(多層ニューラルネットワークなど)42に出力される際、座標ベクトルが教師データとして処理される。識別器42を通過したデータは、声道パラメータ系列に沿って座標ベクトル系列が生成され、この座標ベクトル系列に基づいて、調音器官(口腔形状の各特徴点)の移動量を再現するように画像を構築するのである。
すなわち、フレームごとに抽出された座標データをもとに、フレームごとにx、y座標の移動量を算出し、これを座標ベクトル(Δx,Δy)とする。識別器42の学習データとして使う座標ベクトルは前記複数の特徴点におけるものである。なお、入力するフレームは、注目フレームと前後3点離れたフレーム(図中に示されているように、例えば、X座標については、X(t−3)、X(t)、X(t+3)の3つのフレーム)を用い、識別器として使用する多層ニューラルネットワーク42は入力層84次元、隠れ層168次元、出力層108次元とした。これにより、話者(学習者)が発話を行うことにより、その音声から変換された調音特徴を多層ニューラルネットワーク(識別器)42に通すことで、調音特徴にマッピングした座標ベクトルを抽出し、画像生成が可能となるのである。
上記のように、MRI画像から座標ベクトルを計算する場合、数十枚の画像を同期加算することがあるため、調音器官の部位が明確とならないことがあり得る。このような場合には、調音のアンカーポイントを設定することによって、そのアンカーポイントに応じた座標値の修正を可能とするのである。アンカーポイントは、上述のように、特定音素について、明確に画像表示するために設定されるものであり、両唇や舌と口蓋などにより声道中に狭めや閉鎖を生じさせて発音する特徴がある音素の場合の調音器官の部位が選択されるものである。
アンカーポイントに応じた座標値の修正は、アンカーポイントが設定されている音素について、特定の座標値となるように座標の修正値を多層ニューラルネットワーク(識別器)42の教師データに含めることによる。追加される教師データは、アンカーポイントが設定された音素の音声データと修正値である。修正値としては、特定音素の場合の調音部位に対する所定の座標値であり、具体的には、例えば、「b、p、」の場合には下唇の座標値を上唇の座標値と同じとなるように、また、「t、d、z」などの場合には舌の尖端を歯茎に接地させるような座標値となるように、当該座標値を教師データとして付与するのである。そして、修正するか否かは入力される音素ごとに決定されるものとする。具体的には、音声に対するラベリング情報(音素情報)を教師データに付加し、そのラベリング情報の音素に一致するアンカーポイントについて修正するのである。このように、修正値を教師データに付加することにより、多層ニューラルネットワーク(識別器)42から出力される座標ベクトルは修正され、当該修正された座標ベクトルに基づく画像データが生成されることとなる。従って、表示される画像(アニメーション)は、アンカーポイントが設定された音素について明確になり、画像(アニメーション)全体の可視化精度が向上することとなるのである。
なお、上記画像は、フレームごとの静止画として作製され、これを連続させることにより動画像とすることができる。この動画像の生成プログラムはActionScript(登録商標)3.0に実装されており、Flash Player(登録商標)10またはFlash Player(登録商標)プラグインが有効なブラウザで動作させることができる。
また、口蓋、上唇、下顎の動きを各フレームの座標ベクトルで平均することで滑らかにすることができる。その方法としては、例えば、いわゆる移動平均法がある。また、曲線補完により画像の動きを滑らかにすることができる。その方法としては、例えば、いわゆるスプライン曲線補完法がある。
以上のとおり、発音動作可視化装置にかかる上記実施形態によれば、予め調音特徴にマッピングした座標ベクトルを抽出することにより、話者(学習者)の音声データに従った調音器官の動作を画像により表示させることができる。
従って、上記発音動作可視化装置を使用することにより、話者(学習者)の発音方法に誤りがあるか否かを視覚によって確認することができる。特に、話者(学習者)の調音器官の画像とともに、目標画像(理想とすべき発音状態の画像)とを比較することによって、その調音器官の動作の誤りを発見することができ、発音の誤りを矯正するための指針を得ることができる。このように学習者画像と目標画像とを同時に表示させることにより発音学習装置として機能することとなるのである。このとき、調音特徴が抽出された調音特徴系列を声道パラメータに変更する形態の場合には、この声道パラメータに音源パラメータを付与して合成した音声を出力すれば、学習者自身が発音した音声を聴覚的に把握することも可能となる。なお、目標画像は、話者(学習者)が学習しようとする単語またはフレーズ等についての発音動作を、上述の座標ベクトル系列から生成したものである。画像を動画像として表示する際の速度は、話者(学習者)の発音速度に合わせることにより音素ごとの発音動作を確認することができる。
ここで、上記両画像が生成された時点で、画像を比較し、相違点をプロットすることにより、両画像の相違点を把握することができる。このとき、プロットされた相違点については、画像表示の際に強調して表示させることにより、学習者が相違点を明確に把握することが可能となる。また、これと同時にまたはこれとは別に、調音器官のうちの音源部位を強調することにより、どの部位に注意しながら発音矯正を行えばよいかを把握することも可能となる。なお、上記のような映像上の強調方法は、ハイライト表示によることのほか、色彩を明確に変化させることによって、学習者に知らせることができる。このような強調方法は、これらに限定されることはなく、表示部位の特徴点部分を四角形などの図形で囲む映像を生成させてもよい。
さらには、表示される際の再生速度を可変とすることにより、学習者が再現したい速度での発音画像を確認することができ、特に矯正困難な音の発音において、再生速度を遅くして確認するような使用方法も可能となる。
前記実施形態に基づきアニメーション化した動画像を作製し、その調音器官の輪郭の特徴点と、現実の発音動作にかかるMRI画像中の調音器官の輪郭の特徴点とを比較した。上記の特徴点は、それぞれ前述した特徴点選定例の場合と同様に、舌に5点、上唇に1点、口蓋(軟口蓋)の鼻腔側に1点、および、下唇に1点の合計8点とした。作製したアニメーション動画像は、音声取得手段により取得された音声データを、(調音特徴系列を生成することなく)声道パラメータに変換し、この音声パラメータを入力とし、座標ベクトルを教師データとして、多層ニューラルネットワークにより画像データを生成したものである。画像生成のフレームは10ms間隔とした。MRI画像中の特徴点は、英語を母国語とする女性話者により、47個の英単語を発話する状況を撮影したものを使用した。
上記の条件下で「bat」を発音する場合の両画像についての各調音器官の輪郭の特徴点を比較した。その結果を図6に示す。この図から明らかなとおり、110フレームから「b」の発音が開始されるが、この120フレームから高い相関が見られる。現実のMRI画像の声道断面積と、アニメーション画像の声道断面積が極めて高い相関関係を有していることが判明した。
また、上記と同様の条件下において、音素ごとの各調音器官の輪郭の特徴点を比較した。その結果を図7に示す。この図から明らかなとおり、全体的に高い相関関係を示している。音素の種類によっては相関係数の多少の高低はあるものの、極端に低い相関を示すものはなく、各音素について発音する際の調音器官をアニメーション画像としたとしても、全体的には現実の画像に類似したものとなり得ることが判明した。
さらに、アンカーポイントを設定し、特徴的な特定音素について座標値を修正した場合の音素ごとの各調音器官の輪郭の特徴点を比較した。その結果を図8に示す。なお、図8(a)は英語を母国語とする話者における相関係数のグラフであり、図8(b)は日本語を母国語とする話者における相関係数のグラフである。また、両図ともアンカーポイントを設定しない場合の特徴点の相関係数を対比のため並べて表示している。この図から明らかなとおり、アンカーポイントを設定した場合の相関係数は、設定しない場合に比べて高い相関を示している。特に、アンカーポイントが設定された特定音素の相関が特に高いことから、可視化精度が向上していることがわかる。さらには、アンカーポイントを設定していない他の音素についても、少なからず相関係数が高くなっており、特定音素における特徴点の相関の向上に伴い全体的な相関係数が上昇していることを示している。従って、全体的な可視化精度を向上させる結果となった。
1 発音動作可視化装置
11 中央演算処理装置
12 記憶装置
13 外部記憶装置
14,15 通信インターフェース
16 入力装置
17 出力装置
18 記憶装置
19 操作部
21 音声取得手段
22 調音特徴抽出手段
24 調音運動記憶手段
25 調音特徴系列生成手段
26 声道パラメータ変換手段
27 声道モデル記憶部
28 座標ベクトル記憶部
29 座標ベクトル変換手段
30 音声合成部
31 音声出力手段
42 識別器(多層ニューラルネットワーク)

Claims (9)

  1. 入力音声を取得する音声取得手段と、
    前記音声取得手段により取得した音声データを声道パラメータ系列に変換する声道パラメータ変換手段と、
    前記声道パラメータ系列を調音器官の輪郭を示す座標ベクトル系列に変換する座標ベクトル系列変換手段と、
    前記座標ベクトル系列から調音器官の動作の画像を生成する画像生成手段と、
    前記画像生成手段により生成された画像を表示する画像表示手段と
    を含むことを特徴とする発音動作可視化装置。
  2. 請求項1に記載の発音動作可視化装置であって、さらに、
    前記音声取得手段により取得した音声から調音特徴系列を抽出する調音特徴抽出手段と、
    予め複数話者の音声について、前記調音特徴抽出手段により抽出した調音特徴系列から計算した調音運動の状態遷移モデルを記憶する調音運動記憶手段と、
    前記調音特徴抽出手段により抽出された入力音声に関する調音特徴系列と前記状態遷移モデルとを比較しつつ調音特徴系列を生成する調音特徴系列生成手段とを備え、
    前記声道パラメータ変換手段は、前記調音特徴系列を声道パラメータ系列に変換するものであることを特徴とする発音動作可視化装置。
  3. 請求項1または2に記載の発音動作可視化装置であって、さらに、前記声道パラメータに基づき音声を合成する音声合成手段を備え、前記画像表示手段は、生成された画像を表示するとともに前記音声合成手段により合成された音声を出力するものであることを特徴とする発音動作可視化装置。
  4. 前記座標ベクトル系列変換手段は、予め複数話者の音声から抽出した声道パラメータを入力データとし、かつ、同時に発話状態の透視画像から前記声道パラメータに対応する透視画像中の調音器官の輪郭を示す座標ベクトル系列を教師データとするものであることを特徴とする請求項1ないし3のいずれかに記載の発音動作可視化装置。
  5. 前記画像生成手段は、座標ベクトルの時系列を非線形に平滑化する手段と、調音器官の輪郭を示す座標値を曲線補完する手段とを備えていることを特徴とする請求項1ないし4のいずれかに記載の発音動作可視化装置。
  6. 前記画像生成手段は、調音器官のうち音源部位を特徴ある状態の画像を生成するものであることを特徴とする請求項1ないし5のいずれかに記載の発音動作可視化装置。
  7. 請求項1ないし6のいずれかに記載の発音動作可視化装置を使用する発音学習装置であって、理想とすべき発音動作における座標ベクトル系列から目標画像を生成する目標画像生成手段を備え、前記画像生成手段により生成された学習者画像とともに画像表示手段に表示してなることを特徴とする発音学習装置。
  8. 前記画像生成手段は、前記学習者画像のうち、前記目標画像との間で調音器官の異なる部位を特徴ある状態で生成するものであることを特徴とする請求項7に記載の発音学習装置。
  9. 前記画像表示手段は、再生速度を可変としたものであることを特徴とする請求項7または8に記載の発音学習装置。
JP2013531279A 2011-08-26 2012-08-24 発音動作可視化装置および発音学習装置 Active JP6206960B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011184993 2011-08-26
JP2011184993 2011-08-26
PCT/JP2012/071418 WO2013031677A1 (ja) 2011-08-26 2012-08-24 発音動作可視化装置および発音学習装置

Publications (2)

Publication Number Publication Date
JPWO2013031677A1 true JPWO2013031677A1 (ja) 2015-03-23
JP6206960B2 JP6206960B2 (ja) 2017-10-04

Family

ID=47756167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013531279A Active JP6206960B2 (ja) 2011-08-26 2012-08-24 発音動作可視化装置および発音学習装置

Country Status (2)

Country Link
JP (1) JP6206960B2 (ja)
WO (1) WO2013031677A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112840397A (zh) * 2018-10-18 2021-05-25 索尼公司 信息处理装置及信息处理方法
CN110097610B (zh) * 2019-04-08 2023-07-04 天津大学 基于超声与磁共振成像的语音合成系统和方法
WO2021166695A1 (ja) * 2020-02-19 2021-08-26 パナソニックIpマネジメント株式会社 口腔機能可視化システム、口腔機能可視化方法およびプログラム
CN111554318B (zh) * 2020-04-27 2023-12-05 天津大学 一种手机端发音可视化系统的实现方法
CN113079327A (zh) * 2021-03-19 2021-07-06 北京有竹居网络技术有限公司 视频生成方法和装置、存储介质和电子设备
CN113035235A (zh) * 2021-03-19 2021-06-25 北京有竹居网络技术有限公司 发音评价方法和装置,存储介质和电子设备
CN116012505A (zh) * 2022-12-29 2023-04-25 上海师范大学天华学院 基于关键点自检测与风格迁徙的发音动画生成方法及系统
JP7425243B1 (ja) 2023-05-08 2024-01-30 ムーン クリエイティブ ラボ インク. 情報処理装置及び情報処理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06348297A (ja) * 1993-06-10 1994-12-22 Osaka Gas Co Ltd 発音練習装置
JP2001249675A (ja) * 2000-03-07 2001-09-14 Atr Ningen Joho Tsushin Kenkyusho:Kk 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体
JP2006146042A (ja) * 2004-11-24 2006-06-08 Nippon Telegr & Teleph Corp <Ntt> 調音運動の正規化を用いた音声合成方法および装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08307841A (ja) * 1995-05-10 1996-11-22 Hitachi Ltd 擬似動画tv電話装置
JP2003241776A (ja) * 2002-02-18 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 音声分析方法及びその装置、音声分析プログラム並びにその記録媒体
JP2005134685A (ja) * 2003-10-31 2005-05-26 Advanced Telecommunication Research Institute International 声道形状パラメータの推定装置、音声合成装置、及びコンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06348297A (ja) * 1993-06-10 1994-12-22 Osaka Gas Co Ltd 発音練習装置
JP2001249675A (ja) * 2000-03-07 2001-09-14 Atr Ningen Joho Tsushin Kenkyusho:Kk 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体
JP2006146042A (ja) * 2004-11-24 2006-06-08 Nippon Telegr & Teleph Corp <Ntt> 調音運動の正規化を用いた音声合成方法および装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鏑木時彦 他: ""音声生成過程の可視化"", 日本音響学会誌, vol. 64, no. 7, JPN6016040246, 1 July 2008 (2008-07-01), pages 412 - 417, ISSN: 0003619846 *

Also Published As

Publication number Publication date
JP6206960B2 (ja) 2017-10-04
WO2013031677A1 (ja) 2013-03-07

Similar Documents

Publication Publication Date Title
JP6206960B2 (ja) 発音動作可視化装置および発音学習装置
Tran et al. Improvement to a NAM-captured whisper-to-speech system
WO2022048405A1 (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
Hueber et al. Statistical conversion of silent articulation into audible speech using full-covariance HMM
Wang et al. Phoneme-level articulatory animation in pronunciation training
Sargin et al. Analysis of head gesture and prosody patterns for prosody-driven head-gesture animation
KR20060090687A (ko) 시청각 콘텐츠 합성을 위한 시스템 및 방법
US20160321953A1 (en) Pronunciation learning support system utilizing three-dimensional multimedia and pronunciation learning support method thereof
JPH02234285A (ja) 画像合成方法及びその装置
US20130238337A1 (en) Voice quality conversion system, voice quality conversion device, voice quality conversion method, vocal tract information generation device, and vocal tract information generation method
Arias et al. Realistic transformation of facial and vocal smiles in real-time audiovisual streams
CN113077537A (zh) 一种视频生成方法、存储介质及设备
Bozkurt et al. Comparison of phoneme and viseme based acoustic units for speech driven realistic lip animation
Karpov An automatic multimodal speech recognition system with audio and video information
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
JP7124373B2 (ja) 学習装置、音響生成装置、方法及びプログラム
WO2022194044A1 (zh) 发音评价方法和装置、存储介质和电子设备
Saleem et al. E2E-V2SResNet: Deep residual convolutional neural networks for end-to-end video driven speech synthesis
Massaro et al. A multilingual embodied conversational agent
Železný et al. Design, implementation and evaluation of the Czech realistic audio-visual speech synthesis
Brooke et al. Two-and three-dimensional audio-visual speech synthesis
JP4011844B2 (ja) 翻訳装置、翻訳方法および媒体
Mattheyses et al. On the importance of audiovisual coherence for the perceived quality of synthesized visual speech
Athanasopoulos et al. 3D immersive karaoke for the learning of foreign language pronunciation
Fabre et al. Automatic animation of an articulatory tongue model from ultrasound images using Gaussian mixture regression

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170831

R150 Certificate of patent or registration of utility model

Ref document number: 6206960

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250