WO2023032553A1

WO2023032553A1 - 構音異常検出方法、構音異常検出装置、及びプログラム

Info

Publication number: WO2023032553A1
Application number: PCT/JP2022/029503
Authority: WO
Inventors: 孝浩釜井; 朗穂櫻井; 勝統大毛; 員令川見; 翔吾高畑; 青空長尾
Original assignee: パナソニックホールディングス株式会社
Priority date: 2021-09-02
Filing date: 2022-08-01
Publication date: 2023-03-09
Also published as: JP2023036486A; US20240203448A1; CN117915839A

Abstract

構音異常検出方法は、取得ステップ（Ｓ３）と、検出ステップ（Ｓ５）と、を含む。取得ステップ（Ｓ３）では、被験者の発する音声に関する音声情報を取得する。検出ステップ（Ｓ５）では、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、取得ステップ（Ｓ３）で取得した音声情報を入力することで得られる出力結果に基づいて、被験者の構音異常の有無を検出する。

Description

構音異常検出方法、構音異常検出装置、及びプログラム

　本開示は、被験者の構音異常を検出するための構音異常検出方法、構音異常検出装置、及びプログラムに関する。

　特許文献１には、先行脳卒中リスク指標の検出システムが開示されている。この検出システムでは、ビデオカメラは、脳卒中リスク指標を有するかについて評価すべき被検者の顔のビデオをキャプチャする。また、この検出システムでは、プロセッサは、ビデオカメラによってキャプチャされる被検者の顔のビデオに関連付けられる処理された画像データを分析する。そして、この検出システムでは、プロセッサは、キャプチャされた画像データが頸動脈狭窄の先行指標を提示するかどうかを判断する。

特表２０１６－５２２７３０号公報

　本開示は、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい構音異常検出方法、構音異常検出装置、及びプログラムを提供する。

　本開示の一態様に係る構音異常検出方法は、取得ステップと、検出ステップと、を含む。前記取得ステップでは、被験者の発する音声に関する音声情報を取得する。前記検出ステップでは、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、前記取得ステップで取得した前記音声情報を入力することで得られる出力結果に基づいて、前記被験者の構音異常の有無を検出する。

　本開示によれば、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。

図１は、脳卒中患者の特性についての説明図である。図２は、健常者の音声波形及び音声波形から得られたメルスペクトログラムの一例を示す図である。図３は、脳卒中患者の音声波形及び音声波形から得られたメルスペクトログラムの一例を示す図である。図４は、実施の形態に係る構音異常検出装置の構成の一例を示すブロック図である。図５は、複数のフレーズを発声した健常者の音声波形及び音声波形から得られたメルスペクトログラムの一例を示す図である。図６は、複数のフレーズを発生した脳卒中患者の音声波形及び音声波形から得られたメルスペクトログラムの一例を示す図である。図７は、複数のフレーズを発生した脳卒中患者の音声波形及び音声波形から得られたメルスペクトログラムの他の一例を示す図である。図８は、複数のフレーズを発生した健常者及び脳卒中患者の音声波形から得られたＲＭＳエンベロープの一例を示す図である。図９は、実施の形態に係る構音異常検出装置の区分モデルについて、学習フェーズの一例を示す図である。図１０は、実施の形態に係る構音異常検出装置の区分モデルを用いた推論フェーズの一例を示す図である。図１１は、実施の形態に係る構音異常検出装置の検出モデルについて、学習フェーズの一例を示す図である。図１２は、実施の形態に係る構音異常検出装置の検出モデルを用いた推論フェーズの一例を示す図である。図１３は、実施の形態に係る構音異常検出装置の動作例を示すフローチャートである。図１４は、実施の形態に係る構音異常検出装置及び構音異常検出方法の概要の一例を示す図である。図１５は、実施の形態に係る構音異常検出装置の動作の具体例を示す図である。図１６は、実施の形態に係る構音異常検出装置の動作の他の具体例を示す図である。

　（本開示に至った知見）
　従来、被験者の顔を撮像した画像を分析することにより脳卒中の発症のリスクを検知する技術が知られており、例えば特許文献１に開示されている。既に述べたように、特許文献１に開示されている検出システムでは、被験者の顔のビデオをビデオカメラで撮像する。そして、この検出システムでは、被験者の顔のビデオに関連付けられる処理された画像データを分析することにより、撮像された画像データが脳卒中の１つのリスク要因である頸動脈狭窄の先行指標を提示するかどうかを判断する。

　しかしながら、特許文献１に開示されている検出システムでは、被験者の顔のビデオをビデオカメラで撮像しなければならず、カメラ等で撮像されることに抵抗を感じる被験者にとっては負担が大きくなりがちである、という課題がある。

　また、特許文献１に開示されている検出システムでは、被験者の顔を撮像した画像データを分析することから、画像データにおいて被験者の顔が適切な位置、又は適切な角度にあることが重要となる。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合、適切な画像データを得られるように被験者が幾らか努力しなければならず、被験者にとっては負担が大きくなりがちである、という課題がある。

　そこで、本願の発明者は、上記課題を鑑み鋭意検討した結果、被験者の発する音声から被験者の構音異常の有無、言い換えれば被験者が口から言葉を発する際に、その言葉の要素である音韻を正しく発音できるか否かを検出可能であることを見い出した。後述するように、被験者の構音異常の有無は、被験者の脳卒中の発症の予兆の有無を示し得る。このため、被験者が音声を発するだけで、被験者の脳卒中の発症の予兆の有無を検出することができる。

　したがって、本開示によれば、被験者の顔を撮像する場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無、更には被験者の脳卒中の発症の予兆の有無を検出しやすい構音異常検出方法、構音異常検出装置、及びプログラムを提供することができる。

　（本開示の概要）
　本開示の一態様の概要は、以下の通りである。

　これによれば、被験者が音声を発するだけで、被験者の構音異常の有無を検出することが可能である。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。

　例えば、本開示の一態様に係る構音異常検出方法では、前記音声情報は、前記被験者が舌を所定のパターンで動かすことで発せられる特定音を含んでいてもよい。

　これによれば、構音異常の有無の指標となり得る舌の麻痺度合いを検出しやすいことから、音声情報が特定音を含まない場合と比較して、被験者の構音異常の有無を検出しやすくなる、という利点がある。

　例えば、本開示の一態様に係る構音異常検出方法では、前記特定音は、弾音であってもよい。

　これによれば、舌が麻痺している場合に発しにくい弾音を特定音に含めることで、被験者の構音異常の有無を更に検出しやすくなる、という利点がある。

　例えば、本開示の一態様に係る構音異常検出方法では、前記音声情報は、前記特定音と破裂音とが連続するフレーズを含んでいてもよい。

　これによれば、被験者の発する音声において位置を特定しやすい破裂音を特定音に連続させることで、被験者の発する音声における特定音の位置を特定しやすくなることから、被験者の構音異常の有無を更に検出しやすくなる、という利点がある。

　例えば、本開示の一態様に係る構音異常検出方法では、前記音声情報は、前記フレーズを複数含んでいてもよい。また、本開示の一態様に係る構音異常検出方法は、前記取得ステップで取得した前記音声情報から前記複数のフレーズを区分する区分ステップを更に含んでいてもよい。また、前記検出ステップでは、前記区分ステップで区分された前記複数のフレーズの各々が前記検出モデルに入力されてもよい。

　これによれば、単一のフレーズから被験者の構音異常の有無を検出する場合と比較して、被験者の構音異常の有無を更に検出しやすくなる、という利点がある。

　例えば、本開示の一態様に係る構音異常検出方法において、前記区分ステップでは、前記音声情報としてのＲＭＳ（Ｒｏｏｔ　Ｍｅａｎ　Ｓｑｕａｒｅ）エンベロープ又はスペクトログラムに基づいて、前記複数のフレーズを区分してもよい。

　これによれば、ＲＭＳエンベロープ又はスペクトログラムに複数のフレーズを区別し得る特徴が現れやすいことから、複数のフレーズを区分する精度の向上が期待できる、という利点がある。

　例えば、本開示の一態様に係る構音異常検出方法において、前記区分ステップでは、前記複数のフレーズを含む音声を入力として前記複数のフレーズを区分するように機械学習された区分モデルに、前記取得ステップで取得した前記音声情報を入力することで、前記複数のフレーズを区分してもよい。

　これによれば、区分モデルを用いずに複数のフレーズを区分する場合と比較して、複数のフレーズを区分する精度の向上が期待できる、という利点がある。なお、学習用データが大量である場合、区分モデルは、深層ニューラルネットワーク（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ：ＤＮＮ）モデルである方が精度の向上が期待できる。また、学習用データが少ない場合、区分モデルは、音声情報としてＲＭＳエンベロープを用いた方が精度の向上が期待できる。

　例えば、本開示の一態様に係る構音異常検出方法では、前記検出モデルは、入力された健常者の音声と同じ音声を復元するように機械学習されたオートエンコーダであってもよい。また、前記検出ステップでは、前記検出モデルに入力される前記音声情報と、前記検出モデルから出力される音声情報との乖離度合いに基づいて、前記被験者の構音異常の有無を検出してもよい。

　これによれば、健常者よりも少数である構音異常を有する患者の音声を用いて検出モデルを学習する場合と比較して多数の学習用データを準備しやすいので、検出モデルを学習しやすい、という利点がある。

　例えば、本開示の一態様に係る構音異常検出方法は、前記検出ステップで検出された前記被験者の構音異常の有無に関する検出情報を出力する出力ステップを更に含んでいてもよい。

　これによれば、例えば検出情報を被験者に対して出力することで、自身が構音異常を有しているか否かを被験者が把握することができる、という利点がある。

　例えば、本開示の一態様に係る構音異常検出方法は、前記取得ステップの前に、前記被験者の発する音声についてのサンプル音声を前記被験者に対して再生する再生ステップを更に含んでいてもよい。

　これによれば、被験者がサンプル音声を再現すべく発声を試みることができるため、文字列を表示して被験者に発声を促す場合と比較して、被験者の音声を取得しやすい、という利点がある。また、これによれば、被験者がサンプル音声を再現して発声できているか否かを含めて被験者の構音異常の有無を検出することが可能になり、被験者の構音異常の有無を検出する精度の向上が期待できる、という利点がある。

　また、本開示の一態様に係るプログラムは、１以上のプロセッサに、上記の構音異常検出方法を実行させる。

　また、本開示の一態様に係る構音異常検出装置は、取得部と、検出部と、を備える。前記取得部は、被験者の発する音声に関する音声情報を取得する。前記検出部は、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、前記取得部で取得した前記音声情報を入力することで得られる出力結果に基づいて、前記被験者の構音異常の有無を検出する。

　なお、これらの包括的又は具体的な態様は、システム、方法、装置、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭ等の記録媒体で実現されてもよく、システム、方法、装置、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　以下、本開示の実施の形態について図面を参照しながら具体的に説明する。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、各図は、必ずしも厳密に図示したものではない。各図において、実質的に同一の構成については同一の符号を付し、重複する説明は省略又は簡略化される場合がある。

　（実施の形態）
　以下、実施の形態について、図面を参照しながら具体的に説明する。

　［１．概要］
　まず、実施の形態に係る構音異常検出装置、及び構音異常検出方法を説明するに当たり、被験者の発する音声に被験者の構音異常の有無を検出し得る特徴が現れるという知見についての概要を説明する。図１は、脳卒中患者の特性についての説明図である。ここでいう脳卒中は、例えばラクナ脳梗塞、若しくはアテローム血栓性脳梗塞等の脳梗塞、又は脳出血等を含み得る。図１は、計数十名の脳卒中患者が発した計百数十の音声について言語聴覚士（Ｓｐｅｅｃｈ－Ｌａｎｇｕａｇｅ－Ｈｅａｒｉｎｇ　Ｔｈｅｒａｐｉｓｔ）が聞き取りにより異常発生部位の推定を行った結果を示している。図１において、横軸は口腔に麻痺が発生していると診断された箇所、縦軸は被験者の数を表している。図１に示すように、脳卒中患者の口腔には麻痺が発生している場合が多い。特に、脳卒中患者には、前舌、中舌、又は奥舌といった舌の麻痺が顕著に発生している、と考えられる。

　ここで、被験者の口腔に発生している麻痺の箇所を特定するために、被験者に検査フレーズを発声させ、その音声を言語聴覚士が聞き取ることが行われている。検査フレーズとしては、例えば「瑠璃も玻璃も照らせば光る」等の被験者の口腔に麻痺が発生している場合には発声しにくいフレーズが採用される。

　図２は、健常者の音声波形及び音声波形から得られたスペクトログラムの一例を示す図である。図３は、脳卒中患者の音声波形及び音声波形から得られたスペクトログラムの一例を示す図である。

　図２及び図３の各々において、上側の領域Ａ１が音声波形を表しており、下側の領域Ａ２がスペクトログラムを表している。ここでいうスペクトログラムは、被験者の音声の周波数スペクトルを経時的に表したものである。また、図２及び図３に示す音声波形は、いずれも被験者に「瑠璃も玻璃も照らせば光る」という検査フレーズを発声させ、その音声を収音することで得た波形である。

　「瑠璃も玻璃も照らせば光る」という検査フレーズには、日本語のラ行の子音が含まれており、このような子音は弾音である。ここでいう弾音は、口腔において調音器官によって瞬間的な接触を作ることで作り出される子音、例えば非常に短い時間だけ舌が硬口蓋に触れることで作り出される音である。つまり、弾音は、被験者が舌を所定のパターンで動かすことで発せられる特定音である。このような特定音は、舌が麻痺していれば正しく発音することは困難である。

　図２及び図３において、白抜きの矢印は、検査フレーズにおいてラ行の子音、つまり弾音が発音される位置を示している。図２に示すように、健常者の音声波形から得られるメルスペクトログラムにおいては、弾音が発音される位置において、縦方向に暗い線状の領域Ｂ１が出現している。このように、弾音が正しく発音された場合、ごく短時間（例えば、２０ｍｓ以下）のパワーの低下が発生する。

　一方、図３に示すように、脳卒中患者の音声波形から得られるスペクトログラムにおいては、弾音が発音される位置に、ごく短時間のパワーの低下が発生しない、つまり縦方向に暗い線状の領域Ｂ１が出現しないことがある（領域Ｃ１参照）。このように、弾音が発音されるべき位置において弾音が正しく発音されていないのは、脳卒中患者の舌に麻痺が発生しているために、舌が硬口蓋に接触していないことが原因と考えられる。なお、パワーの低下が比較的弱い場合、又はパワーの低下が起こっているがその時間が比較的長い場合においても、弾音が正しく発音されていないと言える。

　上述のように、被験者の発する音声には、被験者の舌に麻痺が発生しているか否か、言い換えれば被験者の構音異常の有無を検出し得る特徴が現れる。したがって、被験者の発する音声に現れる特徴を分析、例えば弾音が正しく発音されているか否かを分析することにより、被験者の構音異常の有無、更には被験者の脳卒中の発症の予兆の有無を検出することが可能である。

　［２．構成］
　次に、実施の形態に係る構音異常検出装置の構成、及び構音異常検出方法について詳細に説明する。図４は、実施の形態に係る構音異常検出装置１００の構成の一例を示すブロック図である。実施の形態では、構音異常検出装置１００は、スマートフォン、又はタブレット端末等の情報端末に搭載されている。もちろん、構音異常検出装置１００は、デスクトップ型又はラップトップ型のパーソナルコンピュータに搭載されていてもよい。なお、構音異常検出装置１００は、「構音異常検出システム１００」とも呼ばれる。

　図４に示すように、構音異常検出装置１００は、取得部１１と、区分部１２と、検出部１３と、出力部１４と、再生部１５と、記憶部１６と、を備えている。また、記憶部１６には、区分モデル１７と、検出モデル１８と、が格納されている。実施の形態では、取得部１１、区分部１２、検出部１３、出力部１４、及び再生部１５は、いずれも情報端末又はパーソナルコンピュータに搭載されたプロセッサが所定のプログラムを実行することにより実現される。

　取得部１１は、被験者の発する音声に関する音声情報を取得する。取得部１１は、構音異常検出方法における取得ステップの実行主体である。取得部１１は、例えば情報端末に搭載されたマイクロフォンにより被験者の発する音声を収音し、収音した音声を電気信号に変換することで音声情報を取得する。ここで、音声情報は、被験者の発する音声の音声波形、又は音声波形に対して適宜の情報処理を実行することで得られる情報を含み得る。一例として、音声情報は、音声波形から得られるＲＭＳ（Ｒｏｏｔ　Ｍｅａｎ　Ｓｑｕａｒｅ：二乗平均平方根）エンベロープ、又は音声波形のスペクトログラム（メルスペクトログラムを含む）を含み得る。

　実施の形態では、被験者に複数のフレーズを含む検査フレーズの発声を促すことにより、取得部１１は、複数のフレーズを含む音声情報を取得する。ここでいうフレーズは、例えば弾音等の被験者が舌を所定のパターンで動かすことで発せられる特定音と、破裂音とが連続するフレーズである。実施の形態では、フレーズは「デレ」である。つまり、実施の形態では、被験者に上記フレーズを複数回繰り返す「デレデレデレ…」という検査フレーズの発声を促す。

　このように、実施の形態では、音声情報は、被験者が舌を所定のパターンで動かすことで発せられる特定音を含む。また、実施の形態では、特定音は、弾音である。また、実施の形態では、音声情報は、特定音と破裂音とが連続するフレーズを含む。さらには、実施の形態では、音声情報は、フレーズを複数含んでいる。

　以下、検査フレーズとして「デレデレデレ…」を採用した経緯について説明する。上述のように、検査フレーズに例えば弾音等の特定音が含まれていれば、被験者の発する音声から被験者の構音異常の有無を検出することが可能である。しかしながら、被験者が正しく特定音を発音したか否かを分析するためには、被験者が発する音声において特定音が発音されるべき位置を特定するのが好ましい。というのも、例えば脳卒中患者のように構音異常を有する被験者が検査フレーズを発声した場合、特定音が発音されるべき位置を把握していなければ、特定音を正しく発音できなかったのか、又はそもそも特定音を発音しようとしていなかったのかを判別できないからである。

　そこで、本願の発明者は、被験者が発する音声における位置を比較的特定しやすい破裂音と、特定音とが連続するフレーズを検査フレーズとして採用することを見い出した。破裂音は、両唇の間、舌先と上の歯茎の間、又は奥舌と軟口蓋との間等を閉じて呼気を止めた状態から、その閉鎖を急に破った時に発せられる音（子音）である。破裂音は、弾音と比較して舌が麻痺している場合でも発音が容易であり、かつ、発音時に一時的にパワーが低下することから、被験者が発する音声における位置を比較的特定しやすい音である。

　そして、被験者が発する音声における破裂音の位置が特定できれば、破裂音と連続する特定音の位置も特定することが可能である。実施の形態では、破裂音と特定音とが連続するフレーズとして「デレ」を採用している。

　また、検査フレーズとして単一のフレーズである「デレ」を採用するのではなく、複数のフレーズである「デレデレデレ…」を採用することで、被験者の構音異常の有無を検出する精度の更なる向上を図った。すなわち、単一のフレーズである「デレ」のみを被験者が発声した場合、例えば脳卒中患者のように構音異常を有する被験者が偶然にも特定音を正しく発音する場合もあり得るからである。これに対して、複数のフレーズである「デレデレデレ…」を被験者が発声した場合、少なくとも１以上のフレーズにおいて構音異常を有する被験者が特定音を正しく発音できない確率が高まるため、被験者の構音異常の有無を検出しやすくなることが期待できる。加えて、複数のフレーズを繰り返すことにより舌運動への要求が複雑となり、構音異常がより明確に現れやすくなる。

　図５は、複数のフレーズを発声した健常者の音声波形及び音声波形から得られたスペクトログラムの一例を示す図である。図６は、複数のフレーズを発生した脳卒中患者の音声波形及び音声波形から得られたスペクトログラムの一例を示す図である。図７は、複数のフレーズを発生した脳卒中患者の音声波形及び音声波形から得られたスペクトログラムの他の一例を示す図である。

　図５～図７の各々において、上側の領域Ａ１が音声波形を表しており、下側の領域Ａ２がスペクトログラムを表している。また、図５～図７に示す音声波形は、いずれも被験者に「デレデレデレ…」という検査フレーズを発声させ、その音声を収音することで得た波形である。

　図５～図７の各々において、白抜きの矢印は、検査フレーズにおいて「レ」、つまり弾音が発音される位置を示している。図５に示すように、健常者の音声波形から得られるスペクトログラムにおいては、弾音が発音される位置において弾音が正しく発音されているため、ごく短時間のパワーの低下を示す縦方向に暗い線状の領域Ｂ２が出現している。一方、図６に示すように、脳卒中患者の音声波形から得られるスペクトログラムにおいては、例えば領域Ｃ２に示すように、弾音が発音されるべき位置において、ごく短時間のパワーの低下を示す縦方向に長い暗い線状の領域が現れておらず、弾音が正しく発音されていない。また、図７に示す他の脳卒中患者の音声波形から得られるスペクトログラムにおいても、例えば領域Ｃ３に示すように、弾音が発音されるべき位置において、パワー低下が比較的長時間にわたって起こっており、やはり弾音が正しく発音されていない。

　また、構音異常の有無を検出し得る特徴は、音声波形から得られるスペクトログラムだけではなく、音声波形から得られるＲＭＳエンベロープにも発現し得る。図８は、複数のフレーズを発生した健常者及び脳卒中患者の音声波形から得られたＲＭＳエンベロープの一例を示す図である。図８の（ａ）は、健常者の音声波形から得られたＲＭＳエンベロープを示す。一方、図８の（ｂ）、（ｃ）、（ｄ）は、いずれも脳卒中患者の音声波形から得られたＲＭＳエンベロープを示す。図８の（ａ）、（ｂ）、（ｃ）、（ｄ）のＲＭＳエンベロープは、いずれも被験者に「デレデレデレ…」という検査フレーズを発生させ、その音声を収音することで得られた音声波形に対して適宜の情報処理を実行して得ている。

　図８の（ａ）に示すように、健常者の音声波形から得られるＲＭＳエンベロープにおいては、フレーズごとのエンベロープの形状が揃っており、かつ、フレーズごとの中央部において弾音を正しく発音することによるパワーの若干の低下が見られる。一方、図８の（ｂ）に示す脳卒中患者の音声波形から得られるＲＭＳエンベロープにおいては、フレーズごとのエンベロープの形状が不揃いであり、かつ、フレーズごとの中央部において弾音を正しく発音できていないことによるパワーの急峻な低下が見られる。また、図８の（ｃ）に示す他の脳卒中患者の音声波形から得られるＲＭＳエンベロープにおいても、同様にフレーズごとのエンベロープの形状が不揃いである。また、図８の（ｄ）に示す更に他の脳卒中患者の音声波形から得られるＲＭＳエンベロープにおいては、同様にフレーズごとのエンベロープの形状が不揃いであり、かつ、フレーズの間隔も不揃いである。

　上述のように、検査フレーズとして「デレデレデレ…」を採用することにより、音声波形から得られるスペクトログラム及びＲＭＳエンベロープのいずれにおいても、弾音が正しく発音されているか否かを示す特徴が現れやすくなっている。

　区分部１２は、取得部１１（取得ステップ）で取得した音声情報から複数のフレーズを区分する。区分部１２は、構音異常検出方法における区分ステップの実行主体である。具体的には、被験者が発する検査フレーズは、上述のように「デレ」というフレーズを複数回繰り返した「デレデレデレ…」という音声であるため、複数のフレーズを含んでいる。区分部１２は、この「デレデレデレ…」という複数のフレーズを、「デレ」というフレーズに１つずつ区分することにより、後述する検出部１３で音声情報を取り扱いやすくしている。

　実施の形態では、区分部１２（区分ステップ）は、音声情報としてのＲＭＳエンベロープ又はスペクトログラム（ここでは、メルスペクトログラム）に基づいて、複数のフレーズを区分する。また、実施の形態では、区分部１２（区分ステップ）は、区分モデル１７に、取得部１１（取得ステップ）で取得した音声情報を入力することで、複数のフレーズを区分する。区分モデル１７は、複数のフレーズを含む音声を入力として複数のフレーズを区分するように機械学習された学習済みモデルである。

　具体的には、区分モデル１７は、例えば深層ニューラルネットワーク（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ：ＤＮＮ）モデルであって、シーケンスラベリングモデルである。区分モデル１７は、複数のフレーズを含む音声波形から得られたＲＭＳエンベロープ又はスペクトログラムを入力として、ラベルデータを出力する。ラベルデータは、フレームごとにフレーズに属するか否かを示す２値情報の集合である。例えば、音声波形から１００フレーム分のＲＭＳエンベロープ又はスペクトログラムを得ている場合、ラベルデータは、１００フレーム分の２値情報の集合となる。

　区分部１２は、区分モデル１７から出力されるラベルデータに基づいて、区分情報を生成して出力する。例えば、ラベルデータが「１１…１００１１１…」であれば、「１」の連続するデータがフレーズを表し、「０」が隣り合うフレーズの区切りを表す。したがって、区分部１２は、ラベルデータに基づいて、複数のフレーズの各々の開始位置及び終了位置を含む区分情報を生成する。

　以下、区分モデル１７の学習フェーズの具体例について図９を用いて説明する。図９は、実施の形態に係る構音異常検出装置１００の区分モデル１７について、学習フェーズの一例を示す図である。まず、取得部１１は、収音した音声波形に対して適宜の情報処理を実行することにより、音声波形からＲＭＳエンベロープ又はメルスペクトログラムを音声情報として取得する。図９に示す例では、メルスペクトログラムの一例を図示している。

　音声波形から得られるＲＭＳエンベロープは、次元数が「α」（α＝１）、フレーム数が「ｐ」（ｐは自然数）となる。また、音声波形から得られるメルスペクトログラムは、次元数が「β」（βは自然数であって、β＞１）、フレーム数が「ｐ」となる。ここでいう次元数は、周波数軸に沿ったパワーの分解能を示している。また、ここでいうフレーム数は、音声波形を単位時間ごと切り出すことで得られるフレームの数を示している。

　次に、取得部１１が取得した音声情報を機械学習が未だ完了していない区分モデル１７（以下、「未完了の区分モデル１７」という）に入力する。これにより、未完了の区分モデル１７は、ラベルデータを出力する。このラベルデータは、次元数が「１」、フレーム数が「ｐ」となる。

　そして、未完了の区分モデル１７が出力するラベルデータと、正解データとを損失関数（ここでは、多クラス交差エントロピー誤差（Ｃａｔｅｇｏｒｉｃａｌ　Ｃｒｏｓｓ　Ｅｎｔｒｏｐｙ　Ｅｒｒｏｒ）関数）に入力し、損失関数の出力が最小値となるように誤差逆伝播法（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を実行することで、未完了の区分モデル１７を教師あり学習により機械学習させる。正解データは、健常者に検査フレーズを発声させることで得た音声波形から事前に作成されるラベルデータである。正解データは、未完了の区分モデル１７が出力するラベルデータと同様に、次元数が「１」、フレーム数が「ｐ」となる。

　以下、機械学習が完了した区分モデル１７を用いた推論フェーズの具体例について図１０を用いて説明する。図１０は、実施の形態に係る構音異常検出装置１００の区分モデル１７を用いた推論フェーズの一例を示す図である。まず、取得部１１は、収音した音声波形に対して適宜の情報処理を実行することにより、音声波形からＲＭＳエンベロープ又はメルスペクトログラムを音声情報として取得する。図１０に示す例では、メルスペクトログラムの一例を図示している。なお、ＲＭＳエンベロープ及びメルスペクトログラムのフレーム数は、学習フェーズと同様である。また、ＲＭＳエンベロープ及びメルスペクトログラムの次元数も、学習フェーズと同様である。

　次に、区分部１２は、取得部１１が取得した音声情報を区分モデル１７に入力する。これにより、区分モデル１７は、ラベルデータを出力する。そして、区分部１２は、区分モデル１７が出力したラベルデータに基づいて、複数のフレーズの各々の開始位置及び終了位置を含む区分情報を生成する。区分部１２が生成した区分情報は、後述する検出部１３にて用いられる。

　検出部１３は、検出モデル１８に、取得部１１（取得ステップ）で取得した音声情報を入力することで得られる出力結果に基づいて、被験者の構音異常の有無を検出する。検出部１３は、構音異常検出方法における検出ステップの実行主体である。実施の形態においては、検出部１３（検出ステップ）は、区分部１２（区分ステップ）で区分された複数のフレーズの各々が検出モデル１８に入力される。つまり、実施の形態においては、取得部１１（取得ステップ）で取得した音声情報が直接的に検出モデル１８に入力されるのではなく、区分された複数のフレーズが音声情報として間接的に検出モデル１８に入力される。

　検出モデル１８は、音声を入力として構音異常の有無に関する情報を出力するように機械学習されたモデルである。具体的には、検出モデル１８は、例えば畳み込みニューラルネットワーク（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ：ＣＮＮ）モデルであって、入力された健常者の音声と同じ音声を復元するように機械学習されたオートエンコーダモデルである。例えば、検出モデル１８は、区分部１２により区分された複数のフレーズの各々のＲＭＳエンベロープ又はメルスペクトログラムを入力として、これらの復元を試み、複数のフレーズの各々に対応するＲＭＳエンベロープ又はメルスペクトログラムを出力する。

　そして、検出部１３（検出ステップ）は、検出モデル１８に入力される音声情報と、検出モデル１８から出力される音声情報との乖離度合いに基づいて、被験者の構音異常の有無を検出する。例えば、健常者についての音声情報を検出モデル１８に入力すると、入力した音声情報と殆ど同じ音声情報を復元して出力することになる。この場合、乖離度合いは比較的小さくなる。一方、脳卒中患者のような構音異常を有する被験者についての音声情報を検出モデル１８に入力すると、検出モデル１８はこの音声情報を復元することができず、入力した音声情報とは異なる音声情報を出力することになる。この場合、乖離度合いは比較的大きくなる。

　したがって、検出部１３は、検出モデル１８に入力される入力データと、検出モデル１８から出力される出力データとの乖離度合いに基づいて、被験者の構音異常の有無に関する検出情報を生成する。例えば、検出部１３は、検出モデル１８に入力される入力データと、検出モデル１８から出力される出力データとの平均二乗誤差（Ｍｅａｎ　Ｓｑｕａｒｅｄ　Ｅｒｒｏｒ）を算出する。そして、検出部１３は、算出した平均二乗誤差が閾値を上回れば被験者が構音異常を有していると検出し、閾値以下であれば被験者が構音異常を有しておらず健常者であると検出する。

　以下、検出モデル１８の学習フェーズの具体例について図１１を用いて説明する。図１１は、実施の形態に係る構音異常検出装置１００の検出モデル１８について、学習フェーズの一例を示す図である。まず、取得部１１は、収音した音声波形に対して適宜の情報処理を実行することにより、音声波形からメルスペクトログラムを音声情報として取得する。

　音声波形から得られるメルスペクトログラムは、次元数が「γ」（γは自然数であって、β≠γ）、フレーム数が「ｑ」（ｑは自然数であって、ｑ≠ｐ）となる。

　次に、検出部１３は、取得部１１が取得した音声情報を、区分部１２が出力する区分情報を参照することにより複数のフレーズに区分することで、複数のフレーズのみで構成された区分データを生成する。区分データは次元数が「γ」となり、区分データのフレーム数は「ｒ」（ｒは自然数であって、ｒ＜ｑ）となる。ここで生成した区分データにおいては、複数のフレーズの長さが不均一であるため、以下では「未整形区分データ」という。次に、区分データに含まれる複数のフレーズをリサイズすることにより、複数のフレーズの長さを統一する。以下ではリサイズされた区分データを単に「区分データ」という。区分データは、未整形区分データと同様に、次元数が「γ」であり、フレーム数が「ｒ’」である。

　次に、区分データを機械学習が未だ完了していない検出モデル１８（以下、「未完了の検出モデル１８」という）に入力する。これにより、未完了の検出モデル１８は、入力された区分データの復元を試みた復元データを出力する。この復元データは、区分データと同様に、次元数が「γ」であり、フレーム数が「ｒ’」である。

　そして、区分データと、未完了の検出モデル１８が出力する復元データとを損失関数（ここでは、平均二乗誤差関数）に入力し、損失関数の出力が最小値となるように誤差逆伝播法を実行することで、未完了の検出モデル１８を教師なし学習により機械学習させる。

　以下、機械学習が完了した検出モデル１８を用いた推論フェーズの具体例について図１２を用いて説明する。図１２は、実施の形態に係る構音異常検出装置１００の検出モデル１８を用いた推論フェーズの一例を示す図である。まず、取得部１１は、収音した音声波形に対して適宜の情報処理を実行することにより、音声波形からメルスペクトログラムを音声情報として取得する。図１２に示す例では、メルスペクトログラムの一例を図示している。なお、メルスペクトログラムの次元数及びフレーム数は、いずれも学習フェーズと同様である。

　次に、検出部１３は、取得部１１が取得した音声情報を、区分部１２が出力する区分情報を参照することにより複数のフレーズに区分することで、未整形の区分データを生成する。次に、検出部１３は、区分データに含まれる複数のフレーズをリサイズすることにより、区分データを生成する。

　次に、検出部１３は、生成した区分データを検出モデル１８に入力する。これにより、検出モデル１８は、復元データを出力する。そして、検出部１３は、検出モデル１８に入力される区分データと、検出モデル１８が出力した復元データとの平均二乗誤差を算出し、算出した平均二乗誤差と閾値とを比較することにより、被験者の構音異常の有無に関する検出情報を生成する。検出部１３が生成した検出情報は、後述する出力部１４にて用いられる。

　なお、実施の形態では、検出モデル１８の学習フェーズ、及び検出モデル１８を用いた推論フェーズのいずれにおいても音声波形から得られたメルスペクトログラムを音声情報として用いているが、音声波形から得られたＲＭＳエンベロープを音声情報として用いてもよい。

　また、検出部１３は、区分データを全て検出モデル１８に入力するのではなく、例えば区分データに含まれる複数のフレーズのうち最後のフレーズを除く等して、区分データの一部を検出モデル１８に入力してもよい。というのも、被験者が検査フレーズを最後まで確実に発声しない可能性があり、このような場合に最後のフレーズは検出モデル１８にとってノイズとなるからである。

　出力部１４は、検出部１３（検出ステップ）で検出された被験者の構音異常の有無に関する検出情報を出力する。出力部１４は、構音異常検出方法における出力ステップの実行主体である。検出情報は、被験者が構音異常を有しているか否かを示す情報を含み得る。実施の形態では、検出情報は、被験者の構音異常の有無に紐づく、被験者の脳卒中の発症の予兆の有無を示す情報を含む。出力部１４は、例えば情報端末のディスプレイに検出情報を示す文字列又は画像等を表示することにより、検出情報を出力する。

　再生部１５は、取得部１１が音声情報を取得する前に（取得ステップの前に）、被験者の発する音声についてのサンプル音声を被験者に対して再生する。再生部１５は、構音異常検出方法における再生ステップの実行主体である。サンプル音声は、例えば機械音声であって、検査フレーズを所定の音量及び所定のリズムで読み上げた音声である。再生部１５は、例えば被験者が情報端末にて所定の操作を行うことをトリガとして、情報端末に搭載されたスピーカからサンプル音声を再生する。

　記憶部１６は、取得部１１、区分部１２、検出部１３、出力部１４、及び再生部１５が各種処理を行うために必要な情報（コンピュータプログラム等）が記憶される記憶装置である。記憶部１６は、例えば半導体メモリにより実現されるが、特に限定されることなく公知の電子情報記憶の手段を用いることができる。記憶部１６には、区分部１２で用いられる区分モデル１７と、検出部１３で用いられる検出モデル１８と、が格納されている。

　［３．動作］
　以下、実施の形態に係る構音異常検出装置１００の動作（つまり、構音異常検出方法）の一例について図１３～図１５を用いて説明する。図１３は、実施の形態に係る構音異常検出装置１００の動作例を示すフローチャートである。図１４は、実施の形態に係る構音異常検出装置１００及び構音異常検出方法の概要の一例を示す図である。図１５は、実施の形態に係る構音異常検出装置１００の動作の具体例を示す図である。

　以下では、図１４に示すように、区分モデル１７及び検出モデル１８は、いずれも既に説明した方法により事前に機械学習されていることとして説明する。また、以下では、被験者２は、過去に脳卒中を発症したことがあり、現時点では脳卒中から完全ではないが回復した軽症患者であることとして説明する。もちろん、被験者２は、過去に脳卒中を発症したことがない人であってもよい。

　図１５の（ａ）～（ｄ）は、いずれも情報端末３での「脳卒中再発チェッカー」というアプリケーションの実行フローを表している。図１５の（ａ）は、当該アプリケーションを起動した際に情報端末３のディスプレイ３１に表示される画像を表している。ディスプレイ３１の中央には、「ことばでチェック」という文字列を含むアイコン４１が表示されている。被験者２がアイコン４１に指で触れる等してアイコン４１を選択する操作を行うことで、図１５の（ｂ）に示すフローへ移行する。

　図１５の（ｂ）に示すように、情報端末３のディスプレイ３１には、「次のように話してください」という被験者２に検査フレーズの発声を促す文字列Ｍ１と、「デレデレデレデレデレデレデレデレ」という検査フレーズを示す文字列Ｍ２と、が表示される。また、ディスプレイ３１には、「お手本を聞く」という文字列を含むアイコン４２と、「チェック開始」という文字列を含むアイコン４３と、が文字列Ｍ１，Ｍ２と共に表示される。

　ここで、被験者２がアイコン４２を選択する操作は、図１３に示す「再生トリガ」に相当する。すなわち、被験者２がアイコン４２を選択する操作を行う、言い換えれば再生トリガがあると（Ｓ１：Ｙｅｓ）、再生部１５（再生ステップ）は、サンプル音声を再生する（Ｓ２）。なお、ディスプレイ３１にアイコン４２を表示するタイミングについては、音声情報を取得する前に限らず、音声情報を取得した後であってもよい。例えば、アイコン４２は、被験者２の発する声の音量が小さい等して何らかの原因で被験者２の検査フレーズを検出できなかった場合にディスプレイ３１に表示されてもよい。また、例えば、アイコン４２は、後述するステップＳ４における音声情報から複数のフレーズを区分する処理が実行できなかった場合にディスプレイ３１に表示されてもよい。また、例えば、アイコン４２は、後述するステップＳ５における構音異常の有無を検出する処理が実行できなかった場合にディスプレイ３１に表示されてもよい。

　被験者２がアイコン４２を選択する操作を行わずに（Ｓ２：Ｎｏ）、又は被験者２がアイコン４２を選択する操作を行った後に、被験者２がアイコン４３を選択する操作を行うと、次に図１５の（ｃ）に示すフローへ移行する。なお、アイコン４３は、被験者２がアイコン４２を選択する操作を行ってサンプル音声を再生した後に、被験者２による操作を受け付ける（つまり、アクティブになる）態様であってもよい。この場合、被験者２がサンプル音声を聞くまでは、図１５の（ｃ）に示すフローへ移行することができない。アイコン４３は、サンプル音声が再生されるまでの間は、例えば灰色で表示される等してインアクティブであることを示す態様で表示され、サンプル音声が再生させると、例えば白色で表示される等してアクティブであることを示す態様で表示されてもよい。

　図１５の（ｃ）に示すように、情報端末３のディスプレイ３１には、引き続き文字列Ｍ１，Ｍ２が表示される。また、ディスプレイ３１には、被験者２が発声する検査フレーズを録音していることを示すサブ画像５と、「判定」という文字列を含むアイコン４４と、が文字列Ｍ１，Ｍ２と共に表示される。サブ画像５には、「録音中」という文字列と、情報端末３のマイクロフォンが収音した音声波形と、が表示される。つまり、図１５の（ｃ）に示すフローにおいて、取得部１１（取得ステップ）は、音声情報を取得する（Ｓ３）。

　次に、被験者２がアイコン４４を選択する操作を行うと、被験者２の構音異常の有無を判定（検出）する一連の処理が開始される。まず、区分部１２（区分ステップ）は、取得部１１（取得ステップ）が取得した音声情報から複数のフレーズを区分する（Ｓ４）。次に、検出部１３（検出ステップ）は、区分部１２（区分ステップ）で区分された複数のフレーズの各々を検出モデル１８に入力することで、被験者２の構音異常の有無を検出する（Ｓ５）。そして、出力部１４は、検出部１３（検出ステップ）で検出された被験者２の構音異常の有無に関する検出情報を出力する（Ｓ６）。具体的には、図１５の（ｄ）に示すように、検出情報は、文字列Ｍ３として情報端末３のディスプレイ３１に表示される。ここでは、被験者２に構音異常が検出された場合、言い換えれば被験者２に脳卒中の発症の予兆があった場合の検出情報として、「脳卒中が再発している可能性があります。専門医の受診をお勧めします。」という文字列Ｍ３が表示されている。なお、被験者２に構音異常が無い場合、言い換えれば被験者２に脳卒中の発症の予兆が無い場合は、例えば「特に異常はありません。」等の文字列がディスプレイ３１に表示されることになる。

　その他、検出情報は、例えば図１６に示すような形で情報端末３のディスプレイ３１に表示されてもよい。図１６は、実施の形態に係る構音異常検出装置１００の動作の他の具体例を示す図である。

　図１６の（ａ）に示す例では、検出情報は、文字列Ｍ３及び第１グラフ６としてディスプレイ３１に表示されている。第１グラフ６は、被験者２の音声波形から得られたＲＭＳエンベロープを表しており、被験者２が正確にフレーズを発声することに失敗した（言い換えれば、構音異常が認められた）失敗区間６１を含んでいる。被験者２は、第１グラフ６を見ることで、自身がどのフレーズの発声を正しく行えなかったかを把握することができる。

　図１６の（ｂ）に示す例では、検出情報は、文字列Ｍ３及び第１グラフ６、並びに「失敗率３８％です」という文字列Ｍ４としてディスプレイ３１に表示されている。文字列Ｍ４は、被験者２が音声を発した全区間に対して失敗区間６１が占める割合（つまり、失敗率）を提示する。被験者２は、文字列Ｍ４を見ることで、脳卒中が再発している可能性がどの程度高いかを把握することができる。

　図１６の（ｃ）に示す例では、検出情報は、文字列Ｍ３及び第２グラフ７としてディスプレイ３１に表示されている。第２グラフ７は、失敗率を時系列に沿って表した棒グラフである。ここでは、第２グラフ７には、８月１日から８月１１日までの期間において、連日、「脳卒中再発チェッカー」を実行した結果が表されている。第２グラフ７における横線７１は、閾値を表しており、失敗率が当該閾値を上回ると、脳卒中が再発している可能性が高いことを示す。被験者２は、第２グラフ７を見ることで、脳卒中が再発している可能性がどの程度高いかを時系列で把握することができる。

　上述のように、実施の形態に係る構音異常検出装置１００及び構音異常検出方法では、医師又は言語聴覚士等の専門家に頼ることなく、被験者２の発する音声から構音異常の有無、更には脳卒中の発症の予兆の有無を検出することが可能である。このため、実施の形態に係る構音異常検出装置１００及び構音異常検出方法を用いることで、被験者２に脳卒中の発症の予兆があれば、被験者２に対して速やかに受診を促すことで早期の治療による重症化の防止が期待できる。

　［４．効果等］
　以上説明したように、実施の形態に係る構音異常検出方法は、取得ステップ（Ｓ３）と、検出ステップ（Ｓ５）と、を含む。取得ステップ（Ｓ３）では、被験者の発する音声に関する音声情報を取得する。検出ステップ（Ｓ５）では、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデル１８に、取得ステップ（Ｓ５）で取得した音声情報を入力することで得られる出力結果に基づいて、被験者の構音異常の有無を検出する。

　また、実施の形態に係る構音異常検出方法では、音声情報は、被験者が舌を所定のパターンで動かすことで発せられる特定音を含んでいる。

　また、実施の形態に係る構音異常検出方法では、特定音は、弾音である。

　また、実施の形態に係る構音異常検出方法では、音声情報は、特定音と破裂音とが連続するフレーズを含んでいる。

　また、実施の形態に係る構音異常検出方法では、音声情報は、フレーズを複数含んでいる。また、実施の形態に係る構音異常検出方法は、取得ステップ（Ｓ３）で取得した音声情報から複数のフレーズを区分する区分ステップ（Ｓ４）を更に含んでいる。また、検出ステップ（Ｓ５）では、区分ステップ（Ｓ４）で区分された複数のフレーズの各々が検出モデル１８に入力される。

　また、実施の形態に係る構音異常検出方法において、区分ステップ（Ｓ４）では、音声情報としてのＲＭＳ（Ｒｏｏｔ　Ｍｅａｎ　Ｓｑｕａｒｅ）エンベロープ又はスペクトログラムに基づいて、複数のフレーズを区分する。

　また、実施の形態に係る構音異常検出方法において、区分ステップ（Ｓ４）では、複数のフレーズを含む音声を入力として複数のフレーズを区分するように機械学習された区分モデル１７に、取得ステップ（Ｓ３）で取得した音声情報を入力することで、複数のフレーズを区分する。

　これによれば、区分モデル１７を用いずに複数のフレーズを区分する場合と比較して、複数のフレーズを区分する精度の向上が期待できる、という利点がある。

　また、実施の形態に係る構音異常検出方法では、検出モデル１８は、入力された健常者の音声と同じ音声を復元するように機械学習されたオートエンコーダである。また、検出ステップ（Ｓ５）では、検出モデル１８に入力される音声情報と、検出モデル１８から出力される音声情報との乖離度合いに基づいて、被験者の構音異常の有無を検出する。

　これによれば、健常者よりも少数である構音異常を有する患者の音声を用いて検出モデル１８を学習する場合と比較して多数の学習用データを準備しやすいので、検出モデル１８を学習しやすい、という利点がある。

　また、実施の形態に係る構音異常検出方法は、検出ステップ（Ｓ５）で検出された被験者の構音異常の有無に関する検出情報を出力する出力ステップ（Ｓ６）を更に含んでいる。

　また、実施の形態に係る構音異常検出方法は、取得ステップ（Ｓ３）の前に、被験者の発する音声についてのサンプル音声を被験者に対して再生する再生ステップ（Ｓ２）を更に含んでいる。

　これによれば、被験者がサンプル音声を再現して発声できているか否かを含めて被験者の構音異常の有無を検出することが可能になり、被験者の構音異常の有無を検出する精度の向上が期待できる、という利点がある。

　また、実施の形態に係る構音異常検出装置１００は、取得部１１と、検出部１３と、を備える。取得部１１は、被験者の発する音声に関する音声情報を取得する。検出部１３は、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデル１８に、取得部１１で取得した音声情報を入力することで得られる出力結果に基づいて、被験者の構音異常の有無を検出する。

　（他の実施の形態）
　以上、本開示の１つ又は複数の態様に係る構音異常検出方法及び構音異常検出装置１００について、上記の実施の形態に基づいて説明したが、本開示は、これらの実施の形態に限定されるものではない。本開示の主旨を逸脱しない限り、当業者が思いつく各種変形を実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構成される形態も、本開示の１つ又は複数の態様の範囲内に含まれてもよい。

　例えば、上記実施の形態では、区分部１２（区分ステップ）は、区分モデル１７を用いて複数のフレーズを区分しているが、これに限られない。例えば、区分部１２（区分ステップ）は、被験者の音声波形から得られるＲＭＳエンベロープにおいてパワーが所定値以下となる箇所で区切るように、複数のフレーズを区分してもよい。この場合、区分モデル１７は不要である。

　例えば、上記実施の形態では、被験者に発声させる検査フレーズ（つまり、取得部１１が取得する音声情報）として複数のフレーズを採用しているが、単一のフレーズであってもよい。この場合、区分部１２（区分ステップ）は不要である。

　また、上記実施の形態では、被験者に発声させる検査フレーズ（つまり、取得部１１が取得する音声情報）として「デレデレデレ…」を採用しているが、これに限らず、破裂音と弾音とが連続するフレーズであってもよい。また、検査フレーズは、破裂音と弾音とが連続するフレーズに限らず、例えば弾音のみで構成されたフレーズであってもよい。また、検査フレーズは、検出モデル１８の学習方法の如何によっては、弾音を含んでいなくてもよく、更には舌を所定のパターンで動かすことで発せられる特定音を含んでいなくてもよい。

　また、上記実施の形態では、構音異常検出装置１００は情報端末に搭載されているが、これに限られない。例えば、構音異常検出装置１００は、サーバ装置に搭載されていてもよい。サーバ装置は、クラウドサーバであってもよいし、ローカルサーバであってもよい。この場合、サーバ装置に搭載されたプロセッサが所定のプログラムを実現することにより、構音異常検出装置１００が実現される。また、この場合、被験者は、情報端末を用いてサーバ装置にネットワーク等を通じてアクセスすればよい。また、例えば、構音異常検出装置１００は、その一部の構成が情報端末に搭載され、残りの構成がサーバ装置に搭載される構成であってもよい。

　また、構音異常検出装置１００は、スマートフォン又はタブレット端末等の汎用の情報端末ではなく、構音異常検出機能を有する専用端末とした装置に格納されていてもよい。この場合、上記専用端末とした装置に搭載されたプロセッサが所定のプログラムを実行することにより、構音異常検出装置１００が実現される。

　例えば、上記実施の形態に係る構音異常検出装置１００が備える構成要素の一部又は全部は、１個のシステムＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等を含んで構成されるコンピュータシステムである。ＲＯＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

　なお、ここでは、システムＬＳＩとしたが、集積度の違いにより、ＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法は、ＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、あるいは、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

　さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてあり得る。

　また、本開示の一態様は、構音異常検出方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体であってもよい。すなわち、プログラムは、１以上のプロセッサに、上記の構音異常検出方法を実行させてもよい。

　本開示は、例えば、脳卒中の発症の予兆の有無を判定するための方法等に利用可能である。

　１００　構音異常検出装置
　１１　取得部
　１２　区分部
　１３　検出部
　１４　出力部
　１５　再生部
　１６　記憶部
　１７　区分モデル
　１８　検出モデル
　２　被験者
　３　情報端末
　３１　ディスプレイ
　４１～４４　アイコン
　５　サブ画像
　６　第１グラフ
　６１　失敗区間
　７　第２グラフ
　７１　横線
　Ａ１、Ａ２、Ｂ１、Ｂ２、Ｃ１～Ｃ３　領域
　Ｍ１～Ｍ４　文字列

Claims

　被験者の発する音声に関する音声情報を取得する取得ステップと、
　音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、前記取得ステップで取得した前記音声情報を入力することで得られる出力結果に基づいて、前記被験者の構音異常の有無を検出する検出ステップと、を含む、
　構音異常検出方法。
　前記音声情報は、前記被験者が舌を所定のパターンで動かすことで発せられる特定音を含む、
　請求項１に記載の構音異常検出方法。
　前記特定音は、弾音である、
　請求項２に記載の構音異常検出方法。
　前記音声情報は、前記特定音と破裂音とが連続するフレーズを含む、
　請求項２又は３に記載の構音異常検出方法。
　前記音声情報は、前記フレーズを複数含んでおり、
　前記取得ステップで取得した前記音声情報から前記複数のフレーズを区分する区分ステップを更に含み、
　前記検出ステップでは、前記区分ステップで区分された前記複数のフレーズの各々が前記検出モデルに入力される、
　請求項４に記載の構音異常検出方法。
　前記区分ステップでは、前記音声情報としてのＲＭＳ（Ｒｏｏｔ　Ｍｅａｎ　Ｓｑｕａｒｅ）エンベロープ又はスペクトログラムに基づいて、前記複数のフレーズを区分する、
　請求項５に記載の構音異常検出方法。
　前記区分ステップでは、前記複数のフレーズを含む音声を入力として前記複数のフレーズを区分するように機械学習された区分モデルに、前記取得ステップで取得した前記音声情報を入力することで、前記複数のフレーズを区分する、
　請求項５に記載の構音異常検出方法。
　前記検出モデルは、入力された健常者の音声と同じ音声を復元するように機械学習されたオートエンコーダモデルであって、
　前記検出ステップでは、前記検出モデルに入力される前記音声情報と、前記検出モデルから出力される音声情報との乖離度合いに基づいて、前記被験者の構音異常の有無を検出する、
　請求項１～３のいずれか１項に記載の構音異常検出方法。
　前記検出ステップで検出された前記被験者の構音異常の有無に関する検出情報を出力する出力ステップを更に含む、
　請求項１～３のいずれか１項に記載の構音異常検出方法。
　前記被験者の発する音声についてのサンプル音声を前記被験者に対して再生する再生ステップを更に含む、
　請求項１～３のいずれか１項に記載の構音異常検出方法。
　１以上のプロセッサに、
　請求項１～３のいずれか１項に記載の構音異常検出方法を実行させる、
　プログラム。
　被験者の発する音声に関する音声情報を取得する取得部と、
　音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、前記取得部で取得した前記音声情報を入力することで得られる出力結果に基づいて、前記被験者の構音異常の有無を検出する検出部と、を備える、
　構音異常検出装置。