WO2018033979A1

WO2018033979A1 - 語学学習システム及び語学学習プログラム

Info

Publication number: WO2018033979A1
Application number: PCT/JP2016/074052
Authority: WO
Inventors: 健一海沼; 市橋　敬男
Original assignee: 健一海沼
Priority date: 2016-08-17
Filing date: 2016-08-17
Publication date: 2018-02-22
Also published as: US11145222B2; US20180137778A1; JPWO2018033979A1; CN108431883B; JP6172417B1; CN108431883A; EP3503074A4; EP3503074A1

Abstract

少ない負担とコストで複数の言語学習に対応させることが可能で、外国語の発音習得に適した成績反映型音と映像による語学学習システム及び語学学習プログラムを提供する。　学習者端末３にネットワーク４を介して接続された学習支援サーバ１は、学習対象言語について発音の手本となる単語やセンテンスの手本音声を記憶した音声記憶手段２１と、学習者端末３に手本音声及び画像を送信し、学習者に該手本音声と該画像を関連付けて知覚させる音声送信手段１１と、学習者端末３に前記画像を送信し、学習者に該画像に対応する単語やセンテンスの発話を要求する音声取得手段１２と、取得した学習者音声を解析して学習者を特定すると共に、発音の正確性を評価する音声解析手段１３と、発音の正確性の評価を表す画像を学習者端末３に送信する評価送信手段１４と、を有し、前記画像には学習対象の言語に関する文字情報を含まないことを特徴とする。

Description

語学学習システム及び語学学習プログラム

　本発明は、学習者の語学学習を支援する語学学習システム及び語学学習プログラムに関し、特に、外国語の発音の学習に適した成績反映型音と映像による語学学習システム及び語学学習プログラムに関する。

　従来、学習者が一人で外国語を効率よく学習することができるように語学学習を支援する語学学習支援装置としては、コンピュータなどの電子機器に外国語の文字を表示させたり、音声を出力させたりして学習を支援するものが種々知られている。

　外国語の正確な発音の学習を支援する語学学習支援装置としては、特許文献１に、単語の綴りや発音記号などの表示情報に音節毎の範囲を示す音節マークを付すと共に、手本となる発音音声出力の音節の遷移に同期して、音節マークを付した表示情報について、現在の音節の音節マークの部分を強調表示し、正しい音節の区切りと音節の拍子を容易に身に付けることを可能にした発音学習装置が開示されている。この発音学習装置は、手本となるネイティブの発音音声を出力した後、学習者の発音期間において、アクセントと音節を強調表示して学習者の正しい発音を誘導するようになっている。

　特許文献２には、コンピュータがオブジェクトの表示と対応させて外国語の音声を出力し、音声を聞いた学習者に音声に対応するオブジェクトの動作を選択させ、学習者が選択した動作の適否を判断して評価結果を表示又は音声で出力し、文字を介することなく外国語の習得を可能にした学習システムが開示されている。

特開２０１５－３６７８８公報特開２００２－２６８５３７公報

　しかし、特許文献１に記載の発音学習装置では、複数の学習言語に対応させるために、それぞれの学習言語について、単語の綴りや発音記号などの表示情報を表示させるためのプログラミング作業が必要となり、対応言語数に比例して工数が増大することから、複数の学習言語に対応させる際に大きな負担となる課題があった。

　引用文献２に記載の学習システムでは、文字を介することなく外国語の習得を可能にしていることから、上記課題は生じないものの、学習者の理解度を選択したオブジェクトの動作のみで判断しているために、学習者が外国語の正確な発音を身に付けているかを確認することができないという問題が残っていた。

　そこで、本発明は、外国語の発音習得に適した語学学習システムにおいて、少ない負担とコストで複数の言語学習に対応させることが可能な語学学習システム及び語学学習プログラムを提供するものである。

　本発明は、上記課題を解決するために、画像を表示する表示部と、音声を入出力する音入出力部と、を備えた学習者端末にネットワークを介して接続され、学習者の語学学習を支援する学習支援サーバを含む語学学習システムであって、前記学習支援サーバは、学習対象である一又は二以上の言語について発音の手本となる単語又は／及びセンテンスの手本音声を記憶した音声記憶手段と、前記学習者端末に前記手本音声及び該手本音声に対応する画像を送信し、学習者に該手本音声と該画像を関連付けて知覚させる音声送信手段と、前記学習者端末に前記画像を送信し、学習者に該画像に対応する単語又はセンテンスの発話を要求して学習者の発する学習者音声を取得する音声取得手段と、取得した前記学習者音声を解析して学習者を特定すると共に、発音の正確性を評価する音声解析手段と、前記音声解析手段が評価した発音の正確性の評価を表す画像を前記学習者端末に送信する評価送信手段と、を有し、前記画像には学習対象の言語に関する文字情報を含まない語学学習システムを提供するものである。

　また、本発明は、上記の語学学習システムにおいて、前記発音の正確性の評価が所定の基準値を満たした場合には、前記評価送信手段が該評価を表す画像を前記学習者端末に送信し、前記発音の正確性の評価が所定の基準値を満たさない場合には、前記音声送信手段が前記学習者端末に前記手本音声を繰り返し送信するものである。

　また、本発明は、上記の語学学習システムにおいて、前記音声送信手段は、前記学習者端末の音入出力部から前記手本音声を出力させた後に、該手本音声に対応して前記画像を変化させて前記学習者端末の表示部に表示させる手段を備え、前記評価送信手段は、前記発音の正確性の評価が所定の基準値を満たした場合に、前記手本音声に対応して前記画像を変化させて前記学習者端末の表示部に表示させる手段を備えたものである。

　また、本発明は、上記の語学学習システムにおいて、前記音声記憶手段は、それぞれの単語又は／及びセンテンスにおいて複数の話者の手本音声を関連付けて記憶する手段を備え、前記音声送信手段は、前記学習者端末に前記手本音声を繰り返し送信する際に、異なる話者の前記手本音声を送信する手段を備えたものである。

　また、本発明は、上記の語学学習システムにおいて、前記学習支援サーバは、学習者毎に学習した単語又は／及びセンテンスの発音の正確性の評価を記憶する学習状況記憶手段と、前記学習状況記憶手段に記憶された発音の正確性の評価に基づいて学習者毎の学習進捗度及び得意音又は不得意音を含む成績を作成する成績作成手段と、前記成績に基づいて学習者毎の学習カリキュラムを作成するカリキュラム作成手段と、を備えたものである。

　また、本発明は、上記の語学学習システムにおいて、前記学習支援サーバは、学習者毎の前記成績に基づいて各学習者を複数の学習レベルに層別し、前記学習レベルが同じ層又は前記学習レベルが同じ層と前後の層を含む層内の複数の学習者に仮想現実の環境を提供するための画像を前記学習者端末に送信し、前記複数の学習者に音声での会話を行わせる学習者交流手段を備えたものである。

　また、本発明は、上記の何れか一項に記載の語学学習システムとして、コンピュータを機能させるための語学学習プログラムを提供するものである。

　本発明の語学学習システムは、画像を表示する表示部と、音声を入出力する音入出力部と、を備えた学習者端末にネットワークを介して接続され、学習者の語学学習を支援する学習支援サーバを含む語学学習システムであって、前記学習支援サーバは、学習対象である一又は二以上の言語について発音の手本となる単語又は／及びセンテンスの手本音声を記憶した音声記憶手段と、前記学習者端末に前記手本音声及び該手本音声に対応する画像を送信し、学習者に該手本音声と該画像を関連付けて知覚させる音声送信手段と、前記学習者端末に前記画像を送信し、学習者に該画像に対応する単語又はセンテンスの発話を要求して学習者の発する学習者音声を取得する音声取得手段と、取得した前記学習者音声を解析して学習者を特定すると共に、発音の正確性を評価する音声解析手段と、前記音声解析手段が評価した発音の正確性の評価を表す画像を前記学習者端末に送信する評価送信手段と、を有し、前記画像には学習対象の言語に関する文字情報を含まないことにより、学習者は画像と手本音声で言語を学習するので、正確な発音を身に付けることができる。また、本発明の語学学習システムは、学習者端末に送信する画像に学習対象の言語に関する文字情報を含まないから、各言語に対応した文字を表示させるためのローカリゼーションが不要になり、複数言語の手本音声を音声記憶手段に記憶しておき、手本音声の言語を変えるだけで異なる学習言語に対応することができる効果がある。

　また、本発明は、上記の語学学習システムにおいて、前記発音の正確性の評価が所定の基準値を満たした場合には、前記評価送信手段が該評価を表す画像を前記学習者端末に送信し、前記発音の正確性の評価が所定の基準値を満たさない場合には、前記音声送信手段が前記学習者端末に前記手本音声を繰り返し送信することにより、学習者が正しい発音をした場合には、学習者端末の表示部に評価を表す画像を表示させて該評価を学習者に知らせることができ、学習者が誤った発音をした場合には、学習者端末の音入出力部から再び手本音声を出力させ、学習者に繰り返し学習させることによって正確な発音を習得させることができる効果がある。

　また、本発明は、上記の語学学習システムにおいて、前記音声送信手段は、前記学習者端末の音入出力部から前記手本音声を出力させた後に、該手本音声に対応して前記画像を変化させて前記学習者端末の表示部に表示させる手段を備え、前記評価送信手段は、前記発音の正確性の評価が所定の基準値を満たした場合に、前記手本音声に対応して前記画像を変化させて前記学習者端末の表示部に表示させる手段を備えたことにより、画像に文字情報を含ませなくても、手本音声に対応した変化と同じように画像を変化させることによって学習者に発音が正しいことを伝えることができる効果がある。

　また、本発明は、上記の語学学習システムにおいて、前記音声記憶手段は、それぞれの単語又は／及びセンテンスにおいて複数の話者の手本音声を関連付けて記憶する手段を備え、前記音声送信手段は、前記学習者端末に前記手本音声を繰り返し送信する際に、異なる話者の前記手本音声を送信する手段を備えたことにより、同じ単語又はセンテンスにおいて異なる話者の手本音声を学習者に聞かせることができ、学習者を飽きさせないで、正しい発音を習得させることができるから、学習効率を向上させることができる効果がある。

　また、本発明は、上記の語学学習システムにおいて、前記学習支援サーバは、学習者毎に学習した単語又は／及びセンテンスの発音の正確性の評価を記憶する学習状況記憶手段と、前記学習状況記憶手段に記憶された発音の正確性の評価に基づいて学習者毎の学習進捗度及び得意音又は不得意音を含む成績を作成する成績作成手段と、前記成績に基づいて学習者毎の学習カリキュラムを作成するカリキュラム作成手段と、を備えたことにより、学習者又はその保護者に成績を提示することができるのみならず、学習カリキュラムをリアルタイムに作成することができ、学習者毎のカリキュラムに基づいて不得意音を含む単語又はセンテンスを繰り返し学習するなど個人に合わせた効果的な学習を行わせることができる効果がある。

　また、本発明は、上記の語学学習システムにおいて、前記学習支援サーバは、学習者毎の前記成績に基づいて各学習者を複数の学習レベルに層別し、前記学習レベルが同じ層又は前記学習レベルが同じ層と前後の層を含む層内の複数の学習者に仮想現実の環境を提供するための画像を前記学習者端末に送信し、前記複数の学習者に音声での会話を行わせる学習者交流手段を備えたことにより、学習者同士で音声での交流を行いながら語学学習を行わせることができる効果がある。

　また、本発明の語学学習プログラムは、上記の何れか一項に記載の語学学習システムとして、コンピュータを機能させることにより、学習者端末に送信する画像に学習対象の言語に関する文字情報を含まないから、各言語に対応した文字を表示させるためのローカリゼーションが不要になり、複数言語の手本音声を音声記憶手段に記憶しておき、手本音声の言語を変えるだけで異なる学習言語に対応することができる効果がある。

本発明に係る語学学習システムの一実施例を示す構成図。本発明に係る語学学習システムの音声解析手段の一実施例を示す構成図。本発明に係る語学学習システムの個人認証の一例を示すフローチャート。本発明に係る語学学習システムの学習支援の一例を示すフローチャート。本発明に係る語学学習システムの音声解析の一例を示すフローチャート。

　本発明の実施の形態を図示する実施例に基づいて説明する。図１は、本発明に係る語学学習システムの一実施例を示す構成図である。図２は、本発明に係る語学学習システムの音声解析手段の一実施例を示す構成図である。

　本発明の語学学習システムは、画像を表示する表示部３１と、音声を入出力する音入出力部３２と、を備えた学習者端末３にネットワーク４を介して接続され、学習者の語学学習を支援する学習支援サーバ１を含むシステムであって、学習支援サーバ１は、学習対象である一又は二以上の言語について発音の手本となる単語又は／及びセンテンスの手本音声を記憶した音声記憶手段２１と、学習者端末３に手本音声及び該手本音声に対応する画像を送信し、学習者に該手本音声と該画像を関連付けて知覚させる音声送信手段１１と、学習者端末３に前記画像を送信し、学習者に該画像に対応する単語又はセンテンスの発話を要求して学習者の発する学習者音声を取得する音声取得手段１２と、取得した学習者音声を解析して学習者を特定すると共に、発音の正確性を評価する音声解析手段１３と、音声解析手段が評価した発音の正確性の評価を表す画像を前記学習者端末に送信する評価送信手段１４と、を有し、前記画像には学習対象の言語に関する文字情報を含まないことを特徴とする。

　本発明の語学学習システムにおいて、学習者端末３に送信する上記画像には、静止画像の他、動画像も含まれる。本発明の特に好ましい実施形態としては、上記画像が動きのある教師オブジェクト含むアニメーションであり、学習対象の言語に関する文字情報を含まない形態である。本発明の語学学習システムは、アニメーションのローカリゼーションが不要であり、複数言語の手本音声を音声記憶手段に記憶しておき、アニメーションと組み合わせる手本音声の言語を変えるだけで異なる学習言語に対応することができる。

　また、本発明の語学学習システムは、アニメーションにおいて教師オブジェクトに手本音声に対応した身振りや手振りなどの動作をさせることにより、学習者に人を介さないでボディーランゲージを学習させることもできる。

　学習支援サーバ１は、ネットワーク４に接続されたコンピュータであって、学習者端末３からの要求に応じて学習者の語学学習を支援する処理手段１０と、処理手段１０を機能させるためのプログラムや音声などのデータを記憶する記憶手段２０と、を有する。

　処理手段１０は、学習支援サーバ１内に設けられた中央演算処理装置（ＣＰＵ）、及びこのＣＰＵの動作手順を規定する一又は二以上のプログラムによって機能する。記憶手段２０は、例えばＲＯＭやＲＡＭなどのメモリ及びハードディスクを備えている。記憶手段２０は、処理手段１０の各種処理を実行するためのプログラムなどが格納されるプログラム領域２０ａと、音声データなどのデータを記憶するデータ領域２０ｂと、を有している。

　本実施例において、記憶手段２０は、学習対象である二以上の言語について発音の手本となる単語及びセンテンスの手本音声を記憶した音声記憶手段２１と、学習者毎に学習した単語及びセンテンスの発音の正確性の評価を記憶する学習状況記憶手段２２と、を有している。また、記憶手段２０は、発音の正確性の評価を行うための情報として、学習言語の音素が持っている周波数特性を表した音響モデル記憶手段２３と、学習言語の単語と音響モデルを結びつける辞書モデル記憶手段２４と、学習言語の音素の並び方に関する制約を表した言語モデル記憶手段２５と、を有している。

　学習者端末３は、ネットワーク４に接続可能なパーソナルコンピュータ、タブレット端末、スマートフォンなどの端末である。学習者端末３は、アニメーションなどの画像を表示する表示部３１と、例えばマイクとスピーカの組み合わせからなる音入出力部３２と、を備え、ネットワーク４を介して学習支援サーバ１にアクセス可能な端末であればよい。

　図１に示す本実施例において、処理手段１０は、音声送信手段１１と、音声取得手段１２と、音声解析手段１３と、評価送信手段１４と、成績作成手段１５と、カリキュラム作成手段１６と、を有している。

　音声送信手段１１は、ネットワーク４を介して学習者端末３に、音声記憶手段２１に記憶された手本音声を送信して音入出力部３２から出力させると共に、該手本音声に対応するアニメーションを送信して表示部３１に表示させ、学習者に該手本音声と該アニメーションを関連付けて知覚させる。このアニメーションには、学習対象の言語に関する文字情報を含まない。

　本実施例において、音声送信手段１１は、学習者端末３の表示部３１に教師オブジェクトと共に、手本音声に対応する画像（例えば「りんご」の画像）を含むアニメーションを表示させる。音声送信手段１１は、教師オブジェクトが手本音声に対応する画像を指しながら、音入出力部３２から手本音声（ここでは「ａｐｐｌｅ」の音声）を出力させ、学習者に手本音声とアニメーション又はアニメーションに含まれる画像（ここでは「りんご」の画像）を関連付けて知覚させる。このとき、表示部３１には、学習対象の言語に関する文字（ここでは「ａｐｐｌｅ」の文字）は表示されない。

　音声取得手段１２は、ネットワーク４を介して学習者端末３に、上記の手本音声に対応するアニメーションを送信して表示部３１に表示させ、学習者にアニメーション又はアニメーションに含まれる画像に対応する単語又はセンテンス（ここでは「ａｐｐｌｅ」）の発話を要求する。音声取得手段１２は、音入出力部３２からネットワーク４を介して学習者の発する学習者音声を取得する。音声取得手段１２は、アニメーションにおいて、例えば教師オブジェクトが手本音声に対応する「りんご」の画像を指しながら、発話を要求することが好ましい。このときも、表示部３１には、学習対象の言語に関する「ａｐｐｌｅ」の文字は表示されない。

　音声解析手段１３は、ネットワーク４を介して学習者端末３から取得した学習者音声を解析して、学習者を特定すると共に、発音の正確性を評価する。本実施例において、音声解析手段１３は、音声認証によって、学習者音声から学習者を特定する。各学習者の声紋は、記憶手段２０の学習状況記憶手段２２に学習者の氏名などの情報と共に記憶されている。

　本実施例において、音声解析手段１３は、音声をＡ／Ｄ変換して音声信号を生成する音声信号生成手段１３１と、生成された音声信号を分割する前処理手段１３２と、音声の周波数特性を抽出する音声特徴抽出手段１３３と、音声から言葉の特定又は話者の特定をする音声認識手段１３４と、発音の正確性を評価する発音評価手段１３５と、を有する。

　音声信号生成手段１３１は、学習者端末３でＡ／Ｄ変換され、学習支援サーバ１が取得した音声データから必要箇所をサンプリングし、量子化する。前処理手段１３２は、音声信号を増幅処理し、フレーム分割して窓かけ処理を行う。音声特徴抽出手段１３３は、音声信号を高速フーリエ変換（ＦＦＴ処理）してメルフィルタバンクをかけて対数値を算出し、離散コサイン変換（ＤＣＴ変換）と一階差分変換を行って音声の周波数特性を抽出する。

　音声認識手段１３４は、音声の周波数特性を記憶手段２０に記憶された各学習者の声紋と照合して学習者を特定する学習者特定手段と、音声の周波数特性から言葉にデコードするデコード手段と、を有する。発音評価手段１３５は、記憶手段２０に記憶された音響モデル、辞書モデル及び言語モデルに基づいて、音の正確性を評価する音響スコアと、言語の正確性を評価する言語スコアと、を算出して、学習者の発音の正確性を評価し、この評価を学習状況記憶手段２２に記憶する。

　評価送信手段１４は、音声解析手段１３が評価した発音の正確性の評価を表す画像を学習者端末３に送信する。この評価を表す画像は、文字を含まないことが好ましく、例えばグラフやマークで評価内容を表してもよい。また、この評価を表す画像は、アニメーションの中で表示してもよく、学習者の発話に対して教師オブジェクトがジェスチャーで評価を表すことが最も好ましい。本実施例において、評価送信手段１４は、発音の正確性の評価が所定の基準値を満たした場合にのみ、該評価を表す画像を学習者端末３に送信する。一方、発音の正確性の評価が所定の基準値を満たさない場合は、音声送信手段１１が学習者端末３に手本音声及び該手本音声に対応するアニメーションを繰り返し送信し、学習者に該手本音声と該アニメーション又はアニメーションに含まれる画像を関連付けて知覚させる。

　本実施例において、音声記憶手段２１は、それぞれの単語及びセンテンスにおいて複数の話者の手本音声を関連付けて記憶する手段を備えている。音声送信手段１１は、学習者端末３に手本音声を繰り返し送信する際に、前に送信した手本音声の話者とは異なる話者の手本音声を送信する手段を備えている。音声送信手段１１は、同じ単語又はセンテンスを繰り返し送信するときに、送信する度に話者を変えてもよく、２～３回に一度話者を変えてもよい。

　成績作成手段１５は、学習状況記憶手段２２に記憶された発音の正確性の評価に基づいて学習者毎の学習進捗度及び得意音又は不得意音を含む成績を作成し、この成績を学習状況記憶手段２２に記憶する。また、成績作成手段１５は、学習者端末３に作成した成績を送信する。なお、成績作成手段１５は、学習者端末３に代えて、又は、学習者端末３に加えて保護者用の端末に成績を送信してもよい。

　カリキュラム作成手段１６は、学習状況記憶手段２２に記憶された成績に基づいて学習者毎の学習カリキュラムを作成し、この学習カリキュラムを学習状況記憶手段２２に記憶する。なお、カリキュラム作成手段１６は、語学学習中の発音の正確性に基づいて、学習カリキュラムを修正してもよい。

　本実施例において、処理手段１０は、学習者毎の成績に基づいて各学習者を複数の学習レベルに層別し、学習レベルが同じ層又は学習レベルが同じ層と前後の層を含む層内の複数の学習者に仮想現実の環境を提供するためのアニメーションを学習者端末３に送信し、複数の学習者に音声での会話を行わせる学習者交流手段１７を備えていることが好ましい。この場合でも、音声解析手段１３は、学習者音声を解析して学習者を特定すると共に、発音の正確性を評価し、誤った発音に対しては指摘をするように構成している。

　なお、本発明の語学学習システムの構成は、実施例の形態に限定されるものではなく、他の様々な実施形態を採用してもよい。

［語学学習の流れ］
　以下、図３乃至図５を参照しながら、本実施例に係る語学学習システムの動作について説明する。図３は、本発明に係る語学学習システムの個人認証の一例を示すフローチャートである。図４は、本発明に係る語学学習システムの学習支援の一例を示すフローチャートである。図５は、本発明に係る語学学習システムの音声解析の一例を示すフローチャートである。ここでは、学習者が英語の発音を学習する場合について説明するが、他の言語の場合も同様である。

［個人認証］
　先ず、本発明に係る語学学習システムの個人認証の一例を図３に基づいて説明する。
　学習者は、例えば学習者端末３の表示部３１に表示されたアイコンを選択し、学習支援サーバ１にアクセスするためのアプリケーションプログラムを起動させる（ステップＳ１）。本実施例では、学習者端末３は、学習支援サーバ１において英語の発音学習を支援する機能にアクセスする。

　学習者端末３からのアクセスを受けた学習支援サーバ１は、処理手段１０が学習者端末３からの要求に応じて、英語の発音学習を支援する。先ず、処理手段１０は、初期のアニメーションとして、例えば教師オブジェクトを含むアニメーションを学習者端末３の表示部３１に表示させながら、「Ｈｅｌｌｏ！」など最初の挨拶の手本音声を学習者端末３の音入出力部３２から出力させる（ステップＳ２）。このとき、教師オブジェクトは、学習者に発話を促すジェスチャーをすることが好ましい。

　学習者が、同じく「Ｈｅｌｌｏ！」と発音して挨拶すると、処理手段１０は、学習者端末３の音入出力部３２から入力された学習者音声を取得し（ステップＳ３）、この学習者音声を解析して声紋認証を行う（ステップＳ４）。学習者音声の解析手順については、後述する。

　処理手段１０は、学習者音声を解析して得られた声紋と、予め記憶手段２０に記憶された登録者の声紋とを照合し、学習者を特定する（ステップＳ５）。処理手段１０は、取得した学習者音声の声紋と一致する声紋の登録情報を取得する。このとき、処理手段１０は、教師オブジェクトに学習者の名前を発話させたり、予め学習者が登録した認証用画像を表示部３１に表示させたりして、学習者を認証してもよい。

　処理手段１０は、学習者を認証すると、学習状況記憶手段２２に記憶された該学習者の学習した単語及びセンテンスの発音の正確性の評価に基づいて作成された該学習者の学習カリキュラムを実行する。一方、取得した学習者音声の声紋と一致する声紋がないとき、処理手段１０は、学習者端末３にエラー情報を送信して、認証処理を終了する。

［学習カリキュラムの実行］
　次に、本発明に係る語学学習システムの学習支援の一例を図４に基づいて説明する。
　処理手段１０は、音声送信手段１１によって、学習者端末３に学習言語である英語の手本音声及び該手本音声に対応するアニメーションを送信し、学習者に手本音声とアニメーション又はアニメーションに含まれる画像を関連付けて知覚させる（ステップＳ１１）。具体的には、音声送信手段１１は、学習者端末３の表示部３１に教師オブジェクトと共に、手本音声に対応する画像（例えば「りんご」の画像）を含むアニメーションを表示させ、教師オブジェクトが該画像を指し示しながら、音入出力部３２から手本音声（ここでは「ａｐｐｌｅ」の音声）を出力させ、学習者に手本音声とアニメーションに含まれる画像を関連付けて知覚させる。

　次に、処理手段１０は、学習者端末３に対して手本音声を送信しないで、音声取得手段１２によってアニメーションのみを送信し、表示部３１に「りんご」の画像を含むアニメーションを表示させ、学習者に「りんご」の画像に対応する英単語「ａｐｐｌｅ」の発話を要求する（ステップＳ１２）。このとき、処理手段１０は、教師オブジェクトが「りんご」の画像を指しながら発話を要求するアニメーションを学習者端末３に送信する。

　学習者が学習者端末３に向かって「ａｐｐｌｅ」と発話すると、処理手段１０は、学習者端末３の音入出力部３２から入力された学習者音声を取得する（ステップＳ１３）。音入出力部３２から入力された学習者音声は、学習者端末３の処理部においてＡ／Ｄ変換され、ネットワーク４を介して学習支援サーバ１に送信される。処理手段１０は、取得した学習者音声を記憶手段２０に一時的に記憶する。

　処理手段１０は、音声解析手段１３によって、取得した学習者音声を解析して発音の正確性を評価する（ステップＳ１４）。音声解析手段１３は、取得した音声からステップＳ４で認証した学習者の音声を特定し、この学習者の音声について発音の正確性を評価する。学習者音声の評価手順については、後述する。

　処理手段１０は、音声解析手段１３が評価した発音の正確性の評価を、予め設定した所定の基準値と比較する（ステップＳ１５）。発音の正確性の評価が所定の基準値を満たした場合には、処理手段１０は、評価送信手段１４によって、音声解析手段１３が評価した発音の正確性の評価を表す画像又は該画像を含むアニメーションを学習者端末３に送信し、表示部３１に表示させる（ステップＳ１６）。具体的には、評価送信手段１４は、学習者の発話に反応して教師オブジェクトがジェスチャーで評価を表す。例えば、評価の違いは、教師オブジェクトのジェスチャーの大きさで表すことができ、ジェスチャーが大きい程、評価が高くなる。

　一方、発音の正確性の評価が所定の基準値を満たさない場合には、処理手段１０は、ステップＳ１１に戻り、音声送信手段１１によって、学習者端末３に学習言語である英語の手本音声及び該手本音声に対応するアニメーションを再送信し、学習者に手本音声とアニメーション又はアニメーションに含まれる画像を関連付けて知覚させる。このとき、音声送信手段１１は、直前に送信した手本音声の話者とは異なる話者の手本音声を送信してもよい。

　発音の正確性の評価が所定の基準値を満たした場合には、処理手段１０は、学習者の学習カリキュラムに基づいて、次の単語又はセンテンスの手本音声を学習者端末３に送信し、語学学習を終了するまでステップＳ１１からステップＳ１６までの処理を繰り返し実行する（ステップＳ１７）。

　学習カリキュラムに基づいた語学学習が終了したとき、又は、学習者が学習者端末３で語学学習の終了を選択したときは、処理手段１０は、学習状況記憶手段２２に学習した単語及びセンテンスの発音の正確性の評価を記憶する（ステップＳ１８）。

　そして、処理手段１０は、成績作成手段１５によって、学習状況記憶手段２２に記憶された発音の正確性の評価に基づいて学習者の学習進捗度及び得意音又は不得意音を含む成績を作成して記憶手段２０に記憶すると共に、学習者端末３に成績を送信する（ステップＳ１９）。また、処理手段１０は、学習者端末３に代えて、又は、学習者端末３に加えて保護者端末に成績を送信してもよい。このとき、処理手段１０は、１ヶ月に一度など定期的に成績を保護者端末に送信するようにしてもよい。

　また、処理手段１０は、成績作成手段１５によって作成された成績に基づいて学習者毎の学習カリキュラムを作成し、記憶手段２０に記憶する。なお、処理手段１０は、語学学習中の発音の正確性に基づいて、学習カリキュラムを修正してもよい。

［学習者音声の解析］
　本発明に係る語学学習システムの音声解析の一例を図５に基づいて説明する。
　処理手段１０は、学習者端末３の音入出力部３２で入力され、Ａ／Ｄ変換された音データを取得し、この音データから音声箇所をサンプリングし、量子化して、学習者の音声信号を生成する（ステップＳ２１）。

　処理手段１０は、前処理手段によって、音声信号を増幅処理し、フレーム分割して窓かけ処理を行う（ステップＳ２２）。また、処理手段１０は、音声特徴抽出手段によって、音声信号を高速フーリエ変換（ＦＦＴ処理）してメルフィルタバンクをかけて対数値を算出し、離散コサイン変換（ＤＣＴ変換）と一階差分変換を行って音声の周波数特性を抽出する（ステップＳ２３）。

　処理手段１０は、音声認識手段によって、音声の周波数特性を記憶手段２０に記憶された各学習者の声紋と照合して学習者を特定する（ステップＳ２４）。上述の個人認証において、処理手段１０は、特定した学習者に対して、必要な場合は追加の認証手続を行って個人認証処理を終了する。また、学習カリキュラムにおいて、処理手段１０は、音声の周波数特性が認証した学習者の声紋と一致するか否かを判定し（ステップＳ２５）、一致しない場合にはステップＳ２１からステップＳ２５までの処理を繰り返し実行する。

　学習カリキュラムにおいて、処理手段１０は、音声認識手段によって、音声の周波数特性から該当する音素にデコードする（ステップＳ２４）。ステップＳ２５において音声の周波数特性が認証した学習者の声紋と一致する場合には、処理手段１０は、全フレームの音声の周波数特性から該当する音素へのデコードが完了するまでステップＳ２３からステップＳ２４までの処理を繰り返し実行する（ステップＳ２６）。

　全フレームの音声の周波数特性から該当する音素へのデコードが完了すると、処理手段１０は、発音評価手段によって、記憶手段２０に記憶された音響モデル、辞書モデル及び言語モデルに基づいて、音の正確性を評価する音響スコアと、言語の正確性を評価する言語スコアと、を算出し、学習者の発音の正確性を評価する（ステップＳ２７）。

　本発明の別の実施例としては、音声送信手段１１が、学習者端末３の音入出力部３２から手本音声を出力させた後に、該手本音声に対応して画像を変化させて学習者端末３の表示部３１に表示させる手段を備えている。このとき、評価送信手段１４は、発音の正確性の評価が所定の基準値を満たした場合に、手本音声に対応して画像を変化させて学習者端末３の表示部３１に表示させる手段を備えている。この画像には、静止画像の他、動画像も含まれ、変化させた画像は、手本音声に対応したアニメーションであることが好ましい。

　具体的には、音声送信手段１１は、学習者端末３の表示部３１に教師オブジェクトを含むアニメーションを表示させ、この教師オブジェクトが発する命令、感情表現などの言語の音声を音入出力部３２から出力させる。そして、音声送信手段１１は、命令、感情表現などの言語に対応して画像が変化するアニメーションを表示させ、学習者に該手本音声と該画像の変化（命令に対応する行動、感情表現）を関連付けて知覚させる。

　例えば、音声送信手段１１は、学習者端末３の表示部３１に教師オブジェクトに加え、生徒オブジェクトを含むアニメーションを表示させる。音声送信手段１１は、教師オブジェクトに「Ｃｌａｐ　ｙｏｕｒ　ｈａｎｄｓ．」と手本音声を発話させると、この手本音声に対応して生徒オブジェクトが両手を叩くアニメーションを表示させ、学習者に学習言語の命令文「Ｃｌａｐ　ｙｏｕｒ　ｈａｎｄｓ．」と、この命令に対応した行動「両手を叩く」を関連付けて知覚させる。

　音声取得手段１２は、学習者端末３に対して手本音声を送信しないで、教師オブジェクトと生徒オブジェクトを含むアニメーションのみを送信し、学習者に「Ｃｌａｐ　ｙｏｕｒ　ｈａｎｄｓ．」の発話を要求する。このとき、音声取得手段１２は、教師オブジェクトに発話を要求するジェスチャーをさせてもよい。

　評価送信手段１４は、音声解析手段１３が評価した発音の正確性が所定の基準値を満たした場合に、手本音声に対応して画像を変化させて学習者端末３の表示部３１に表示させる。ここでは、評価送信手段１４が、手本音声「Ｃｌａｐ　ｙｏｕｒ　ｈａｎｄｓ．」に対応したアニメーション（生徒オブジェクトが両手を叩く）を表示部３１に表示させる。また、評価の違いは、教師オブジェクトのジェスチャーの大きさで表してもよい。その他の構成は、実施例１の構成と同様である。

　本発明は、外国語の発音習得に適した語学学習システムにおいて、少ない負担とコストで複数の言語学習に対応させることが可能な成績反映型音と映像による語学学習システムを提供するものとして有用である。

　１　学習支援サーバ
　３　学習者端末
　４　ネットワーク
１０　処理手段
１１　音声送信手段
１２　音声取得手段
１３　音声解析手段
１４　評価送信手段
１５　成績作成手段
１６　カリキュラム作成手段
１７　学習者交流手段
２０　記憶手段
２１　音声記憶手段
２２　学習状況記憶手段
３１　表示部
３２　音入出力部

Claims

　画像を表示する表示部と、音声を入出力する音入出力部と、を備えた学習者端末にネットワークを介して接続され、学習者の語学学習を支援する学習支援サーバを含む語学学習システムであって、
　前記学習支援サーバは、
　学習対象である一又は二以上の言語について発音の手本となる単語又は／及びセンテンスの手本音声を記憶した音声記憶手段と、
　前記学習者端末に前記手本音声及び該手本音声に対応する画像を送信し、学習者に該手本音声と該画像を関連付けて知覚させる音声送信手段と、
　前記学習者端末に前記画像を送信し、学習者に該画像に対応する単語又はセンテンスの発話を要求して学習者の発する学習者音声を取得する音声取得手段と、
　取得した前記学習者音声を解析して学習者を特定すると共に、発音の正確性を評価する音声解析手段と、
　前記音声解析手段が評価した発音の正確性の評価を表す画像を前記学習者端末に送信する評価送信手段と、を有し、
　前記画像には学習対象の言語に関する文字情報を含まない語学学習システム。
　請求項１に記載の語学学習システムにおいて、
　前記発音の正確性の評価が所定の基準値を満たした場合には、前記評価送信手段が該評価を表す画像を前記学習者端末に送信し、
　前記発音の正確性の評価が所定の基準値を満たさない場合には、前記音声送信手段が前記学習者端末に前記手本音声を繰り返し送信する語学学習システム。
　請求項２に記載の語学学習システムにおいて、
　前記音声送信手段は、前記学習者端末の音入出力部から前記手本音声を出力させた後に、該手本音声に対応して前記画像を変化させて前記学習者端末の表示部に表示させる手段を備え、
　前記評価送信手段は、前記発音の正確性の評価が所定の基準値を満たした場合に、前記手本音声に対応して前記画像を変化させて前記学習者端末の表示部に表示させる手段を備えた語学学習システム。
　請求項２項又は請求項３項に記載の語学学習システムにおいて、
　前記音声記憶手段は、それぞれの単語又は／及びセンテンスにおいて複数の話者の手本音声を関連付けて記憶する手段を備え、
　前記音声送信手段は、前記学習者端末に前記手本音声を繰り返し送信する際に、異なる話者の前記手本音声を送信する手段を備えた語学学習システム。
　請求項１項乃至請求項４項の何れか一項に記載の語学学習システムにおいて、
　前記学習支援サーバは、
　学習者毎に学習した単語又は／及びセンテンスの発音の正確性の評価を記憶する学習状況記憶手段と、
　前記学習状況記憶手段に記憶された発音の正確性の評価に基づいて学習者毎の学習進捗度及び得意音又は不得意音を含む成績を作成する成績作成手段と、
　前記成績に基づいて学習者毎の学習カリキュラムを作成するカリキュラム作成手段と、を備えた語学学習システム。
　請求項５に記載の語学学習システムにおいて、
　前記学習支援サーバは、
　学習者毎の前記成績に基づいて各学習者を複数の学習レベルに層別し、前記学習レベルが同じ層又は前記学習レベルが同じ層と前後の層を含む層内の複数の学習者に仮想現実の環境を提供するための画像を前記学習者端末に送信し、前記複数の学習者に音声での会話を行わせる学習者交流手段を備えた語学学習システム。
　請求項１乃至請求項６の何れか一項に記載の語学学習システムとして、コンピュータを機能させるための語学学習プログラム。