JPWO2018198447A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
JPWO2018198447A1
JPWO2018198447A1 JP2019515094A JP2019515094A JPWO2018198447A1 JP WO2018198447 A1 JPWO2018198447 A1 JP WO2018198447A1 JP 2019515094 A JP2019515094 A JP 2019515094A JP 2019515094 A JP2019515094 A JP 2019515094A JP WO2018198447 A1 JPWO2018198447 A1 JP WO2018198447A1
Authority
JP
Japan
Prior art keywords
information processing
information
display
recognition
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019515094A
Other languages
English (en)
Inventor
真一 河野
真一 河野
祐平 滝
祐平 滝
昌毅 高瀬
昌毅 高瀬
朗 宮下
朗 宮下
直樹 常盤
直樹 常盤
陽 徳永
陽 徳永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2018198447A1 publication Critical patent/JPWO2018198447A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】状況により柔軟に対応した可読性の高いテキスト表示を実現する。【解決手段】本開示によれば、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する算出部、を備える、情報処理装置が提供される。また、プロセッサが、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出すること、を含む、情報処理方法が提供される。【選択図】図2

Description

本開示は、情報処理装置および情報処理方法に関する。
近年、情報処理技術の発展に伴い、ユーザに文字情報を提示する種々の装置が広く普及している。また、上記の文字情報の視認性などを向上させるための技術が多く提案されている。例えば、特許文献1には、文字情報を所定単位の文字グループに区分けし、設定した間隔に基づいて当該文字グループの提示制御を行う技術が開示されている。
特開2009−13542号公報
特許文献1に記載の技術では、文節や単語など、文字情報に係る構造的特徴に基づいて、上記の文字グループを設定している。しかし、ユーザによる文字情報の認識については、上記のような構造的特徴のほか、種々の要因が影響することが想定される。このため、特許文献1に記載の技術では、状況に応じた十分な提示制御が行われているとは言い難い。
そこで、本開示では、状況により柔軟に対応した可読性の高いテキスト表示を実現することが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。
本開示によれば、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する算出部、を備える、情報処理装置が提供される。
また、本開示によれば、プロセッサが、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出すること、を含む、情報処理方法が提供される。
以上説明したように本開示によれば、状況により柔軟に対応した可読性の高いテキスト表示を実現することが可能となる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態の概要について説明するための図である。 同実施形態の概要について説明するための図である。 同実施形態に係るシステム構成の一例を示す図である。 同実施形態に係るデータの入出力について説明するための概念図である。 同実施形態に係る情報処理端末の機能ブロック図の一例である。 同実施形態に係る情報処理サーバの機能ブロック図の一例である。 同実施形態に係るアプリケーションのユーザインタフェースの一例を示す図である。 同実施形態に係る算出部に係る入出力データの関係について説明するための図である。 同実施形態に係るユーザ状態に関するコンテキスト管理テーブルの一例を示す図である。 同実施形態に係るユーザコンテキストおよびユーザプロパティに関するコンテキスト管理テーブルの一例を示す図である。 同実施形態に係るアプリケーションコンテキストに関するコンテキスト管理テーブルの一例を示す図である。 同実施形態に係る文字コンテキストに関するコンテキスト管理テーブルの一例を示す図である。 同実施形態に係る認識困難性スコアのフォーマットの一例である。 同実施形態に係る認識困難性スコアに基づいて設定される表示単位、表示間隔、表示効果の一例を示す図である。 同実施形態に係る情報処理方法の流れを示すフローチャートである。 同実施形態に係る表示制御の流れを示すフローチャートである。 同実施形態に係るコンテキストデータのリアルタイム算出の流れを示すフローチャートである。 同実施形態に係る技術思想を音声エージェントに適用した場合の一例を示す図である。 同実施形態に係る技術思想を音声エージェントに適用した場合の一例を示す図である。 同実施形態に係る技術思想を字幕制御に適用した場合の一例を示す図である。 同実施形態に係る技術思想を字幕制御に適用した場合の一例を示す図である。 同実施形態に係る技術思想を字幕制御に適用した場合の一例を示す図である。 本開示の一実施形態に係るハードウェア構成例を示す図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.実施形態
1.1.概要
1.2.システム構成例
1.3.情報処理端末10の機能構成例
1.4.情報処理サーバ20の機能構成例
1.5.認識困難性スコアの算出
1.6.処理の流れ
1.7.応用例
2.ハードウェア構成例
3.まとめ
<1.実施形態>
<<1.1.概要>>
まず、本開示の一実施形態の概要について説明する。上述したように、近年では、テキスト情報をユーザに提示する種々の装置やアプリケーションが普及している。また、テキスト提示に係る表示単位や表示間隔を制御することで、ユーザによるテキスト認識の利便性を向上させる技術が多く提案されている。
例えば、文字量の多いテキストが一度に表示される場合、ユーザが当該テキストの内容を確認、理解するために時間や労力を要することが想定される。また、テキストの内容が複雑である場合や、ユーザが他の操作などを並行して行っている場合などには、テキストの読み返しなどが発生し、煩雑性が増大する懸念もある。
この際、テキストを複数の表示単位に分割し、適切な間隔で表示させることで、表示単位ごとの視認性や可読性を向上させることが可能となる。例えば、特許文献1には、テキストの構造的特徴に基づいて上記のような表示単位を設定することで、テキストの視認性、可読性を向上させる技術が開示されている。
しかし、表示単位がテキストの構造的特徴のみに基づいて設定される場合、状況によっては、認識の不足や煩雑さの増大を招くことも想定される。
図1および図2は、本開示の一実施形態の概要について説明するための図である。図1には、表示部134に表示されるテキスト情報T1と、ユーザU1およびU2とが示されている。図1に示す一例の場合、テキスト情報T1は、2つの表示単位に分割され、同一の表示間隔を以って、ユーザU1およびU2に提示されている。
このような場合、テキストT1に係る表示は、ユーザU1にとっては、表示単位に係る情報量が少なく、また表示間隔が遅すぎる一方、ユーザU2にとっては、表示単位に係る情報量が多すぎ、また表示間隔が早すぎる場合も想定される。このように、テキストの認識に係る適切な表示単位および表示間隔は、ユーザの特性や状況などに応じて都度変化することが考えられる。
このため、本開示の一実施形態に係る情報処理サーバ20は、ユーザやアプリケーションなどに係る種々のコンテキストに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出してよい。ここで、上記の認識困難性スコアとは、ユーザによる対象テキストの認識に係る困難性の度合いを示す指標である。また、本開示の一実施形態に係る情報処理端末10は、上記の認識困難性スコアに基づいて対象テキストの表示制御を行うことができる。
図2には、本実施形態に係る認識困難性スコアに基づいて表示制御される対象テキストの表示例が示されている。例えば、認識困難性スコアが、ユーザU1が対象テキストを認識しやすい状況にあることを示す場合、本実施形態に係る情報処理端末10は、図2の上段に示すように、比較的情報量の多い表示単位や早い表示間隔を設定し、対象テキストであるテキストT1の表示を制御してよい。情報処理端末10による上記の制御によれば、ユーザU1の状況に応じた表示単位および表示間隔を以ってテキストT1を表示させることができ、テキスト表示が遅いなどの、ユーザU1の不満を解消することが可能となる。
また、例えば、認識困難性スコアが、ユーザU2が対象テキストを認識しづらい状況にあることを示す場合、本実施形態に係る情報処理端末10は、図2の下段に示すように、比較的情報量の少ない表示単位や遅い表示間隔を設定し、テキストT1の表示を制御してよい。情報処理端末10による上記の制御によれば、ユーザU2の状況に応じた表示単位および表示間隔を以ってテキストT1を表示させることができ、テキスト表示が早すぎて理解できない、などのユーザU2の不満を解消することが可能となる。
なお、図2では、情報処理サーバ20がユーザU1およびU2に係る認識困難性スコアを算出し、情報処理端末10が上記の認識困難性スコアに基づいて、ユーザごとに対象テキストの表示制御を行う場合を例に説明した。しかし、本実施形態に係る認識困難視スコアの算出、および対象テキストの表示制御は、係る例に限定されない。
例えば、同一のユーザであっても、種々の要因により認識困難性スコアは動的に変化することが想定される。このため、本実施形態に係る情報処理サーバ20は、同一のユーザに係る認識困難性スコアを都度算出し、情報処理端末10は、上記の認識困難スコアに基づいて、同一ユーザに対する対象テキストの表示を都度制御してよい。本実施形態に形態に係る情報処理サーバ20および情報処理端末10によれば、種々の要因(コンテキスト)に基づいて、表示単位、表示間隔、また表示効果を適切に制御することができ、より視認性や可読性の高い情報をユーザに提示することが可能となる。
<<1.2.システム構成例>>
次に、本実施形態に係るシステム構成例について説明する。図3は、本実施形態に係るシステム構成の一例を示す図である。図3に示すように、本実施形態に係る情報処理システムは、情報処理端末10および情報処理サーバ20を備える。また、情報処理端末10および情報処理サーバ20は、ネットワーク30を介して互いに通信が行えるように接続される。
(情報処理端末10)
本実施形態に係る情報処理端末10は、情報処理サーバ20から受信した表示制御情報に基づいて、テキスト情報をユーザに提示する情報処理装置である。また、本実施形態に係る情報処理端末10は、種々のセンサ情報やアプリケーション情報を収集し、情報処理サーバ20に送信する機能を有する。本実施形態に係る情報処理端末10は、例えば、スマートフォン、タブレット、PC(Personal Computer)、携帯電話、ウェアラブル装置、ゲーム機器、種々のエージェント装置などであってよい。本実施形態に係る情報処理端末10は、例えば、収集したユーザの音声情報を情報処理サーバ20に送信し、認識されたテキストをユーザに提示する機能を有してもよい。
(情報処理サーバ20)
本実施形態に係る情報処理サーバ20は、コンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する情報処理装置である。ここで、上記のコンテキストデータとは、対象テキストの表示に係る種々の状況、状態、要因を示すデータであってよい。本実施形態に係るコンテキストデータの詳細については、別途後述する。また、本実施形態に係る情報処理サーバ20は、対象テキストの表示制御に用いられる表示制御情報を、情報処理端末10に送信する。
ここで、情報処理端末10および情報処理サーバ20の間で送受信されるデータの概要について説明する。図4は、本実施形態に係るデータの入出力について説明するための概念図である。本実施形態に係る情報処理端末10は、まず、収集したセンサ情報やアプリケーション情報を情報処理サーバ20に送信する。
次に、情報処理サーバ20は、上記のセンサ情報やアプリケーション情報に基づいて、対象テキストT1の表示制御に用いられる認識困難性スコアを算出する。すなわち、本実施形態に係るコンテキストデータには、情報処理端末10から送信されるセンサ情報、アプリケーション情報、およびこれらに基づいて推定された各種のデータが含まれてよい。また、対象テキストT1は、情報処理端末10から送信された音声情報に基づいて、情報処理サーバ20が生成するテキストであってもよい。
続いて、情報処理サーバ20は、対象テキストT1の表示制御に用いられる表示制御情報を情報処理端末10に送信する。この際、情報処理サーバ20が送信する表示制御情報のパターンは、送信先である情報処理端末10が有する機能に応じて適宜決定され得る。
例えば、情報処理端末10が、認識困難性スコアに基づいて、対象テキストT1の表示に係る表示単位、表示間隔、または表示効果などを設定する機能を有する場合、本実施形態に係る情報処理サーバ20は、認識困難性スコアを表示制御情報として情報処理端末10に送信してよい。
また、例えば、情報処理端末10が、入力された表示単位、表示間隔、表示効果などに基づいて、対象テキストT1の表示制御を行う機能を有する場合、本実施形態に係る情報処理サーバ20は、認識困難性スコアに基づいて決定した表示単位、表示間隔、表示効果などを、表示制御情報として情報処理端末10に送信してよい。
また、例えば、情報処理端末10が入力された表示制御信号に基づいて、対象テキストT1を表示する表示機能のみを有する場合、本実施形態に係る情報処理サーバ20は、決定した表示単位、表示間隔、表示効果などに基づいて対象テキストT1を表示させるための表示制御信号を表示制御情報として情報処理端末10に送信してよい。また、情報処理サーバ20は、表示制御情報と共に対象テキストT1を情報処理端末10に送信してもよい。
(ネットワーク30)
ネットワーク30は、情報処理端末10と情報処理サーバ20とを接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi−Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図2を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、図4を用いて説明したように、対象テキストの表示制御に係る機能は、仕様や運用に応じて、適宜設計され得る。また、例えば、本実施形態に係る情報処理端末10と情報処理サーバ20とは、同一の装置として実現することも可能である。あるいは、本実施形態に係る情報処理端末10や情報処理サーバ20が有する機能は、複数の装置に分散して実現されてもよい。本実施形態に係る情報処理システムの構成は、柔軟に変形され得る。
<<1.3.情報処理端末10の機能構成例>>
次に、本実施形態に係る情報処理端末10の機能構成例について説明する。図5は、本実施形態に係る情報処理端末10の機能ブロック図の一例である。図5に示すように、本実施形態に係る情報処理端末10は、入力部110、制御部120、出力部130、およびサーバ通信部140を備える。
(入力部110)
本実施形態に係る入力部110は、音声入力部112、操作入力部114、撮像部116、センサ部118を備える。
((音声入力部112))
本実施形態に係る音声入力部112は、ユーザの発話を検出する機能を有する。また、音声入力部112は、上記の発話のほか、種々の音情報を検出してよい。このために、本実施形態に係る音声入力部112は、マイクロフォンなどの音声検出デバイスを含んで構成される。なお、特に併記しない場合、本実施形態に係るセンサ情報には、音声入力部112が収集した各種の音情報が含まれる。
((操作入力部114))
本実施形態に係る操作入力部114は、ユーザによる種々の入力操作を検出する機能を有する。操作入力部114は、例えば、ユーザによるテキスト操作やアプリケーションの操作などを検出することができる。このために、本実施形態に係る操作入力部114は、マウス、キーボード、コントローラ、タッチパネル、各種のボタンなどを含んで構成される。
((撮像部116))
本実施形態に係る撮像部116は、ユーザや周囲の画像を撮像する機能を有する。このために、本実施形態に係る撮像部116は、撮像センサやレンズなどを含んで構成される。なお、特に併記しない場合、本実施形態に係るセンサ情報には、撮像部116が収集した画像情報が含まれる。
((センサ部118))
本実施形態に係るセンサ部118は、ユーザに係る種々の情報を収集する機能を有する。センサ部118は、例えば、温度センサ、湿度センサ、光センサ、加速度センサ、ジャイロセンサ、地磁気センサ、生体センサなどを含んで構成される。なお、上記の生体センサには、例えば、脈拍センサ、筋電センサ、脳波センサなどが挙げられる。
(制御部120)
本実施形態に係る制御部120は、各種のアプリケーションを制御する機能を有する。また、本実施形態に係る制御部120は、情報処理サーバ20から受信した表示制御情報に基づいて、対象テキストに係る表示制御を行う機能を有する。制御部120は、例えば、受信した認識困難性スコアに基づいて、表示単位、表示間隔、表示効果などを決定し、対象テキストの表示を制御してもよい。また、制御部120は、受信した表示単位、表示間隔、表示効果などに基づいて、対象テキストの表示を制御してもよい。また、制御部120は、受信した表示制御信号を表示部134に引き渡してもよい。
(出力部130)
本実施形態に係る出力部130は、音声出力部132および表示部134を備える。
((音声出力部132))
本実施形態に係る音声出力部132は、ユーザに音情報を提示する機能を有する。音声出力部132は、例えば、制御部120による制御に基づいて、アプリケーションに応じた音響を出力する。また、音声出力部132は、情報処理サーバ20が合成した合成音声を出力してもよい。このために、本実施形態に係る音声出力部132は、アンプやスピーカなどを含んで構成される。
((表示部134))
本実施形態に係る表示部134は、制御部120による制御や情報処理サーバ20から受信した表示制御信号に基づいて、ユーザに視覚情報を提示する機能を有する。このために、本実施形態に係る表示部134は、視覚情報を提示する表示デバイスを含んで構成される。上記の表示デバイスには、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、タッチパネルなどが挙げられる。
(サーバ通信部140)
本実施形態に係るサーバ通信部140は、ネットワーク30を介して、情報処理サーバ20との情報処理通信を行う機能を有する。具体的には、サーバ通信部140は、入力部110が収集したセンサ情報や、制御部120が取得したアプリケーション情報などを情報処理サーバ20に送信する。また、サーバ通信部140は、表示制御情報を情報処理サーバ20から受信する。上述したように、本実施形態に係る表示制御情報には、認識困難性スコアや、認識困難性スコアに基づいて決定される表示単位、表示間隔、表示効果に係る情報、また対象テキストに係る表示制御信号そのものが含まれてよい。また、サーバ通信部140は、情報処理サーバ20から対象テキストを受信してもよい。
以上、本実施形態に係る情報処理端末10の機能構成例について説明した。なお、図5を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末10の機能構成は係る例に限定されない。本実施形態に係る情報処理端末10は、上記に示した以外の構成をさらに備えてもよい。情報処理端末10は、例えば、各種の情報を格納する記憶部などを備えてもよいし、情報処理サーバ20と同等の音声認識機能などを有してもよい。また、一方で、上記で説明した情報処理端末10が有する各機能は、複数の装置に分散して実現することも可能である。例えば、入力部110、制御部120、および出力部130は、それぞれ別途の装置の機能として実現されてもよい。本実施形態に係る情報処理端末10の機能構成は、柔軟に変形され得る。
<<1.4.情報処理サーバ20の機能構成例>>
次に、本実施形態に係る情報処理サーバ20の機能構成例について説明する。図6は、本実施形態に係る情報処理サーバ20の機能ブロック図の一例である。図6に示すように、本実施形態に係る情報処理サーバ20は、音響解析部210、状態解析部220、算出部230、用語DB240、記憶部250、音声合成部260、および端末通信部270を備える。
(音響解析部210)
本実施形態に係る音響解析部210は、情報処理端末10が収集した音情報に基づく、種々の処理や解析を行う機能を有する。例えば、本実施形態に係る音響解析部210は、収集されたユーザの発話に基づく信号処理、音声認識、言語判別、自然言語処理などを行い、対象テキストを生成してもよい。また、本実施形態に係る音響解析部210は、ユーザの発話に基づく解析を行い、ユーザの感情などを推定してもよい。また、音響解析部210は、収集された音情報に基づいて周囲の騒音レベルなどを測定することも可能である。なお、本実施形態に係る音響解析部210により処理または解析された情報は、後述する算出部230による認識困難性スコアの算出に用いられ得る。
(状態解析部220)
本実施形態に係る状態解析部220は、情報処理端末10が収集した画像情報やセンサ情報などに基づいて、ユーザの状態に係る種々の解析を行う機能を有する。例えば、本実施形態に係る状態解析部220は、収集された画像情報やセンサ情報に基づいてユーザの視線、まばたき、瞳孔や眼球の状態、口の開き具合、表情、ジェスチャを含む動作などを認識してもよい。また、本実施形態に係る状態解析部220は、収集されたセンサ情報に基づいて、心拍や呼吸、発汗、緊張状態や興奮状態などを解析してもよい。本実施形態に係る状態解析部220により解析された情報は、算出部230による認識困難性スコアの算出に用いられ得る。
(算出部230)
本実施形態に係る算出部230は、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する機能を有する。上述したように、本実施形態に係るコンテキストデータには、情報処理端末10により収集されたセンサ情報やアプリケーション情報、音響解析部210や状態解析部220により解析された種々の情報が含まれる。また、本実施形態に係るコンテキストデータには、記憶部250に記憶されるユーザの情報や、対象テキストに含まれる語彙の特性、対象テキストの構造的特徴なども含まれる。本実施形態に係る算出部230が有する機能の詳細については、別途説明する。
(用語DB240)
本実施形態に係る用語DB240は、種々の用語に関するデータを記憶するデータベースである。本実施形態に係るDB240は、例えば、新語、略語、固有名詞、専門用語、トレンド用語などに関するデータを記憶する。本実施形態に係る用語DB240が記憶する上記の情報は、算出部230による認識困難性スコアの算出において、対象テキストに含まれる語彙の特性を抽出するために用いられる。
(記憶部250)
本実施形態に係る記憶部250は、情報処理サーバ20が備える各構成による処理結果などを記憶する機能を有する。本実施形態に係る記憶部250は、特に、算出部230が算出した認識困難性スコアに対応するコンテキスト管理テーブルを記憶してよい。また、記憶部250は、ユーザの画像情報などを記憶してもよい。当該画像状況は、状態解析部220によるユーザの認識などに用いられる。
(音声合成部260)
音声合成部260は、対象テキストや通知内容に基づく人工音声を生成する機能を有する。音声合成部260が生成する人工音声は、端末通信部270およびネットワーク30を介して情報処理端末10に送信され、音声出力部132により音声出力される。
(端末通信部270)
本実施形態に係る端末通信部270は、ネットワーク30を介して、情報処理端末10との情報通信を行う機能を有する。具体的には、端末通信部270は、情報処理端末10からセンサ情報やアプリケーション情報を受信する。また、端末通信部270は、対象テキストの表示制御に用いられる表示制御情報を送信する機能を有する。上述したように、本実施形態に係る表示制御情報には、認識困難性スコアや、認識困難性スコアに基づいて決定される表示単位、表示間隔、表示効果に係る情報、また対象テキストに係る表示制御信号そのものが含まれてよい。また、端末通信部270は、情報処理端末10に対象テキストを送信してもよい。
以上、本実施形態に係る情報処理サーバ20の機能構成例について説明した。なお、図6を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理サーバ20の機能構成は係る例に限定されない。本実施形態に係る情報処理サーバ20は、上記に示した以外の構成をさらに備えてもよい。情報処理サーバ20は、例えば、アプリケーションの制御を行う構成をさらに備えてもよい。あるいは、情報処理サーバ20が有する各機能は、複数の装置に分散して実現することも可能である。本実施形態に係る情報処理サーバ20の機能構成は、柔軟に変形され得る。
<<1.5.認識困難性スコアの算出>>
次に、本実施形態に係る算出部230による認識困難性スコアの算出について具体例を挙げながら説明する。図7は、本実施形態に係るアプリケーションのユーザインタフェースの一例を示す図である。ここで、上記のアプリケーションは、音声認識機能を有するメッセージアプリケーションやゲームアプリケーションなどであってよい。図7には、情報処理端末10の表示部134に表示されるアプリケーションのユーザインタフェースU1が示されている。
ユーザインタフェースU1は、ユーザの発話を認識することにより情報処理サーバ20が生成した対象テキスト表示するフィールドF1、および過去のメッセージ履歴を表示するフィールドF2を含む。また、図7に示す一例では、フィールドF1に、前回の発話に基づいて認識された既存テキストET、および音声認識の開始を制御するボタンb1が表示されている。
この際、図7に示すように、ユーザU1が発話UO1を行うと、情報処理端末10は、収集したユーザの発話UO1に係る音情報とその他のセンサ情報、およびアプリケーション情報を情報処理サーバ20に送信する。
次に、情報処理サーバ20は、受信したユーザの発話UO1に基づく音声認識を行い、対象テキストを生成すると共に、受信したセンサ情報に基づく解析を行う。続いて、情報処理サーバ20の算出部230は、コンテキストデータに基づく認識困難性スコアの算出を実行する。
図8は、本実施形態の算出部230に係る入出力データの関係について説明するための図である。図8に示すように、算出部230には、コンテキストデータが入力される。上述したように、本実施形態に係るコンテキストデータの実体は、情報処理端末10により収集されたセンサ情報、アプリケーション情報、ユーザ情報、およびこれらに基づいて解析された種々の情報を含む。
この際、本実施形態に係るユーザコンテキストは、ユーザ状態、ユーザコンテキスト、ユーザプロパティ、アプリケーションコンテキスト、および文字コンテキストに関する情報に大別される。
ここで、上記のユーザ状態とは、ユーザの動作状態および精神状態を含んでよい。すなわち、本実施形態に係る算出部230は、ユーザの動作状態や精神状態に関するコンテキストデータに基づいて、認識困難性スコアを算出することが可能である。また、本実施形態に係るユーザ状態は、比較的短期間で変化し得るユーザの特性ともいえる。本実施形態に係る算出部230が有する上記の機能によれば、短期間で変化し得るユーザの特性に応じた表示単位、表示間隔、表示効果を以って、対象テキストの表示を制御することが可能となる。
また、上記のユーザコンテキストとは、ユーザの傾向や経験などを含んでよい。すなわち、本実施形態に係る算出部230は、ユーザの傾向や経験などに関するコンテキストデータに基づいて、認識困難性スコアを算出することが可能である。また、本実施形態に係るユーザコンテキストは、中長期間で変化し得るユーザの特性ともいえる。本実施形態に係る算出部230が有する上記の機能によれば、中長期間で変化し得るユーザの特性に応じた表示単位、表示間隔、表示効果を以って、対象テキストの表示を制御することが可能となる。
また、上記のユーザのプロパティとは、ユーザの属性やタイプなどを含んでよい。すなわち、本実施形態に係る算出部230は、ユーザの属性やタイプなどに関するコンテキストデータに基づいて、認識困難性スコアを算出することが可能である。また、本実施形態に係るユーザプロパティは、長期間変化し難いユーザの特性ともいえる。本実施形態に係る算出部230が有する上記の機能によれば、長期間変化し難いユーザの特性に応じた表示単位、表示間隔、表示効果を以って、対象テキストの表示を制御することが可能となる。
また、上記のアプリケーションコンテキストとは、対象テキストを表示するアプリケーションや他のアプリケーションの状態を含んでよい。すなわち、本実施形態に係る算出部230は、種々のアプリケーションの状態に関するコンテキストデータに基づいて、対象テキストの表示を制御することが可能である。
また、上記の文字コンテキストとは、対象テキストに含まれる語彙の特性や対象テキストの構造的特徴を含んでよい。すなわち、本実施形態に係る算出部230は、対象テキストの特性に関するコンテキストデータに基づいて、当該対象テキストの表示を制御することが可能である。
以上、説明したように、本実施形態に係る算出部230は、種々の情報を含むコンテキストデータに基づいて認識困難性スコアを算出することが可能である。また、本実施形態に係る算出部230は、図8に示すように、算出した認識困難性スコアに基づいて、対象テキストに係る表示単位、表示間隔、表示効果などを決定してもよい。さらには、算出部230は、決定した表示単位、表示間隔、表示効果などに基づいて対象テキストT1を表示させるための表示制御信号を生成してもよい。すなわち、本実施形態に係る算出部230は、情報処理端末10の特性に応じた表示制御情報を生成し、端末通信部270に当該表示制御情報を送信させることができる。
続いて、本実施形態に係る算出部230による認識困難性スコアの算出について、より詳細に説明する。上述したように、本実施形態に係る算出部230は、種々の情報に関するコンテキストデータに基づいて、認識困難性スコアを算出することができる。この際、本実施形態に係る算出部230は、コンテキストデータに基づいて記憶部250に記憶されるコンテキスト管理テーブルを更新し、更新後のパラメータに基づいて、認識困難性スコアを算出してもよい。
図9は、本実施形態に係るユーザ状態に関するコンテキスト管理テーブルの一例を示す図である。図9に示す一例の場合、ユーザ状態に関するコンテキスト管理テーブルは、集中状態、緊張状態、操作状態、発話状態、および忙しさの状態に関する項目を含んでいる。
ここで、上記の集中状態には、例えば、表示されるテキストやテキストを表示するアプリケーションへの集中度合いなどの小項目がさらに細かく設定されてもよい。算出部230は、例えば、コンテキストデータに含まれるユーザの視線、瞳孔、眼球、口の開口状態などの情報に基づいて、集中状態に係るパラメータを更新することができる。算出部230が有する上記の機能によれば、例えば、ユーザがテキストやアプリケーションに集中している際には、表示単位の情報量を増やしたり、表示間隔を早めるなどの制御を行うことが可能となる。
また、上記の緊張状態には、例えば、まばたきの回数や、心拍数、脳波の乱れ具合、視線のふらつき度合い、または呼吸数などの小項目がさらに細かく設定されてもよい。算出部230は、状態解析部220が解析したコンテキストデータに基づいて、緊張状態に係るパラメータを更新することができる。算出部230が有する上記の機能によれば、例えば、ユーザが過度に緊張している際には、表示単位の情報量を減らしたり、表示間隔を長く設定するなどの制御を行うことが可能となる。
また、上記の操作状態には、例えば、所定時間の間にユーザがアプリケーションに対し入力した操作数などの小項目がさらに細かく設定されてもよい。算出部230は、情報処理端末10から送信されるアプリケーション情報に基づいて、操作状態に係るパラメータを更新することができる。算出部230が有する上記の機能によれば、例えば、ユーザがアプリケーションに対する操作を多く行っている際には、表示単位の情報量を減らしたり、表示間隔を長く設定するなどの制御を行うことが可能となる。上記の制御は、例えば、テキスト表示機能を持つゲームアプリケーションなどでユーザがゲーム操作を行いながらテキストの確認を行う場合に特に有効である。
また、上記の発話状態には、例えば、興奮度合いなどの感情強度や、全体の発話量などの小項目がさらに設定されてもよい。算出部230は、音響解析部210が解析したコンテキストデータに基づいて、発話状態に係るパラメータを更新することができる。算出部230が有する上記の機能によれば、例えば、ユーザが興奮している際には、表示間隔を早めることで、ユーザがゆっくりとした表示に対し不満を持つことを回避することが可能となる。
また、上記の忙しさの状態には、例えば、発話の入力スピード、発話のピッチ、体全体の動作度合い、ジェスチャの度合いなどの小項目がさらに設定されてもよい。算出部230は、音響解析部210や状態解析部220が解析したコンテキストデータに基づいて、忙しさの状態に係るパラメータを更新することができる。算出部230が有する上記の機能によれば、例えば、急いでいるユーザに対しては表示間隔を早めたり、運動を行っているユーザには、表示間隔を長く設定するなどの制御が可能となる。
図10は、本実施形態に係るユーザコンテキストおよびユーザプロパティに関するコンテキスト管理テーブルの一例を示す図である。図10に示す一例の場合、ユーザコンテキストに関するコンテキスト管理テーブルは、一日における音声入力やアプリケーションの利用時間、音声入力の習熟度などの項目を含んでいる。算出部230は、情報処理端末10から受信するアプリケーション情報に基づいて、上記のようなパラメータを更新することができる。算出部230が有する上記の機能によれば、例えば、一日における音声入力やアプリケーションの利用時間が長い場合には、ユーザの疲労を考慮して表示間隔を長く設定したり、習熟度の高いユーザに対しては、表示間隔を早めるなどの制御を行うことが可能となる。
また、図10に示す一例の場合、ユーザプロパティに関するコンテキスト管理テーブルは、年齢、性別、母国語などの項目を含んでいる。算出部230は、例えば、アプリケーション上でユーザにより入力された情報に基づいて、上記のような項目を都度追加してもよい。算出部230が有する上記の機能によれば、例えば、高齢者やアプリケーション言語と母国語が異なるユーザに対しては、表示間隔を長く設定するなどの制御が可能となる。
図11は、本実施形態に係るアプリケーションコンテキストに関するコンテキスト管理テーブルの一例を示す図である。図11に示す一例の場合、アプリケーションコンテキストに関するコンテキスト管理テーブルは、アプリケーションが出力する音情報の音量、アプリケーションの同時利用人数、テキスト修正の重要度、テキストフィールド以外の画面変化の度合い、アプリケーションにおける現在シーンの重要度、音声出力の併用有無、テキストの表示位置、テキストフィールドの属性(横幅、縦幅の大きさなど)、既存テキスト有無、テキスト送付相手の属性などの項目を含んでいる。算出部230は、情報処理端末10から受信するアプリケーション情報などに基づいて、上記のようなパラメータを更新することができる。
算出部230が有する上記の機能によれば、例えば、アプリケーションから出力される背景音楽や効果音が大きい場合や、同時利用人数が多い場合、アプリケーションにおける現シーンが重要なシーンを迎えている場合(例えば、ゲームアプリケーションにおける強敵との戦闘など)、動画など画面変化の大きい出力がなされている場合などには、ユーザがテキスト以外の事象に気を取られることを想定して、情報量の少ない表示単位や長めの表示間隔を設定するなどの制御が可能になる。
また、例えば、音声認識アプリケーションにおいて、認識されるテキストの精度が重要となる場合や、テキストの送付先相手が上長や顧客など重要な相手である場合には、ユーザがより慎重にテキストを確認することを想定し、情報量の少ない表示単位や長めの表示間隔を設定するなどの制御が可能になる。
また、本実施形態に係る算出部230によれば、例えば、テキストの表示位置や大きさ、配色などを考慮した表示単位、表示間隔、表示効果を設定することが可能となる。
図12は、本実施形態に係る文字コンテキストに関するコンテキスト管理テーブルの一例を示す図である。図12には、算出部230が対象テキストに含まれる単語単位でパラメータを更新する場合の一例が示されている。上記のパラメータの一例としては、文字数、用語タイプ、発話速度、発話ピッチ、感情(例えば、興奮状態など)が挙げられる。
算出部230が有する上記の機能によれば、例えば、文字数に応じた単語の組み合わせにより表示単位を設定する制御が可能となる。算出部230は、人間が一度に知覚しやすい文字数を上限として表示単位を設定してもよい。例えば、対象テキストが日本語で構成される場合、算出部230は、表示単位が13文字程度となるように単語を組み合わせることができる。また、算出部230は、全体の文字量が多い場合には、後半になるにつれて、表示間隔を短く設定してもよい。
また、本実施形態に係る算出部230によれば、例えば、対象テキストに含まれる用語タイプに応じた表示単位、表示間隔、表示効果を設定することが可能となる。上記の用語タイプには、例えば、新語、略語、固有名詞、専門用語、トレンド用語、外国語などが含まれる。算出部230は、例えば、対象テキストに新語やユーザに馴染みのない外国語表現(例えば、Bonjour、など)が含まれる場合には、情報量の少ない表示単位や長めの表示間隔を設定してもよい。一方、対象テキストに含まれる略語や固有名詞、専門用語、トレンド用語などをユーザが過去に使用(入力)している場合などには、算出部230は、当該用語はユーザにとって可読性が高いと判定し、表示単位や表示間隔を設定してもよい。
また、本実施形態に係る算出部230によれば、例えば、対象テキストに含まれる単語ごとの発話速度、発話ピッチ、感情などに基づいて、表示単位や表示間隔を設定することも可能である。算出部230は、音響解析部210が解析するコンテキストデータに基づいて上記の各パラメータを更新することができる。
以上、本実施形態に係る算出部230による認識困難性スコアの算出について、詳細に説明した。上述したように、本実施形態に係る算出部230は、種々の情報に関するコンテキストデータに基づいて、コンテキスト管理テーブルの各パラメータを更新することができる。また、本実施形態に係る算出部230は、更新したコンテキスト管理テーブルのパラメータを用いて、要素ごとや全体に係る認識困難性スコアを算出してよい。また、算出部230は、算出した認識困難性スコアを情報処理端末10との通信に適したフォーマットに加工してもよい。
図13は、本実施形態に係る認識困難性スコアのフォーマットの一例である。図13に示す一例の場合、算出部230は、算出した認識困難性スコアをJavascript(登録商標) Object Notation(JSON)形式に加工している。図13に示すように、当該フォーマットには、全体や要素ごとの認識困難性スコアの情報が含まれている。算出部230が図示のように認識困難性スコアを加工することにより、複数の情報処理端末10に共通のフォーマットを以って認識困難性スコアを送信することが可能となる。
また、上記のフォーマットデータを受信した情報処理端末10は、アプリケーションに応じて利用する認識困難性スコアを適宜採択してもよい。例えば、情報処理端末10は、フォーマットに含まれる全体スコアを用いて表示単位や表示間隔を設定してもよい。また、情報処理端末10は、例えば、フォーマットに含まれるユーザ状態のスコアのみを用いて表示単位や表示間隔を設定することも可能である。
また、情報処理サーバ20の端末通信部270は、上記のフォーマットに加工された認識困難性スコアと共に、算出部230が設定した表示単位や表示間隔などの情報を情報処理端末10に送信してもよい。この場合、情報処理端末10は、表示効果については、認識困難性スコアに基づいて設定するなど、受信した情報に応じた表示制御を行うことができる。なお、図13では、算出部230が認識困難性スコアをJSON形式に加工する場合の例を示したが、本実施形態に係る算出部230は、例えば、認識困難性スコアをXML(eXtensible Markup Language)やその他の汎用フォーマット、または独自フォーマットに加工してもよい。
続いて、上記のように本実施形態に係る認識困難性スコアに基づく表示単位、表示間隔、表示効果の設定について具体例を挙げて説明する。図14は、認識困難性スコアに基づいて設定される表示単位、表示間隔、表示効果の一例を示す図である。図14に示す一例の場合、算出部230や情報処理端末10の制御部120は、認識困難性スコアに基づいて、表示単位が15文字以内となるように表示単位を設定している。また、算出部230や情報処理端末10の制御部120は、認識困難性スコアに基づいて、表示間隔を0.2〜0.5secの間で設定している。このように、本実施形態に係る情報処理サーバ20および情報処理端末10によれば、ユーザやアプリケーション、対象テキストのコンテキストに応じたより柔軟なテキスト表示を制御することが可能となる。
また、本実施形態に係る算出部230や制御部120は、認識困難性スコアに基づいて対象テキストに係る表示効果を設定してもよい。ここで、上記の表示効果には、文字の大きさ、色、装飾、フォント、表示位置などが含まれる。また、上記の表示効果には、対象テキストに含まれる単語の変換が含まれてもよい。図14に示す一例の場合、固有名詞であるSHINJUKUが大文字で変換されている。また、算出部230や制御部120は、例えば、ユーザが知識を有する専門用語などについては、略語に変換するなどして、表示する対象テキストの可読性を向上させることも可能である。さらには、対象テキストが日本語である場合、算出部230や制御部120は、漢字、カタカナ、ひらがなの量を調整することで、視認性や可読性を向上させることもできる。また、算出部230や制御部120は、表示単位に含まれる文字数に応じてフォントを設定することで、例えば、文字間の間隔を調整するなどの制御を行ってもよい。
なお、算出部230や制御部120により設定された表示単位、表示間隔、表示効果は、ユーザにより保存され、また再利用されてもよい。また、算出部230や制御部120は、ユーザにより入力されたフィードバックに基づいて、表示単位、表示間隔、表示効果を調整することも可能である。
<<1.6.処理の流れ>>
次に、本実施形態に係る情報処理サーバ20および情報処理端末10により実現される情報処理方法の流れについて詳細に説明する。図15は、本実施形態に係る情報処理方法の流れを示すフローチャートである。
図15を参照すると、本実施形態に係る情報処理方法では、まず、ユーザコンテキストの取得(S1101)、およびユーザプロパティの取得(S1102)が実行される。
続いて、アプリケーションコンテキストの取得開始(S1103)、およびユーザ状態の取得開始が行われる(S1104)。アプリケーションコンテキストおよびユーザ状態は、比較的短期間において変化し得るコンテキストデータであることが想定されるため、本実施形態に係る情報処理方法では、上記2つのコンテキストデータを継続的に取得することで、より柔軟な対象テキストの表示制御を実現することができる。
続いて、ステップS1101〜S1104において取得されたコンテキストデータに基づいて、コンテキスト管理テーブルが更新され、認識困難性スコアが算出される(S1105)。
続いて、ステップS1105において算出された認識困難性スコアに基づいて、対象テキストごとの表示制御が実行される(S1106)。
ここで、ステップS1106における対象テキストごとの表示制御の流れについて、より詳細に説明する。図16は、本実施形態に係る表示制御の流れを示すフローチャートである。なお、以下の説明においては、本実施形態に係る情報処理端末10および情報処理サーバ20が音声認識により取得される対象テキストに係る表示制御を行う場合を例に述べる。
図16を参照すると、本実施形態に係る情報処理方法では、まず、音声入力が開始される(S1201)。
次に、収集されたユーザの発話に基づいて、音声認識処理が実行され(S1202)、対象テキストの取得が行われる(S1203)。また、ステップS1203において取得された対象テキストに基づいて文字コンテキストが取得される(S1204)。
また、ステップS1202〜S1204に係る処理と並行して、ユーザ状態の取得S1205)、アプリケーションコンテキストの取得(S1206)、およびコンテキスト管理テーブルの更新(S1207)が継続して実行される。
次に、算出部230による認識困難性スコアの算出が行われる(S1208)。
次に、ステップS1208において算出された認識困難性スコアに基づいて、対象テキストに係る表示単位、表示間隔、表示効果が設定される(S1209)。なお、上記の処理は、上述したように、算出部230または制御部120により実行される。
次に、ステップS1209において設定された表示効果に基づいて対象テキストの文字変換が実行される(S1210)。
次に、ステップS1208において設定された表示単位、表示間隔、表示効果に基づく対象テキストの表示制御が実行される(S1211)。
ステップS1211においては、設定された表示効果に基づく表示単位ごとの表示(S1212)、および表示間隔に応じた待機(S1213)、およびコンテキストデータのリアルタイム算出が、表示単位が存在する間、繰り返し実行される。
図17は、本実施形態に係るコンテキストデータのリアルタイム算出の流れを示すフローチャートである。図17を参照すると、本実施形態に係るコンテキストデータのリアルタイム算出では、ユーザ状態の取得(S1301)、アプリケーションコンテキストの取得S1302)、コンテキスト管理テーブルの更新(S1303)、認識困難性スコアの算出(S1304)、および表示単位、表示間隔、表示効果の設定が繰り返し実行されることがわかる。すなわち、本実施形態に係る算出部230は、対象テキストの表示中に入力されるコンテキストデータに基づいて、認識困難性スコアを再算出することが可能である。本実施形態に係る算出部230が有する上記の機能によれば、対象テキストの表示中におけるコンテキストの変化に柔軟に対応した表示制御を実現することが可能となる。
<<1.7.応用例>>
次に、本実施形態に係る表示制御の応用例について述べる。上記では、情報処理サーバ20および情報処理端末10がメッセージアプリケーションやゲームアプリケーションに表示される対象テキストの表示制御を行う場合を例に述べたが、本実施形態に係る技術思想は、種々の装置、アプリケーションに適用され得る。
例えば、本実施形態に係る技術思想は、音声エージェントなどに適用することも可能である。図18Aおよび図18Bは、本実施形態に係る技術思想を音声エージェントに適用した場合の一例を示す図である。図18Aおよび図18Bには、情報処理端末10と、高齢者であるユーザU2および年少者であるユーザU3とが示されている。ここで、情報処理端末10は、スケジュール管理機能およびプロジェクション機能を有し、音声によりユーザとの対話を行う音声エージェントであってよい。
例えば、図18Aに示すように、ユーザU2が登録されたスケジュールを尋ねる発話UO2を行った場合、情報処理端末10は、発話UO2、およびユーザU2の状態に係るセンサ情報を収集し、情報処理サーバ20に送信する。情報処理サーバ20は、受信した情報と記憶するユーザUO2の情報とに基づいて認識困難性スコアを算出し、また、音声認識により対象テキストT2を生成する。また、情報処理サーバ20は、生成した対象テキストT2に基づいてスケジュールを検索し、情報処理端末10によるシステム発話SO1を行わせるための人工音声を合成してよい。
続いて、情報処理サーバ20は、算出した認識困難性スコアと合成した人工音声とを情報処理端末10に送信する。続いて、情報処理端末10は、受信した認識困難性スコアに基づいて、対象テキストT2の表示単位、表示間隔、表示効果を設定し、プロジェクション機能により対象テキストT2の表示制御を行う。図18Aに示す一例の場合、情報処理端末10は、ユーザU2の位置や目線、年齢などに基づいて算出された認識困難性スコアに基づいて、ユーザU2にとって認識がしやすい位置に、比較的大きな文字で対象テキストT2を表示させている。また、情報処理端末10は、受信した人工音声によるシステム発話SO1を出力する。
また、図18Bに示すように、ユーザU3がスケジュールの登録を指示する発話UO3を行った場合にも同様に、情報処理端末10は、発話UO3、およびユーザU3の状態に係るセンサ情報を収集し、情報処理サーバ20に送信する。
また、情報処理端末10は、図18Aの場合と同様に、生成された対象テキスト、および算出された認識困難性スコアに基づいて、対象テキストT3に係る表示制御を実行する。図18Bに示す一例の場合、情報処理端末10は、ユーザU3の位置や目線、年齢などに基づいて算出された認識困難性スコアに基づいて、ユーザU3にとって認識がしやすい位置に、通常の文字の大きさで対象テキストT2を表示させている。なお、情報処理端末10は、指向性を有するマイクアレイやビームフォーミング機能を実現するための指向性アンテナを備えることで、ユーザの位置に応じた入出力の精度を一層に高めることも可能である。
以上、説明したように、本実施形態に係る技術思想は、複数のユーザが同時に利用する音声画エージェントなどにも適用することが可能である。このために、本実施形態に係る算出部230は、複数のユーザに係るコンテキストデータに基づいて、認識困難性スコアを算出してよい。より具体的には、本実施形態に係る算出部230は、ユーザごとに認識困難性スコアを算出することが可能である。本実施形態に係る算出部230が有する上記の機能によれば、ユーザごとのコンテキストに応じたより柔軟な表示制御を実現することができる。
また、例えば、本実施形態に係る技術思想は、映画などの動画と共に出力される字幕制御などに適用することも可能である。図19A〜図19Cは、本実施形態に係る技術思想を字幕制御に適用した場合の一例を示す図である。図19A〜図19Cには、表示装置などにより再生される動画M1と、高齢者であるユーザU2および年少者であるU3とが示されている。また、ユーザU2およびU3は、それぞれ眼鏡型ウェアラブルデバイスである情報処理端末10aおよび10bを装着している。
ここで、情報処理端末10aおよび10bは、AR(Augmented Reality)により動画M1に係る字幕の表示を制御する機能を有する。情報処理端末10aおよび10bは、例えば、予め動画M1と同期して用意された字幕を重畳表示させる機能を有してもよいし、動画M1におけるスクリプトL1やL2に対応する音声出力を検出し、当該音声出力から認識された対象テキスト、すなわち字幕を重畳表示させる機能を有してもよい。
この際、ユーザU2が装着する情報処理端末10aは、ユーザU2に係るセンサ情報を情報処理サーバ20に送信し、算出された認識困難性スコアを受信することで、ユーザU1に適した字幕の表示制御を行うことができる。情報処理端末10aは、例えば、図19Bに示すように、高齢者であるユーザU2にとって認識のしやすい文字の大きさで字幕(対象テキストT4)を表示させてもよい。
同様に、ユーザU3が装着する情報処理端末10bは、ユーザU3に係るセンサ情報を情報処理サーバ20に送信し、算出された認識困難性スコアを受信することで、ユーザU3に適した字幕の表示制御を行う。情報処理端末10は、例えば、図19Bに示すように、年少者であるユーザU3にとって認識しやすいように、簡易な表現を用いた字幕(対象テキストT5)を表示させてもよい。
以上説明したように、本実施形態に係る技術思想は種々の応用が可能である。本実施形態に係る技術思想は、音声テキスト入力機能、翻訳機能、議事録生成機能、OCR(Optical Character Recognition)文字認識機能、音声制御機能などを有する装置やアプリケーションに適用され得る。
<2.ハードウェア構成例>
次に、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20に共通するハードウェア構成例について説明する。図20は、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。図20を参照すると、情報処理端末10および情報処理サーバ20は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
(CPU871)
CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
(ROM872、RAM873)
ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
(ホストバス874、ブリッジ875、外部バス876、インターフェース877)
CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
(入力装置878)
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
(出力装置879)
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
(ストレージ880)
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
(ドライブ881)
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
(リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu−ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
(接続ポート882)
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS−232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
(外部接続機器902)
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
(通信装置883)
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
<3.まとめ>
以上説明したように、本実施形態に係る情報処理サーバ20は、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する機能を有する。係る構成によれば、状況により柔軟に対応した可読性の高いテキスト表示を実現することが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
また、本明細書の情報処理方法に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理方法に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する算出部、
を備える、
情報処理装置。
(2)
前記対象テキストの表示制御に用いられる表示制御情報を送信する通信部、
をさらに備える、
前記(1)に記載の情報処理装置。
(3)
前記通信部は、前記認識困難性スコアを送信する、
前記(2)に記載の情報処理装置。
(4)
前記算出部は、前記認識困難性スコアに基づいて前記対象テキストに係る表示単位または表示間隔のうち少なくともいずれかを決定し、
前記通信部は、前記表示単位または前記表示間隔のうち少なくともいずれかに関する情報を送信する、
前記(2)または(3)に記載の情報処理装置。
(5)
前記算出部は、前記認識困難性スコアに基づいて前記対象テキストに係る表示効果を決定し、
前記通信部は、前記表示効果に関する情報を送信する、
前記(2)〜(4)のいずれかに記載の情報処理装置。
(6)
前記通信部は、前記認識困難性スコアに基づく前記対象テキストの表示制御信号を送信する、
前記(2)〜(5)のいずれかに記載の情報処理装置。
(7)
前記通信部は、前記対象テキストを送信する、
前記(2)〜(6)のいずれかに記載の情報処理装置。
(8)
前記コンテキストデータは、少なくともユーザの状態に関する情報を含み、
前記算出部は、少なくとも前記ユーザの状態に関する情報に基づいて、前記認識困難性スコアを算出する、
前記(1)〜(7)のいずれかに記載の情報処理装置。
(9)
前記コンテキストデータは、少なくともアプリケーションコンテキストに関する情報を含み、
前記算出部は、少なくとも前記アプリケーションコンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
前記(1)〜(8)のいずれかに記載の情報処理装置。
(10)
前記コンテキストデータは、少なくともユーザコンテキストに関する情報を含み、
前記算出部は、少なくとも前記ユーザコンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
前記(1)〜(9)のいずれかに記載の情報処理装置。
(11)
前記コンテキストデータは、少なくともユーザプロパティに関する情報を含み、
前記算出部は、少なくとも前記ユーザプロパティに関する情報に基づいて、前記認識困難性スコアを算出する、
前記(1)〜(10)のいずれかに記載の情報処理装置。
(12)
前記コンテキストデータは、少なくとも文字コンテキストに関する情報を含み、
前記算出部は、少なくとも前記文字コンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
前記(1)〜(11)のいずれかに記載の情報処理装置。
(13)
前記コンテキストデータは、少なくとも前記対象テキストに含まれる語彙の特性に関する情報を含み、
前記算出部は、少なくとも前記語彙の特性に関する情報に基づいて、前記認識困難性スコアを算出する、
前記(12)に記載の情報処理装置。
(14)
前記算出部は、前記対象テキストの表示中に入力される前記コンテキストデータに基づいて、前記認識困難性スコアを再算出する、
前記(1)〜(13)のいずれかに記載の情報処理装置。
(15)
前記算出部は、複数のユーザに係るコンテキストデータに基づいて、前記認識困難性スコアを算出する、
前記(1)〜(14)のいずれかに記載の情報処理装置。
(16)
前記算出部は、前記ユーザごとに前記認識困難性スコアを算出する、
前記(15)に記載の情報処理装置。
(17)
前記算出部は、前記認識困難性スコアに基づいて前記対象テキストの表示に係る表示制御信号を生成する、
前記(1)〜(16)のいずれかに記載の情報処理装置。
(18)
前記対象テキストは、収集された音声に基づき生成される、
前記(1)〜(17)のいずれかに記載の情報処理装置。
(19)
プロセッサが、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出すること、
を含む、
情報処理方法。
10 情報処理端末
110 入力部
120 制御部
130 出力部
140 サーバ通信部
20 情報処理サーバ
210 音響解析部
220 状態解析部
230 算出部
240 用語DB
250 記憶部
260 音声合成部
270 端末通信部

Claims (19)

  1. 入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出する算出部、
    を備える、
    情報処理装置。
  2. 前記対象テキストの表示制御に用いられる表示制御情報を送信する通信部、
    をさらに備える、
    請求項1に記載の情報処理装置。
  3. 前記通信部は、前記認識困難性スコアを送信する、
    請求項2に記載の情報処理装置。
  4. 前記算出部は、前記認識困難性スコアに基づいて前記対象テキストに係る表示単位または表示間隔のうち少なくともいずれかを決定し、
    前記通信部は、前記表示単位または前記表示間隔のうち少なくともいずれかに関する情報を送信する、
    請求項2に記載の情報処理装置。
  5. 前記算出部は、前記認識困難性スコアに基づいて前記対象テキストに係る表示効果を決定し、
    前記通信部は、前記表示効果に関する情報を送信する、
    請求項2に記載の情報処理装置。
  6. 前記通信部は、前記認識困難性スコアに基づく前記対象テキストの表示制御信号を送信する、
    請求項2に記載の情報処理装置。
  7. 前記通信部は、前記対象テキストを送信する、
    請求項2に記載の情報処理装置。
  8. 前記コンテキストデータは、少なくともユーザの状態に関する情報を含み、
    前記算出部は、少なくとも前記ユーザの状態に関する情報に基づいて、前記認識困難性スコアを算出する、
    請求項1に記載の情報処理装置。
  9. 前記コンテキストデータは、少なくともアプリケーションコンテキストに関する情報を含み、
    前記算出部は、少なくとも前記アプリケーションコンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
    請求項1に記載の情報処理装置。
  10. 前記コンテキストデータは、少なくともユーザコンテキストに関する情報を含み、
    前記算出部は、少なくとも前記ユーザコンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
    請求項1に記載の情報処理装置。
  11. 前記コンテキストデータは、少なくともユーザプロパティに関する情報を含み、
    前記算出部は、少なくとも前記ユーザプロパティに関する情報に基づいて、前記認識困難性スコアを算出する、
    請求項1に記載の情報処理装置。
  12. 前記コンテキストデータは、少なくとも文字コンテキストに関する情報を含み、
    前記算出部は、少なくとも前記文字コンテキストに関する情報に基づいて、前記認識困難性スコアを算出する、
    請求項1に記載の情報処理装置。
  13. 前記コンテキストデータは、少なくとも前記対象テキストに含まれる語彙の特性に関する情報を含み、
    前記算出部は、少なくとも前記語彙の特性に関する情報に基づいて、前記認識困難性スコアを算出する、
    請求項12に記載の情報処理装置。
  14. 前記算出部は、前記対象テキストの表示中に入力される前記コンテキストデータに基づいて、前記認識困難性スコアを再算出する、
    請求項1に記載の情報処理装置。
  15. 前記算出部は、複数のユーザに係るコンテキストデータに基づいて、前記認識困難性スコアを算出する、
    請求項1に記載の情報処理装置。
  16. 前記算出部は、前記ユーザごとに前記認識困難性スコアを算出する、
    請求項15に記載の情報処理装置。
  17. 前記算出部は、前記認識困難性スコアに基づいて前記対象テキストの表示に係る表示制御信号を生成する、
    請求項1に記載の情報処理装置。
  18. 前記対象テキストは、収集された音声に基づき生成される、
    請求項1に記載の情報処理装置。
  19. プロセッサが、入力されるコンテキストデータに基づいて、対象テキストの表示制御に用いられる認識困難性スコアを算出すること、
    を含む、
    情報処理方法。
JP2019515094A 2017-04-24 2018-01-23 情報処理装置および情報処理方法 Pending JPWO2018198447A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017085416 2017-04-24
JP2017085416 2017-04-24
PCT/JP2018/001918 WO2018198447A1 (ja) 2017-04-24 2018-01-23 情報処理装置および情報処理方法

Publications (1)

Publication Number Publication Date
JPWO2018198447A1 true JPWO2018198447A1 (ja) 2020-02-27

Family

ID=63918147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019515094A Pending JPWO2018198447A1 (ja) 2017-04-24 2018-01-23 情報処理装置および情報処理方法

Country Status (4)

Country Link
US (1) US11301615B2 (ja)
EP (1) EP3617911A4 (ja)
JP (1) JPWO2018198447A1 (ja)
WO (1) WO2018198447A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022167200A (ja) * 2021-04-22 2022-11-04 株式会社豊田中央研究所 表示装置、及び表示プログラム
WO2023058393A1 (ja) * 2021-10-04 2023-04-13 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002197088A (ja) * 2000-12-27 2002-07-12 Casio Comput Co Ltd 電子書籍装置および電子書籍表示システム
JP2007121374A (ja) * 2005-10-25 2007-05-17 Seiko Epson Corp 情報表示装置
JP2012168803A (ja) * 2011-02-15 2012-09-06 Jvc Kenwood Corp コンテンツ再生装置、楽曲推薦方法およびコンピュータプログラム
JP2013109687A (ja) * 2011-11-24 2013-06-06 Kyocera Corp 携帯端末装置、プログラムおよび表示制御方法
WO2014207903A1 (ja) * 2013-06-28 2014-12-31 楽天株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4085926B2 (ja) * 2003-08-14 2008-05-14 ソニー株式会社 情報処理端末及び通信システム
JP2009013542A (ja) 2007-07-06 2009-01-22 Toshiba Mitsubishi-Electric Industrial System Corp 抄紙機用のドライヤ制御装置
WO2012004785A1 (en) * 2010-07-05 2012-01-12 Cognitive Media Innovations (Israel) Ltd. System and method of serial visual content presentation
JP2016143310A (ja) 2015-02-04 2016-08-08 ソニー株式会社 情報処理装置、画像処理方法及びプログラム
KR102495517B1 (ko) * 2016-01-26 2023-02-03 삼성전자 주식회사 전자 장치, 전자 장치의 음성 인식 방법
US9741258B1 (en) * 2016-07-13 2017-08-22 International Business Machines Corporation Conditional provisioning of auxiliary information with a media presentation
US9942615B1 (en) * 2017-04-20 2018-04-10 Rovi Guides, Inc. Systems and methods for presenting targeted metadata in display constrained environments

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002197088A (ja) * 2000-12-27 2002-07-12 Casio Comput Co Ltd 電子書籍装置および電子書籍表示システム
JP2007121374A (ja) * 2005-10-25 2007-05-17 Seiko Epson Corp 情報表示装置
JP2012168803A (ja) * 2011-02-15 2012-09-06 Jvc Kenwood Corp コンテンツ再生装置、楽曲推薦方法およびコンピュータプログラム
JP2013109687A (ja) * 2011-11-24 2013-06-06 Kyocera Corp 携帯端末装置、プログラムおよび表示制御方法
WO2014207903A1 (ja) * 2013-06-28 2014-12-31 楽天株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
EP3617911A4 (en) 2020-04-08
EP3617911A1 (en) 2020-03-04
US11301615B2 (en) 2022-04-12
WO2018198447A1 (ja) 2018-11-01
US20200125788A1 (en) 2020-04-23

Similar Documents

Publication Publication Date Title
CN108886532B (zh) 用于操作个人代理的装置和方法
JP6841241B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6760271B2 (ja) 情報処理装置、情報処理方法およびプログラム
WO2017130486A1 (ja) 情報処理装置、情報処理方法およびプログラム
KR20190038900A (ko) 단어 흐름 주석
JP2019008570A (ja) 情報処理装置、情報処理方法及びプログラム
CN109254659A (zh) 穿戴式设备的控制方法、装置、存储介质及穿戴式设备
Campbell et al. Categorical perception of face actions: Their role in sign language and in communicative facial displays
US10877555B2 (en) Information processing device and information processing method for controlling user immersion degree in a virtual reality environment
US9028255B2 (en) Method and system for acquisition of literacy
JP2017167779A (ja) 画像処理装置、表示装置、アニメーション生成方法、アニメーション表示方法及びプログラム
JP7066115B2 (ja) パブリックスピーキング支援装置、及びプログラム
WO2018198447A1 (ja) 情報処理装置および情報処理方法
US11544968B2 (en) Information processing system, information processingmethod, and recording medium
WO2018135057A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US10643636B2 (en) Information processing apparatus, information processing method, and program
US20200234187A1 (en) Information processing apparatus, information processing method, and program
JP7204984B1 (ja) プログラム、方法、情報処理装置
WO2018168247A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2017146584A (ja) 吹奏楽器の練習支援装置及び練習支援方法
WO2019026396A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7194371B1 (ja) プログラム、方法、情報処理装置
WO2023058393A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP7339420B1 (ja) プログラム、方法、情報処理装置
JP2000194252A (ja) 理想行動支援装置及びその方法及びそのシステム並びに記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220414

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220823