WO2019240144A1

WO2019240144A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2019240144A1
Application number: PCT/JP2019/023169
Authority: WO
Inventors: 澁谷　崇; 康治浅野
Original assignee: ソニー株式会社
Priority date: 2018-06-13
Filing date: 2019-06-11
Publication date: 2019-12-19
Also published as: EP3809282A4; EP3809282A1; US20210240930A1

Abstract

ユーザの検索時における選択決定を容易にする。　複数の単語を含む入力文から各単語に最適な出力モーダルを決定し、各単語に対応した、上記決定された出力モーダルのデータを出力する。例えば、複数の単語を含む入力文から画像による提示が適切な単語を抽出し、この適切な単語に対応した画像を出力する。例えば、適切な単語に対応した画像を入力文のその他の検索条件に対応する検索結果に含めて出力する。この場合、入力文に含まれる、画像による提示が適切な単語に対応した画像をユーザに提示することが可能となる。

Description

情報処理装置および情報処理方法

　本技術は、情報処理装置および情報処理方法に関し、詳しくは、ユーザの入力文に基づいた情報提供サービスに適用して好適な情報処理装置および情報処理方法に関する。

　従来からウェブ（Web）上でレストラン検索を行い得るようにしたレストラン検索サービスが知られている。このレストラン検索サービスでは、検索条件に関係なく、所定のテキスト情報や画像情報のみが検索結果として表示される。例えば、特許文献１には、検索されたレストランに関する画像を提示することが開示されている。

　ユーザは、利用するレストランを検索結果の複数の候補から選択決定する際に、詳細情報を見るためにウェブページを行ったり来たりする必要がある。また、ユーザが、上述のように選択決定した後に、実際にその選択決定されたレストランを利用すると、雰囲気や提供される料理が想定していたものと違っていた等の失敗をすることもある。

　レストラン検索サービス以外にも、賃貸マンションなどの不動産の検索サービス、旅行先のホテルの検索サービス、人と人のマッチングサービスにおいても、同様の問題がある。

特開２０１７－０９１０７１号公報

　本技術の目的は、ユーザの検索時における選択決定を容易にすることにある。

　本技術の概念は、
　複数の単語を含む入力文から各単語に最適な出力モーダルを決定し、上記各単語に対応した上記決定された出力モーダルのデータを出力するデータ出力部を備える
　情報処理装置にある。

　本技術において、データ出力部により、複数の単語を含む入力文から各単語に最適な出力モーダルが決定される。例えば、入力文は、直接テキスト入力されたものであることも考えられるが、音声信号から音声認識に基づいて得られたものである、ようにされてもよい。また、例えば、出力モーダルは、視覚、聴覚、触覚、嗅覚の少なくともいずれか１つを含む、ようにされてもよい。そして、データ出力部により、各単語に対応した、その決定された出力モーダルのデータが出力される。

　このように本技術においては、複数の単語を含む入力文から各単語に最適な出力モーダルを決定し、各単語に対応した、その決定された出力モーダルのデータを出力するものである。そのため、入力文に含まれる複数の単語に対応した情報を適切な態様で提示することが可能となり、ユーザの検索時における選択決定を容易にできる。

　また、本技術の他の概念は、
　複数の単語を含む入力文から画像による提示が適切な単語を抽出する単語抽出部と、
　上記適切な単語に対応した画像を出力する出力部を備える
　情報処理装置にある。

　本技術において、単語抽出部により、複数の単語を含む入力文から画像による提示が適切な単語が抽出される。例えば、入力文は、直接テキスト入力されたものであることも考えられるが、音声信号から音声認識に基づいて得られたものである、ようにされてもよい。そして、出力部により、適切な単語に対応した画像が出力される。

　このように本技術においては、複数の単語を含む入力文から画像による提示が適切な単語を抽出し、その抽出された適切な単語に対応した画像を出力するものである。そのため、入力文に含まれる画像による提示が適切な単語に対応した画像をユーザに提示することが可能となり、ユーザの検索時における選択決定を容易にできる。

　なお、本技術において、例えば、出力部は、適切な単語に対応した画像を入力文のその他の検索条件に対応する検索結果に含めて出力する、ようにされてもよい。これにより、適切な単語に対応した画像を、入力文のその他の検索条件に対応する検索結果と共にユーザに提示することが可能となる。

　本技術によれば、ユーザの検索時における選択決定を容易にできる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

実施の形態としての情報処理装置の構成例を示すブロック図である。検索条件解析部におけるデータベース検索用および画像選定用の検索ワードの抽出処理の一例を示す図である。従来の検索サービスにおける検索結果表示画面の一例を示す図である。実施の形態における検索結果表示画面の一例を示す図である。実施の形態における検索結果表示画面の他の一例を示す図である。ユーザが“写真比較”の表示形式を選択した場合の検索結果表示画面の一例を示す図である。クラウド・サーバにおける検索処理手順の一例を示すフローチャートである。

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明は以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　［情報処理装置］
　図１は、実施の形態としての情報処理装置１００の構成例を示している。この情報処理装置１０は、クライアント端末１００と、音声認識部２００と、検索サービス、この実施の形態においてはレストラン検索サービスを提供するクラウド・サーバ３００を有している。

　クライアント端末１００は、スマートフォン、タブレット、パーソナルコンピュータ、ＡＩスピーカ等であって、ユーザ４００が検索条件を入力し、その検索結果を画面表示でユーザに提示し得る電子機器である。このクライアント端末１００において、ユーザ４００は、検索条件としての複数の単語を含む入力文の入力を、例えば、テキスト入力あるいは音声入力で行うことが可能とされている。

　音声認識部２００は、クライアント端末１００に入力文が音声で入力された場合、クライアント端末１００からその入力文に対応した音声信号を取り込み、その音声信号に対して音声認識処理を施してテキストデータに変換し、そのテキストデータを音声認識結果としてクライアント端末１００に戻す。なお、音声認識部２００は、クライアント端末１００内に備えられていてもよい。

　クラウド・サーバ３００は、クライアント端末１００が、図示しないインターネットを介して接続し得る検索サービス用のサーバである。このクラウド・サーバ３００は、クライアント端末１００から検索条件としての入力文をテキストデータで受け取り、この入力文に対応した検索処理を行って、画像情報込みの検索結果をクライアント端末１００に戻す。

　なお、クラウド・サーバ３００が上述の音声認識部２００を備える構成も考えられる。その場合、クライアント端末１００は、検索条件としての入力文が音声で入力されるとき、その入力文に対応した音声信号をクライアント・サーバ３００に送り、クラウド・サーバ３００はその音声信号をテキストデータに変換して用いる。

　クラウド・サーバ３００は、検索条件解析部３０１と、データベース検索処理部３０２と、データベース３０３と、画像選定部３０４と、検索結果生成部３０５を有している。なお、図示の例においては、クラウド・サーバ３００がデータベース３０３を備える例を示しているが、このデータベース３０３は、クラウド・サーバ３００の外部に存在し、クラウド・サーバ３００のサービス業者とは別のサービス業者により管理されるものであってもよい。

　検索条件解析部３０１は、検索条件としての入力文を解析して検索ワードを抽出する。この場合、検索条件解析部３０１は、入力文からデータベース検索用の検索ワードを抽出する第１の機能と、入力文から画像選定用の検索ワードを抽出する第２の機能を有する。

　第１の機能は、入力文をデータベース検索処理部３０２に渡す情報に変換する機能である。データベース検索処理部３０２の入力仕様に依存するが、例えば、入力文が「新宿の夜景のきれいなイタリアン」という自然言語だった場合、検索条件解析部３０１は、「新宿、夜景、イタリアン」のような単語に分解する役割を持つ。あるいは、データベース検索処理部３０２が、場所やジャンルのような属性ごとに検索条件を受け付ける仕様になっている場合は、「場所: 新宿、ジャンル：イタリアン」のような「属性とその値」の形式に変換する役割を担う。

　第２の機能は、入力文を画像選定部３０４に渡す、画像での提示が望ましい属性情報に変換する機能である。例えば、入力文が「新宿の夜景のきれいなイタリアン」という自然言語だった場合、「風景：夜景、風景の特徴：きれい」という「属性とその値」の形式に変換を行う。

　なお、検索条件解析部３０１は、検索条件（入力文）の追加があった場合に、過去の入力と現在の入力を合わせて考慮して検索ワードを抽出する機能も持つ。例えば、「新宿で夜景のきれいなイタリアン」という条件で検索結果を表示している状態で、ユーザが「ピザの美味しいところ」と追加で条件を述べた場合、第１の機能では、「新宿、夜景、イタリアン、ピザ」という検索ワードを抽出し、第２の機能では、「風景: 夜景、風景の特徴: きれい、フード: ピザ、フードの特徴: 美味しい」という情報に変換する。

　また、上述したように、予め属性を定義し、それに相応しい単語を抽出する方法以外にも、入力された任意の検索条件から視覚情報での提示が相応しい語句を属性に関係なく抽出する方法も考えられる。その場合、例えば、「新宿で夜景のきれいなイタリアン、ピザの美味しいところ」という表現から「夜景：きれい」「ピザ：美味しい」という２組の語句を抽出し、画像選定部３０４に渡すことになる。

　図２は、検索条件解析部３０１におけるデータベース検索用および画像選定用の検索ワードの抽出処理の一例を示している。この例は、検索条件としての入力文が「新宿の夜景のきれいなイタリアン、ピザの美味しいところ」である場合を示している。この場合、解析により、「新宿、夜景のきれいな、イタリアン、ピザ」のキーワードが抽出され、それぞれの種類が「場所、風景、ジャンル、フード」に特定される。そして、「新宿、イタリアン」は、その種類から画像で見せなくとも良いとの判断がされてデータベース検索用の検索ワードとして採用され、「夜景のきれいな、ピザ」は、その種類から画像で見せるべきとの判断がされて画像選定用の検索ワードとして採用される。

　検索条件解析部３０１で抽出されたデータベース検索用の検索ワードは、データベース検索処理部３０２に供給される。データベース検索処理部３０２は、いわゆる検索エンジンである。データベース検索処理部３０２は、データベース３０３から、データベース検索用の検索ワードに相応しい物件（レストラン）を探し出し、検索ワードに適合している順に並んだ所定数の物件のデータを出力する。以下、このように探し出された物件を「検索物件」と呼ぶ。

　検索条件解析部３０１で抽出された画像選定用の検索ワードは、画像選定部３０４に供給される。また、データベース検索処理部３０２から出力された各検索物件のデータのうちの画像データは、画像選定部３０４に供給される。画像選定部３０４は、検索物件毎に、各検索物件の画像データから、画像選定用の検索ワードに最も相応しい画像の画像データを選定する機能を持つ。ここで、画像選定用の検索ワードが複数ある場合は、それぞれに対して、最も相応しい画像の画像データが選定される。

　選定方法としては、データベース３０３に登録されている画像データに対するキャプションや説明書きを使う方法、「画像アノテーション技術」と呼ばれる画像の内容を解析する技術に基づく方法、単語のベクトル変換技術（ＷｏｒｄＥｍｂｅｄｄｉｎｇ技術）を用いて検索ワードと画像の類似度を計算する仕組みを用いる方法、などが考えられる。

　なお、画像選定部３０４は、検索ワードに相応しい画像の画像データがないという判定を行う機能も持つ。また、画像選定部３０４で選定される画像データは、データベース３０３に登録されている画像データに限定されるものではなく、検索物件名（レストラン名）と画像選定用の検索ワードに基づいて、外部の写真共有サービス等から取得することも考えられる。

　画像選定部３０４で選定された検索物件毎の、各検索ワードに最も相応しい画像の画像データは、検索結果生成部３０５に供給される。また、データベース検索処理部３０２から出力された各検索物件のデータは、検索結果生成部３０５に供給される。検索結果生成部３０５は、検索物件毎に、データベース検索処理部３０２から出力される検索物件のデータに、画像選定部３０４で選定された各検索ワードに最も相応しい画像の画像データを追加して、検索結果を生成する。なお、画像データの追加ではなく、画像データの差替えをすることも考えられる。

　検索結果生成部３０５は、生成した検索結果をクライアント端末１００に送る。クライアント端末１００は、クラウド・サーバ３００から送られてくる検索結果に基づいてレンダリングし、検査結果表示画面を生成して、ユーザ４００に提示する。なお、検査結果表示画面を生成するレンダリング処理は、クライアント端末１００で行うのではなく、クラウド・サーバ３００で行うことも考えられる。

　図３は、従来の検索サービスにおける検索結果表示画面の一例を示している。図示の例では、ユーザが、「新宿、夜景、イタリアン」の検索ワードを入力してレストラン検索を行った場合を示している。この場合、検索物件毎に、レストラン名、デフォルト画像（写真）、説明文などが表示される。ここで表示されるデフォルト画像は、サービス側あるいは店側により予め決められたものであり、「夜景」の画像が必ずしも表示されるものではない。

　図４は、この実施の形態における検索結果表示画面の一例を示している。図示の例では、ユーザが、「新宿の夜景のきれいなイタリアン」という入力文を検索条件として入力してレストラン検索を行った場合であって、「夜景のきれいな」が画像選定用の検索ワードとして抽出された場合の例を示している。この場合、検索物件毎に、レストラン名、デフォルト画像（写真）、説明文などが表示される他に、画像選定用の検索ワードに最も相応しい夜景の画像も表示される。

　なお、図示の例は、ユーザが“ノーマル”の表示形式を選択している場合を示している。図示は、省略するが、ユーザが“写真比較”の表示形式を選択している場合には、検索物件毎に、レストラン名と、画像（デフォルト画像（写真）、検索ワード画像（写真））が表示され、その他の説明文などの表示は省略された状態となる。

　図５は、この実施の形態における検索結果表示画面の他の一例を示している。図示の例では、ユーザが、「新宿の夜景のきれいなイタリアン、ピザが美味しいところ」という入力文を検索条件として入力してレストラン検索を行った場合であって、「夜景のきれいな」と「ピザの美味しいところ」が画像選定用の検索ワードとして抽出された場合の例を示している。この場合、ユーザが、「新宿の夜景のきれいなイタリアン」という入力文を検索条件として入力した後に、「ピザの美味しいところ」という入力文を検索条件として追加した場合も同様となる。

　この場合、検索物件毎に、レストラン名、デフォルト画像（写真）、説明文などが表示される他に、画像選定用の検索ワード「夜景のきれいな」に最も相応しい夜景の画像と、画像選定用の検索ワード「ピザが美味しいところ」に最も相応しいピザの画像も表示される。なお、図示の例は、ユーザが“ノーマル”の表示形式を選択している場合を示している。

　図６は、ユーザが“写真比較”の表示形式を選択している場合を示している。検索物件毎に、レストラン名と、画像（デフォルト画像（写真）、検索ワード画像（写真））が表示され、その他の説明文などの表示は省略された状態となる。この“写真比較”の表示形式では、各検索物件の画像による比較を容易に行い得る。

　図７のフローチャートは、クラウド・サーバ３００における検索処理手順の一例を示している。クラウド・サーバ３００は、ステップＳＴ１において、検索処理を開始する。次に、クラウド・サーバ３００は、ステップＳＴ２において、検索条件解析部３０１により、検索条件としての入力文を解析して、データベース検索用の検索ワードと、画像選定用の検索ワードを抽出する。

　次に、クラウド・サーバ３００は、ステップＳＴ３において、データベース検索処理部３０２により、データベース検索用の検索ワードに基づき、データベース３０３から、該当物件、つまりその検索ワードに相応しい物件（レストラン）を検索する。次に、クラウド・サーバ３００は、ステップＳＴ４において、画像選定部３０４により、画像選定用の検索ワードに基づき、各該当物件の画像を選定する。

　次に、クラウド・サーバ３００は、ステップＳＴ５において、検索結果生成部３０５により、各該当物件の画像情報をデータベースの検索結果に付与して最終的な検索結果を生成する。その後、クラウド・サーバ３００は、ステップＳＴ６において、処理を終了する。

　以上説明したように、図１に示す情報処理装置１００においては、複数のワード（単語）を含む入力文から画像による提示が適切なワード（画像選定用検索ワード）を抽出し、そのワードに対応した画像の画像データを、検索物件のデータに含めて検索結果とするものである。そのため、入力文に含まれる、画像による提示が適切な単語に対応した画像をユーザに提示することが可能となり、ユーザの検索時における選択決定を容易にできる。

　この場合、ユーザが検索結果の物件の中から候補を絞る際に、各物件の関連情報を一覧できるため、詳細を逐一見るためにウェブページを行ったり来たりする手間が省ける。また、この場合、検索条件に関係する関連情報を視覚的に確認しやすいので、「検索結果の中から選んだものの、実物を見たら想定と違っていて残念だった」というような失敗をするケースを減らすことができる。

　＜２．変形例＞
　なお、上述の実施の形態においては、本技術をレストラン検索サービスに適用した例を示した。本技術の適用範囲は、レストラン検索サービスに限定されるものではなく、その他の検索サービスにも同様に適用し得るものである。

　例えば、本技術は旅行のホテル検索サービスに適用できる。例えば、検索条件としての入力文が「貸し切り風呂のある海の見える旅館」であったとき、画像選定用検索ワードは、
　　　設備：貸し切り風呂
　　　風景：海
となる。

　また、本技術は、マッチングサービスに適用できる。例えば、検索条件としての入力文が、「短髪で、ヒゲの素敵な男性」であったとき、画像選定用検索ワードは、
　　　髪型: 短髪
　　　顔の特徴: ヒゲ
となる。

　また、上述実施の形態においては、出力モーダルが視覚である例を示した。本技術は、聴覚、触覚、嗅覚などの他の出力モーダルにも適用可能である。不動産の賃貸マンションの検索サービスの場合、例えば、検索条件としての入力文が「収納の大きい、静かな部屋」であったとき、
　　　設備: 収納の大きい
　　　騒音環境: 静かな
と解析できる。

　このとき、騒音環境自体は視覚ではなく聴覚に訴えるのが適切な情報である。この検索条件に対して、検索サービス提供者が予め各物件の騒音レベル（デシベル単位）を計測しておき、騒音レベルに応じたサンプル音源を検索結果画面で聞かせるようにすることが可能である。この場合、ユーザの現在住んでいる場所の騒音レベルと共に、各物件の騒音レベルを聞かせるようにしてもよい。この場合、例えば、図１の情報処理装置１０において、画像選定部３０４のところで騒音レベルに対応したサンプル音源を作成し、また、検索結果生成部３０５のところで各検索物件のデータにそのサンプル音源を付加して、クライアント端末１００に送る検索結果とする。なお、騒音レベルに応じたサンプル音源ではなく、実際に録音した、例えば、朝、昼、夜などの環境音を利用することも考えられる。

　また、家具・インテリア用品の検索サービスの場合、例えば、検索条件としての入力文が「もふもふの赤いハート型のクッション」であったとき、
　　　色: 赤
　　　形: ハート型
　　　触感: もふもふ
と解析できる。

　このとき、色や形は視覚情報として提示するのが好ましいが、触感や肌触りのようなものは、触覚提示デバイス、あるいは触覚ディスプレイで提示することが可能である。

　また、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本技術は、以下のような構成を取ることもできる。
　（１）複数の単語を含む入力文から各単語に最適な出力モーダルを決定し、上記各単語に対応した上記決定された出力モーダルのデータを出力するデータ出力部を備える
　情報処理装置。
　（２）上記入力文は、音声信号から音声認識に基づいて得られたものである
　前記（１）に記載の情報処理装置。
　（３）上記出力モーダルは、視覚、聴覚、触覚、嗅覚の少なくともいずれか１つを含む
　前記（１）または（２）に記載の情報処理装置。
　（４）複数の単語を含む入力文から各単語に最適な出力モーダルを決定し、上記各単語に対応した上記決定された出力モーダルのデータを出力する
　情報処理方法。
　（５）複数の単語を含む入力文から画像による提示が適切な単語を抽出する単語抽出部と、
　上記抽出された適切な単語に対応した画像を出力する出力部を備える
　情報処理装置。
　（６）上記入力文は、音声信号から音声認識に基づいて得られたものである
　前記（５）に記載の情報処理装置。
　（７）上記出力部は、適切な単語に対応した画像を入力文のその他の検索条件に対応する検索結果に含めて出力する
　前記（５）または（６）に記載の情報処理装置。
　（８）複数の単語を含む入力文から画像による提示が適切な単語を抽出する手順と、
　上記抽出された適切な単語に対応した画像を出力する手順を有する
　情報処理方法。

　１０・・・情報処理装置
　１００・・・クライアント端末
　２００・・・音声認識部
　３００・・・クラウド・サーバ
　３０１・・・検索条件解析部
　３０２・・・データベース検索処理部
　３０３・・・データベース
　３０４・・・画像選定部
　３０５・・・検索結果生成部

Claims

　複数の単語を含む入力文から各単語に最適な出力モーダルを決定し、上記各単語に対応した上記決定された出力モーダルのデータを出力するデータ出力部を備える
　情報処理装置。
　上記入力文は、音声信号から音声認識に基づいて得られたものである
　請求項１に記載の情報処理装置。
　上記出力モーダルは、視覚、聴覚、触覚、嗅覚の少なくともいずれか１つを含む
　請求項１に記載の情報処理装置。
　複数の単語を含む入力文から各単語に最適な出力モーダルを決定し、上記各単語に対応した上記決定された出力モーダルのデータを出力する
　情報処理方法。
　複数の単語を含む入力文から画像による提示が適切な単語を抽出する単語抽出部と、
　上記抽出された適切な単語に対応した画像を出力する出力部を備える
　情報処理装置。
　上記入力文は、音声信号から音声認識に基づいて得られたものである
　請求項５に記載の情報処理装置。
　上記出力部は、適切な単語に対応した画像を入力文のその他の検索条件に対応する検索結果に含めて出力する
　請求項５に記載の情報処理装置。
　複数の単語を含む入力文から画像による提示が適切な単語を抽出する手順と、
　上記抽出された適切な単語に対応した画像を出力する手順を有する
　情報処理方法。