WO2019240144A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2019240144A1
WO2019240144A1 PCT/JP2019/023169 JP2019023169W WO2019240144A1 WO 2019240144 A1 WO2019240144 A1 WO 2019240144A1 JP 2019023169 W JP2019023169 W JP 2019023169W WO 2019240144 A1 WO2019240144 A1 WO 2019240144A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
word
image
input sentence
information processing
Prior art date
Application number
PCT/JP2019/023169
Other languages
English (en)
French (fr)
Inventor
澁谷 崇
康治 浅野
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP19819728.7A priority Critical patent/EP3809282A4/en
Priority to US16/972,564 priority patent/US20210240930A1/en
Publication of WO2019240144A1 publication Critical patent/WO2019240144A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Definitions

  • the present technology relates to an information processing apparatus and an information processing method, and more particularly, to an information processing apparatus and an information processing method suitable for application to an information providing service based on a user input sentence.
  • Patent Document 1 discloses that an image relating to a searched restaurant is presented.
  • the user When the user selects and decides a restaurant to be used from a plurality of search result candidates, the user needs to go back and forth to see the detailed information. In addition, if the user selects and decides as described above and actually uses the selected and decided restaurant, the user may make a failure such as the atmosphere and the food provided are different from those assumed. .
  • the purpose of this technology is to facilitate the selection decision at the time of user search.
  • An information processing apparatus includes a data output unit that determines an optimal output modal for each word from an input sentence including a plurality of words and outputs data of the determined output modal corresponding to each word.
  • the data output unit determines an optimal output modal for each word from an input sentence including a plurality of words.
  • the input sentence may be a direct text input, but may be obtained from a speech signal based on speech recognition.
  • the output modal may include at least one of visual, auditory, tactile, and olfactory senses. Then, the determined output modal data corresponding to each word is output by the data output unit.
  • the optimum output modal for each word is determined from an input sentence including a plurality of words, and data of the determined output modal corresponding to each word is output. Therefore, it becomes possible to present information corresponding to a plurality of words included in the input sentence in an appropriate manner, and the selection decision at the time of the user's search can be facilitated.
  • a word extraction unit that extracts a word suitable for presentation by an image from an input sentence including a plurality of words
  • the information processing apparatus includes an output unit that outputs an image corresponding to the appropriate word.
  • the word extraction unit extracts a word suitable for presentation by an image from an input sentence including a plurality of words.
  • the input sentence may be a direct text input, but may be obtained from a speech signal based on speech recognition.
  • the output unit outputs an image corresponding to an appropriate word.
  • a word suitable for presentation by an image is extracted from an input sentence including a plurality of words, and an image corresponding to the extracted appropriate word is output. Therefore, it is possible to present the user with an image corresponding to a word that is appropriately presented by the image included in the input sentence, and the selection decision at the time of the user's search can be facilitated.
  • the output unit may output an image corresponding to an appropriate word included in a search result corresponding to another search condition of the input sentence.
  • an image corresponding to an appropriate word can be presented to the user together with a search result corresponding to other search conditions of the input sentence.
  • FIG. 1 shows a configuration example of an information processing apparatus 100 as an embodiment.
  • the information processing apparatus 10 includes a client terminal 100, a voice recognition unit 200, a cloud service 300 that provides a search service, in this embodiment, a restaurant search service.
  • the client terminal 100 is an electronic device that is a smartphone, a tablet, a personal computer, an AI speaker, or the like, and that allows the user 400 to input search conditions and present the search results to the user on a screen display.
  • the user 400 can input an input sentence including a plurality of words as a search condition by, for example, text input or voice input.
  • the voice recognition unit 200 takes a voice signal corresponding to the input sentence from the client terminal 100, performs voice recognition processing on the voice signal, and converts it into text data.
  • the text data is converted and returned to the client terminal 100 as a speech recognition result.
  • the voice recognition unit 200 may be provided in the client terminal 100.
  • the cloud server 300 is a search service server to which the client terminal 100 can be connected via the Internet (not shown).
  • the cloud server 300 receives an input sentence as a search condition from the client terminal 100 as text data, performs a search process corresponding to the input sentence, and returns a search result including image information to the client terminal 100.
  • a configuration in which the cloud server 300 includes the above-described voice recognition unit 200 is also conceivable.
  • the client terminal 100 sends a voice signal corresponding to the input sentence to the client server 300, and the cloud server 300 converts the voice signal into text data. Convert and use.
  • the cloud server 300 includes a search condition analysis unit 301, a database search processing unit 302, a database 303, an image selection unit 304, and a search result generation unit 305.
  • the cloud server 300 includes the database 303.
  • the database 303 exists outside the cloud server 300 and is different from the service provider of the cloud server 300. It may be managed by a service provider.
  • the search condition analysis unit 301 analyzes an input sentence as a search condition and extracts a search word.
  • the search condition analysis unit 301 has a first function for extracting a search word for database search from an input sentence and a second function for extracting a search word for image selection from an input sentence.
  • the first function is a function for converting an input sentence into information to be passed to the database search processing unit 302.
  • the search condition analysis unit 301 is like “Shinjuku, night view, Italian”. Has the role of breaking down into words.
  • the database search processing unit 302 is configured to accept a search condition for each attribute such as location or genre, the format of “attribute and its value” such as “location: Shinjuku, genre: Italian” Play a role to convert to.
  • the second function is a function of passing the input sentence to the image selection unit 304 and converting it into attribute information that is desirably presented as an image. For example, if the input sentence is a natural language of “Italian with beautiful night view of Shinjuku”, it is converted into the format of “attribute and value” of “landscape: night view, landscape feature: beautiful”.
  • the search condition analysis unit 301 also has a function of extracting a search word in consideration of past input and current input when a search condition (input sentence) is added. For example, when the search result is displayed under the condition “Italian with a beautiful night view in Shinjuku”, and the user additionally describes the condition as “delicious place for pizza”, the first function is “Shinjuku, night view”. In the second function, the search word “Italian, Pizza” is extracted and converted into information “Landscape: Night view, Landscape feature: Clean, Food: Pizza, Food feature: Delicious”.
  • a method of extracting words suitable for presentation in visual information from any input search condition regardless of the attributes is also considered. It is done. In that case, for example, two sets of phrases “night view: beautiful” and “pizza: delicious” are extracted from the expression “Italian with beautiful night view in Shinjuku, delicious place of pizza” and passed to the image selection unit 304.
  • FIG. 2 shows an example of extraction processing of search words for database search and image selection in the search condition analysis unit 301.
  • This example shows a case where the input sentence as the search condition is “Italian with beautiful night view of Shinjuku, delicious place of pizza”.
  • the keyword “Shinjuku, beautiful night view, Italian, pizza” is extracted by analysis, and each type is specified as “location, landscape, genre, food”.
  • “Shinjuku, Italian” was decided that it was not necessary to show it as an image from its type, and it was adopted as a search word for database search, and “Pizza with a beautiful night view” should be shown as an image from that type. Is used as a search word for image selection.
  • the search word for database search extracted by the search condition analysis unit 301 is supplied to the database search processing unit 302.
  • the database search processing unit 302 is a so-called search engine.
  • the database search processing unit 302 searches the database 303 for a property (restaurant) suitable for the search word for database search, and outputs data of a predetermined number of properties arranged in the order suitable for the search word.
  • search property the property found in this way is referred to as a “search property”.
  • the search word for image selection extracted by the search condition analysis unit 301 is supplied to the image selection unit 304. Further, the image data of the data of each search property output from the database search processing unit 302 is supplied to the image selection unit 304.
  • the image selection unit 304 has a function of selecting image data of an image most suitable for a search word for image selection from image data of each search property for each search property. Here, when there are a plurality of search words for image selection, the image data of the most suitable image is selected for each.
  • Selection methods include a method of using captions and descriptions for image data registered in the database 303, a method based on a technique for analyzing image content called “image annotation technology”, a word vector conversion technology (Word Embedding technology). ) Using a mechanism for calculating the similarity between a search word and an image.
  • the image selection unit 304 also has a function of determining that there is no image data of an image suitable for the search word.
  • the image data selected by the image selection unit 304 is not limited to the image data registered in the database 303, but based on the search property name (restaurant name) and the search word for image selection, It may be obtained from other photo sharing services.
  • the image data of the image most suitable for each search word for each search property selected by the image selection unit 304 is supplied to the search result generation unit 305. Further, the data of each search property output from the database search processing unit 302 is supplied to the search result generation unit 305.
  • the search result generation unit 305 adds image data of an image most suitable for each search word selected by the image selection unit 304 to the search property data output from the database search processing unit 302 for each search property, Generate search results. It is also conceivable to replace image data instead of adding image data.
  • the search result generation unit 305 sends the generated search result to the client terminal 100.
  • the client terminal 100 renders based on the search result sent from the cloud server 300, generates an inspection result display screen, and presents it to the user 400. Note that the rendering process for generating the inspection result display screen may be performed not by the client terminal 100 but by the cloud server 300.
  • FIG. 3 shows an example of a search result display screen in the conventional search service.
  • the user performs a restaurant search by inputting a search word “Shinjuku, night view, Italian”.
  • a restaurant name, a default image (photo), a description, etc. are displayed for each search property.
  • the default image displayed here is determined in advance by the service side or the store side, and the “night view” image is not necessarily displayed.
  • FIG. 4 shows an example of a search result display screen in this embodiment.
  • the user performs a restaurant search by inputting the input sentence “Italian with beautiful night view of Shinjuku” as a search condition, “beautiful with night view” is extracted as a search word for image selection.
  • An example is shown.
  • an image of the night view most suitable for the search word for image selection is also displayed.
  • the illustrated example shows a case where the user has selected the “normal” display format. Although illustration is omitted, when the user selects the display format of “photo comparison”, the name of the restaurant and the image (default image (photo), search word image (photo)) are displayed for each search property. Displayed, and the display of other explanatory text is omitted.
  • FIG. 5 shows another example of the search result display screen in this embodiment.
  • a user performs a restaurant search by inputting an input sentence “A beautiful Italian restaurant in Shinjuku at night, where pizza is delicious” as a search condition.
  • An example where “delicious place” is extracted as a search word for image selection is shown.
  • the image of the pizza most appropriate for the search word “Pizza is delicious” is also displayed.
  • the illustrated example shows a case where the user has selected the “normal” display format.
  • FIG. 6 shows a case where the user has selected the “photo comparison” display format.
  • a restaurant name and an image default image (photo), search word image (photo)
  • image default image (photo)
  • photo search word image
  • step ST1 the cloud server 300 starts a search process.
  • step ST2 the cloud server 300 uses the search condition analysis unit 301 to analyze an input sentence as a search condition and extract a search word for database search and a search word for image selection.
  • step ST3 the cloud server 300 causes the database search processing unit 302 to search the database 303 for a corresponding property, that is, a property (restaurant) suitable for the search word, from the database search word.
  • step ST4 the cloud server 300 causes the image selection unit 304 to select an image of each corresponding property based on the search word for image selection.
  • step ST5 the cloud server 300 causes the search result generation unit 305 to add the image information of each corresponding property to the search result of the database and generate a final search result. Thereafter, the cloud server 300 ends the process in step ST6.
  • a word that is appropriate to be presented as an image is extracted from an input sentence including a plurality of words (words) and corresponds to the word.
  • the image data of the selected image is included in the search property data and is used as a search result. Therefore, it is possible to present to the user an image corresponding to a word that is appropriately presented by the image included in the input sentence, and the selection decision at the time of the user's search can be facilitated.
  • the present technology can be applied to a hotel search service for travel.
  • the search word for image selection is Equipment: Private bath Landscape: The sea.
  • this technique is applicable to a matching service.
  • the search word for image selection is Hairstyle: Short hair Facial features: Beard.
  • the output modal is visual
  • the present technology can also be applied to other output modals such as hearing, touch, and smell.
  • a search service for real estate rental apartments for example, when the input sentence as a search condition is "a quiet room with large storage" Equipment: Large storage Noise environment: Can be analyzed as quiet.
  • the search service provider can measure the noise level (in decibels) of each property in advance and let the sample sound source corresponding to the noise level be heard on the search result screen. .
  • the noise level of each property may be heard together with the noise level of the place where the user currently lives.
  • a sample sound source corresponding to the noise level is created at the image selection unit 304, and the sample sound source is added to the data of each search property at the search result generation unit 305.
  • the search result is sent to the client terminal 100.
  • environmental sounds such as morning, noon, and night actually recorded instead of the sample sound source according to the noise level.
  • a tactile sensation or touch can be presented on a tactile presentation device or a tactile display.
  • this technique can also take the following structures.
  • An information processing apparatus including a data output unit that determines an optimal output modal for each word from an input sentence including a plurality of words and outputs data of the determined output modal corresponding to each word.
  • the information processing apparatus according to (1) wherein the input sentence is obtained from voice signals based on voice recognition.
  • the output modal includes at least one of vision, hearing, touch, and smell.
  • a word extraction unit that extracts words suitable for presentation by an image from an input sentence including a plurality of words;
  • An information processing apparatus comprising: an output unit that outputs an image corresponding to the extracted appropriate word.
  • the input sentence is obtained from voice signals based on voice recognition.
  • the output unit includes and outputs an image corresponding to an appropriate word in a search result corresponding to another search condition of the input sentence.
  • An information processing method comprising a procedure of outputting an image corresponding to the extracted appropriate word.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

ユーザの検索時における選択決定を容易にする。 複数の単語を含む入力文から各単語に最適な出力モーダルを決定し、各単語に対応した、上記決定された出力モーダルのデータを出力する。例えば、複数の単語を含む入力文から画像による提示が適切な単語を抽出し、この適切な単語に対応した画像を出力する。例えば、適切な単語に対応した画像を入力文のその他の検索条件に対応する検索結果に含めて出力する。この場合、入力文に含まれる、画像による提示が適切な単語に対応した画像をユーザに提示することが可能となる。

Description

情報処理装置および情報処理方法
 本技術は、情報処理装置および情報処理方法に関し、詳しくは、ユーザの入力文に基づいた情報提供サービスに適用して好適な情報処理装置および情報処理方法に関する。
 従来からウェブ(Web)上でレストラン検索を行い得るようにしたレストラン検索サービスが知られている。このレストラン検索サービスでは、検索条件に関係なく、所定のテキスト情報や画像情報のみが検索結果として表示される。例えば、特許文献1には、検索されたレストランに関する画像を提示することが開示されている。
 ユーザは、利用するレストランを検索結果の複数の候補から選択決定する際に、詳細情報を見るためにウェブページを行ったり来たりする必要がある。また、ユーザが、上述のように選択決定した後に、実際にその選択決定されたレストランを利用すると、雰囲気や提供される料理が想定していたものと違っていた等の失敗をすることもある。
 レストラン検索サービス以外にも、賃貸マンションなどの不動産の検索サービス、旅行先のホテルの検索サービス、人と人のマッチングサービスにおいても、同様の問題がある。
特開2017-091071号公報
 本技術の目的は、ユーザの検索時における選択決定を容易にすることにある。
 本技術の概念は、
 複数の単語を含む入力文から各単語に最適な出力モーダルを決定し、上記各単語に対応した上記決定された出力モーダルのデータを出力するデータ出力部を備える
 情報処理装置にある。
 本技術において、データ出力部により、複数の単語を含む入力文から各単語に最適な出力モーダルが決定される。例えば、入力文は、直接テキスト入力されたものであることも考えられるが、音声信号から音声認識に基づいて得られたものである、ようにされてもよい。また、例えば、出力モーダルは、視覚、聴覚、触覚、嗅覚の少なくともいずれか1つを含む、ようにされてもよい。そして、データ出力部により、各単語に対応した、その決定された出力モーダルのデータが出力される。
 このように本技術においては、複数の単語を含む入力文から各単語に最適な出力モーダルを決定し、各単語に対応した、その決定された出力モーダルのデータを出力するものである。そのため、入力文に含まれる複数の単語に対応した情報を適切な態様で提示することが可能となり、ユーザの検索時における選択決定を容易にできる。
 また、本技術の他の概念は、
 複数の単語を含む入力文から画像による提示が適切な単語を抽出する単語抽出部と、
 上記適切な単語に対応した画像を出力する出力部を備える
 情報処理装置にある。
 本技術において、単語抽出部により、複数の単語を含む入力文から画像による提示が適切な単語が抽出される。例えば、入力文は、直接テキスト入力されたものであることも考えられるが、音声信号から音声認識に基づいて得られたものである、ようにされてもよい。そして、出力部により、適切な単語に対応した画像が出力される。
 このように本技術においては、複数の単語を含む入力文から画像による提示が適切な単語を抽出し、その抽出された適切な単語に対応した画像を出力するものである。そのため、入力文に含まれる画像による提示が適切な単語に対応した画像をユーザに提示することが可能となり、ユーザの検索時における選択決定を容易にできる。
 なお、本技術において、例えば、出力部は、適切な単語に対応した画像を入力文のその他の検索条件に対応する検索結果に含めて出力する、ようにされてもよい。これにより、適切な単語に対応した画像を、入力文のその他の検索条件に対応する検索結果と共にユーザに提示することが可能となる。
 本技術によれば、ユーザの検索時における選択決定を容易にできる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
実施の形態としての情報処理装置の構成例を示すブロック図である。 検索条件解析部におけるデータベース検索用および画像選定用の検索ワードの抽出処理の一例を示す図である。 従来の検索サービスにおける検索結果表示画面の一例を示す図である。 実施の形態における検索結果表示画面の一例を示す図である。 実施の形態における検索結果表示画面の他の一例を示す図である。 ユーザが“写真比較”の表示形式を選択した場合の検索結果表示画面の一例を示す図である。 クラウド・サーバにおける検索処理手順の一例を示すフローチャートである。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
 1.実施の形態
 2.変形例
 <1.実施の形態>
 [情報処理装置]
 図1は、実施の形態としての情報処理装置100の構成例を示している。この情報処理装置10は、クライアント端末100と、音声認識部200と、検索サービス、この実施の形態においてはレストラン検索サービスを提供するクラウド・サーバ300を有している。
 クライアント端末100は、スマートフォン、タブレット、パーソナルコンピュータ、AIスピーカ等であって、ユーザ400が検索条件を入力し、その検索結果を画面表示でユーザに提示し得る電子機器である。このクライアント端末100において、ユーザ400は、検索条件としての複数の単語を含む入力文の入力を、例えば、テキスト入力あるいは音声入力で行うことが可能とされている。
 音声認識部200は、クライアント端末100に入力文が音声で入力された場合、クライアント端末100からその入力文に対応した音声信号を取り込み、その音声信号に対して音声認識処理を施してテキストデータに変換し、そのテキストデータを音声認識結果としてクライアント端末100に戻す。なお、音声認識部200は、クライアント端末100内に備えられていてもよい。
 クラウド・サーバ300は、クライアント端末100が、図示しないインターネットを介して接続し得る検索サービス用のサーバである。このクラウド・サーバ300は、クライアント端末100から検索条件としての入力文をテキストデータで受け取り、この入力文に対応した検索処理を行って、画像情報込みの検索結果をクライアント端末100に戻す。
 なお、クラウド・サーバ300が上述の音声認識部200を備える構成も考えられる。その場合、クライアント端末100は、検索条件としての入力文が音声で入力されるとき、その入力文に対応した音声信号をクライアント・サーバ300に送り、クラウド・サーバ300はその音声信号をテキストデータに変換して用いる。
 クラウド・サーバ300は、検索条件解析部301と、データベース検索処理部302と、データベース303と、画像選定部304と、検索結果生成部305を有している。なお、図示の例においては、クラウド・サーバ300がデータベース303を備える例を示しているが、このデータベース303は、クラウド・サーバ300の外部に存在し、クラウド・サーバ300のサービス業者とは別のサービス業者により管理されるものであってもよい。
 検索条件解析部301は、検索条件としての入力文を解析して検索ワードを抽出する。この場合、検索条件解析部301は、入力文からデータベース検索用の検索ワードを抽出する第1の機能と、入力文から画像選定用の検索ワードを抽出する第2の機能を有する。
 第1の機能は、入力文をデータベース検索処理部302に渡す情報に変換する機能である。データベース検索処理部302の入力仕様に依存するが、例えば、入力文が「新宿の夜景のきれいなイタリアン」という自然言語だった場合、検索条件解析部301は、「新宿、夜景、イタリアン」のような単語に分解する役割を持つ。あるいは、データベース検索処理部302が、場所やジャンルのような属性ごとに検索条件を受け付ける仕様になっている場合は、「場所: 新宿、ジャンル: イタリアン」のような「属性とその値」の形式に変換する役割を担う。
 第2の機能は、入力文を画像選定部304に渡す、画像での提示が望ましい属性情報に変換する機能である。例えば、入力文が「新宿の夜景のきれいなイタリアン」という自然言語だった場合、「風景:夜景、風景の特徴:きれい」という「属性とその値」の形式に変換を行う。
 なお、検索条件解析部301は、検索条件(入力文)の追加があった場合に、過去の入力と現在の入力を合わせて考慮して検索ワードを抽出する機能も持つ。例えば、「新宿で夜景のきれいなイタリアン」という条件で検索結果を表示している状態で、ユーザが「ピザの美味しいところ」と追加で条件を述べた場合、第1の機能では、「新宿、夜景、イタリアン、ピザ」という検索ワードを抽出し、第2の機能では、「風景: 夜景、風景の特徴: きれい、フード: ピザ、フードの特徴: 美味しい」という情報に変換する。
 また、上述したように、予め属性を定義し、それに相応しい単語を抽出する方法以外にも、入力された任意の検索条件から視覚情報での提示が相応しい語句を属性に関係なく抽出する方法も考えられる。その場合、例えば、「新宿で夜景のきれいなイタリアン、ピザの美味しいところ」という表現から「夜景:きれい」「ピザ:美味しい」という2組の語句を抽出し、画像選定部304に渡すことになる。
 図2は、検索条件解析部301におけるデータベース検索用および画像選定用の検索ワードの抽出処理の一例を示している。この例は、検索条件としての入力文が「新宿の夜景のきれいなイタリアン、ピザの美味しいところ」である場合を示している。この場合、解析により、「新宿、夜景のきれいな、イタリアン、ピザ」のキーワードが抽出され、それぞれの種類が「場所、風景、ジャンル、フード」に特定される。そして、「新宿、イタリアン」は、その種類から画像で見せなくとも良いとの判断がされてデータベース検索用の検索ワードとして採用され、「夜景のきれいな、ピザ」は、その種類から画像で見せるべきとの判断がされて画像選定用の検索ワードとして採用される。
 検索条件解析部301で抽出されたデータベース検索用の検索ワードは、データベース検索処理部302に供給される。データベース検索処理部302は、いわゆる検索エンジンである。データベース検索処理部302は、データベース303から、データベース検索用の検索ワードに相応しい物件(レストラン)を探し出し、検索ワードに適合している順に並んだ所定数の物件のデータを出力する。以下、このように探し出された物件を「検索物件」と呼ぶ。
 検索条件解析部301で抽出された画像選定用の検索ワードは、画像選定部304に供給される。また、データベース検索処理部302から出力された各検索物件のデータのうちの画像データは、画像選定部304に供給される。画像選定部304は、検索物件毎に、各検索物件の画像データから、画像選定用の検索ワードに最も相応しい画像の画像データを選定する機能を持つ。ここで、画像選定用の検索ワードが複数ある場合は、それぞれに対して、最も相応しい画像の画像データが選定される。
 選定方法としては、データベース303に登録されている画像データに対するキャプションや説明書きを使う方法、「画像アノテーション技術」と呼ばれる画像の内容を解析する技術に基づく方法、単語のベクトル変換技術(Word Embedding技術)を用いて検索ワードと画像の類似度を計算する仕組みを用いる方法、などが考えられる。
 なお、画像選定部304は、検索ワードに相応しい画像の画像データがないという判定を行う機能も持つ。また、画像選定部304で選定される画像データは、データベース303に登録されている画像データに限定されるものではなく、検索物件名(レストラン名)と画像選定用の検索ワードに基づいて、外部の写真共有サービス等から取得することも考えられる。
 画像選定部304で選定された検索物件毎の、各検索ワードに最も相応しい画像の画像データは、検索結果生成部305に供給される。また、データベース検索処理部302から出力された各検索物件のデータは、検索結果生成部305に供給される。検索結果生成部305は、検索物件毎に、データベース検索処理部302から出力される検索物件のデータに、画像選定部304で選定された各検索ワードに最も相応しい画像の画像データを追加して、検索結果を生成する。なお、画像データの追加ではなく、画像データの差替えをすることも考えられる。
 検索結果生成部305は、生成した検索結果をクライアント端末100に送る。クライアント端末100は、クラウド・サーバ300から送られてくる検索結果に基づいてレンダリングし、検査結果表示画面を生成して、ユーザ400に提示する。なお、検査結果表示画面を生成するレンダリング処理は、クライアント端末100で行うのではなく、クラウド・サーバ300で行うことも考えられる。
 図3は、従来の検索サービスにおける検索結果表示画面の一例を示している。図示の例では、ユーザが、「新宿、夜景、イタリアン」の検索ワードを入力してレストラン検索を行った場合を示している。この場合、検索物件毎に、レストラン名、デフォルト画像(写真)、説明文などが表示される。ここで表示されるデフォルト画像は、サービス側あるいは店側により予め決められたものであり、「夜景」の画像が必ずしも表示されるものではない。
 図4は、この実施の形態における検索結果表示画面の一例を示している。図示の例では、ユーザが、「新宿の夜景のきれいなイタリアン」という入力文を検索条件として入力してレストラン検索を行った場合であって、「夜景のきれいな」が画像選定用の検索ワードとして抽出された場合の例を示している。この場合、検索物件毎に、レストラン名、デフォルト画像(写真)、説明文などが表示される他に、画像選定用の検索ワードに最も相応しい夜景の画像も表示される。
 なお、図示の例は、ユーザが“ノーマル”の表示形式を選択している場合を示している。図示は、省略するが、ユーザが“写真比較”の表示形式を選択している場合には、検索物件毎に、レストラン名と、画像(デフォルト画像(写真)、検索ワード画像(写真))が表示され、その他の説明文などの表示は省略された状態となる。
 図5は、この実施の形態における検索結果表示画面の他の一例を示している。図示の例では、ユーザが、「新宿の夜景のきれいなイタリアン、ピザが美味しいところ」という入力文を検索条件として入力してレストラン検索を行った場合であって、「夜景のきれいな」と「ピザの美味しいところ」が画像選定用の検索ワードとして抽出された場合の例を示している。この場合、ユーザが、「新宿の夜景のきれいなイタリアン」という入力文を検索条件として入力した後に、「ピザの美味しいところ」という入力文を検索条件として追加した場合も同様となる。
 この場合、検索物件毎に、レストラン名、デフォルト画像(写真)、説明文などが表示される他に、画像選定用の検索ワード「夜景のきれいな」に最も相応しい夜景の画像と、画像選定用の検索ワード「ピザが美味しいところ」に最も相応しいピザの画像も表示される。なお、図示の例は、ユーザが“ノーマル”の表示形式を選択している場合を示している。
 図6は、ユーザが“写真比較”の表示形式を選択している場合を示している。検索物件毎に、レストラン名と、画像(デフォルト画像(写真)、検索ワード画像(写真))が表示され、その他の説明文などの表示は省略された状態となる。この“写真比較”の表示形式では、各検索物件の画像による比較を容易に行い得る。
 図7のフローチャートは、クラウド・サーバ300における検索処理手順の一例を示している。クラウド・サーバ300は、ステップST1において、検索処理を開始する。次に、クラウド・サーバ300は、ステップST2において、検索条件解析部301により、検索条件としての入力文を解析して、データベース検索用の検索ワードと、画像選定用の検索ワードを抽出する。
 次に、クラウド・サーバ300は、ステップST3において、データベース検索処理部302により、データベース検索用の検索ワードに基づき、データベース303から、該当物件、つまりその検索ワードに相応しい物件(レストラン)を検索する。次に、クラウド・サーバ300は、ステップST4において、画像選定部304により、画像選定用の検索ワードに基づき、各該当物件の画像を選定する。
 次に、クラウド・サーバ300は、ステップST5において、検索結果生成部305により、各該当物件の画像情報をデータベースの検索結果に付与して最終的な検索結果を生成する。その後、クラウド・サーバ300は、ステップST6において、処理を終了する。
 以上説明したように、図1に示す情報処理装置100においては、複数のワード(単語)を含む入力文から画像による提示が適切なワード(画像選定用検索ワード)を抽出し、そのワードに対応した画像の画像データを、検索物件のデータに含めて検索結果とするものである。そのため、入力文に含まれる、画像による提示が適切な単語に対応した画像をユーザに提示することが可能となり、ユーザの検索時における選択決定を容易にできる。
 この場合、ユーザが検索結果の物件の中から候補を絞る際に、各物件の関連情報を一覧できるため、詳細を逐一見るためにウェブページを行ったり来たりする手間が省ける。また、この場合、検索条件に関係する関連情報を視覚的に確認しやすいので、「検索結果の中から選んだものの、実物を見たら想定と違っていて残念だった」というような失敗をするケースを減らすことができる。
 <2.変形例>
 なお、上述の実施の形態においては、本技術をレストラン検索サービスに適用した例を示した。本技術の適用範囲は、レストラン検索サービスに限定されるものではなく、その他の検索サービスにも同様に適用し得るものである。
 例えば、本技術は旅行のホテル検索サービスに適用できる。例えば、検索条件としての入力文が「貸し切り風呂のある海の見える旅館」であったとき、画像選定用検索ワードは、
   設備:貸し切り風呂
   風景:海
となる。
 また、本技術は、マッチングサービスに適用できる。例えば、検索条件としての入力文が、「短髪で、ヒゲの素敵な男性」であったとき、画像選定用検索ワードは、
   髪型: 短髪
   顔の特徴: ヒゲ
となる。
 また、上述実施の形態においては、出力モーダルが視覚である例を示した。本技術は、聴覚、触覚、嗅覚などの他の出力モーダルにも適用可能である。不動産の賃貸マンションの検索サービスの場合、例えば、検索条件としての入力文が「収納の大きい、静かな部屋」であったとき、
   設備: 収納の大きい
   騒音環境: 静かな
と解析できる。
 このとき、騒音環境自体は視覚ではなく聴覚に訴えるのが適切な情報である。この検索条件に対して、検索サービス提供者が予め各物件の騒音レベル(デシベル単位)を計測しておき、騒音レベルに応じたサンプル音源を検索結果画面で聞かせるようにすることが可能である。この場合、ユーザの現在住んでいる場所の騒音レベルと共に、各物件の騒音レベルを聞かせるようにしてもよい。この場合、例えば、図1の情報処理装置10において、画像選定部304のところで騒音レベルに対応したサンプル音源を作成し、また、検索結果生成部305のところで各検索物件のデータにそのサンプル音源を付加して、クライアント端末100に送る検索結果とする。なお、騒音レベルに応じたサンプル音源ではなく、実際に録音した、例えば、朝、昼、夜などの環境音を利用することも考えられる。
 また、家具・インテリア用品の検索サービスの場合、例えば、検索条件としての入力文が「もふもふの赤いハート型のクッション」であったとき、
   色: 赤
   形: ハート型
   触感: もふもふ
と解析できる。
 このとき、色や形は視覚情報として提示するのが好ましいが、触感や肌触りのようなものは、触覚提示デバイス、あるいは触覚ディスプレイで提示することが可能である。
 また、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本技術は、以下のような構成を取ることもできる。
 (1)複数の単語を含む入力文から各単語に最適な出力モーダルを決定し、上記各単語に対応した上記決定された出力モーダルのデータを出力するデータ出力部を備える
 情報処理装置。
 (2)上記入力文は、音声信号から音声認識に基づいて得られたものである
 前記(1)に記載の情報処理装置。
 (3)上記出力モーダルは、視覚、聴覚、触覚、嗅覚の少なくともいずれか1つを含む
 前記(1)または(2)に記載の情報処理装置。
 (4)複数の単語を含む入力文から各単語に最適な出力モーダルを決定し、上記各単語に対応した上記決定された出力モーダルのデータを出力する
 情報処理方法。
 (5)複数の単語を含む入力文から画像による提示が適切な単語を抽出する単語抽出部と、
 上記抽出された適切な単語に対応した画像を出力する出力部を備える
 情報処理装置。
 (6)上記入力文は、音声信号から音声認識に基づいて得られたものである
 前記(5)に記載の情報処理装置。
 (7)上記出力部は、適切な単語に対応した画像を入力文のその他の検索条件に対応する検索結果に含めて出力する
 前記(5)または(6)に記載の情報処理装置。
 (8)複数の単語を含む入力文から画像による提示が適切な単語を抽出する手順と、
 上記抽出された適切な単語に対応した画像を出力する手順を有する
 情報処理方法。
 10・・・情報処理装置
 100・・・クライアント端末
 200・・・音声認識部
 300・・・クラウド・サーバ
 301・・・検索条件解析部
 302・・・データベース検索処理部
 303・・・データベース
 304・・・画像選定部
 305・・・検索結果生成部

Claims (8)

  1.  複数の単語を含む入力文から各単語に最適な出力モーダルを決定し、上記各単語に対応した上記決定された出力モーダルのデータを出力するデータ出力部を備える
     情報処理装置。
  2.  上記入力文は、音声信号から音声認識に基づいて得られたものである
     請求項1に記載の情報処理装置。
  3.  上記出力モーダルは、視覚、聴覚、触覚、嗅覚の少なくともいずれか1つを含む
     請求項1に記載の情報処理装置。
  4.  複数の単語を含む入力文から各単語に最適な出力モーダルを決定し、上記各単語に対応した上記決定された出力モーダルのデータを出力する
     情報処理方法。
  5.  複数の単語を含む入力文から画像による提示が適切な単語を抽出する単語抽出部と、
     上記抽出された適切な単語に対応した画像を出力する出力部を備える
     情報処理装置。
  6.  上記入力文は、音声信号から音声認識に基づいて得られたものである
     請求項5に記載の情報処理装置。
  7.  上記出力部は、適切な単語に対応した画像を入力文のその他の検索条件に対応する検索結果に含めて出力する
     請求項5に記載の情報処理装置。
  8.  複数の単語を含む入力文から画像による提示が適切な単語を抽出する手順と、
     上記抽出された適切な単語に対応した画像を出力する手順を有する
     情報処理方法。
PCT/JP2019/023169 2018-06-13 2019-06-11 情報処理装置および情報処理方法 WO2019240144A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP19819728.7A EP3809282A4 (en) 2018-06-13 2019-06-11 INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US16/972,564 US20210240930A1 (en) 2018-06-13 2019-06-11 Information processing apparatus and method for processing information

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-112899 2018-06-13
JP2018112899 2018-06-13

Publications (1)

Publication Number Publication Date
WO2019240144A1 true WO2019240144A1 (ja) 2019-12-19

Family

ID=68842187

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/023169 WO2019240144A1 (ja) 2018-06-13 2019-06-11 情報処理装置および情報処理方法

Country Status (3)

Country Link
US (1) US20210240930A1 (ja)
EP (1) EP3809282A4 (ja)
WO (1) WO2019240144A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007414A (ja) * 2000-06-26 2002-01-11 Sumitomo Electric Ind Ltd 音声ブラウザシステム
JP2004139246A (ja) * 2002-10-16 2004-05-13 Canon Inc 画像検索装置、画像検索方法、プログラム、及び記憶媒体
JP2006309481A (ja) * 2005-04-28 2006-11-09 Nec Corp 情報収集システムおよび情報収集方法
JP2014002566A (ja) * 2012-06-19 2014-01-09 Nec Corp 情報提供のための条件設定装置、情報提供システム、条件設定方法、及びプログラム
JP2017091071A (ja) 2015-11-06 2017-05-25 株式会社ピーカチ 情報検索サーバ、情報検索プログラム及び情報検索方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272463A (ja) * 2006-03-30 2007-10-18 Toshiba Corp 情報検索装置、情報検索方法および情報検索プログラム
KR101042515B1 (ko) * 2008-12-11 2011-06-17 주식회사 네오패드 사용자의 의도에 기반한 정보 검색방법 및 정보 제공방법
JP6464604B2 (ja) * 2014-08-08 2019-02-06 富士通株式会社 検索支援プログラム、検索支援方法および検索支援装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002007414A (ja) * 2000-06-26 2002-01-11 Sumitomo Electric Ind Ltd 音声ブラウザシステム
JP2004139246A (ja) * 2002-10-16 2004-05-13 Canon Inc 画像検索装置、画像検索方法、プログラム、及び記憶媒体
JP2006309481A (ja) * 2005-04-28 2006-11-09 Nec Corp 情報収集システムおよび情報収集方法
JP2014002566A (ja) * 2012-06-19 2014-01-09 Nec Corp 情報提供のための条件設定装置、情報提供システム、条件設定方法、及びプログラム
JP2017091071A (ja) 2015-11-06 2017-05-25 株式会社ピーカチ 情報検索サーバ、情報検索プログラム及び情報検索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3809282A4 *

Also Published As

Publication number Publication date
US20210240930A1 (en) 2021-08-05
EP3809282A1 (en) 2021-04-21
EP3809282A4 (en) 2021-07-28

Similar Documents

Publication Publication Date Title
JP6819988B2 (ja) 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
KR101634086B1 (ko) 감정 분석을 통한 스티커 추천 방법 및 시스템
US8983836B2 (en) Captioning using socially derived acoustic profiles
JP5671557B2 (ja) クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法
KR101583181B1 (ko) 응답 스티커 추천방법 및 컴퓨터 프로그램
KR101878488B1 (ko) 대화 연관 컨텐츠 제공 방법 및 장치
WO2019218660A1 (zh) 文章生成
US20040111272A1 (en) Multimodal speech-to-speech language translation and display
KR20160089152A (ko) 화행 분석을 통한 스티커 추천 방법 및 시스템
US20140019137A1 (en) Method, system and server for speech synthesis
CN107430851A (zh) 发言提示装置、发言提示方法以及程序
JP3789614B2 (ja) ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体
JP2016045584A (ja) 応答生成装置、応答生成方法及び応答生成プログラム
KR102147519B1 (ko) 대화자 관계 기반 언어적 특성 정보를 반영한 번역지원 시스템 및 방법
WO2021255795A1 (ja) 情報処理装置、情報処理方法およびプログラム
US9786274B2 (en) Analysis of professional-client interactions
CN113850083A (zh) 确定播报风格的方法、装置、设备和计算机存储介质
Sripriya et al. Speech-based virtual travel assistant for visually impaired
JP5951300B2 (ja) サービス制御装置、サービス制御方法およびサービス制御プログラム
WO2019240144A1 (ja) 情報処理装置および情報処理方法
KR20150102817A (ko) 교육용 컨텐츠맵 생성방법 및 장치
KR102350359B1 (ko) 음성 인식 알고리즘을 이용한 영상 편집 방법
KR20200082232A (ko) 감성 분석 장치, 이를 포함하는 대화형 에이전트 시스템, 감성 분석을 수행하기 위한 단말 장치 및 감성 분석 방법
KR20210136609A (ko) 영상 뉴스 콘텐츠 생성 장치 및 방법
JP2022018724A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19819728

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019819728

Country of ref document: EP

Effective date: 20210113

NENP Non-entry into the national phase

Ref country code: JP