WO2015172359A1

WO2015172359A1 - 一种对象搜索方法及装置

Info

Publication number: WO2015172359A1
Application number: PCT/CN2014/077566
Authority: WO
Inventors: 李彦; 李小娟; 郜文美
Original assignee: 华为技术有限公司
Priority date: 2014-05-15
Filing date: 2014-05-15
Publication date: 2015-11-19
Also published as: EP3001333A4; EP3001333A1; KR20160104054A; JP2017513090A; US10311115B2; BR112016017262B1; KR101864240B1; CN104854539B; CN104854539A; BR112016017262A2; JP6316447B2; US20160147882A1

Abstract

一种对象搜索方法及装置，包括：接收用户的语音输入和手势输入；并根据该语音输入确定用户期望搜索的目标对象名称和目标对象的特征类别；并从用户通过该手势输入选定的图像区域中提取该特征类别的特征信息；以及按照提取的特征信息和目标对象名称，对目标对象进行搜索。采用本发明实施例提供的方案，能够为用户提供更为灵活的搜索方式，且降低了搜索时受应用场景的限制。

Description

一种对象搜索方法及装置技术领域

本发明涉及计算机技术领域中的搜索技术领域，尤其涉及一种对象搜索方法及装置。背景技术

目前，在用户通过网络对将要搜索的目标对象进行搜索时，一般是通过针对目标对象输入或选择一些已知的搜索条件，然后按照该搜索条件对目标对象进行搜索，例如，可以按照目标对象的价格范围搜索，也可以按照目标对象的所属区域进行搜索等。

在上述对象搜索方案中，需要用户能够明确描述搜索时所依据的搜索条件，例如，可以是从一些预设条件中进行选择，也可以直接输入搜索条件。然而，在实际应用中，用户在搜索一个目标对象时，可能无法明确描述其期望的搜索条件，例如，用户期望搜索某一种颜色的物品，而该颜色并无法准确的用已知颜色的名称进行描述，或者，用户期望搜索某一种形状的物品，而该形状并非是规则的形状，此时，则导致用户无法对其期望的目标对象进行搜索，并且，即使进行搜索，也可能由于搜索条件的不准确，而导致搜索结果并不符合用户的搜索意图，进而导致搜索效果较差，且现有技术中的对象搜索方法无法为用户提供更为灵活的搜索方式，受应用场景的限制较大。发明内容

本发明实施例提供一种对象搜索方法及装置，用以解决现有技术中存在的无法为用户提供更为灵活的搜索方式，且受应用场景限制较大的问题。

第一方面，提供一种对象搜索方法，包括：

接收用户的语音输入和手势输入；

根据所述语音输入确定用户期望搜索的目标对象名称和目标对象的特征类别；

从用户通过所述手势输入选定的图像区域中提取所述特征类别的特征信息；

按照提取的所述特征信息和所述目标对象名称，对所述目标对象进行搜索。

结合第一方面，在第一种可能的实现方式中，按照提取的所述特征信息和所述目标对象名称，对所述目标对象进行搜索，具体包括：

向服务器发送所述特征信息和所述目标对象名称；

接收所述服务器返回的搜索结果，所述搜索结果为所述服务器按照所述特征信息对所述目标对象名称表示的目标对象进行搜索得到的。

结合第一方面或者第一方面的第一种可能的实现方式，在第二种可能的实现方式中，接收用户的语音输入和手势输入，具体包括：

接收用户同时进行的语音输入和手势输入；或者

接收用户的语音输入，并当确定用户未进行手势输入选定图像区域时，提示用户进行图像区域选定操作，并接收用户的手势输入；或者

接收用户的手势输入，并当确定用户未进行语音输入时，提示用户进行语音输入操作，并接收用户的语音输入。

结合第一方面或者第一方面的第一种可能的实现方式，在第三种可能的实现方式中，获取用户通过所述手势输入选定的图像区域，包括：

获取用户通过所述手势输入从指定图像中选择的图像区域，作为用户选定的图像区域；或者

获取用户通过所述手势输入拍照得到的图像，作为用户选定的图像区域。第二方面，提供一种对象搜索装置，包括：

第一接收单元，用于接收用户的语音输入和手势输入；

第一确定单元，用于根据所述语音输入确定用户期望搜索的目标对象名称和目标对象的特征类别；

提取单元，用于从用户通过所述手势输入选定的图像区域中提取所述特征类别的特征信息；

第一搜索单元，用于按照提取的所述特征信息和所述目标对象名称，对所述目标对象进行搜索。

结合第二方面，在第一种可能的实现方式中，所述第一搜索单元，具体用于向服务器发送所述特征信息和所述目标对象名称；并接收所述服务器返回的搜索结果，所述搜索结果为所述服务器按照所述特征信息对所述目标对象名称表示的目标对象进行搜索得到的。

结合第二方面或者第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述第一接收单元，具体用于接收用户同时进行的语音输入和手势输入；或者，接收用户的语音输入，并当确定用户未进行手势输入选定图像区域时，提示用户进行图像区域选定操作，并接收用户的手势输入；或者，接收用户的手势输入，并当确定用户未进行语音输入时，提示用户进行语音输入操作，并接收用户的语音输入。

结合第二方面或者第二方面的第一种可能的实现方式，在第三种可能的实现方式中，所述第一确定单元，还用于获取用户通过所述手势输入从指定图像中选择的图像区域，作为用户选定的图像区域；或者，获取用户通过所述手势输入拍照得到的图像，作为用户选定的图像区域。

第三方面，提供一种对象搜索方法，包括：

接收用户的语音输入和手势输入；

向服务器发送所述特征类别的类别信息、所述目标对象名称和用户通过所述手势输入选定的图像区域；

接收所述服务器返回的搜索结果，所述搜索结果为所述服务器将所述图像区域的所述类别信息表示的所述特征类别的特征作为搜索条件，对所述目标对象名称表示的目标对象进行搜索得到的。

结合第三方面，在第一种可能的实现方式中，接收用户的语音输入和手势输入，具体包括：

接收用户同时进行的语音输入和手势输入；或者

结合第三方面，在第二种可能的实现方式中，获取用户通过所述手势输入选定的图像区域，包括：

获取用户通过所述手势输入拍照得到的图像，作为用户选定的图像区域。第四方面，提供一种对象搜索装置，包括：

第二接收单元，用于接收用户的语音输入和手势输入；

第二确定单元，用于根据所述语音输入确定用户期望搜索的目标对象名称和目标对象的特征类别；

发送单元，用于向服务器发送所述特征类别的类别信息、所述目标对象名称和用户通过所述手势输入选定的图像区域；

第三接收单元，用于接收所述服务器返回的搜索结果，所述搜索结果为所述服务器将所述图像区域的所述类别信息表示的所述特征类别的特征作为搜索条件，对所述目标对象名称表示的目标对象进行搜索得到的。

结合第四方面，在第一种可能的实现方式中，所述第二接收单元，具体用于接收用户同时进行的语音输入和手势输入；或者，接收用户的语音输入，并当确定用户未进行手势输入选定图像区域时，提示用户进行图像区域选定操作，并接收用户的手势输入；或者，接收用户的手势输入，并当确定用户未进行语音输入时，提示用户进行语音输入操作，并接收用户的语音输入。

结合第四方面，在第二种可能的实现方式中，所述第二确定单元，还用于获取用户通过所述手势输入从指定图像中选择的图像区域，作为用户选定的图像区域；或者，获取用户通过所述手势输入拍照得到的图像，作为用户选定的图像区域。

本发明有益效果包括：

本发明实施例提供的上述方案中，在进行对象搜索时，首先接收用户的语音输入和手势输入，并根据该语音输入确定用户期望搜索的目标对象名称和目标对象的特征类别，并将用户通过该手势输入选定的图像区域的该特征类别的特征和该目标对象名称作为搜索条件，对该目标对象进行搜索。由于用户在搜索时，只需要通过语音输入特征类别和目标对象名称，并通过手势输入选定图像区域，即可以通过该特征类别、目标对象名称和图像区域表示搜索条件，而无需明确描述搜索条件，从而为用户提供更为灵活的搜索方式，且降低了搜索时受应用场景的限制。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：图 1为本发明实施例提供的对象搜索方法的流程图之一；

图 2为本发明实施例提供的对象搜索方法的流程图之二；

图 3为本发明实施例提供的对象搜索方法的流程图之二；

图 4为本发明实施例提供的对象搜索装置的结构示意图之一；

图 5为本发明实施例提供的对象搜索装置的结构示意图之二。具体实施方式

为了给出为用户提供更为灵活的搜索方式，且降低搜索时受应用场景的限制的实现方案，本发明实施例提供了一种对象搜索方法及装置，以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明实施例提供一种对象搜索方法，如图 1所示，可以应用于终端，包括：

步骤 101、接收用户的语音输入和手势输入。

步骤 102、根据该语音输入确定用户期望搜索的目标对象名称和目标对象的特征类别。

步骤 103、从用户通过该手势输入选定的图像区域中提取该特征类别的特征信息。

步骤 104、按照提取的特征信息和目标对象名称，对目标对象进行搜索。在上述图 1所示的方法中，通过步骤 103 , 终端可以直接从用户选定的图像区域中提取该特征类别的特征信息，并在执行步骤 104时，具体可以在终端本地存储的对象集中进行搜索，也在互联网上进行搜索，即向服务器发送该特征信息和目标对象名称，并在服务器按照该特征信息对该目标对象名称表示的目标对象进行搜索得到搜索结果后，接收服务器返回的该搜索结果，进一步的，还可以展示该搜索结果。

与上述图 1所示方法不同的，本发明实施例还提供一种对象搜索方法，如图 2所示，也可以应用于终端，包括：

步骤 201、接收用户的语音输入和手势输入。

步骤 202、根据该语音输入确定用户期望搜索的目标对象名称和目标对象的特征类别。

步骤 203、向服务器发送该特征类别的类别信息、该目标对象名称和用户通过该手势输入选定的图像区域。

步骤 204、接收服务器返回的搜索结果，该搜索结果为服务器将该图像区域的该类别信息表示的该特征类别的特征作为搜索条件，对该目标对象名称表示的目标对象进行搜索得到的。

在上述图 2所示的方法中，终端在通过步骤 202确定用户期望搜索的目标对象名称和目标对象的特征类别后，直接将该特征类别的类别信息、该目标对象名称和用户选定的该图像区域发送给服务器，由服务器基于接收的这些信息进行搜索，并向终端返回搜索结果。

并且，进一步的，服务器在进行搜索时，可以从接收的用户选定的该图像区域中提取该特征类别的特征信息，并按照提取的特征信息和目标对象名称，对目标对象进行搜索。

对于上述图 1和图 2所示的对象搜索方法，步骤 101和步骤 102 , 分别与步骤 201和步骤 202相同，并且，在上述步骤 101和步骤 102 , 以及步骤 201和步骤 202中，用户可以釆用语音输入的方式，输入特征类别和目标对象名称，例如，输入的特征类别可以包括：颜色、形状、价格、品牌和图像等，输入的目标对象名称可以是期望搜索物品的物品名称。

具体的，用户可以釆用语音输入的方式输入语音信息，其中携带特征类别和目标对象名称，例如，用户语音输入 "搜索这个颜色的钱包" ， "搜索这个品牌的鞋" ， "搜索这个图像的手机壳" 等。

当用户釆用语音输入的方式输入语音信息时，对用户输入的语音信息进行语义分析，确定特征类别和目标对象名称。对语音信息进行语义分析，提取文本信息的方式，可以釆用现有技术中的各种方式，在此不再进行详细描述。

本发明实施例中，用户在进行图像区域选定操作时，可以从一副指定图像中选择一块图像区域，例如，通过手势操作对显示该指定图像的触摸屏进行选择操作，相应的，获取用户从该指定图像中选择的图像区域，作为用户选定的图像区域。

用户在进行图像区域选定操作时，也可以进入拍照模式，并进行拍照操作，得到图像，相应的，获取用户当前拍照得到的图像，作为用户选定的图像区域。本发明实施例中，用户进行图像区域选定操作与输入特征类别和目标对象名称的操作，两者之间没有严格的先后顺序。

并且，用户进行图像选定操作与进行语音信息输入操作可以是同时完成的，例如，用户在进行语音信息输入的同时，可以通过手势操作选定图像区域。

也可以是先后完成的，例如，当确定用户输入语音信息且未选定图像区域时，提示用户进行图像区域选定操作，并在用户完成图像区域选定操作后，确定用户选定的图像区域；

又如，当确定用户进行手势输入操作来选定图像且未输入语音信息时，提示用户进行语音信息输入操作，并在用户输入语音信息后，对输入的语音信息进行语义分析，确定特征类别和目标对象名称。

在上述图 1和图 2所示的方法中，具体可以从用户通过手势输入选定的图像区域中提取该特征类别的特征信息，并按照提取的该特征信息，对该目标对象名称表示的目标对象进行搜索。

例如，特征类别为颜色，则提取用户选定的图像区域的颜色特征信息，表示图像颜色特征信息的种类可以为现有技术中的各种，例如，可以提取用户选定的图像区域的颜色直方图（颜色直方图描述不同色彩在整幅图像中所占的比例），并确定颜色直方图中比例最大的一种颜色，比例从大到小的预设多种颜色，或者比例大于预设比例的颜色，将确定的该颜色的像素值作为该图像区域的颜色特征信息，也可以进一步的根据该颜色的像素值，确定该颜色的颜色名称，将该颜色名称作为该图像区域的颜色特征信息。当从颜色直方图中确定出多种颜色时，还可以进一步的显示该多种颜色，供用户选择，并确定用户选择的颜色的颜色特征信息，如像素值或颜色名称。

相应的，可以按照提取的该颜色特征信息，对该目标对象名称表示的目标对象进行搜索，例如，按照颜色名称或者像素值进行搜索。

又如，特征类别为形状，则提取用户选定的图像区域中的形状特征信息，该形状可以是规则形状，例如，矩形，菱形，圓形，椭圓形等，则可以使用形状名称作为形状特征信息，也可以是不规则形状，例如，提取出用户选定的图像区域中事物轮廓的图形，并将该轮廓的图形，作为形状特征信息。

相应的，可以按照提取的该形状特征信息，对该目标对象名称表示的目标对象进行搜索，例如，按照形状名称或者图形进行搜索。

又如，特征类别为品牌，则提取用户选定的图像区域中的品牌标识，该品牌标识可以是品牌名称，也可以是品牌图形，作为品牌特征信息。

相应的，可以按照提取的该品牌特征信息，对该目标对象名称表示的目标对象进行搜索，例如，按照品牌名称或者品牌图形进行搜索。

又如，特征类别为价格，则提取用户选定的图像区域中的数字信息，将该数字信息作为价格特征信息。

相应的，可以按照提取的价格特征信息进行搜索。

又如，特征类别为图像，则可以将用户选定的图像区域本身作为图像特征信息。

相应的，按照用户选定的图像区域，釆用图像搜索方式，对该目标对象名称表示的目标对象进行搜索。

上述图 1和图 2所示的对象搜索方法也可以相结合，即对目标对象进行搜索，可以是在本地存储的对象集中进行搜索，也可以是在互联网上进行搜索。

具体的，可以由终端执行，也可以由服务器执行，如云端服务器，当由服务器执行时，用户输入的特征类别和目标对象名称，以及用户选定的图像区域可以是终端发送给服务器的，也可以由终端和服务器共同执行相应的步骤。

也可以由终端根据不同的特征类别，确定是由终端执行相应的处理步骤，还是由服务器执行。例如，针对一些特征类别，终端可以在从用户选定的图像区域中提取该特征类别的特征信息之后，向服务器发送提取的特征信息和该目标对象名称，然后由服务器按照接收的该特征信息对该目标对象名称表示的目标对象进行搜索，得到搜索结果，并将该搜索结果返回给终端。

下面结合附图，用具体实施例对本发明提供的方法进行详细描述。图 3为本发明实施例提供的对象搜索方法的详细流程图，具体包括如下步骤：

步骤 301、接收用户的语音输入和手势输入。

本步骤中，可以接收用户同时进行的语音输入和手势输入；

也可以接收用户的语音输入，并当确定用户未进行手势输入选定图像区域时，提示用户进行图像区域选定操作，并接收用户的手势输入；

也可以接收用户的手势输入，并当确定用户未进行语音输入时，提示用户进行语音输入操作，并接收用户的语音输入。

步骤 302、终端根据用户的语音输入确定用户期望搜索的目标对象名称和目标对象的特征类别。

本步骤中，可以通过对用户输入的语音信息进行语义分析，确定特征类别和目标对象名称。

本发明实施例中，用户可输入的特征类别，可以根据目标对象的特性以及方案的应用场景进行灵活设置，例如，在搜索物品时，可以包括：颜色、形状、价格、品牌和图像等，输入的目标对象名称可以是期望搜索物品的物口口名称。

步骤 303、终端获取用户通过手势输入选定的图像区域。

本步骤中，终端可以获取用户从指定图像中选择的图像区域，作为用户选定的图像区域，也可以获取用户当前拍照得到的图像，作为用户选定的图像区域。

上述步骤 302和步骤 303之间没有严格的先后顺序。

步骤 304、终端确定用户输入的特征类别是否为预设特征类别，如果是预设特征类别，进入步骤 305 , 如果不是预设特征类别，进入步骤 307。

本发明实施例中，针对用户输入的特征类别，用户选定的图像区域的该特征类别的特征可以由终端提取，也可以由服务器提取，也可以针对一些特征类别，由终端提取，针对另外一些特征类别，由服务器提取，所以，可以将由终端提取特征信息的特征类别设置为预设特征类别，并在本步骤中进行上述判断。

例如，将上述颜色、形状、价格、品牌和图像中的颜色作为预设特征类别。

步骤 305、当用户输入的特征类别是预设特征类别时，终端从用户选定的图像区域中提取该特征类别的特征信息。

例如，针对颜色提取用户选定的图像区域的颜色特征信息，具体可以参见上述描述。

步骤 306、终端将提取的该特征类别的特征信息和用户输入的该目标对象名称，发送给服务器。

步骤 307、终端将用户输入的特征类别的类别信息、目标对象名称，以及用户选定的图像区域，发送给服务器。

步骤 308、服务器在接收到该类别信息、目标对象名称和该图像区域后，从该图像区域中提取该类别信息表示的该特征类别的特征信息。

例如，针对形状、价格和品牌，提取用户选定的图像区域的相应特征信息，具体可以参见上述描述。

并且，进一步的，当特征类别为图像时，可以直接将接收的该图像区域本身作为图像特征信息。

步骤 309、服务器在接收到终端发送的该特征类别的特征信息，或者，在提取出该类别信息表示的该特征类别的特征信息后，按照提取的该特征信息，对该目标对象名称表示的目标对象进行搜索，得到搜索结果。

搜索结果为具有该特征类别的该特征信息的目标对象。

步骤 310、服务器向终端返回搜索结果。

步骤 311、终端在接收到服务器返回的搜索结果后，向用户展示该搜索结果。

釆用本发明实施例提供的上述对象搜索方法，用户在搜索时，只需要进行语音输入和手势输入，并只需要输入特征类别和目标对象名称，以及选定图像区域，即可以由终端或服务器确定出相应的搜索条件，并按照该搜索条件对目标对象进行搜索，而无需用户明确描述搜索条件，从而为用户提供了更为灵活的搜索方式，且降低了搜索时受应用场景的限制。

例如，当用户看到一幅图像中的颜色很漂亮，希望搜索这个颜色的钱包时，很可能由于这种颜色很特殊，而无法给出一个明确的颜色名称，此时，又如，当用户想搜索一个品牌的鞋，而又不知道这个品牌的名称，只具有包含该品牌的品牌图形的图像，则可以釆用本发明实施例提供的上述方法，从该图像中选定一块包含品牌图形的图像区域，作为选定的图像，进行搜索。

基于同一发明构思，根据本发明上述实施例提供的对象搜索方法，相应地，本发明实施例还提供了一种对象搜索装置，其结构示意图如图 4所示，具体包括：

第一接收单元 401 , 用于接收用户的语音输入和手势输入；

第一确定单元 402, 用于根据所述语音输入确定用户期望搜索的目标对象名称和目标对象的特征类别；

提取单元 403 , 用于从用户通过所述手势输入选定的图像区域中提取所述特征类别的特征信息；

第一搜索单元 404 , 用于按照提取的所述特征信息和所述目标对象名称，对所述目标对象进行搜索。

进一步的，第一搜索单元 404 , 具体用于向服务器发送所述特征信息和所述目标对象名称；并接收所述服务器返回的搜索结果，所述搜索结果为所述服务器按照所述特征信息对所述目标对象名称表示的目标对象进行搜索得到的。

进一步的，第一接收单元 401 , 具体用于接收用户同时进行的语音输入和手势输入；或者，接收用户的语音输入，并当确定用户未进行手势输入选定图像区域时，提示用户进行图像区域选定操作，并接收用户的手势输入；或者，接收用户的手势输入，并当确定用户未进行语音输入时，提示用户进行语音输入操作，并接收用户的语音输入。进一步的，第一确定单元 402 , 还用于获取用户通过所述手势输入从指定图像中选择的图像区域，作为用户选定的图像区域；或者，获取用户通过所述手势输入拍照得到的图像，作为用户选定的图像区域。

上述图 4中各单元的功能可对应于图 1或图 3所示流程中的相应处理步骤，在此不再赘述。

基于同一发明构思，根据本发明上述实施例提供的对象搜索方法，相应地，本发明实施例还提供了一种对象搜索装置，其结构示意图如图 5所示，具体包括：

第二接收单元 501 , 用于接收用户的语音输入和手势输入；

第二确定单元 502 , 用于根据所述语音输入确定用户期望搜索的目标对象名称和目标对象的特征类别；

发送单元 503 , 用于向服务器发送所述特征类别的类别信息、所述目标对象名称和用户通过所述手势输入选定的图像区域；

第三接收单元 504 , 用于接收所述服务器返回的搜索结果，所述搜索结果为所述服务器将所述图像区域的所述类别信息表示的所述特征类别的特征作为搜索条件，对所述目标对象名称表示的目标对象进行搜索得到的。

进一步的，第二接收单元 501 , 具体用于接收用户同时进行的语音输入和手势输入；或者，接收用户的语音输入，并当确定用户未进行手势输入选定图像区域时，提示用户进行图像区域选定操作，并接收用户的手势输入；或者，接收用户的手势输入，并当确定用户未进行语音输入时，提示用户进行语音输入操作，并接收用户的语音输入。

进一步的，第二确定单元 502 , 还用于获取用户通过所述手势输入从指定图像中选择的图像区域，作为用户选定的图像区域；或者，获取用户通过所述手势输入拍照得到的图像，作为用户选定的图像区域。

上述图 5中各单元的功能可对应于图 2或图 3所示流程中的相应处理步骤，在此不再赘述。

综上所述，本发明实施例提供的方案，包括：接收用户的语音输入和手势输入；并根据该语音输入确定用户期望搜索的目标对象名称和目标对象的特征类别；并从用户通过该手势输入选定的图像区域中提取该特征类别的特征信息；以及按照提取的特征信息和目标对象名称，对目标对象进行搜索。釆用本发明实施例提供的方案，能够为用户提供更为灵活的搜索方式，且降低了搜索时受应用场景的限制。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可釆用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可釆用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘存储器、 CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和 /或方框、以及流程图和 /或方框图中的流程和 /或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

权利要求

1、一种对象搜索方法，其特征在于，包括：

接收用户的语音输入和手势输入；

2、如权利要求 1所述的方法，其特征在于，按照提取的所述特征信息和所述目标对象名称，对所述目标对象进行搜索，具体包括：

向服务器发送所述特征信息和所述目标对象名称；

3、如权利要求 1或 2所述的方法，其特征在于，接收用户的语音输入和手势输入，具体包括：

接收用户同时进行的语音输入和手势输入；或者

4、如权利要求 1或 2所述的方法，其特征在于，获取用户通过所述手势输入选定的图像区域，包括：

获取用户通过所述手势输入拍照得到的图像，作为用户选定的图像区域。

5、一种对象搜索装置，其特征在于，包括：第一接收单元，用于接收用户的语音输入和手势输入；

6、如权利要求 5所述的装置，其特征在于，所述第一搜索单元，具体用于向服务器发送所述特征信息和所述目标对象名称；并接收所述服务器返回的搜索结果，所述搜索结果为所述服务器按照所述特征信息对所述目标对象名称表示的目标对象进行搜索得到的。

7、如权利要求 4或 5所述的装置，其特征在于，所述第一接收单元，具体用于接收用户同时进行的语音输入和手势输入；或者，接收用户的语音输入，并当确定用户未进行手势输入选定图像区域时，提示用户进行图像区域选定操作，并接收用户的手势输入；或者，接收用户的手势输入，并当确定用户未进行语音输入时，提示用户进行语音输入操作，并接收用户的语音输入。

8、如权利要求 4或 5所述的装置，其特征在于，所述第一确定单元，还用于获取用户通过所述手势输入从指定图像中选择的图像区域，作为用户选定的图像区域；或者，获取用户通过所述手势输入拍照得到的图像，作为用户选定的图像区域。

9、一种对象搜索方法，其特征在于，包括：

接收用户的语音输入和手势输入；

10、如权利要求 9所述的方法，其特征在于，接收用户的语音输入和手势输入，具体包括：

接收用户同时进行的语音输入和手势输入；或者

11、如权利要求 9所述的方法，其特征在于，获取用户通过所述手势输入选定的图像区域，包括：

12、一种对象搜索装置，其特征在于，包括：

第二接收单元，用于接收用户的语音输入和手势输入；

13、如权利要求 12所述的装置，其特征在于，所述第二接收单元，具体用于接收用户同时进行的语音输入和手势输入；或者，接收用户的语音输入，并当确定用户未进行手势输入选定图像区域时，提示用户进行图像区域选定操作，并接收用户的手势输入；或者，接收用户的手势输入，并当确定用户未进行语音输入时，提示用户进行语音输入操作，并接收用户的语音输入。

14、如权利要求 12所述的装置，其特征在于，所述第二确定单元，还用于获取用户通过所述手势输入从指定图像中选择的图像区域，作为用户选定的图像区域；或者，获取用户通过所述手势输入拍照得到的图像，作为用户选定的图像区域。