WO2023030010A1 - 交互方法、电子设备及存储介质 - Google Patents

交互方法、电子设备及存储介质 Download PDF

Info

Publication number
WO2023030010A1
WO2023030010A1 PCT/CN2022/113037 CN2022113037W WO2023030010A1 WO 2023030010 A1 WO2023030010 A1 WO 2023030010A1 CN 2022113037 W CN2022113037 W CN 2022113037W WO 2023030010 A1 WO2023030010 A1 WO 2023030010A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
target
interface
digital human
user
Prior art date
Application number
PCT/CN2022/113037
Other languages
English (en)
French (fr)
Inventor
于洪达
范海军
吴迪
罗涛
侯大海
敦会永
辛孟怡
Original Assignee
京东方科技集团股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 京东方科技集团股份有限公司 filed Critical 京东方科技集团股份有限公司
Publication of WO2023030010A1 publication Critical patent/WO2023030010A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures

Definitions

  • Embodiments of the present disclosure relate to but are not limited to the technical field of artificial intelligence, and in particular, relate to an interaction method, an electronic device, and a storage medium.
  • electronic devices can be placed in shopping malls, exhibition halls and other places, and services can be provided to users through electronic devices.
  • the current human-computer interaction methods are mainly voice interaction or graphic-text interaction, and the interaction method is relatively single, which cannot simulate the interaction state between people in the real environment, making the user's interaction experience poor.
  • an embodiment of the present disclosure provides an electronic device, including: a processor and a memory storing a computer program that can run on the processor, wherein, when the processor executes the program, the above-mentioned embodiments are implemented.
  • an embodiment of the present disclosure provides a computer-readable storage medium, including a stored program, wherein, when the program is running, the device where the storage medium is located is controlled to execute the interaction method described in the above-mentioned embodiments A step of.
  • FIG. 2B is a second schematic diagram of a 3D navigation interface in an exemplary embodiment of the present disclosure
  • FIG. 2C is a third schematic diagram of a 3D navigation interface in an exemplary embodiment of the present disclosure.
  • FIG. 2D is a fourth schematic diagram of a 3D navigation interface in an exemplary embodiment of the present disclosure.
  • module used may refer to any known or later developed hardware, software, firmware, artificial intelligence, fuzzy logic, or a combination of hardware and/or software codes capable of executing and The function associated with this element.
  • the embodiment of the present disclosure provides an interaction method.
  • the interaction method can be applied to an interaction device.
  • the interaction device may include but is not limited to: a display device capable of providing a 3D digital human and including a user interface, through which the 3D digital human (also called a virtual object or a virtual human, etc.) can be displayed, and the user can interact with The interaction device performs information interaction.
  • the present disclosure does not limit the actual content of the interaction information.
  • the display unit may include, but is not limited to, a liquid crystal display (Liquid Crystal Display, LCD) panel, an organic light-emitting diode (Organic Light-Emitting Diode, OLED) display panel or a quantum-dot light-emitting diode (Quantum-dot Light Emitting Diodes, QLED) display panel etc.
  • the interaction device may be an electronic device with a display function and a touch function, such as a tablet computer, a smart phone, a notebook computer, a monitor, or a robot.
  • the height of the interactive device can be set based on the height of the user.
  • the embodiments of the present disclosure do not limit this.
  • Fig. 1 is a schematic flowchart of an interaction method in an exemplary embodiment of the present disclosure. As shown in Fig. 1, the interaction method may include:
  • Step 11 Display the identification information corresponding to at least one service on the homepage interface
  • Step 13 In response to the first selection operation, based on the target identification information, display the 3D digital human in the state of performing the action corresponding to the target service and the target display object corresponding to the target service on the target service interface.
  • a 3D digital human may be the crystallization of 3D digital character technology and artificial intelligence technology.
  • 3D digital character technologies such as portrait modeling and motion capture can bring vivid and natural image performance to 3D digital humans, and enable 3D digital humans to perform actions and expressions similar to humans, allowing users to feel similar to real people's feelings about serving them.
  • artificial intelligence (AI) technologies such as speech recognition, natural language understanding, and dialogue understanding can bring perfect cognition, understanding, and expression capabilities to 3D digital humans.
  • Digital humans can use electronic screens, holographic displays and other equipment as carriers to interact with users based on electronic equipment.
  • a 3D digital human can support different images or timbres.
  • the interactive device carrying the 3D digital human can automatically select a 3D digital human image that matches the user's identity for the user based on the identification of the user's identity, or manage the 3D digital human.
  • the staff of the interactive device can choose the image for the 3D digital human by themselves.
  • the image of a 3D digital human can be wearing a bank's female business attire.
  • the image of the 3D digital human can be wearing cartoon clothes and the like.
  • the image of a 3D digital human can be in casual clothes.
  • the embodiments of the present disclosure do not limit this.
  • the 3D digital human can perform voice interaction with users, can have face recognition capabilities, can have professional field knowledge and skills, and can provide professional knowledge answers and intelligent content recommendations according to users' questions.
  • service types may be different in different application scenarios.
  • a financial application scenario for example, a bank branch application scenario
  • the service may include but not limited to: 3D navigation of a certain bank branch (for example, the spatial location and business function introduction of multiple business points in the branch ), knowledge answering (for example, answering user questions or providing help information, etc.), content recommendation (for example, financial product introduction, financial knowledge introduction or poverty alleviation product recommendation, etc.) and outlet welcome, etc.
  • the services may include but not limited to: 3D tour of the park (for example, the spatial location and function introduction of multiple buildings in the park) and knowledge answers (for example, answering user questions, providing help information, etc.).
  • services may include but not limited to: 3D navigation of the shopping mall (for example, the spatial location and description of multiple stores in the shopping mall), knowledge answering (for example, answering user questions, providing help information, etc.) and content recommendations (for example, product introductions, or meal recommendations, etc.).
  • the services may include but not limited to: 3D navigation of the exhibition hall (for example, the spatial location of multiple exhibition points in the exhibition hall and the description of the exhibition type), knowledge answering (for example, answering user questions Or provide help information, etc.), content recommendations (for example, exhibit introduction, art knowledge introduction or artist introduction, etc.) and exhibition hall welcome , etc.
  • the first selection operation may include, but is not limited to, voice operation or touch operation.
  • voice operation for example, taking the identification information corresponding to at least one service using a button with name information as an example, when the user needs to select a certain service, the user can perform a voice operation (for example, speak out the name information displayed on the button), Alternatively, the user can select the identification information corresponding to a certain service through a touch operation (for example, clicking the button) to realize interaction with the interactive device that provides the 3D digital human, so that the interactive device that provides the 3D digital human can provide the user with all services. Selected service.
  • the embodiments of the present disclosure do not limit this.
  • the target display objects corresponding to the target services displayed on the target display interface are different.
  • the target display object may include but not limited to a 3D scene model of a real scene.
  • the target display object may include but not limited to a 3D list.
  • the embodiments of the present disclosure do not limit this.
  • the interaction method in the process of providing services to the user, according to the user's first selection of the target identification information corresponding to the target service among the identification information corresponding to at least one service displayed on the home page interface Operation, based on the target identification information, by displaying the target display object corresponding to the target service in the target service interface, the user can obtain the required information in time, and, through the 3D digital person that can be rendered in the target service interface, and Controlling the 3D digital human can perform human-like actions corresponding to the target service, and can achieve realistic and anthropomorphic interaction effects, allowing users to feel similar to real people serving them, making the interaction process more three-dimensional, vivid and more interesting . Therefore, the interactive experience of the user can be effectively improved.
  • step 13 may include the following steps 201 to 202:
  • Step 202 Display the 3D digital human in the state of performing the first preset action in the second area of the 3D navigation interface, and control the 3D digital human to introduce multiple spatial regions set in the real scene; wherein, the first preset It is assumed that the action can at least include: body movements matching the positions of multiple spatial regions; the second region is located on the side of the first region, and the depth information of the 3D digital human in the 3D navigation interface is smaller than that of the 3D scene model in the 3D navigation interface. Depth of field information in the interface.
  • the 3D scene model of the real scene can be a 3D model of the campus
  • the 3D model of the campus can be a 3D virtual model restored with the real scale of the real campus using 3D modeling technology.
  • campus the 3D model of the campus may include: location information corresponding to multiple buildings in the campus and description information corresponding to the multiple buildings (for example, office buildings, teaching buildings, dormitory buildings, laboratory buildings, canteens, gymnasiums, etc.).
  • the embodiments of the present disclosure do not limit this.
  • the first preset action may at least include: Matching body movements.
  • body movements may include, but are not limited to, raising hands with different ranges, such as raising hands obliquely, raising hands horizontally, or waving hands obliquely.
  • raising hands obliquely raising hands horizontally
  • waving hands obliquely the embodiments of the present disclosure do not limit this.
  • the first area 21 occupied by the 3D model of the bank outlet in the 3D navigation interface can be divided into areas arranged sequentially along the first direction DR1.
  • the first sub-area (upper sub-area) 211 may correspond to the slanted upward hand-raising action of the 3D digital human
  • the second sub-area (middle sub-area) 212 may correspond to the hand-raising action of the 3D digital human.
  • the horizontal raising motion, and the third sub-region (lower sub-region) 213 may correspond to the slanting downward waving motion in the hand-raising motion of the 3D digital human.
  • the spatial positions of different business sub-areas can be assigned to different grid sub-areas.
  • the mother and baby room, financial management (consignment sales) area and VIP customer service area can be assigned to the first grid sub-area.
  • the 3D digital human when the 3D digital human is not immersed in the 3D model of the bank outlet, when explaining the function of the mother and baby room, the 3D digital human can perform the action of raising the hand, pointing to the first sub-area (upper sub-area) 211, and explaining the convenience service
  • the 3D digital human when in the zone, the 3D digital human can perform the action of raising the hand horizontally, pointing to the second sub-area (the middle sub-area) 212; when explaining the love station, the 3D digital human can perform the action of raising the hand downward, pointing to the third sub-area (the lower sub-area) 213.
  • the 3D digital human when the 3D navigation service is provided, when the 3D digital human introduces different business areas to the user, the 3D digital human can be controlled to perform a hand-raising action corresponding to the grid area to which the spatial position of the business area belongs.
  • the embodiments of the present disclosure do not limit this.
  • the first area 21 occupied by the 3D model of the bank outlet in the 3D navigation interface can also be divided into sequentially arranged along the second direction DR2
  • the second direction DR2 intersects with the first direction DR1 (eg, the second direction DR2 is perpendicular to the first direction DR1 ).
  • the fourth sub-area (left sub-area) 214 may correspond to the gesture of the 3D digital human stretching out the first length
  • the fifth sub-area (second middle sub-area) 215 may correspond to the 3D digital human extending the first length.
  • the sixth sub-region (right sub-region) 216 may correspond to the third-length hand-raising motion of the 3D digital human.
  • the spatial positions of different business sub-areas can belong to different grid sub-areas, as shown in Figure 2B, the mother and baby room, non-cash business area, convenience service area, customer waiting area, public service area, etc.
  • each spatial region can be displayed in a highlighted manner, and at the same time, each A spatial area can have a visual interface element with descriptive information, such as Tag (tag).
  • Tag tag
  • the user can click on the Tag by touch operation, or select by voice (say the name of the Tag, and select the Tag by voice in a keyword matching manner).
  • the interaction method may further include the following steps:
  • Step 203 Receive a second selection operation for the target description information corresponding to the target spatial region among the description information corresponding to multiple spatial regions;
  • the second selection operation may include, but is not limited to, voice operation or touch operation.
  • voice operation For example, take the description information corresponding to multiple spatial regions using a tag with name information as an example.
  • the user can perform voice operations (for example, speak out the tag displayed on the tag). name information), or the user can select the target description information corresponding to the target space area through a touch operation (eg, click on the label), etc., to realize interaction with the interactive device that provides the 3D digital human.
  • voice operations for example, speak out the tag displayed on the tag. name information
  • touch operation eg, click on the label
  • step 205 may include: controlling the reduced 3D digital human to roam in the enlarged 3D scene model starting from the target space area in the 3D scene model of the real scene, according to a preset order , to explain the multiple spatial areas set in the real scene one by one.
  • the interaction method may further include: Step 206: In response to the touch operation for rotating the viewing angle of the 3D scene, in the 3D navigation interface, according to the corresponding Touch information (eg, rotation angle) rotates the viewing angle of the 3D scene model.
  • the interaction method may further include: controlling the 3D digital human to make corresponding actions and voice prompts. In this way, rich degrees of freedom in interaction can be provided, thereby effectively improving the interaction experience.
  • the 3D navigation interface shown in Figure 2C may include: the entire area occupied by the 3D model of the bank branch after zooming in in the 3D navigation interface, and the zoomed out The 3D digital person is displayed in the 3D model of the bank branch.
  • the mode can be switched, from the small NPC scene when not immersed (3D digital human-dominated), to the immersive scene zoom-in, and the people become smaller.
  • the shrunken 3D digital human can roam in the 3D model of the bank outlet, and introduce different business areas in a preset order.
  • the user uses voice operations to inquire about the business area, and the 3D digital human can move and roam to different business locations for explanation, where the black arrow in Figure 2D The roaming trajectory of the 3D digital human is shown.
  • the 3D digital human can move to the e-banking service area and begin to introduce the functions of this area.
  • the embodiments of the present disclosure do not limit this.
  • Step 302 Display the 3D digital human in the state of performing the second preset action in the second area of the 3D recommendation interface, and control the 3D digital human to introduce multiple recommended contents provided by the real scene based on multiple cards; wherein, The second area is located on the side of the first area, and the depth information of the 3D digital human in the 3D recommendation interface is smaller than the depth information of the 3D list in the 3D recommendation interface.
  • the recommended content included in the 3D list is different.
  • the multiple recommended content provided in the real scenario may include but not limited to: multiple financial products or poverty alleviation products provided by the bank outlet
  • the 3D list may include: bank Multiple cards that correspond one-to-one to multiple financial products provided by outlets.
  • the multiple recommended content provided by the real scene may include but not limited to: multiple exhibits (for example, art films) displayed in the exhibition hall
  • the 3D list may include: multiple exhibits displayed in the exhibition hall Multiple cards with one-to-one correspondence of exhibits.
  • the multiple recommendation contents provided in the real scene may include but not limited to: multiple buildings in the park.
  • the multiple recommended contents provided in the real scene may include but not limited to: multiple scenic spots in the scenic spot, and the like.
  • the embodiments of the present disclosure do not limit this.
  • step 302 may include:
  • Step 3021 Obtain the target card corresponding to the target recommended content to be recommended from the multiple cards corresponding to the multiple recommended content one-to-one;
  • Step 3022 Enlarge the target card to obtain the enlarged target card
  • Step 3023 Display the enlarged target card between the 3D digital human and the 3D list in the 3D recommendation interface, and control the 3D digital human to introduce the target recommendation content while performing the second preset action; wherein, the enlarged The depth information of the target card in the 3D recommendation interface is greater than the depth information of the 3D digital human in the 3D recommendation interface, and smaller than the depth information of the 3D list in the 3D recommendation interface.
  • step 3023 may include: acquiring introduction information corresponding to the target recommended content; wherein, the introduction information may include: first voice information and first text information; displaying the first text information in the enlarged target card ; Control the 3D digital human to perform a second preset action while playing the first voice information, so as to introduce the target recommended content; wherein, the second preset action may include: lip movements corresponding to the first voice information Any one or more of body movements and eye movements.
  • the 3D recommendation interface may include: the first area occupied by the 3D list in the 3D recommendation interface and the second area occupied by the 3D digital person in the 3D navigation interface .
  • the 3D list may include: multiple cards corresponding to multiple financial products provided by bank outlets.
  • the 3D list can appear in the 3D space, suspended in the air (similar to void imaging); or, it can appear on the background wall of the 3D scene as a display screen, creating a 3D digital human being facing
  • the display screen on the wall is broadcasting the scene in real time; then when introducing a single product, the product can fly out from the 3D list for presentation.
  • step 13 may include the following steps 401 to 404:
  • Step 401 When the target service is a question-and-answer service, obtain question information input by the user through voice operation;
  • Step 403 Displaying the second text information in the first area of the question-and-answer interface
  • Step 404 Display the 3D digital human in the state of performing the third preset action in the second area of the question-and-answer interface, and control the 3D digital human to play the second voice information so as to answer the user's question; wherein, the third preset action
  • the set action may include: any one or more of lip action, body action and eye action corresponding to the second voice information.
  • the interaction method may further include:
  • Step 405 Determine whether the question information includes the first preset information matching with the 3D navigation service or the second preset information matching with the content recommendation service;
  • Step 406 If it is determined that the question information includes the first preset information, switch from the question-and-answer interface to the 3D guide interface to provide 3D guide service;
  • the interaction method may further include:
  • Step 501 Obtain image information of the user during the process of displaying the 3D digital human in a silent state
  • Step 502 Determine whether the image information of the user satisfies the preset condition for instructing to wake up the 3D digital human;
  • Step 503 If it is determined that the user's state is the preset state for instructing to wake up the 3D digital human, wake up the 3D digital human, and obtain greeting information for welcoming the user; wherein, the greeting information may include: the third text information and the first Three voice messages;
  • Step 504 The third text message in the homepage interface
  • Step 505 In the home page interface, while controlling the 3D digital human to play the third voice information, perform a fourth preset action to greet the user; wherein, the fourth preset action may include: corresponding to the third voice information lip movements and body movements used to welcome users.
  • the 3D digital human can be set to have a silent state, thereby reducing the power consumption of electronic equipment carrying the 3D digital human. Moreover, when the 3D digital human is in a silent state, the 3D digital human can be awakened through the user's image information, so that the 3D digital human can be awakened in time without the user's operation, and the triggering of the 3D digital human and the user can also be efficiently determined. Interaction can improve the user's interactive experience.
  • the greeting message used to welcome the user may be a preset default greeting message (for example, the default "hello"), or may be an intelligently synthesized personalized greeting message (for example, It may be personalized greeting information set according to one or more of the user's gender information, age information and identity information).
  • the embodiments of the present disclosure do not limit this.
  • the body movement performed by the 3D digital human to express welcome to the user may be a bowing action, and the 3D digital human bows to the user by bending down to express "welcome” to the user.
  • the body movement performed by the 3D digital human to express welcome to the user may be a smiling movement, which means "welcome” to the user.
  • the lip movement performed by the 3D digital human corresponding to the third voice information may be a lip movement corresponding to "hello", expressing "welcome” to the user.
  • the embodiments of the present disclosure do not limit this.
  • the preset condition for instructing to wake up the 3D digital human in step 502 may include: the user's image information indicates that the user is moving towards the direction close to the electronic device where the 3D virtual human is located, or the user's human The proportion of the face area in the user's image information satisfies a preset threshold. In this way, by setting the acquired image information of the user to meet certain preset conditions to wake up the 3D digital human, it is possible to avoid false detection of passers-by when the user is far away. Interaction between users.
  • step 503 may include:
  • the identity information may include but not limited to: non-VIP and VIP.
  • the embodiments of the present disclosure do not limit this.
  • the greeting message used to welcome the user may be: corresponding to "Hello, little girl, welcome to * **Network" text messages and voice messages.
  • the greeting message used to welcome the user can be: corresponding to "Hello, sir, welcome to *** website” text and voice messages.
  • the greeting message used to welcome the user can be: text message and voice message corresponding to "Dear Mr./Ms. xx, hello, welcome to *** network” .
  • the embodiments of the present disclosure do not limit this.
  • Fig. 4 is a schematic diagram of an application scenario of an interaction method in an exemplary embodiment of the present disclosure.
  • the interactive system may include: an interactive device and an AIOT (Artificial Intelligence Technology and Internet of Things) cloud platform connected to the interactive device.
  • the interaction device may include but not limited to: 3D digital human module 41 , UI module 42 , intelligent voice module 43 , intelligent face recognition module 44 , message bus module 45 and 3D navigation module 46 .
  • the interaction device may also include: an Internet of Things (Internet of Things, IOT) device, for example, a microphone array and a camera.
  • IOT Internet of Things
  • the intelligent voice module may include but not limited to: a voice collection unit (such as a microphone array or multiple microphones, etc.), a voice playback unit (such as at least one speaker, etc.), and a voice processing unit.
  • the voice collection unit (such as a microphone array or a plurality of microphones) is configured to monitor the voice information in the surrounding environment within the preset range of the interactive device, so as to capture the voice information input by the user.
  • the voice processing unit is configured to process the voice information input by the user, and obtain the question information input by the user through voice operation; obtain the corresponding answer result (text information) from the AIOT cloud platform according to the question information; (text information) into corresponding response results (voice information).
  • the voice playback unit is configured to output voice information to realize the voice function of the 3D digital human. Thereby, the function of voice interaction is realized.
  • the embodiments of the present disclosure do not limit this.
  • a plurality of modules in the interactive system can be connected by a message bus module.
  • the message bus module is configured as a message bus to be responsible for the flow of all messages between multiple modules, and can play the role of message buffering and distribution.
  • the embodiments of the present disclosure do not limit this.
  • the interactive system can be in a silent state by default.
  • the intelligent face recognition module can collect the user's image information (for example, including the user's facial information), and when the user's image After the information satisfies the preset condition for instructing to wake up the 3D digital human, the interactive system can be woken up.
  • the intelligent face recognition module can extract the user's feature information (for example, including the user's gender information sex, age information age, and identity information info) according to the user's image information, and then send a first message msg1 to In the message bus module, the first message msg1 will carry the characteristic information (sex, age, info) of the user.
  • the 3D digital human module can control the 3D digital human to perform a series of welcome actions such as bending over and spreading hands.
  • the intelligent voice module can play a welcome voice, which may be the default welcome word from the audio pool, or may be an intelligently synthesized personalized welcome word from the voice system, for example, for those under the age of 16, whose gender is female, And the user whose identity is not a VIP (vip) can play the voice information corresponding to "Hello, little girl, welcome to *** outlet"; meanwhile, the voice collection function in the intelligent voice module is preheated, and the The wake-up service (daemon process) starts and is ready to have an intelligent voice conversation with the user at any time. At this point, a series of linkage reactions triggered by an action is over. Similarly, subsequent messages msg can trigger a series of linkage reactions.
  • the intelligent voice module can implement functions such as voice wake-up, voice recognition, semantic recognition, voice knowledge base, or voice synthesis.
  • the voice wake-up function can be a guardian service that can run in the background, or it can always detect the user's voice input, or it can be started after receiving the first message msg1 from the intelligent face recognition module.
  • the voice wake-up event is triggered. For example, the user speaks the preset wake-up word "Xiao E Xiao E". At this time, the wake-up event is triggered, the voice collection unit starts recording, and at the same time starts the voice recognition and semantics in the voice processing unit.
  • the result can be sent out through the message bus module in real time the second message msg2, wherein the second message msg2 can carry the recognized question information (asr_text).
  • the UI module receives the second message msg2, it can display the voice input question information (asr_text) in real time, and the result will be continuously corrected.
  • the recording ends (it can be actively ended, or it can be passively ended, for example, click to end If the recording button is pressed, it means that the recording is ended automatically, or the recording is judged as the end after the mute detection VAD) and starts to search the knowledge base (hosted on the AIOT cloud platform) based on the question information.
  • the third message msg3 can include (question, answer) data
  • question represents the input question information
  • answer represents the answer information
  • Speech synthesis the text information corresponding to the response information becomes voice information, and it is played out.
  • the fourth message msg4 can be sent to trigger the linkage of other modules.
  • the 3D digital human module receives the fifth message msg5 sent by the 3D navigation module through the message bus module, and can control the 3D digital human to perform walking actions or raise hands; for example, the 3D digital human module receives the message msg5 through the message bus module.
  • the sixth message msg6 sent by the 3D navigation module can choose to control the 3D digital human according to the logical grid area where the tag (Tag) with name information corresponding to the tag name information (TagName) carried in the sixth message msg6 is located. Execute the corresponding hand-raising actions (slanting hand raising, flat raising, slanting hand waving), etc.
  • the UI module is configured to be responsible for all UI display (for example, a silent state interface, a home page interface, a 3D navigation interface, a content recommendation interface or a question-and-answer interface, etc.) and switching, and is also configured to Will be responsible for obtaining more detailed product and other information from the AIOT cloud platform for 3D list display.
  • the UI module initially displays a silent state interface, in which a 3D digital human in a silent state may be displayed, and some default product recommended poster carousels may be displayed.
  • the UI module receives the first message msg1 sent by the intelligent face recognition module through the message bus module, and can switch the interface to the homepage interface according to the first message msg1.
  • the 3D navigation module can send the fifth message msg5, and, as shown in Figure 2A, the 3D digital human moves to one side of the interface, and the bank outlet appears on the other side 3D model (at this time, the perspective of the 3D model is in the normal state), the 3D digital person raises his hand sideways, and introduces the main business area of the branch macroscopically. Each main business area will be highlighted and can be selected for explanation.
  • each highlighted business area There is a named Tag you can click on the Tag or select it by voice (say the name of the Tag, select the menu by voice in the way of keyword matching), select a certain point, and when giving a macro explanation, the sixth message msg6(TagName ), trigger the 3D digital human to raise his hand, etc.; when the user selects a certain point for roaming explanation, at this time, as shown in Figure 2D, the 3D model of the bank outlet is enlarged (at this time, the perspective of the 3D model is an immersive roaming state) , the 3D digital human is immersed in the 3D model of the bank branch, explaining the functions of the business point in detail, giving the user a feeling of being in the branch business point, and at this time, the user can rotate the scene perspective by touching the screen , watch each position arbitrarily, and the 3D digital human will make corresponding actions and voice prompts.
  • the rich degree of interaction freedom can improve the interactive experience; the 3D digital human can also roam in the scene and explain each business
  • the embodiment of the present disclosure also provides an electronic device.
  • the electronic device may include: a display screen, a processor, and a memory storing a computer program that can run on the processor, wherein, when the processor executes the computer program, the steps of the interaction method in the above-mentioned one or more exemplary embodiments are implemented .
  • the electronic device 50 may include: at least one processor 51; and at least one memory 52 connected to the processor 51, a bus 53, and a display screen (not shown in the figure). shown); wherein, the processor 51, the memory 52, and the display screen (not shown) complete mutual communication through the bus 53; the processor 51 is used to call the program instructions in the memory 52 to perform one or more of the above-mentioned The steps of the interactive method in one embodiment.
  • the above-mentioned processor may be a central processing unit (Central Processing Unit, CPU), other general-purpose processors, a digital signal processor (Digital Signal Processor, DSP), a field programmable gate array (Field Programmable Gate Array, FPGA) or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, application-specific integrated circuits, etc.
  • the general-purpose processor may be a microprocessor (Micro Processor Unit, MPU) or, the processor may be any conventional processor or the like.
  • MPU Micro Processor Unit
  • the embodiments of the present disclosure do not limit this.
  • the memory may include a non-permanent memory in a computer-readable storage medium, a random access memory (Random Access Memory, RAM) and/or a non-volatile memory, such as a read-only memory (Read Only Memory). Only Memory, ROM) or flash memory (Flash RAM), the memory includes at least one memory chip.
  • RAM Random Access Memory
  • ROM read-only memory
  • Flash RAM flash memory
  • the bus may include not only a data bus, but also a power bus, a control bus, and a status signal bus.
  • the various buses are labeled as bus 53 in FIG. 5 for clarity of illustration.
  • the embodiments of the present disclosure do not limit this.
  • the display screen may include, but is not limited to, a liquid crystal display panel, an organic light emitting diode display panel, or a quantum dot light emitting diode display panel.
  • the embodiments of the present disclosure do not limit this.
  • the processing performed by the electronic device may be completed by an integrated logic circuit of hardware in the processor or instructions in the form of software. That is, the method steps in the embodiments of the present disclosure may be implemented by a hardware processor, or by a combination of hardware and software modules in the processor.
  • the software module may be located in storage media such as random access memory, flash memory, read-only memory, programmable read-only memory or electrically erasable programmable memory, registers, and the like.
  • the storage medium is located in the memory, and the processor reads the information in the memory, and completes the steps of the above method in combination with its hardware. To avoid repetition, no detailed description is given here.
  • the electronic device may include but not limited to: a mobile phone, a tablet computer, a television set, a monitor, a notebook computer, or a robot, and other products or components that can provide a 3D digital human and include a user interface.
  • a mobile phone a tablet computer
  • a television set a monitor
  • a notebook computer or a robot
  • other products or components that can provide a 3D digital human and include a user interface.
  • the embodiment of the present disclosure does not limit the type of the electronic device.
  • Other essential components of the electronic device should be understood by those of ordinary skill in the art, and will not be described in detail here, and should not be used as a limitation to the present disclosure.
  • the functional modules/units in the system, and the device can be implemented as software, firmware, hardware, and an appropriate combination thereof.
  • the division between functional modules/units mentioned in the above description does not necessarily correspond to the division of physical components; for example, one physical component may have multiple functions, or one function or step may be composed of several physical components. Components cooperate to execute.
  • Some or all of the components may be implemented as software executed by a processor, such as a digital signal processor or microprocessor, or as hardware, or as an integrated circuit, such as an application specific integrated circuit.
  • Such software may be distributed on computer readable media, which may include computer storage media (or non-transitory media) and communication media (or transitory media).
  • computer storage media includes both volatile and nonvolatile media implemented in any method or technology for storage of information, such as computer readable instructions, data structures, program modules, or other data. permanent, removable and non-removable media.
  • Computer storage media include, but are not limited to, RAM, ROM, EEPROM, flash memory or other memory technology, CD-ROM, digital versatile disk (DVD) or other optical disk storage, magnetic cartridges, tape, magnetic disk storage or other magnetic storage devices, or can Any other medium used to store desired information and which can be accessed by a computer.
  • communication media typically embodies computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave or other transport mechanism, and may include any information delivery media .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种交互方法、电子设备及存储介质。该交互方法,包括:在首页界面中显示至少一个服务对应的标识信息;接收针对所述至少一个服务对应的标识信息中与目标服务对应的目标标识信息的第一选择操作;响应于所述第一选择操作,基于所述目标标识信息,在目标服务界面显示处于执行与所述目标服务对应的动作的状态的3D数字人以及与所述目标服务对应的目标显示对象。

Description

交互方法、电子设备及存储介质
本申请要求于2021年08月31日提交中国专利局、申请号为202111010753.7、发明名称为“交互方法、电子设备及存储介质”的中国专利申请的优先权,其内容应理解为通过引用的方式并入本申请中。
技术领域
本公开实施例涉及但不限于人工智能技术领域,尤其涉及一种交互方法、电子设备及存储介质。
背景技术
随着计算机技术的发展和人工智能技术的进步,智能化人机交互方式已成为现阶段人机交互的主流。
目前,可以在商场、展厅等场所放置电子设备,通过电子设备向用户提供服务。然而,现阶段的人机交互方式主要为语音交互或者图文交互,交互方式较为单一,无法模拟真实环境下的人与人之间的交互状态,使得用户的交互体验较差。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
第一方面,本公开实施例提供了一种交互方法,包括:在首页界面中显示至少一个服务对应的标识信息;接收针对所述至少一个服务对应的标识信息中与目标服务对应的目标标识信息的第一选择操作;响应于所述第一选择操作,基于所述目标标识信息,在目标服务界面显示处于执行与所述目标服务对应的动作的状态的3D数字人以及与所述目标服务对应的目标显示对象。
第二方面,本公开实施例提供了一种电子设备,包括:处理器以及存储有可在处理器上运行的计算机程序的存储器,其中,所述处理器执行所述程序时实现如上述实施例中所述的交互方法的步骤。
第三方面,本公开实施例提供了一种计算机可读存储介质,包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行如上述实施例中所述的交互方法的步骤。
本公开的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
在阅读并理解了附图和详细描述后,可以明白其他方面。
附图说明
附图用来提供对本公开技术方案的理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开的技术方案,并不构成对本公开技术方案的限制。附图中各部件的形状和大小不反映真实比例,目的只是示意说明本公开内容。
图1为本公开示例性实施例中的交互方法的流程示意图;
图2A为本公开示例性实施例中的3D导览界面的第一种示意图;
图2B为本公开示例性实施例中的3D导览界面的第二种示意图;
图2C为本公开示例性实施例中的3D导览界面的第三种示意图;
图2D为本公开示例性实施例中的3D导览界面的第四种示意图;
图3为本公开示例性实施例中的3D推荐界面的示意图;
图4为本公开示例性实施例中的交互方法的应用场景的示意图;
图5为本公开示例性实施例中的电子设备的结构示意图。
具体实施方式
本文描述了多个实施例,但是该描述是示例性的,而不是限制性的,在本文所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在示例性实施方式中进行了讨论,但是所公开的特征的许多其它组合方式是可能的。除非特意加以限制的情况以 外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本公开实施例的精神和范围内。
除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
在本公开示例性实施例中,使用的术语“模块”,可以是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
本公开实施例提供一种交互方法。在实际应用中,该交互方法可以应用于交互装置中。例如,交互装置可以包括但不限于为:能提供3D数字人且包括用户界面的显示装置,可通过用户界面对3D数字人(又可称为虚拟对象或者虚拟人等)进行显示,用户可以与交互装置进行信息交互,这里,本公开对交互信息的实际内容不做限定。
在一种示例性实施例中,本公开实施例对交互装置的类型和结构不做限定,对交互装置所包括的部件不做限定。例如,交互装置可以包括但不限于 以下部件:语音采集单元、语音播放单元、图像采集单元、显示单元等。例如,语音采集单元可以包括但不限于采用麦克风(microphone,MIC)阵列或者多个麦克风等。例如,语音播放单元可以包括但不限于采用至少一个喇叭等。例如,图像采集单元可以包括但不限于采用至少一个摄像头等。例如,显示单元可以包括但不限于采用液晶显示(Liquid Crystal Display,LCD)面板、有机发光二极管(Organic Light-Emitting Diode,OLED)显示面板或者量子点发光二极管(Quantum-dot Light Emitting Diodes,QLED)显示面板等。例如,该交互装置可以为平板电脑、智能手机、笔记本电脑、显示器或者机器人等具有显示功能和触控功能的电子设备。例如,该交互装置的高度可以基于用户的身高进行设定。这里,本公开实施例对此不做限定。
在一种示例性实施例中,该交互装置可以被设置于任意需要提供服务的场景中,例如,银行、展厅、园区、商场、机场、医院、学校、科研机构、政教或者交通等场所。这里,本公开实施例对此不做限定。
图1为本公开示例性实施例中的交互方法的流程示意图,如图1所示,该交互方法可以包括:
步骤11:在首页界面中显示至少一个服务对应的标识信息;
步骤12:接收针对至少一个服务对应的标识信息中与目标服务对应的目标标识信息的第一选择操作;
步骤13:响应于第一选择操作,基于目标标识信息,在目标服务界面显示处于执行与目标服务对应的动作的状态的3D数字人以及与目标服务对应的目标显示对象。
在一种示例性实施例中,使用的术语“界面”和“用户界面(User Interface,UI)”,又可以称为使用者界面或者人机交互界面,可以是指电子设备中的应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它可以实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式可以是图形用户界面(Graphic User Interface,GUI),图形用户界面是指采用图形方式显示的与操作相关的用户界面。图形用户界面可以包括用于接收用户操作的图标、窗口、按钮、开关或者对话框等可视的界面元素,使得用户可以在图形用户界面中进行触发操作。可以理解,图形用户界面的实际 内容可以根据实际的应用场景确定,这里,本公开实施例对此不做限定。
在一种示例性实施例中,3D数字人(又可称为虚拟对象或者虚拟人等),可以是3D数字角色技术与人工智能技术的结晶。一方面,人像建模、动作捕捉等3D数字角色技术可以为3D数字人带来生动自然的形象表现,并使得3D数字人可以执行类似于人类的动作和表情,让用户可以感觉到类似于真实人为其服务的感受。另一方面,语音识别、自然语言理解、对话理解等人工智能(Artificial Intelligence,AI)技术可以为3D数字人带来完善的认知、理解和表达能力。数字人能够以电子屏幕、全息显示等设备为载体,基于电子设备与用户进行互动。
例如,可以使用3D建模技术,塑造真人比例的3D数字人,3D数字人可以包括:全身骨骼点、蒙皮、服饰、面部动作(例如,眨眼、唇动或者微笑)或者肢体动作(例如,弯腰、抬手或者静默)等。例如,3D数字人可以为基于骨骼点位控制的数字对象,即,3D数字人的动作形态控制可以依靠对3D数字人骨骼点位的控制,使得3D数字人可以执行类似于人类的动作和表情。例如,3D数字人的动作可以来自建模时手动逐帧制作,或者,可以来自后期动作捕捉后适配到模型骨骼。
例如,3D数字人可以支持不同的形象或者音色等,承载3D数字人的交互装置可以基于对用户身份的识别,自动为用户选择符合用户身份的3D数字人形象,或者,管理承载3D数字人的交互装置的工作人员可以自行给3D数字人选择形象。例如,以应用场景为金融场景下某银行网点为例,3D数字人的形象可以为穿着银行女性职业装等。例如,以应用场景为游乐场为例,3D数字人的形象可以为穿着卡通服装等。例如,以应用场景为园区为例,3D数字人的形象可以为穿着便装等。这里,本公开实施例对此不做限定。
例如,该3D数字人可与用户进行语音互动,可具备人脸身份识别能力,可具有专业领域知识技能,可根据用户的问题进行专业知识解答及智能化内容推荐。
在一种示例性实施例中,在不同的应用场景中,服务类型可以不同。举例来说,在金融应用场景(例如,某银行网点应用场景)中,服务可以包括但不限于为:某银行网点的3D导览(例如,网点内多个业务点的空间位置 及业务功能介绍)、知识解答(例如,解答用户问题或者提供帮助信息等)、内容推荐(例如,金融产品介绍、金融知识介绍或者扶贫产品推荐等)和网点迎宾等。又举例来说,在园区应用场景中,服务可以包括但不限于为:园区的3D导览(例如,园区内多个楼宇的空间位置及功能介绍)和知识解答(例如,解答用户问题、提供帮助信息等)。又举例来说,在商场应用场景中,服务可以包括但不限于为:商场的3D导览(例如,商场内多个店铺的空间位置及说明)、知识解答(例如,解答用户问题、提供帮助信息等)和内容推荐(例如,商品介绍、或者餐食推荐等)。又举例来说,在展厅应用场景中,服务可以包括但不限于为:展厅的3D导览(例如,展厅内多个展览点的空间位置及展览类型说明)、知识解答(例如,解答用户问题或者提供帮助信息等)、内容推荐(例如,展览品介绍、艺术知识介绍或者艺术家介绍等)和展厅迎宾等
在一种示例性实施例中,至少一个服务可以包括但不限于为:3D导览服务、内容推荐服务和问答服务中任意一种。对应地,至少一个服务对应的标识信息可以包括但不限于为:与3D导览服务对应的第一标识信息、与内容推荐服务对应的第二标识信息和与问答服务对应的第三标识信息中任意一种或多种。对应地,目标服务可以包括但不限于为:3D导览服务、内容推荐服务和问答服务中任意一种。对应地,目标标识信息可以包括但不限于为:用于表征3D导览服务的第一标识信息、用于表征内容推荐服务的第二标识信息和用于表征问答服务的第三标识信息中任意一种。对应地,目标服务界面可以包括但不限于为:3D导览界面、内容推荐界面和问答界面中任意一种。这里,本公开实施例对此不做限定。
在一种示例性实施例中,至少一个服务对应的标识信息可以包括但不限于采用:按钮或者图标等可视的界面元素来实现。其中,可视的界面元素可以包括:能够唯一标示服务的文字信息或者图片信息等。
在一种示例性实施例中,第一选择操作可以包括但不限于采用:语音操作或者触控操作等方式。举例来说,以至少一个服务对应的标识信息采用带有名称信息的按钮为例,在用户需要选择某项服务时,用户可以通过语音操作(例如,说出该按钮所显示的名称信息),或者,用户可以通过触控操作 (例如,点击该按钮)等选择某一项服务对应的标识信息,实现与提供3D数字人的交互装置进行交互,以便提供3D数字人的交互装置给用户提供所选择的服务。这里,本公开实施例对此不做限定。
在一种示例性实施例中,在不同的目标服务中,在目标显示界面中所显示的与目标服务对应的目标显示对象不同。例如,目标服务为3D导览服务时,目标显示对象可以包括但不限于现实场景的3D场景模型。例如,目标服务为内容推荐服务时,目标显示对象可以包括但不限于3D列表。这里,本公开实施例对此不做限定。
如此,本公开实施例所提供的交互方法,在给用户提供服务的过程中,根据用户针对首页界面中所显示的至少一个服务对应的标识信息中与目标服务对应的目标标识信息的第一选择操作,基于目标标识信息,通过在目标服务界面中显示与目标服务对应的目标显示对象,可以使得用户及时获取到所需信息,并且,通过在目标服务界面中可以渲染出的3D数字人,并控制3D数字人可以执行与目标服务对应的类似于人类的动作,能够实现逼真、拟人的交互效果,能够让用户可以感觉到类似于真实人为其服务的感受,可以使得交互过程更加立体生动更加有趣。从而,可以有效提升用户的交互体验。
在一种示例性实施例中,以目标服务为3D导览服务为例,步骤13可以包括以下步骤201至步骤202:
步骤201:当目标服务为3D导览服务时,在3D导览界面的第一区域中显示现实场景的3D场景模型;其中,3D场景模型可以包括:现实场景内设置的多个空间区域对应的位置信息和说明信息;
步骤202:在3D导览界面的第二区域中显示处于执行第一预设动作的状态的3D数字人,控制3D数字人对现实场景内设置的多个空间区域进行介绍;其中,第一预设动作至少可以包括:与多个空间区域所处的位置匹配的肢体动作;第二区域位于第一区域一侧,3D数字人在3D导览界面中的景深信息小于3D场景模型在3D导览界面中的景深信息。
在一种示例性实施例中,现实场景的3D场景模型可以为使用3D建模技术,塑造的真实现实场景的真实比例还原的3D虚拟场景。例如,现实场景的3D场景模型可以为CAD(Computer Aided Design,计算机辅助设计)模 型。例如,3D建模技术可以使用3dsMax、AutoCAD等建模软件,创造真实比例关系的数字模型,用于软件系统渲染展示。
在一种示例性实施例中,以应用场景为金融场景下某银行网点为例,那么,现实场景的3D场景模型可以为银行网点的3D模型,银行网点的3D模型可以为使用3D建模技术,塑造的以真实银行网点的真实比例还原的3D虚拟银行网点。例如,银行网点的3D模型可以包括:银行网点内多个业务区域对应的位置信息以及多个业务区域对应的业务说明信息。或者,以应用场景为校园为例,那么,现实场景的3D场景模型可以为校园的3D模型,校园的3D模型可以为使用3D建模技术,塑造的以真实校园的真实比例还原得到的3D虚拟校园。例如,校园的3D模型可以包括:校园内多个楼宇对应的位置信息以及多个楼宇对应的说明信息(例如,办公楼、教学楼、宿舍楼、实验楼、食堂、体育馆等)。这里,本公开实施例对此不做限定。
在一种示例性实施例中,以应用场景为金融场景下某银行网点为例,第一预设动作至少可以包括:与每一个业务区域(例如,银行网点内业务区域)所处的空间位置匹配的肢体动作。例如,肢体动作可以包括但不限于为斜上举手、平举或者斜下挥手等不同幅度的抬手动作。这里,本公开实施例对此不做限定。
例如,以应用场景为金融场景下某银行网点为例,如图2A所示,3D导览界面可以包括:银行网点的3D模型在3D导览界面中所占的整个区域(例如,第一区域21)和3D数字人在3D导览界面中所占的整个区域(例如,第二区域22)。
例如,以应用场景为金融场景下某银行网点为例,如图2B所示,银行网点的3D模型在3D导览界面中所占的第一区域21可以划分成沿第一方向DR1依次设置的第一子区域(上部子区域)211、第二子区域(中部子区域)212和第三子区域(下部子区域)213共三个网格子区域。例如,第一子区域(上部子区域)211可以对应于3D数字人抬手动作中的斜上举手动作,第二子区域(中部子区域)212可以对应于3D数字人抬手动作中的平举动作,和第三子区域(下部子区域)213可以对应于3D数字人抬手动作中的斜下挥手动作。例如,在实际应用中,不同的业务子区域所处的空间位置可以归属于 不同的网格子区域,如图2B所示,母婴室、理财(代销)专区以及贵宾客户服务区可以归属于第一子区域(上部子区域)211,非现金业务区、现金业务区、便民服务区、客户等候区、咨询引导区以及电子银行服务区可以归属于第二子区域(中部子区域)212,公共教育区、爱心驿站以及24小时自助银行服务区可以归属于第三子区域(下部子区域)213。例如,在3D数字人未浸入银行网点的3D模型的情况下,讲解母婴室功能时,3D数字人可以执行上抬手的动作,指向第一子区域(上部子区域)211,讲解便民服务区时,3D数字人可以执行平举手动作,指向第二子区域(中部子区域)212;讲解爱心驿站时,3D数字人可以执行下举手动作,指向第三子区域(下部子区域)213。如此,在提供3D导览服务时,在3D数字人给用户介绍不同的业务区域时,可以控制3D数字人执行与业务区域所处的空间位置所归属的网格区域对应的抬手动作。这里,本公开实施例对此不做限定。
例如,以应用场景为金融场景下某银行网点为例,如图2B所示,银行网点的3D模型在3D导览界面中所占的第一区域21还可以划分成沿第二方向DR2依次设置的第四子区域(左部子区域)214、第五子区域(第二中部子区域)215和第六子区域(右部子区域)216,如此,可以形成3*3共9个子区域,可以对应于更加精细化的手部动作指引。其中,第二方向DR2与第一方向DR1交叉(例如,第二方向DR2与第一方向DR1相垂直)。例如,第四子区域(左部子区域)214可以对应于3D数字人伸出第一长度的抬手动作,第五子区域(第二中部子区域)215可以对应于3D数字人伸出第二长度抬手动作,第六子区域(右部子区域)216可以对应于3D数字人伸出第三长度抬手动作。例如,在实际应用中,不同的业务子区域所处的空间位置可以归属于不同的网格子区域,如图2B所示,母婴室、非现金业务区、便民服务区、客户等候区、公共教育区、以及爱心驿站可以归属于第四子区域(左部子区域)214,理财(代销)专区、贵宾客户服务区、现金业务区、以及咨询引导区可以归属于第五子区域(中部子区域)215,电子银行服务区以及24小时自助银行服务区可以归属于第六子区域(右部子区域)216。如此,在提供3D导览服务时,在3D数字人给用户介绍不同的业务区域时,可以控制3D数字人执行与业务区域所处的空间位置所归属的网格区域对应的伸出不同长度的抬手动作。这里,本公开实施例对此不做限定。
在一种示例性实施例中,在3D数字人基于现实场景的3D场景模型,对现实场景内设置的不同的空间区域进行介绍时,每一个空间区域可以采用高亮方式进行显示,同时,每一个空间区域可以有一个具有说明信息的可视的界面元素,如Tag(标签)。其中,用户可以触控操作点击Tag,或者语音选择(说出该Tag的名称,关键词匹配的方式语音选择该Tag)。
在一种示例性实施例中,在3D导览界面中第二区域与第一区域之间可以存在交叠区域,或者,可以不存在交叠区域,这里,本公开实施例对此不做限定。
在一种示例性实施例中,在步骤202之后,该交互方法还可以包括以下步骤:
步骤203:接收针对多个空间区域对应的说明信息中与目标空间区域对应的目标说明信息的第二选择操作;
步骤204:响应于第二选择操作,在3D导览界面中显示放大后的3D场景模型;
步骤205:在放大后的3D场景模型中目标空间区域的周围区域中显示缩小后的3D数字人,控制缩小后的3D数字人对目标空间区域进行介绍;其中,缩小后的3D数字人在3D导览界面中的景深信息等于目标业务区域在3D导览界面中的景深信息。
如此,通过将3D数字人显示在现实场景的3D场景模型中,即3D数字人浸入到3D场景模型中,来给用户详细讲解现实场景内设置的不同空间区域(例如,银行网点的业务区域),能够为用户提供沉浸式的3D导览服务,能够提升数据可视化展示效果,可以给用户一种身临其境到现实场景内设置的空间区域(例如,银行网点的业务区域)的感觉。从而,可以有效提升用户的交互体验。
在一种示例性实施例中,第二选择操作可以包括但不限于采用:语音操作或者触控操作等。举例来说,以多个空间区域对应的说明信息采用带有名称信息的标签(Tag)为例,在用户需要选择某个空间区域时,用户可以通过语音操作(例如,说出该标签所显示的名称信息),或者,用户可以通过触控操作(例如,点击该标签)等选择目标空间区域对应的目标说明信息, 实现与提供3D数字人的交互装置进行交互。这里,本公开实施例对此不做限定。
在一种示例性实施例中,步骤205可以包括:控制缩小后的3D数字人以现实场景的3D场景模型中目标空间区域为起点,在放大后的3D场景模型中进行漫游,按照预设顺序,对现实场景内设置的多个空间区域进行逐个讲解。
在一种示例性实施例中,在步骤205之后,该交互方法还可以包括:步骤206:响应于用于旋转3D场景的视角的触控操作,在3D导览界面中根据触控操作对应的触控信息(例如,旋转角度)旋转3D场景模型的视角。如此,用户可以采用触控操作的方式旋转3D场景模型的视角,任意观看每一个位置。此外,在用户旋转3D场景模型的视角的过程中,该交互方法还可以包括:控制3D数字人做出相应的动作及语音提示。如此,能够提供丰富的交互自由度,从而,能够有效提升交互体验。
例如,与图2A所示的3D导览界面相比,图2C所示的3D导览界面可以包括:放大后的银行网点的3D模型在3D导览界面中所占的整个区域,而缩小后的3D数字人显示在银行网点的3D模型中。
例如,用户语音说出“沉浸式讲解”,可以切换模式,从未浸入时的人大场景小(3D数字人为主导),变为浸入式的场景放大,人变小。例如,如图2D所示,缩小后的3D数字人在银行网点的3D模型中可以进行漫游,按照预设顺序对不同的业务区域进行介绍。例如,如图2D所示,在浸入式3D导览模式下,用户采用语音操作,询问业务区域,3D数字人可以会移动漫游到不同的业务点位进行讲解,其中,在图2D中黑色箭头示出了3D数字人的移动漫游轨迹。例如,用户采用语音操作,询问“电子银行服务”时,3D数字人可以移动到电子银行服务区处,开始介绍该区域的功能。这里,本公开实施例对此不做限定。
在一种示例性实施例中,以目标服务为内容推荐服务为例,步骤13可以包括以下步骤301至步骤302:
步骤301:当目标服务为内容推荐服务时,在3D推荐界面的第一区域中显示3D列表;其中,3D列表包括:与现实场景提供的多个推荐内容一一对 应的多个卡片;
步骤302:在3D推荐界面的第二区域中显示处于执行第二预设动作的状态的3D数字人,控制3D数字人基于多个卡片,对现实场景提供的多个推荐内容进行介绍;其中,第二区域位于第一区域一侧,3D数字人在3D推荐界面中的景深信息小于3D列表在3D推荐界面中的景深信息。
在一种示例性实施例中,根据不同的应用场景,3D列表中所包括的推荐内容不同。例如,以应用场景为金融场景下某银行网点为例,现实场景提供的多个推荐内容可以包括但不限于为:银行网点提供的多个金融产品或者扶贫商品,那么,3D列表可以包括:银行网点提供的多个金融产品一一对应的多个卡片。例如,以应用场景为展厅为例,现实场景提供的多个推荐内容可以包括但不限于为:展厅展示的多个展品(例如,艺术片),那么,3D列表可以包括:展厅展示的多个展品一一对应的多个卡片。例如,以应用场景为园区为例,现实场景提供的多个推荐内容可以包括但不限于为:园区内的多个楼宇。例如,以应用场景为景区为例,现实场景提供的多个推荐内容可以包括但不限于为:景区内的多个景点等。这里,本公开实施例对此不做限定。
在一种示例性实施例中,步骤302可以包括:
步骤3021:从与多个推荐内容一一对应的多个卡片中,获取待推荐的目标推荐内容对应的目标卡片;
步骤3022:对于目标卡片进行放大处理,获得放大后的目标卡片;
步骤3023:在3D推荐界面中将放大后的目标卡片显示在3D数字人与3D列表之间,控制3D数字人在执行第二预设动作的同时对目标推荐内容进行介绍;其中,放大后的目标卡片在3D推荐界面中的景深信息大于3D数字人在3D推荐界面中的景深信息,且小于3D列表在3D推荐界面中的景深信息。
在一种示例性实施例中,步骤3023可以包括:获取目标推荐内容对应的介绍信息;其中,介绍信息可以包括:第一语音信息和第一文字信息;在放大后的目标卡片中展示第一文字信息;控制3D数字人在播放第一语音信息的同时,执行第二预设动作,以实现对目标推荐内容进行介绍;其中,第二预设动作可以包括:与第一语音信息对应的唇部动作、肢体动作和眼部动作 中的任意一种或多种。
例如,以应用场景为金融场景下某银行网点为例,3D推荐界面可以包括:3D列表在3D推荐界面中所占的第一区域和3D数字人在3D导览界面中所占的第二区域。其中,3D列表可以包括:银行网点提供的多个金融产品一一对应的多个卡片。接下来,在对银行网点提供的金融产品进行介绍的过程中,如图3所示,当前正在被介绍的金融产品所对应的目标卡片312(即目标推荐内容对应的目标卡片)可以在3D推荐界面中放大显示,并且,将放大后的目标卡片显示在3D数字人与3D列表之间,即3D数字人311、单个的目标卡片312、3D列表313介绍依次按照景深信息由小到大分布。如此,能够提升数据可视化展示效果。从而,可以有效提升用户的交互体验。
例如,3D列表可以出现在3D空间中,悬浮在空气中(类似虚空成像);或者,可以出现在3D场景的背景墙上,作为一个显示屏的画面出现,营造一种3D数字人在对着墙上的显示屏画面在实时播报的情景;然后介绍单个产品的时候,产品可以从3D列表中飞出来进行呈现。
在一种示例性实施例中,以目标服务为问答服务为例,步骤13可以包括以下步骤401至步骤404:
步骤401:当目标服务为问答服务时,获取用户通过语音操作输入的提问信息;
步骤402:基于提问信息,获取对应的应答结果;其中,应答结果可以包括:第二文字信息和第二语音信息;
步骤403:在问答界面的第一区域中显示第二文字信息;
步骤404:在问答界面的第二区域中显示处于执行第三预设动作的状态的3D数字人,控制3D数字人播放第二语音信息,以实现对用户的提问进行应答;其中,第三预设动作可以包括:与第二语音信息对应的唇部动作、肢体动作和眼部动作中的任意一种或多种。
在一种示例性实施例中,在步骤401之后,该交互方法还可以包括:
步骤405:确定提问信息是否包含与3D导览服务匹配的第一预设信息或者与内容推荐服务匹配的第二预设信息;
步骤406:若确定提问信息包含第一预设信息,则从问答界面切换至3D导览界面,以提供3D导览服务;
步骤407:若确定提问信息包含第二预设信息,则从问答界面切换至3D推荐界面,以提供内容推荐服务;
步骤408:若确定提问信息不包含第一预设信息和第二预设信息,则基于提问信息,获取对应的应答结果。
如此,在提供问答服务的过程中,若涉及到3D导览服务可以直接切换至对应的3D导览界面,以便采用3D数字人和3D场景模型联合的可视化方式,有针对性地为用户提供更为优质的展示效果更好的3D导览服务。或者,在提供问答服务的过程中,若涉及到内容推荐服务,可以直接切换至对应的3D推荐界面,以便采用3D数字人和3D列表联合的可视化方式,有针对性地为用户提供更为优质的展示效果更好的内容推荐服务。从而,可以有效地提升用户的交互体验。
在一种示例性实施例中,在步骤11之前,该交互方法还可以包括:
步骤501:在显示处于静默状态下的3D数字人的过程中,获得用户的图像信息;
步骤502:确定用户的图像信息是否满足用于指示唤醒3D数字人的预设条件;
步骤503:若确定用户的状态为用于指示唤醒3D数字人的预设状态,将3D数字人唤醒,获取用于表示欢迎用户的问候信息;其中,问候信息可以包括:第三文字信息和第三语音信息;
步骤504:在首页界面中第三文字信息;
步骤505:在首页界面中,控制3D数字人播放第三语音信息的同时,执行第四预设动作,以实现对用户进行打招呼;其中,第四预设动作可以包括:与第三语音信息对应的唇部动作和用于表示欢迎用户的肢体动作。
如此,可以设置3D数字人具有静默状态,从而,可以减少承载3D数字人的电子设备的功耗。并且,在3D数字人处于静默状态下,通过用户的图像信息来唤醒3D数字人,从而,无需用户进行操作即可及时地唤醒3D数字 人,还可以实现高效地确定触发3D数字人与用户的交互,可以提升用户的交互体验。
在一种示例性实施例中,用于表示欢迎用户的问候信息可以为预先设置的默认问候信息(例如,默认的“您好”),或者,可以为智能化合成的个性问候信息(例如,可以为根据用户的性别信息、年龄信息和身份信息中的一种或多种所设定的个性化问候信息)。这里,本公开实施例对此不做限定。
在一种示例性实施例中,3D数字人执行的用于表示欢迎用户的肢体动作可以为鞠躬动作,3D数字人通过弯腰向用户鞠躬,对用户表示出“欢迎”的意思。或者,3D数字人执行的用于表示欢迎用户的肢体动作可以为微笑动作,对用户表示出“欢迎”的意思。3D数字人执行的与第三语音信息对应的唇部动作可以为对应于“您好”的唇动动作,表示出对用户表示“欢迎”的意思。这里,本公开实施例对此不做限定。
在一种示例性实施例中,步骤502中用于指示唤醒3D数字人的预设条件,可以包括:用户的图像信息表明用户朝向靠近3D虚拟人所在电子设备的方向运动,或者,用户的人脸区域在用户的图像信息中所占的比例满足预设阈值。如此,通过设置所获取到的用户的图像信息满足一定的预设条件才唤醒3D数字人,可以避免用户距离很远时误检测过路人等情况,从而,可以实现高效准确地唤醒3D数字人与用户之间的交互。
在一种示例性实施例中,步骤503可以包括:
步骤5031:对用户的图像信息进行分析,提取用户的特征信息;其中,用户的特征信息可以包括:性别信息、年龄信息和身份信息中的任意一种或多种;
步骤5032:基于用户的特征信息,获取用于表示欢迎用户的问候信息。如此,通过从用户的图像信息提取的用户的特征信息,来给不同用户提供个性化的唤醒服务。从而,能够提供更好的交互体验。
在一种示例性实施例中,以应用场景为金融场景下某银行网点为例,身份信息可以包括但不限于:非贵宾(vip)和贵宾(vip)。这里,本公开实施例对此不做限定。
举例来说,针对年龄为16岁以下、性别为女性、且身份为非贵宾(vip)的用户,用于表示欢迎用户的问候信息可以采用:对应于“你好,小姑娘,欢迎来到***网点”的文字信息和语音信息。或者,针对年龄为30岁以上、性别为男性、且身份为非贵宾(vip)的用户,用于表示欢迎用户的问候信息可以采用:对应于“先生您好,欢迎来到***网点”的文字信息和语音信息。或者,针对身份为贵宾(vip)的用户,用于表示欢迎用户的问候信息可以采用:对应于“尊敬的xx先生/女士,您好,欢迎来到***网点”的文字信息和语音信息。这里,本公开实施例对此不做限定。
下面以应用场景为金融场景下某银行网点为例,对本公开实施例所提供的交互方法进行说明。
图4为本公开示例性实施例中的交互方法的应用场景的示意图。如图4所示,交互系统可以包括:交互装置和与交互装置连接的AIOT(人工智能技术与物联网)云平台。其中,交互装置可以包括但不限于:3D数字人模块41、UI模块42、智能语音模块43、智能人脸识别模块44、消息总线模块45和3D导览模块46。该交互装置还可以包括:物联网(Internet of Things,IOT)设备,例如,麦克风阵列和摄像头等。这里,本公开实施例对此不做限定。
其中,云平台,可以是指基于硬件资源和软件资源的服务,提供计算、网络和存储能力。人工智能,AI,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。数字化,把现实世界的物体通过计算机领域知识抽象到数字世界、再通过可视化技术呈现出来。
在一种示例性实施例中,智能语音模块可以包括但不限于:语音采集单元(例如麦克风阵列或者多个麦克风等)、语音播放单元(例如至少一个喇叭等)以及语音处理单元。其中,语音采集单元(例如麦克风阵列或者多个麦克风),被配置为对交互装置预设范围内的周围环境中的语音信息进行监听,以便捕获用户的输入的语音信息。语音处理单元,被配置为对用户的输入的语音信息进行处理,获取用户通过语音操作输入的提问信息;根据提问信息从AIOT云平台后获取对应的应答结果(文字信息);将对应的应答结果(文字信息)转化为对应的应答结果(语音信息)。语音播放单元,被配 置为输出语音信息,以实现3D数字人的语音功能。从而,实现语音互动的功能。这里,本公开实施例对此不做限定。
在一种示例性实施例中,智能人脸识别模块可以包括但不限于:图像采集单元(例如摄像头)以及图像处理单元。其中,图像采集单元(例如摄像头),被配置为实时捕获位于交互装置可识别区域内的用户的图像信息;图像处理单元,被配置为从用户的图像信息中提取用户的面部图像信息;对用户的面部图像信息进行分析处理,识别出用户的特征信息,例如,年龄信息、性别信息、表情信息等,或者,还可以根据预置的已经登记的贵宾(vip)客户信息,经过特征值匹配,可以识别出用户的身份信息,例如,非贵宾(vip)和贵宾(vip),实现精准推荐的功能。这里,本公开实施例对此不做限定。
在一种示例性实施例中,交互系统中多个模块可以以消息总线模块建立联系。消息总线模块,被配置为作为消息总线负责多个模块之间的所有消息的流转,可以起到消息缓存及分发的作用。这里,本公开实施例对此不做限定。
在一种示例性实施例中,交互系统可以默认处于静默状态,当用户靠近交互系统时,智能人脸识别模块可以采集到用户的图像信息(例如,包括用户的面部信息),当用户的图像信息满足用于指示唤醒3D数字人的预设条件后,交互系统可以被唤醒。接下来,智能人脸识别模块可以根据用户的图像信息提取出用户的特征信息(例如,包括用户的性别信息sex、年龄信息age和身份信息info),然后信息汇总后发送一条第一消息msg1到消息总线模块,第一消息msg1会携带用户的特征信息(sex,age,info)。从而,其它模块(例如,3D数字人模块、UI模块或者智能语音模块)通过消息总线模块可以实时的收到第一消息msg1,并作出联动反应。例如,UI模块可以根据第一消息msg1中携带的用户的特征信息(sex,age,info),展示欢迎词,例如,针对年龄为16岁以下、性别为女性、且身份为非贵宾(vip)的用户,可以展示对应于“你好,小姑娘,欢迎来到***网点”的文字信息;或者,针对年龄为30岁以上、性别为男性、且身份为非贵宾(vip)的用户,可以展示对应于“先生您好,欢迎来到***网点”的文字信息;或者,针对身份为贵宾(vip)的用户,可以展示对应于“尊敬的xx先生/女士,您好,欢迎来到***网点” 的文字信息。例如,3D数字人模块可以控制3D数字人执行弯腰、摊手等一系列表示欢迎的动作。例如,智能语音模块可以播放欢迎语音,该欢迎语音可能为来自音频池的默认欢迎词,或者可能为自语音系统的智能化合成个性欢迎词,例如,针对年龄为16岁以下、性别为女性、且身份为非贵宾(vip)的用户,可以播放对应于“你好,小姑娘,欢迎来到***网点”的语音信息;同时,智能语音模块中语音采集功能预热,智能语音模块的唤醒服务(守护进程)启动,随时准备与用户进行智能语音对话。至此,一个动作触发的一系列联动反应完结。相似的,后续的消息msg都可以触发一系列联动反应。
在一种示例性实施例中,智能语音模块可以实现语音唤醒、语音识别、语义识别、语音知识库或者语音合成等功能。例如,语音唤醒功能可以是一个可以后台运行的守护服务,或者,可以一直检测用户的语音输入,或者,可以在收到智能人脸识别模块的第一消息msg1后启动,启动后当判断匹配预置的唤醒词后,触发语音唤醒事件,例如,用户说出预置唤醒词“小E小E”,此时触发唤醒事件,语音采集单元开始录音,同时启动语音处理单元中的语音识别及语义识别,实时识别用户的语音输入,结果可以实时的通过消息总线模块发送出去第二消息msg2,其中,第二消息msg2中可以携带所识别出的提问信息(asr_text)。在UI模块收到第二消息msg2后,可以实时展示语音输入的提问信息(asr_text),结果会不断的校正,当结束录音时(可以是主动式结束,或者可以是被动式结束,例如,点击结束录音按钮,则为主动结束,或者经过静音检测VAD判断为录音结束)开始基于提问信息检索知识库(托管在AIOT云平台),搜索到与提问信息匹配的应答信息后,可以以应答信息对应的文字信息的形式返回,返回应答信息对应的文字信息后,可以发送第三消息msg3,其中,第三消息msg3可以包括(question,answer)数据,question表示输入的提问信息,answer表示应答信息,经过语音合成,应答信息对应的文字信息变为语音信息,播放出来,播音的时候会可以发送第四消息msg4,触发其它模块的联动。
在一种示例性实施例中,3D数字人模块可以监听消息总线模块一系列消息,从而触发3D数字人执行对应动作。例如,3D数字人模块通过消息总线模块接收到智能人脸识别模块发出的第一消息msg1,可以根据第一消息 msg1中携带用户的特征信息(sex,age,info),控制3D数字人执行弯腰欢迎动作、或者微笑动作等。例如,3D数字人模块通过消息总线模块接收到智能语音模块发出的第四消息msg4,可以控制3D数字人执行唇动动作、眨眼动作、挥手动作等,匹配播放的语音信息。例如,3D数字人模块通过消息总线模块接收到3D导览模块发出的第五消息msg5,可以控制3D数字人执行走路动作、或者抬手动作等;例如,3D数字人模块通过消息总线模块接收到3D导览模块发出的第六消息msg6,可以根据第六消息msg6中携带的标签名称信息(TagName)所对应的带有名称信息的标签(Tag)所在逻辑网格区域,而选择控制3D数字人执行对应的抬手动作(斜高举手、平举、斜下挥手)等。如此,可避免3D数字人被动的反复执行相同的动作导致交互单一刻板的问题,且由于可控制数字人输出与用户进行交互的交互动作,因此,可以使人机交互更加具有灵活性和多样性,从而可以增强互动的效果,进而提高用户的交互体验。
在一种示例性实施例中,UI模块,被配置为负责所有的UI展示(例如,静默状态界面、首页界面、3D导览界面、内容推荐界面或者问答界面等)及切换,还被配置为会负责从AIOT云平台获取更详细的产品等信息进行3D列表化展示。例如,UI模块初始显示静默状态界面,静默状态界面中可以显示处于静默状态下的3D数字人,可能显示一些默认产品推荐的海报轮播等。例如,UI模块通过消息总线模块接收到智能人脸识别模块发出的第一消息msg1,可以根据第一消息msg1,将界面切换为首页界面。例如,UI模块通过消息总线模块接收到收到第三消息msg3,其中,第三消息msg3可以包括(question,answer)数据,question表示输入的提问信息,answer表示应答信息,可以将界面切换至为问答界面,展示提问信息对应的应答信息,还可能会进一步的使用提问信息去AIOT云平台获取更进一步的详细的产品信息,其中,应答信息可能是一个比较简短精炼的文字信息,详细信息可以更丰富(例如,包括图文信息等),然后以3D UI列表的形式进行产品信息展示呈现。
在一种示例性实施例中,3D导览模块,被配置为生成现实场景的3D场景模型。例如,以应用场景为金融场景下某银行网点为例,那么,现实场景 的3D场景模型可以为银行网点的3D模型,银行网点的3D模型可以包括:银行网点内多个业务区域对应的位置信息以及多个业务区域对应的业务说明信息。例如,UI模块将界面切换至3D导览界面后,3D导览模块可以发出第五消息msg5,而且,如图2A所示,3D数字人移动到界面的一侧,另一侧出现银行网点的3D模型(此时3D模型视角为常规状态),3D数字人侧身抬手,宏观介绍该网点的主要业务区域位每一个主要业务区域都会高亮,可以选中进行讲解,同时每个高亮业务区域有一个具名的Tag,可以点击Tag或者语音选择(说出该Tag的名称,关键词匹配的方式语音选择该菜单),选中某一个点位,进行宏观讲解时,会发送第六消息msg6(TagName),触发3D数字人抬手动作等;用户选中某一个点位进行漫游讲解时,此时,如图2D所示,银行网点的3D模型放大(此时3D模型视角为沉浸式的漫游状态),3D数字人浸入到银行网点的3D模型中,详细讲解该业务点位的功能,给用户一种身临其境到网点业务点位的感觉,而且此时用户可以触屏的方式旋转场景视角,任意观看每一个位置,3D数字人会做出相应的动作及语音提示,丰富的交互自由度可以提升交互体验;3D数字人还可在场景中漫游,在各个业务点位逐个讲解。
以上应用场景实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本公开应用场景实施例中未披露的技术细节,本领域的技术人员请参照本公开方法实施例中的描述而理解,这里不再赘述。
需要说明的是,图4仅是本公开示例性实施例适用的应用场景的一个示例,这里,对本公开示例性实施例所提供的交互方法的应用场景不做限定。
本公开实施例还提供一种电子设备。该电子设备可以包括:显示屏、处理器以及存储有可在处理器上运行的计算机程序的存储器,其中,处理器执行计算机程序时实现上述一个或多个示例性实施例中的交互方法的步骤。
在一种示例性实施例中,如图5所示,该电子设备50可以包括:至少一个处理器51;以及与处理器51连接的至少一个存储器52、总线53、以及显示屏(图中未示出);其中,处理器51、存储器52、显示屏(图中未示出) 通过总线53完成相互间的通信;处理器51用于调用存储器52中的程序指令,以执行上述一个或多个实施例中的交互方法的步骤。
在一种示例性实施例中,上述处理器可以是中央处理单元(Central Processing Unit,CPU)、其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件、专用集成电路等。通用处理器可以是微处理器(Micro Processor Unit,MPU)或者,该处理器可以是任何常规的处理器等。这里,本公开实施例对此不做限定。
在一种示例性实施例中,存储器可能包括计算机可读存储介质中的非永久性存储器,随机存储器(Random Access Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(Flash RAM),存储器包括至少一个存储芯片。这里,本公开实施例对此不做限定。
在一种示例性实施例中,总线除了可以包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图5中将各种总线都标为总线53。这里,本公开实施例对此不做限定。
在一种示例性实施例中,显示屏可以包括但不限于采用液晶显示面板、有机发光二极管显示面板或者量子点发光二极管显示面板等。这里,本公开实施例对此不做限定。
在实现过程中,电子设备所执行的处理可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。即本公开实施例的方法步骤可以体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
在一种示例性实施例中,该电子设备可以包括但不限于为:手机、平板电脑、电视机、显示器、笔记本电脑或者机器人等能提供3D数字人且包括用户界面的产品或部件。这里,本公开实施例对电子设备的类型不做限定。 对于该电子设备的其它必不可少的组成部分均为本领域的普通技术人员应该理解具有的,在此不做赘述,不应作为对本公开的限制。
本公开实施例还提供一种计算机可读存储介质,包括存储的程序,其中,在程序运行时控制存储介质所在的设备执行上述一个或多个实施例中的交互方法的步骤。
在一种示例性实施例中,上述计算机可读存储介质可以包括但不限于采用:ROM/RAM、磁碟或者光盘等。这里,本公开实施例对此不做限定。
以上电子设备或计算机可读存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本公开电子设备或计算机可读存储介质实施例中未披露的技术细节,本领域的技术人员请参照本公开方法实施例的描述而理解。在此不再赘述。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
虽然本公开所揭露的实施方式如上,但上述的内容仅为便于理解本公开 而采用的实施方式,并非用以限定本公开。任何本公开所属领域内的技术人员,在不脱离本公开所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本公开的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (14)

  1. 一种交互方法,包括:
    在首页界面中显示至少一个服务对应的标识信息;
    接收针对所述至少一个服务对应的标识信息中与目标服务对应的目标标识信息的第一选择操作;
    响应于所述第一选择操作,基于所述目标标识信息,在目标服务界面显示处于执行与所述目标服务对应的动作的状态的3D数字人以及与所述目标服务对应的目标显示对象。
  2. 根据权利要求1所述的方法,其中,所述至少一个服务对应的标识信息包括:与3D导览服务对应的第一标识信息、与内容推荐服务对应的第二标识信息和与问答服务对应的第三标识信息中任意一种或多种。
  3. 根据权利要求1或2所述的方法,其中,所述在目标服务界面显示处于执行与所述目标服务对应的动作的状态的3D数字人以及与所述目标服务对应的所述目标显示对象,包括:
    当所述目标服务为3D导览服务时,在3D导览界面的第一区域中显示现实场景的3D场景模型;其中,所述3D场景模型包括:所述现实场景内设置的多个空间区域对应的位置信息和说明信息;
    在3D导览界面的第二区域中显示处于执行第一预设动作的状态的3D数字人,控制所述3D数字人对所述现实场景内设置的多个空间区域进行介绍;其中,所述第一预设动作至少包括:与多个空间区域所处的位置匹配的肢体动作;所述第二区域位于所述第一区域一侧,所述3D数字人在3D导览界面中的景深信息小于所述3D场景模型在所述3D导览界面中的景深信息。
  4. 根据权利要求3所述的方法,还包括:
    接收针对所述多个空间区域对应的说明信息中与目标空间区域对应的目标说明信息的第二选择操作;
    响应于所述第二选择操作,在3D导览界面中显示放大后的3D场景模型;
    在所述放大后的3D场景模型中所述目标空间区域的周围区域中显示缩 小后的3D数字人,控制缩小后的3D数字人对所述目标空间区域进行介绍;其中,所述缩小后的3D数字人在3D导览界面中的景深信息等于所述目标业务区域在3D导览界面中的景深信息。
  5. 根据权利要求1或2所述的方法,其中,所述在目标服务界面显示处于执行与所述目标服务对应的动作的状态的3D数字人以及与所述目标服务对应的所述目标显示对象,包括:
    当所述目标服务为内容推荐服务时,在3D推荐界面的第一区域中显示3D列表;其中,所述3D列表包括:与现实场景提供的多个推荐内容一一对应的多个卡片;
    在3D推荐界面的第二区域中显示处于执行第二预设动作的状态的3D数字人,控制3D数字人基于所述多个卡片,对现实场景提供的多个推荐内容进行介绍;其中,所述第二区域位于所述第一区域一侧,所述3D数字人在所述3D推荐界面中的景深信息小于所述3D列表在所述3D推荐界面中的景深信息。
  6. 根据权利要求5所述的方法,其中,所述控制3D数字人基于所述多个卡片,对现实场景提供的多个推荐内容进行介绍,包括:
    从与所述多个推荐内容一一对应的多个卡片中,获取待推荐的目标推荐内容对应的目标卡片;
    对于所述目标卡片进行放大处理,获得放大后的目标卡片;
    在3D推荐界面中将放大后的目标卡片显示在所述3D数字人与所述3D列表之间,控制所述3D数字人在执行第二预设动作的同时对所述目标推荐内容进行介绍;其中,所述放大后的目标卡片在3D推荐界面中的景深信息大于所述3D数字人在3D推荐界面中的景深信息,且小于所述3D列表在3D推荐界面中的景深信息。
  7. 根据权利要求6所述的方法,其中,所述控制所述3D数字人在执行第二预设动作的同时对所述目标推荐内容进行介绍,包括:
    获取所述目标推荐内容对应的介绍信息;其中,所述介绍信息包括:第一语音信息和第一文字信息;
    在所述放大后的目标卡片中展示所述第一文字信息;
    控制所述3D数字人在播放所述第一语音信息的同时,执行所述第二预设动作,以实现对所述目标推荐内容进行介绍;其中,所述第二预设动作包括:与所述第一语音信息对应的唇部动作、肢体动作和眼部动作中的任意一种或多种。
  8. 根据权利要求1或2所述的方法,其中,所述在目标服务界面显示处于执行与所述目标服务对应的动作的状态的3D数字人以及与所述目标服务对应的所述目标显示对象,包括:
    当所述目标服务为问答服务时,获取用户通过语音操作输入的提问信息;
    基于所述提问信息,获取对应的应答结果;其中,所述应答结果包括:第二文字信息和第二语音信息;
    在问答界面的第一区域中显示所述第二文字信息;
    在问答界面的第二区域中显示处于执行第三预设动作的状态的3D数字人,控制3D数字人播放所述第二语音信息,以实现对用户的提问进行应答;其中,所述第三预设动作包括:与所述第二语音信息对应的唇部动作、肢体动作和眼部动作中的任意一种或多种。
  9. 根据权利要求8所述的方法,其中,在所述获取用户通过语音操作输入的提问信息之后,所述方法还包括:
    确定所述提问信息是否包含与3D导览服务匹配的第一预设信息或者与内容推荐服务匹配的第二预设信息;
    若确定所述提问信息包含所述第一预设信息,则从所述问答界面切换至3D导览界面,以提供3D导览服务;
    或者,若确定所述提问信息包含所述第二预设信息,则从所述问答界面切换至3D推荐界面,以提供内容推荐服务;
    或者,若确定所述提问信息不包含所述第一预设信息和所述第二预设信息,则基于所述提问信息,获取对应的应答结果。
  10. 根据权利要求1所述的方法,其中,在所述在首页界面中显示至少一个服务对应的标识信息之前,所述方法还包括:
    在显示处于静默状态下的所述3D数字人的过程中,获得用户的图像信息;
    确定所述用户的图像信息是否满足用于指示唤醒所述3D数字人的预设条件;
    若确定所述用户的状态为用于指示唤醒所述3D数字人的预设状态,将所述3D数字人唤醒,获取用于表示欢迎所述用户的问候信息;其中,问候信息包括:第三文字信息和第三语音信息;
    在所述首页界面中第三文字信息;
    在所述首页界面中,控制所述3D数字人播放第三语音信息的同时,执行第四预设动作,以实现对用户进行打招呼;其中,所述第四预设动作包括:与第三语音信息对应的唇部动作和用于表示欢迎所述用户的肢体动作。
  11. 根据权利要求10所述的方法,其中,所述用于指示唤醒所述3D数字人的预设条件,包括:所述用户的图像信息表明所述用户朝向靠近所述3D虚拟人所在电子设备的方向运动,或,所述用户的人脸区域在所述用户的图像信息中所占的比例满足预设阈值。
  12. 根据权利要求10所述的方法,其中,所述获取用于表示欢迎所述用户的问候信息,包括:
    对所述用户的图像信息进行分析,提取所述用户的特征信息;其中,所述用户的特征信息包括:性别信息、年龄信息和身份信息中的任意一种或多种;
    基于所述用户的特征信息,获取所述用于表示欢迎所述用户的问候信息。
  13. 一种电子设备,包括:处理器以及存储有可在处理器上运行的计算机程序的存储器,其中,所述处理器执行所述程序时实现如权利要求1至12任一项所述的交互方法的步骤。
  14. 一种计算机可读存储介质,包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行如权利要求1至12任一项所述的交互方法的步骤。
PCT/CN2022/113037 2021-08-31 2022-08-17 交互方法、电子设备及存储介质 WO2023030010A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111010753.7A CN113641442A (zh) 2021-08-31 2021-08-31 交互方法、电子设备及存储介质
CN202111010753.7 2021-08-31

Publications (1)

Publication Number Publication Date
WO2023030010A1 true WO2023030010A1 (zh) 2023-03-09

Family

ID=78424551

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/113037 WO2023030010A1 (zh) 2021-08-31 2022-08-17 交互方法、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN113641442A (zh)
WO (1) WO2023030010A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117198291A (zh) * 2023-11-08 2023-12-08 四川蜀天信息技术有限公司 一种语音控制终端界面的方法、装置及系统
CN117519663A (zh) * 2024-01-08 2024-02-06 广州趣丸网络科技有限公司 一种数字人智能生产平台

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641442A (zh) * 2021-08-31 2021-11-12 京东方科技集团股份有限公司 交互方法、电子设备及存储介质
CN115273865A (zh) * 2022-07-26 2022-11-01 中国第一汽车股份有限公司 一种智能语音交互方法、装置、设备和存储介质
CN116701759B (zh) * 2023-06-06 2023-11-24 南京莱医特电子科技有限公司 一种虚拟展馆的推荐方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000702A (zh) * 2006-01-09 2007-07-18 北京东方兴华科技发展有限责任公司 一种自助服务系统及方法
CN103516808A (zh) * 2013-10-21 2014-01-15 上海佳世展览有限公司 智慧展馆移动终端虚实交互平台
CN104461525A (zh) * 2014-11-27 2015-03-25 韩慧健 一种可自定义的智能咨询平台生成系统
US20150370323A1 (en) * 2014-06-19 2015-12-24 Apple Inc. User detection by a computing device
CN111291151A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 交互方法、装置及计算机设备
US20210174084A1 (en) * 2019-12-09 2021-06-10 Electronics And Telecommunications Research Institute Method for human-machine interaction and apparatus for the same
CN112990043A (zh) * 2021-03-25 2021-06-18 北京市商汤科技开发有限公司 一种服务交互方法、装置、电子设备及存储介质
CN113641442A (zh) * 2021-08-31 2021-11-12 京东方科技集团股份有限公司 交互方法、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000702A (zh) * 2006-01-09 2007-07-18 北京东方兴华科技发展有限责任公司 一种自助服务系统及方法
CN103516808A (zh) * 2013-10-21 2014-01-15 上海佳世展览有限公司 智慧展馆移动终端虚实交互平台
US20150370323A1 (en) * 2014-06-19 2015-12-24 Apple Inc. User detection by a computing device
CN104461525A (zh) * 2014-11-27 2015-03-25 韩慧健 一种可自定义的智能咨询平台生成系统
CN111291151A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 交互方法、装置及计算机设备
US20210174084A1 (en) * 2019-12-09 2021-06-10 Electronics And Telecommunications Research Institute Method for human-machine interaction and apparatus for the same
CN112990043A (zh) * 2021-03-25 2021-06-18 北京市商汤科技开发有限公司 一种服务交互方法、装置、电子设备及存储介质
CN113641442A (zh) * 2021-08-31 2021-11-12 京东方科技集团股份有限公司 交互方法、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117198291A (zh) * 2023-11-08 2023-12-08 四川蜀天信息技术有限公司 一种语音控制终端界面的方法、装置及系统
CN117198291B (zh) * 2023-11-08 2024-01-23 四川蜀天信息技术有限公司 一种语音控制终端界面的方法、装置及系统
CN117519663A (zh) * 2024-01-08 2024-02-06 广州趣丸网络科技有限公司 一种数字人智能生产平台
CN117519663B (zh) * 2024-01-08 2024-04-26 广州趣丸网络科技有限公司 一种数字人智能生产平台

Also Published As

Publication number Publication date
CN113641442A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
WO2023030010A1 (zh) 交互方法、电子设备及存储介质
CN110850983B (zh) 视频直播中的虚拟对象控制方法、装置和存储介质
TWI778477B (zh) 互動方法、裝置、電子設備以及儲存媒體
JP6902683B2 (ja) 仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器
WO2021043053A1 (zh) 一种基于人工智能的动画形象驱动方法和相关装置
WO2021109652A1 (zh) 文字虚拟礼物的赠送方法、装置、设备及存储介质
CN107340859B (zh) 多模态虚拟机器人的多模态交互方法和系统
WO2020083021A1 (zh) 视频录制方法、视频播放方法、装置、设备及存储介质
CN110868635B (zh) 视频处理方法、装置、电子设备及存储介质
US7225414B1 (en) Method and system for virtual touch entertainment
JP2021192222A (ja) 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム
WO2021213067A1 (zh) 物品显示方法、装置、设备及存储介质
WO2022116751A1 (zh) 交互方法、装置、终端、服务器和存储介质
CN112379812A (zh) 仿真3d数字人交互方法、装置、电子设备及存储介质
CN112396679B (zh) 虚拟对象显示方法及装置、电子设备、介质
CN111538456A (zh) 基于虚拟形象的人机交互方法、装置、终端以及存储介质
KR20130032620A (ko) 3차원 사용자 아바타를 이용한 동영상 제작장치 및 방법
CN109508090B (zh) 一种具备可交互性的增强现实展板系统
CN113709549A (zh) 特效数据包生成、图像处理方法、装置、设备及存储介质
JP7421010B2 (ja) 情報表示方法、装置及び記憶媒体
CN111862280A (zh) 虚拟角色控制方法、系统、介质及电子设备
CN112424736A (zh) 机器交互
CN112990043A (zh) 一种服务交互方法、装置、电子设备及存储介质
Zhang Design of virtual reality augmented reality mobile platform and game user behavior monitoring using deep learning
WO2023241154A1 (zh) 基于信息流广告的互动方法、装置、设备及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22863150

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE