WO2024039002A1 - 아바타를 이용한 대화 기능을 제공하는 전자 장치 및 방법 - Google Patents

아바타를 이용한 대화 기능을 제공하는 전자 장치 및 방법 Download PDF

Info

Publication number
WO2024039002A1
WO2024039002A1 PCT/KR2023/006655 KR2023006655W WO2024039002A1 WO 2024039002 A1 WO2024039002 A1 WO 2024039002A1 KR 2023006655 W KR2023006655 W KR 2023006655W WO 2024039002 A1 WO2024039002 A1 WO 2024039002A1
Authority
WO
WIPO (PCT)
Prior art keywords
avatar
electronic device
conversation
screen
display
Prior art date
Application number
PCT/KR2023/006655
Other languages
English (en)
French (fr)
Inventor
성원규
김문정
김영록
김태영
송태양
유종혁
이창한
박지혜
홍현주
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220129788A external-priority patent/KR20240025431A/ko
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US18/326,318 priority Critical patent/US20240061501A1/en
Publication of WO2024039002A1 publication Critical patent/WO2024039002A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Definitions

  • Embodiments of the present disclosure relate to an electronic device and method that provides a conversation function using an avatar in a virtual space.
  • Electronic devices such as smart phones, mobile phones, and tablet devices can be representative examples of electronic devices that are easy for users to carry.
  • Application programs to provide various functions may be installed on the electronic device.
  • the electronic device may execute an installed application program in response to a user's manipulation.
  • the electronic device may display information according to the execution of an application program through a display.
  • the electronic device allows users to use functions such as games, shopping, or chatting using avatars in a virtual space based on a network environment.
  • the avatar function provided by the electronic device in a virtual space based on a network environment is limited to the avatar moving on behalf of the user or having a conversation using voice or text.
  • an electronic device includes a front camera, a camera module configured to output an electrical signal by photographing a subject, and a display panel or touch panel, and displays an image on the display panel, or
  • a display module configured to output an electrical signal according to a touch of the touch panel
  • a communication module configured to communicate with an external electronic device based on a network environment, and an electrical connection between the camera module, the display module, or the communication module. It may include at least one processor configured to control the operation of the camera module, the display module, or the communication module.
  • the at least one processor displays the avatar of at least one participant among a plurality of participants including the user of the electronic device in a virtual space provided for a conversation function, and displays the avatar of at least one participant among the plurality of participants.
  • a speech indicator indicating the speech state is displayed in response to an utterance by a speaker, and the display module can be controlled to change and display the gaze of the avatar in the virtual space based on the utterance by the at least one speaker.
  • a method of providing a conversation function using an avatar in an electronic device includes displaying an avatar of at least one participant among a plurality of participants including a user of the electronic device in a virtual space provided for the conversation function. and, displaying an utterance indicator indicating an utterance state in response to an utterance by at least one speaker among the plurality of participants, and changing the gaze of the avatar in the virtual space based on the utterance by the at least one speaker. It may include a display action.
  • an electronic device includes a front camera and may include a camera module configured to output an electrical signal by photographing a subject.
  • the electronic device may include a display panel or a touch panel, and may include a display module configured to display an image on the display panel or output an electrical signal according to a touch of the touch panel.
  • the electronic device may include a communication module configured to communicate with an external electronic device based on a network environment.
  • the electronic device may include at least one processor configured to control the operation of the camera module, the display module, or the communication module by electrical connection with the camera module, the display module, or the communication module.
  • the at least one processor may identify that a speaker has changed among attendees who participated in a conversation using an avatar based on data collected from the external electronic device through the communication module.
  • the at least one processor may configure a first conversation screen with a changed camera angle based on the speaker avatar corresponding to the changed speaker.
  • the at least one processor may control the display module to display the first conversation screen on the display panel.
  • a method of providing a conversation function using an avatar in an electronic device may include outputting a first conversation screen using an avatar based on data collected from an external electronic device based on a network environment. there is.
  • the method may include identifying a speaker among attendees based on the collected data.
  • the method may include configuring a second conversation screen by switching the camera angle based on the speaker avatar corresponding to the identified speaker.
  • the method may include converting the first conversation screen to the second conversation screen and outputting the second conversation screen.
  • Figure 1 is a configuration diagram of a system for providing an avatar conversation function in a network environment, according to an embodiment.
  • Figure 2 is a control flow diagram for providing an avatar conversation function in a system, according to one embodiment.
  • Figure 3 is a signal flow diagram for providing an avatar conversation function in a system, according to one embodiment.
  • Figure 4 is a control flowchart to be performed for an avatar-based conversation function in an electronic device, according to one embodiment.
  • Figure 5 is a control flowchart to be performed for an avatar-based conversation function in an operation server, according to one embodiment.
  • Figure 6 is a signal flow diagram for performing an avatar conversation subroutine in a system, according to one embodiment.
  • Figure 7 is a signal flow diagram for performing an avatar conversation subroutine in a system, according to one embodiment.
  • Figure 8 is a signal flow diagram for performing an avatar conversation subroutine in a system, according to one embodiment.
  • Figure 9 is a signal flow diagram for performing an avatar conversation subroutine in a system, according to one embodiment.
  • Figure 10 is a control flowchart for configuring a conversation screen for an avatar conversation function in an electronic device, according to an embodiment.
  • FIG. 11 is a block diagram of an electronic device, according to an embodiment.
  • Figure 12 is an example diagram of a user interface (UI) for each procedure for opening an avatar-based chat room in an electronic device, according to an embodiment.
  • UI user interface
  • FIG. 13 illustrates an example of a user interface provided before entering a chat room for an avatar-based chat function in an electronic device, according to an embodiment.
  • Figure 14 illustrates an example of angle switching in response to a speaker change in an electronic device, according to an embodiment.
  • FIGS. 15A and 15B illustrate an example of angle switching corresponding to manual manipulation in an electronic device, according to an embodiment.
  • Figure 16 illustrates an example of switching the angle of view in response to setting requirements in an electronic device, according to an embodiment.
  • FIG. 17 illustrates an example of view (angle of view) switching in response to manual manipulation in an electronic device, according to an embodiment.
  • FIGS. 18A and 18B illustrate an example of mirroring a user's movements on an avatar using an image captured by a camera in an electronic device, according to an embodiment.
  • FIGS. 19A, 19B, and 19C show examples of movements that are preset in an electronic device and can be applied to an avatar, according to an embodiment.
  • Figures 20A to 20E illustrate an example of changing the screen shape in consideration of the number of participants in an electronic device, according to an embodiment.
  • FIG. 21 illustrates an example of calling an opponent's avatar through manual manipulation in an electronic device, according to an embodiment.
  • FIG. 22 illustrates an example of recording a conversation screen at the request of a user in an electronic device, according to an embodiment.
  • Figure 23 is a signal flow diagram for providing a gift event during a conversation using an avatar in a system, according to an embodiment.
  • Figures 24A to 24I are exemplary diagrams of a user interface (UI) for each procedure for delivering a gift on a conversation screen using an avatar, according to an embodiment.
  • UI user interface
  • Figure 25 is a block diagram of an electronic device in a network environment, according to various embodiments.
  • An embodiment of the present disclosure provides an electronic device and a control method for adjusting the angle or view angle of a camera for providing a conversation screen based on an avatar corresponding to a speaker in a virtual space based on a network environment. can do.
  • an electronic device can provide a conversation screen centered on an avatar corresponding to a speaker in a virtual space, allowing a user to obtain a natural experience as if meeting the other person in person and having a conversation.
  • Figure 1 is a configuration diagram of a system 100 for providing an avatar conversation function in a network environment, according to one embodiment.
  • a system 100 for providing an avatar conversation function may include a plurality of electronic devices (eg, electronic devices 2501, 2502, and 2504 of FIG. 23).
  • the plurality of electronic devices 2501, 2502, and 2504 may include a plurality of electronic devices 110 or a plurality of wearable devices 120.
  • the system 100 may include one or multiple servers 130.
  • the plurality of electronic devices 110 may transmit or receive data to or from the server 130 through a network 140 that provides a communication channel using wireless or wired resources.
  • the system 100 for providing an avatar conversation function may include a plurality of electronic devices (e.g., electronic devices 2501, 2502, and 2504 of FIG. 23) or a server 130. You can.
  • the plurality of electronic devices 2501, 2502, and 2504 may include a plurality of electronic devices 110 or a plurality of wearable devices 120.
  • the plurality of electronic devices 110 may include first to nth electronic devices 111, 113, and 115.
  • the first to nth electronic devices 111, 113, and 115 may be the same or different types of devices.
  • the first to nth electronic devices 111, 113, and 115 can install an application program, such as a smartphone or a tablet PC, run the installed application program, and use the functions provided by the executed application program. It can be a device that can
  • the plurality of wearable devices 120 may include various types of wearable devices such as a smart watch 121, wireless earphones 123, or smart glasses 125.
  • the plurality of wearable devices 120 may manage information such as the user's physical condition, amount of exercise, or movement, or provide the user with functions such as listening to music or virtual space.
  • the server 130 may include heterogeneous servers 131 and 133 that provide the same or different functions or functions.
  • the heterogeneous servers 131 and 133 included in the server 130 may include an authorization server, a matching server, a present server, or an asset server. .
  • the authentication server may confirm the user's access qualifications and issue access rights.
  • the matching server may provide an API that allows users to create and register an operating server.
  • the matching server may provide a list so that users can participate in the operation server.
  • the matching server can manage status information of users.
  • the matching server may send an invitation message to the user.
  • the operating server can collect real-time data. Users connected to the operating server can upload or download data.
  • the operating server may be implemented to run on the electronic device 110 or an external server.
  • the asset server can provide data such as mesh and texture that can render an avatar or background.
  • the heterogeneous servers may be modularized and added to one server.
  • the plurality of electronic devices 111, 113, and 115 will be collectively referred to as the electronic device 110, and the plurality of wearable devices 121, 123, and 125 will be collectively referred to as the wearable device 120. .
  • the electronic device 110 receives data for the avatar conversation function through a network 140 (e.g., the first network 2598 and the second network 2599 in FIG. 23) that operates based on one or more protocols. It can be exchanged with other electronic devices or servers 130.
  • the one or more protocols enable communication in a network environment such as a short-range communication network (e.g., the first network 2598 in FIG. 23) or a long-distance communication network (e.g., the second network 2599 in FIG. 23). It may be a protocol prepared to perform.
  • the protocol prepared for the short-range communication network may include, for example, Bluetooth, WiFi direct, or IrDA, etc.
  • the long-distance communication network may include, for example, a legacy cellular network, 5G networks, next-generation communications networks, the Internet, or telecommunications networks such as computer networks (e.g., LAN or WAN).
  • the electronic device 110 can be connected to the wearable device 120 through a predetermined connection procedure.
  • the connection procedure may be performed according to a protocol established for each communication method.
  • the protocol provided for each communication method allows communication in a network environment such as, for example, a short-range communication network (e.g., the first network 2598 in FIG. 23) or a long-distance communication network (e.g., the second network 2599 in FIG. 23). It may be a protocol prepared to perform.
  • the protocol prepared for the short-range communication network may include, for example, Bluetooth, WiFi direct, or IrDA, etc.
  • the long-distance communication network may include, for example, a legacy cellular network, 5G networks, next-generation communications networks, the Internet, or telecommunications networks such as computer networks (e.g., LAN or WAN).
  • the electronic device 110 may collect data for the avatar conversation function from another electronic device, a wearable device 120, or a server 130, which is an external electronic device, based on the network environment 140.
  • the electronic device 110 may output a first conversation screen using an avatar through a display based on the collected data.
  • the electronic device 110 can identify speakers among attendees based on the collected data.
  • the electronic device 110 may configure the second conversation screen by switching the camera angle, view angle, or screen view based on the speaker avatar corresponding to the identified speaker.
  • the electronic device 110 may change the conversation screen for the avatar conversation function from the first conversation screen to the second conversation screen and output it.
  • the electronic device 110 may acquire the voice characteristics of the participants based on the participants' voice data included in the collected data.
  • the electronic device 110 may predict a participant having an acquired voice characteristic using information about a preset reference voice characteristic.
  • the electronic device 110 may determine the avatar of the predicted participant among the avatars participating in the conversation as the speaker avatar.
  • the electronic device 110 may collect the voice data of the attendees at a certain time or at a certain cycle. The electronic device 110 may use the collected voice data to obtain information about the standard voice characteristics of each participant. The electronic device 110 may register information regarding the acquired standard voice characteristics for each participant.
  • the electronic device 110 may configure a conversation screen with a switched camera angle based on an electrical signal provided by a user's swipe operation on the touch screen.
  • the electronic device 110 may output a conversation screen through a display.
  • the electronic device 110 may configure a conversation screen with a switched camera angle based on an electrical sensing signal obtained by a user's left/right or up/down movement.
  • the electronic device 110 may output a conversation screen through a display.
  • the electronic device 110 may adjust or change the angle of view of the conversation screen based on the collected data.
  • the electronic device 110 may configure a conversation screen to which an adjusted or changed viewing angle is applied.
  • the electronic device 110 may output a conversation screen through a display.
  • the electronic device 110 may change the conversation screen to a conversation screen in which the specific avatar is zoomed in.
  • the electronic device 110 may switch to a conversation screen that zooms in on a specific object in response to the user's swipe action.
  • the electronic device 110 may switch to a conversation screen with the specific avatar zoomed out.
  • the electronic device 110 may switch to a conversation screen in which a specific object is zoomed out in response to the user's swipe action.
  • the electronic device 110 acquires a facial expression or gesture from the user's image captured by the front camera, and mirrors the acquired facial expression or gesture to the user's avatar included in the conversation screen. You can.
  • the electronic device 110 may obtain the facial expressions or gestures of the attendees from the collected data, and mirror the acquired facial expressions or gestures of the attendees on the avatars of the attendees included in the conversation screen. .
  • the electronic device 110 may adjust the angle of view in consideration of the number of attendees and output a conversation screen prepared by the adjusted angle of view.
  • the electronic device 110 may transmit a signal to call an external electronic device corresponding to the touched avatar.
  • the electronic device 110 may extract images corresponding to a conversation based on the collected data, create a conversation record image using the extracted images, and store the created conversation record image.
  • the server 130 may open a chat room to provide an avatar-based conversation function in response to a request from the electronic device 110.
  • the server 130 may request entry into the chat room from the electronic device 110 of the guest to be invited to the opened chat room.
  • the server 130 can configure a conversation screen suitable for each electronic device 110 based on data collected from the electronic device 110 and transmit information about the constructed conversation screen to the corresponding electronic device 110. there is.
  • FIG. 2 is a control flow diagram 200 for providing an avatar conversation function in a system (e.g., system 100 of FIG. 1), according to one embodiment.
  • the system 100 may perform a procedure for opening a chat room in operation 210.
  • the procedure for opening a chat room may include a chat room creation procedure to prepare a chat room or a chat room entry procedure for participants to access the chat room.
  • the participants may include, for example, a host who opened a chat room or at least one guest who has been requested to participate in the chat room.
  • the chat room creation procedure is performed by an electronic device corresponding to a host (e.g., the first electronic device 111 in FIG. 1) (hereinafter referred to as “host terminal 111”) operating a server (e.g., the operation server 130 in FIG. 1). )) may include a request procedure for requesting the opening of a chat room.
  • the chat room creation procedure may include a creation procedure in which the operation server 130 creates a chat room in response to the request.
  • the chat room may, for example, correspond to a virtual space where avatars can converse on behalf of participants.
  • the operation server 130 connects an electronic device (e.g., the second electronic device 113 or the nth electronic device 115 of FIG. 1) corresponding to the guest requested to participate in the conversation by the host terminal 111. ) (hereinafter referred to as “guest terminals 113, 115”) may include a calling procedure.
  • the chat room entry procedure may include a response procedure in which the guest terminals 113 and 115 enter the chat room in response to a call from the operation server 130.
  • the host terminal 111 and the guest terminal 113 or 115 may be collectively referred to as 'participating terminals (eg, electronic devices 110 in FIG. 1)' that have entered the chat room for conversation.
  • system 100 may perform an avatar-based conversation procedure at operation 220.
  • the avatar-based conversation procedure may include an avatar setting procedure for setting a host avatar to replace the host or a guest avatar to replace the guest in the chat room.
  • the host avatar or the guest avatar may be collectively referred to as a 'participation avatar' that replaces the participant who participated in the conversation.
  • Information about the participating avatar may be shared between participating terminals 110, for example.
  • the avatar-based conversation procedure may include a screen configuration procedure for configuring a conversation screen on which a conversation will be held by participating avatars.
  • the conversation screen may be configured for each participant based on information collected by the operation server 130 from participants (eg, host or guest) through the participation terminal 110.
  • a conversation screen configured for each participant by the operation server 130 may be provided to the participating terminal 110.
  • a conversation screen configured for each participant may be prepared, for example, from the viewpoint of the participant.
  • the conversation screen may be configured based on information collected by a participating terminal (e.g., host terminal 111) from another participating terminal (e.g., guest terminal 113 or 115).
  • the conversation screen constructed by the participation terminal 110 can reflect the user's request in real time, regardless of the opinions of other participants.
  • the avatar-based conversation procedure may include movements of a participating avatar on a conversation screen (e.g., facial expressions, gaze, or body movements such as hands, arms, neck, or legs) or a conversation performance procedure for performing a conversation between participating avatars.
  • Conversations between the participating avatars may be conducted using natural language, for example, the participants' voices or text converted from the participants' voices.
  • at least one speaker among the participants may be identified, and the conversation screen may be changed based on the at least one speaker's avatar (hereinafter referred to as “speaker avatar”).
  • the change in the conversation screen may, for example, constitute a conversation screen in which the gaze of the avatar corresponding to the listener (hereinafter referred to as “listener avatar”) is changed to the direction of the speaker avatar.
  • the conversation screen is changed by, for example, reflecting (e.g. mirroring) the movements of the participants (e.g. facial expressions, gaze or body movements such as hands, arms, neck or legs). It may constitute a .
  • the participants' movements can be obtained, for example, from images of users captured through a camera.
  • the participants' movements may be obtained, for example, by sensing information measured by a sensor (e.g., a gyroscope sensor) provided in the electronic device 110.
  • the participants' movements may be obtained, for example, For example, it can be obtained through sensing information measured by a sensor (eg, a gyroscope sensor) provided in a wearable device (eg, wearable device 120 of FIG. 1).
  • changing the conversation screen may mean configuring the conversation screen by changing the camera angle so that the speaker avatar is positioned at the center.
  • changing the conversation screen may mean configuring the conversation screen by rotating the camera angle in a specific direction (e.g., left/right, up/down, clockwise, or counterclockwise) around the speaker avatar.
  • the camera angle may correspond to a direction in which participants are seen having a conversation in a virtual space.
  • changing the conversation screen may mean configuring the conversation screen by changing the angle of view.
  • the angle of view may be, for example, a narrow angle of view in which the conversation screen focuses on a specific object (eg, a speaker avatar), or a wide angle of view in which the conversation screen entirely includes objects (eg, participating avatars).
  • the operation of changing the angle of view for forming the conversation screen to a narrow angle of view may correspond to a zoom-in operation.
  • the operation of changing the angle of view for configuring the conversation screen to a wider angle of view may correspond to a zoom-out operation.
  • the angle or angle of view that changes the conversation screen may be, for example, a condition that changes the view of the conversation screen.
  • Conditions for changing the view of the conversation screen may include the screen shape, such as a horizontal screen or a vertical screen.
  • the view type which is the form of the screen, may be determined considering the way the user holds the electronic device and/or the number of participating avatars to be included in the screen.
  • the system 100 may perform a procedure for closing the chat room in operation 230.
  • a procedure for closing a chat room may include an exit procedure in which a specific participant leaves or a closure procedure in which all participants leave.
  • the participants may include, for example, a host who opened a chat room or at least one guest participating in the chat room.
  • a guest terminal corresponding to a specific participant among participants participating in a conversation requests exit from the operation server 130, This can be performed by the operation server 130 approving this.
  • the operation server 130 may ask other participating terminals (eg, the host terminal 111) whether they agree to the participant's exit.
  • the closing procedure is, for example, a host terminal (e.g., the first electronic device 1111 in FIG. 1) requests the operation server 130 to close the chat room, and the operation server 130 approves the request. It can be done.
  • the operation server 130 may receive confirmation of the chat room closure from the guest terminal (e.g., the nth guest terminal 115) that remains without leaving before approving the chat room closure.
  • FIG. 3 is a signal flow diagram for providing an avatar conversation function in a system (eg, system 100 of FIG. 1), according to one embodiment.
  • the host terminal 111 may request the operation server 130 to open a chat room and/or invite a guest.
  • the host terminal 111 may provide information about the chat room to be opened (e.g., chat room name or password) to the operation server 130.
  • the host terminal 111 may provide information about the guest to be invited (eg, participant phone number or participant ID) to the operation server 130.
  • the operation server 130 Upon receiving a request for opening and inviting a chat room from the host terminal 111, the operation server 130, in operation 313 or 315, sends a first guest terminal 113 (e.g., FIG. A request to enter the chat room may be made through the second electronic device 113 of FIG. 1) and/or the n-th guest terminal 115 (e.g., the n-th electronic device 115 of FIG. 1).
  • the operation server 130 may include information about the chat room (e.g., chat room name) in a message requesting entry to be transmitted to the first guest terminal 113 and/or the n-th guest terminal 115. Can be included.
  • the information about the chat room may be link information (eg, URL information) through which one can enter the chat room.
  • the first guest terminal 113 and/or the nth guest terminal 115 may respond to entry into the chat room opened by the operation server 130 in operation 317 or operation 319.
  • the first guest terminal 113 and/or the n-th guest terminal 115 may display link information (e.g., URL information) provided by the operation server 130 for an admission request.
  • link information e.g., URL information
  • the operation server 130 completes responses from all invited guest terminals (e.g., the first guest terminal 113 and/or the n-th guest terminal 115) after opening the chat room. , you can open a chat room and respond to an invitation using the host terminal 111. For example, when a conversation is possible, the operation server 130 may transmit information about the chat room and/or information about attending guests to the host terminal 111.
  • invited guest terminals e.g., the first guest terminal 113 and/or the n-th guest terminal 115
  • Participating terminals 110 e.g., host terminal 111, first guest terminal 113, and/or n-th guest terminal 115 entering the chat room perform conversation by avatar in operation 323. You can.
  • the operation server 130 may set a participating avatar including a host avatar or a guest avatar. The operation server 130 may share information about the participating avatar with the participating terminals 110.
  • the participating terminals 110 are collected through the operation server 130, or
  • the conversation screen can be configured based on information collected directly from other participating terminals.
  • the conversation screen constructed by the participation terminal 110 can reflect the user's request in real time, regardless of the opinions of other participants.
  • the participating terminals 110 may change the conversation screen in consideration of events such as speaker change, participant's manual operation, or participant's movement.
  • the participating terminals 110 can exchange information about the event with each other.
  • the participating terminals 110 may identify the speaker currently speaking based on the participant's voice data or an image taken of the participant.
  • the participating terminals 110 may configure a new conversation screen by changing the angle and/or view angle based on the identified speaker. In one embodiment, the participating terminals 110 may configure a new conversation screen by changing the angle and/or view angle in response to the participant's (or user's) manual manipulation. In one embodiment, the participating terminals 110 acquire the movements of participants (e.g., hosts or guests) from images taken by themselves or images taken by other participating terminals, and display a conversation screen reflecting the obtained movements. can be newly configured. In one embodiment, the participating terminals 110 acquire the movements of participants (e.g., host or guest) based on an internal sensing signal or an external sensing signal provided by another participating terminal, and conduct a conversation reflecting the obtained movements. The screen can be reconfigured.
  • participants e.g., hosts or guests
  • the participating terminals 110 acquire the movements of participants (e.g., host or guest) based on an internal sensing signal or an external sensing signal provided by another participating terminal, and conduct a conversation reflecting the obtained movements.
  • the screen can be
  • the operation server 130 may configure a conversation screen for each participant based on information collected from the participating terminals 110.
  • the operation server 130 may provide a conversation screen configured for each participant to the participating terminal 110.
  • the operation server 130 may change the conversation screen for each participant by considering events such as a change in speaker, manual manipulation of the participant, or movement of the participant.
  • the operation server 130 may collect information about events occurring in the participating terminals 110.
  • the operation server 130 may identify the speaker currently speaking based on the participant's voice data or an image taken of the participant.
  • the operation server 130 may configure a new conversation screen for each participant by changing the angle and/or angle of view based on the identified speaker.
  • the operation server 130 may configure a new conversation screen to be provided to the participating terminals 110 by changing the angle and/or view angle in response to the manual operation of the participant (or user).
  • the operation server 130 acquires the movements of participants (e.g., host or guest) from images captured by the participating terminals 110, and refreshes the conversation screen for each participant reflecting the obtained movements. It can be configured.
  • the operation server 130 acquires the movements of participants (e.g., hosts or guests) based on sensing signals provided by the participating terminals 110, and creates a conversation for each participant reflecting the obtained movements.
  • the screen can be reconfigured.
  • the operation server 130 may provide information about the newly configured conversation screen to the participating terminals 110.
  • the guest terminal When a user requests to leave the chat room, the guest terminal (eg, the first guest terminal 113) may request the operation server 130 to leave in operation 325.
  • the operation server 130 receives an exit request from the first guest terminal 113, in operation 327, the operation server 130 sends an exit approval request to the host terminal ( 111).
  • the host terminal 111 may transmit an exit approval response agreeing to the exit of the first guest terminal 113 to the operation server 130.
  • the operation server 130 may transmit an exit approval request to inform the nth guest terminal 115, which is another guest terminal, that the first guest terminal 113 has requested to leave.
  • the n-th guest terminal 115 may transmit an exit approval response agreeing to the exit of the first guest terminal 113 to the operation server 130.
  • the host terminal 111 may request the operation server 130 to close the chat room in operation 333.
  • the operation server 130 may notify the nth guest terminal 115, which is the remaining guest terminal, of the chat room closure in operation 335.
  • the n guest terminal 115 may transmit a response confirming that the chat room is closed to the operation server 130.
  • the operation server 130 may notify the host terminal 111 that the chat room is closed.
  • FIG. 4 is a control flowchart to be performed for an avatar-based conversation function in an electronic device (eg, the electronic device 110 of FIG. 1 ), according to an embodiment.
  • the electronic device 110 may determine whether an event requesting the opening of a chat room by the user occurs in operation 411. .
  • the event requesting the opening of a chat room is, for example, an application that provides an avatar-based conversation function is executed, and a request is made to open a chat room through a user interface (UI: user interface) provided by the executed application. It can be generated by inputting information.
  • UI user interface
  • the electronic device 110 When a request is made to open a chat room by a user, the electronic device 110 sends a request for opening a chat room and inviting participants to an operation server (e.g., the server 130 in FIG. 1 or the operation server 130 in FIG. 3) in operation 413. It can be sent to .
  • the electronic device 110 may provide information about the chat room to be opened (e.g., chat room name or password) to the operation server 130.
  • the electronic device 110 may provide information about the guest to be invited (eg, a participant's phone number or a participant's ID) to the operation server 130.
  • 'participants' may refer to the host and one or more guests participating in the chat room.
  • Electronic devices corresponding to the participants may include the electronic device 110 and one or more participating terminals.
  • the one or more participating terminals may be guest terminals.
  • the electronic device 110 is a guest terminal
  • one participating terminal among the one or plural participating terminals may be a host terminal.
  • the electronic device 110 may determine whether opening a chat room using the avatar-based chat function was successful. Success in opening the chat room means, for example, that the operation server 130 opens the chat room and then invites all guest terminals (e.g., the first guest terminal 113 in FIG. 3 and/or the n-th guest terminal ( This is because the response by 115)) has been completed.
  • the electronic device 110 may receive information about the chat room and/or information about the guests present.
  • the electronic device 110 may determine whether a request to enter a chat room established to use the avatar-based conversation function is received from the operation server 130.
  • the entry request may be provided from the operation server 130, for example, by inviting another electronic device to a chat room that another electronic device has requested to open.
  • the electronic device 110 may transmit an admission response corresponding to the admission request from the operation server 130 to the operation server 130 in operation 419. For example, when transmitting an entry response, the electronic device 110 may transmit information about the avatar to be used by the electronic device 110 to the operation server 130.
  • the electronic device 110 If the electronic device 110 succeeds in opening a chat room or responds to an entry request, in operation 421, it displays one or more participating terminals (e.g., guest terminals (e.g., the first terminal in FIG. 3) on a chat screen provided in the virtual space.
  • One or more participating terminals e.g., guest terminals (e.g., the first terminal in FIG. 3)
  • An avatar-based conversation function with the guest terminal 113 and/or the nth guest terminal 115 may be provided to the user.
  • the electronic device 110 may configure a conversation screen based on information collected through the operation server 130 or directly collected from one or more participating terminals.
  • the conversation screen constructed by the electronic device 110 may reflect the user's request in real time, regardless of the opinions of other participants.
  • the electronic device 110 may change the conversation screen in consideration of events such as a change in speaker, manual manipulation of a participant, or movement of a participant.
  • the electronic device 110 sends information about the event to one or a plurality of participating terminals (e.g., a guest terminal (e.g., the first guest terminal 113 in FIG. 3 and/or the nth may be exchanged with the guest terminal 115.
  • a guest terminal e.g., the first guest terminal 113 in FIG. 3 and/or the nth may be exchanged with the guest terminal 115.
  • the electronic device 110 may identify the speaker currently speaking based on, for example, the participant's voice data or an image taken of the participant.
  • the electronic device 110 may configure a new conversation screen by changing the angle and/or angle of view based on the identified speaker.
  • the electronic device 110 may, for example, configure the conversation screen as a participant (or user).
  • the conversation screen can be newly configured by changing the angle and/or angle of view in response to manual manipulation of the electronic device 110.
  • the electronic device 110 may display images captured by the electronic device 110 or captured by one or more participating terminals.
  • the movements of the participants e.g., host or guest
  • a new conversation screen can be configured to reflect the obtained movements.
  • the electronic device 110 may use, for example, an internal sensing signal or an internal sensing signal.
  • movements of participants e.g., hosts or guests
  • a conversation screen reflecting the obtained movements may be newly configured.
  • the electronic device 110 may output a conversation screen using an avatar-based conversation function based on information about the conversation screen provided from the operation server 130.
  • Information about the conversation screen provided from the operation server 130 is for each participant based on information collected by the operation server 130 from the electronic device 110 and/or one or more participating terminals. This may be information about the configured conversation screen.
  • the operation server 130 may change the conversation screen for each participant in consideration of events such as a change in speaker, manual manipulation of the participant, or movement of the participant.
  • the electronic device 110 may collect information about events occurring internally and transmit it to the operation server 130 so that the operation server 130 can change the conversation screen.
  • the electronic device 110 may transmit the participant's voice data or a photographed image of the participant to the operation server 130.
  • the transmitted voice data of the participant or an image taken of the participant may be used by the operation server 130 to identify who the speaker is.
  • the conversation screen output by the electronic device 110 based on information about the conversation screen provided by the operation server 130 may be a conversation screen whose angle and/or view angle is changed based on the speaker.
  • the conversation screen output by the electronic device 110 may be a conversation screen whose angle and/or view angle is changed in response to manual manipulation by a participant (or user).
  • the conversation screen output by the electronic device 110 may include participants (e.g., hosts or guests) obtained from images captured by the electronic device 110 and/or one or more participating terminals. It may be a conversation screen that reflects the movements of.
  • the conversation screen output by the electronic device 110 includes participants obtained based on the sensing signal of the electronic device 110 and/or the sensing signal provided by one or more participating terminals It may be a conversation screen that reflects the movements of the host or guest (e.g., host or guest).
  • the electronic device 110 may determine whether a conversation termination request event or a chat room closure request event occurs by the user. For example, when the electronic device 110 is a guest terminal, the conversation end request event may occur for the purpose of leaving the chat room in which the user is currently participating. For example, if the electronic device 110 is a host terminal, the chat room closure request event may occur for the purpose of closing the chat room in which the user is currently participating.
  • the electronic device 110 may terminate the avatar-based conversation function when a conversation termination or chat room closure request event occurs. Terminating the avatar-based conversation function may, for example, correspond to terminating an application program that provides the avatar-based function.
  • FIG. 5 is a control flowchart to be performed for an avatar-based conversation function in an operation server (eg, server 130 of FIG. 1 ), according to an embodiment.
  • an operation server eg, server 130 of FIG. 1
  • the operation server 130 receives a request for opening a chat room and inviting participants from a host terminal (e.g., the first electronic device 111 in FIG. 1 or the host terminal 111 in FIG. 2). You can determine whether it is accepted.
  • the operation server 130 may receive information about the chat room to be opened (eg, chat room name or password) from the host terminal 111.
  • the operation server 130 may receive information about guests to be invited (eg, participant phone number or participant ID) from the host terminal 111.
  • the operation server 130 may open the chat room in operation 513.
  • the operation server 130 may open a chat room using information about the chat room (eg, chat room name or password) received from the host terminal 111.
  • the operation server 130 enters a chat room with a guest terminal (e.g., the first guest terminal 113 or the nth guest terminal 115 in FIG. 2) requested to participate by the host terminal 111. You may request entry.
  • the operation server 130 may request participant entry using information about the guest (eg, participant phone number or participant ID) received from the host terminal 111.
  • the operation server 130 may include information about the corresponding chat room (eg, chat room name).
  • the information about the chat room may be link information (eg, URL information) through which one can enter the chat room.
  • the operation server 130 may determine whether all guest terminals 113 and 115 that have requested entry have completed entering the opened chat room. If only some guest terminals have entered, the operation server 130 may wait until the remaining guest terminals enter. The operation server 130 may repeatedly transmit an entry request up to a predetermined number of times to a guest terminal that has not entered by the elapse of a certain period of time. For example, when a conversation is possible, the operation server 130 may transmit information about the chat room and/or information about attending guests to the host terminal 111.
  • the operation server 130 may provide a conversation function by an avatar in operation 519 when all invited guest terminals 113 and 115 enter.
  • the operation server 130 may configure a conversation screen for each participant based on information collected from participating terminals 110 (e.g., host terminal 111 or guest terminals 113 and 115). .
  • the operation server 130 may provide a conversation screen configured for each participant to the participating terminal 110.
  • the operation server 130 may change the conversation screen for each participant by considering events such as a change in speaker, manual manipulation of the participant, or movement of the participant.
  • the operation server 130 may collect information about events occurring in the participating terminals 110.
  • the operation server 130 may identify the speaker currently speaking based on the participant's voice data or an image taken of the participant. The operation server 130 may configure a new conversation screen for each participant by changing the angle and/or angle of view based on the identified speaker. In one embodiment, the operation server 130 may configure a new conversation screen to be provided to the participating terminals 110 by changing the angle and/or view angle in response to the manual operation of the participant (or user). In one embodiment, the operation server 130 acquires the movements of participants (e.g., host or guest) from images captured by the participating terminals 110, and refreshes the conversation screen for each participant reflecting the obtained movements. It can be configured.
  • participants e.g., host or guest
  • the operation server 130 acquires the movements of participants (e.g., hosts or guests) based on sensing signals provided by the participating terminals 110, and creates a conversation for each participant reflecting the obtained movements.
  • the screen can be reconfigured.
  • the operation server 130 may provide information about the newly configured conversation screen to the participating terminals 110.
  • the operation server 130 may determine whether a request to end a conversation or a request to close a chat room is received from the participating terminal 110.
  • the conversation termination request may be transmitted, for example, for the purpose of leaving the chat room in which the guest terminals 113 and 115 are currently participating.
  • the chat room closure request may be transmitted for the purpose of closing the chat room in which the host terminal 111 is currently participating.
  • the operation server 130 When the operation server 130 receives an exit request from the guest terminal 113 or 115 in operation 523, it may allow the guest terminal 113 or 115 to leave the chat room. When the operation server 130 receives a request to close the chat room from the host terminal 111 in operation 523, it may close the chat room.
  • FIG. 6 is a signal flow diagram for performing an avatar conversation subroutine in a system (e.g., system 100 of FIG. 1), according to one embodiment.
  • the signal flow shown in FIG. 6 is according to an embodiment in which the participating terminals 111 and 113 configure their conversation screen based on collected data (eg, voice, image, or sensing data).
  • the first participating terminal e.g., the first electronic device 111 in FIG. 1 using the avatar-based conversation function collects the user's voice data, image data, or sensing data in operation 610. can do.
  • the first participation terminal 111 may collect an electrical signal converted from the user's voice input through a microphone (e.g., the input module 1130 in FIG. 11) as voice data.
  • the first participating terminal 11 may collect an electrical signal corresponding to the user's image captured by a camera (eg, the camera module 1150 in FIG. 11) as image data.
  • the first participating terminal 111 may collect an electrical signal sensed by at least one sensor such as a gyroscope sensor (e.g., the sensor module 1160 of FIG. 11) as sensing data.
  • the first participating terminal 111 may collect, for example, an electrical signal sensed by a wearable device equipped with a gyroscope sensor (e.g., the wearable device 120 of FIG. 1 or FIG. 11) as sensing data.
  • the collected voice data can be used, for example, to identify the speaker.
  • the image data may, for example, identify the speaker, determine user movements (e.g., facial expressions, gaze, or body movements such as hands, arms, neck, or legs), or determine movement of the screen angle. It can be used to do this.
  • the collected sensing data may be used, for example, to determine the user's movements (e.g., body movements such as hands, arms, neck, or legs) or movement of the screen angle.
  • the second participating terminal (e.g., the second electronic device 113 in FIG. 1) using the avatar-based conversation function together with the first participating terminal 111 sends the user's voice data, image data, or Sensing data can be collected.
  • the second participation terminal 113 may collect an electrical signal converted from the user's voice input through a microphone (e.g., the input module 1130 in FIG. 11) as voice data.
  • the second participating terminal 113 may collect an electrical signal corresponding to the user's image captured by a camera (eg, the camera module 1150 in FIG. 11) as image data.
  • the second participating terminal 113 may collect an electrical signal sensed by at least one sensor such as a gyroscope sensor (e.g., the sensor module 1160 of FIG. 11) as sensing data.
  • the second participating terminal 113 may collect, for example, an electrical signal sensed by a wearable device equipped with a gyroscope sensor (e.g., the wearable device 120 of FIG. 1 or FIG. 11) as sensing data.
  • the collected voice data can be used, for example, to identify the speaker.
  • the image data may, for example, identify the speaker, determine user movements (e.g., facial expressions, gaze, or body movements such as hands, arms, neck, or legs), or determine movement of the screen angle. It can be used to do this.
  • the collected sensing data may be used, for example, to determine the user's movements (e.g., body movements such as hands, arms, neck, or legs) or movement of the screen angle.
  • the first participating terminal 111 may share the collected data with the second participating terminal 113 in operation 630.
  • the first participating terminal 111 may transmit at least one of collected voice data, image data, or sensing data to the second participating terminal 113.
  • the second participating terminal 113 may share the collected data with the first participating terminal 111 in operation 630.
  • the second participating terminal 113 may transmit at least one of collected voice data, image data, or sensing data to the first participating terminal 111.
  • the first participating terminal 111 may configure a conversation screen based on at least one of data collected by the first participating terminal 111 and/or collected data provided from the second participating terminal 113. For example, the first participating terminal 111 may change the conversation screen in consideration of events such as speaker change or participant movement that can be confirmed through collected data. The first participation terminal 111 may identify the speaker currently speaking based on, for example, collected voice data of the participant or images taken of the participant. The first participating terminal 111 may configure a new conversation screen by changing the angle and/or angle of view based on the identified speaker.
  • the first participation terminal 111 acquires the movements of participants (e.g., hosts or guests) from images collected by the first participating terminal 111 or images taken by the second participating terminal 113, , a conversation screen that reflects the acquired movement can be newly configured.
  • the first participating terminal 111 is, for example, based on the collected internal sensing signal or the external sensing signal provided by the second participating terminal 113 or the wearable device 120.
  • the guest's movements can be acquired and a new conversation screen reflecting the acquired movements can be configured.
  • the second participating terminal 113 may configure a conversation screen based on at least one of data collected by the second participating terminal 113 and/or collected data provided by the first participating terminal 111.
  • the second participation terminal 113 may change the conversation screen in consideration of events such as speaker change or participant movement that can be confirmed through collected data.
  • the second participation terminal 113 may identify the speaker currently speaking based on, for example, collected voice data of the participant or images taken of the participant.
  • the second participating terminal 113 may configure a new conversation screen by changing the angle and/or angle of view based on the identified speaker.
  • the second participation terminal 113 acquires the movements of participants (e.g., hosts or guests) from images collected by the first participating terminal 111 or images taken by the first participating terminal 111. , a conversation screen that reflects the acquired movement can be newly configured.
  • the second participating terminal 113 for example, connects participants (e.g., a host or The guest's movements can be acquired and a new conversation screen reflecting the acquired movements can be configured.
  • FIG. 7 is a signal flow diagram for performing an avatar conversation subroutine in a system (e.g., system 100 of FIG. 1), according to one embodiment.
  • the signal flow shown in FIG. 7 displays a conversation screen of itself or another participating terminal (e.g., the second participating terminal 113) based on data (e.g., manual event data) collected by the first participating terminal 111.
  • data e.g., manual event data
  • FIG. 7 it is assumed that manual event data is acquired by the first participating terminal 111, but the same procedure is performed even when manual event data is acquired by another participating terminal (e.g., the second participating terminal 113). Of course, the operation can be performed.
  • the first participating terminal may collect manual event data by the user's operation in operation 710. there is.
  • the first participation terminal 111 may collect information manually input by the user through a touch panel (eg, touch panel 1123 in FIG. 11) as manual event data.
  • the manual event data can be used, for example, to determine the speaker.
  • the manual event data can be used, for example, to determine the screen view (eg, zoom-in or zoom-out).
  • the manual event data can be used, for example, to select an object to zoom in on.
  • the passive event data may be used, for example, to determine the display format (e.g., landscape or portrait screen).
  • the first participating terminal 111 may transmit the collected passive event data to the second participating terminal 113 in operation 720.
  • the first participating terminal 111 may configure a conversation screen based on the manual event data collected by the first participating terminal 111.
  • the first participating terminal 111 may configure a new conversation screen by changing the angle and/or view angle based on the collected manual event data.
  • the first participating terminal 111 may identify the speaker currently speaking based on collected manual event data.
  • the first participating terminal 111 controls the angle, screen view (e.g., horizontal screen or vertical screen), and/or view angle (e.g., zoom-in or zoom-out) based on the identified speaker or designated target. ) can be changed to reconfigure the conversation screen.
  • the first participation terminal 111 may acquire the movements of participants (e.g., host or guest) based on collected manual event data and configure a new conversation screen reflecting the obtained movements. there is.
  • the first participation terminal 111 may acquire the movements of participants (e.g., host or guest) based on collected manual event data and configure a new conversation screen reflecting the obtained movements. there is.
  • the second participating terminal 113 may configure a conversation screen based on manual event data transmitted by the first participating terminal 111.
  • the second participating terminal 113 may configure a new conversation screen by changing the angle and/or view angle based on manual event data transmitted by the first participating terminal 111.
  • the second participating terminal 113 may identify the speaker currently speaking based on manual event data transmitted by the first participating terminal 111.
  • the second participating terminal 113 changes the angle, screen view (e.g., horizontal screen or vertical screen), and/or angle of view (e.g., zoom-in or zoom-out) based on the identified speaker or designated target to conduct the conversation.
  • the screen can be reconfigured.
  • the second participation terminal 113 acquires the movements of participants (e.g., host or guest) based on manual event data transmitted by the first participation terminal 111, and You can create a new conversation screen that reflects movement.
  • the second participation terminal 113 acquires the movements of participants (e.g., host or guest) based on manual event data transmitted by the first participation terminal 111, and You can create a new conversation screen that reflects movement.
  • FIG. 8 is a signal flow diagram for performing an avatar conversation subroutine in a system (e.g., system 100 of FIG. 1), according to one embodiment.
  • the signal flow shown in FIG. 8 is a conversation for each participant in an operating server (e.g., server 130 in FIG. 1) based on data (e.g., voice, image, or sensing data) collected by participating terminals 111 and 113.
  • data e.g., voice, image, or sensing data
  • This is according to an embodiment of configuring a screen (eg, a conversation screen of the first participating terminal 111 or a conversation screen of the second participating terminal 113).
  • the first participating terminal (e.g., the first electronic device 111 in FIG. 1) using the avatar-based conversation function collects the user's voice data, image data, or sensing data in operation 810. can do.
  • the first participation terminal 111 may collect an electrical signal converted from the user's voice input through a microphone (e.g., the input module 1130 in FIG. 11) as voice data.
  • the first participating terminal 11 may collect an electrical signal corresponding to the user's image captured by a camera (eg, the camera module 1150 in FIG. 11) as image data.
  • the first participating terminal 111 may collect an electrical signal sensed by at least one sensor such as a gyroscope sensor (e.g., the sensor module 1160 of FIG.
  • the first participating terminal 111 may collect, for example, an electrical signal sensed by a wearable device equipped with a gyroscope sensor (e.g., the wearable device 120 of FIG. 1 or FIG. 11) as sensing data. there is.
  • a gyroscope sensor e.g., the wearable device 120 of FIG. 1 or FIG. 11
  • the first participating terminal 111 may share the collected data with the operation server 130 in operation 830.
  • the first participation terminal 111 may transmit at least one of collected voice data, image data, or sensing data to the operation server 130.
  • the second participating terminal (e.g., the second electronic device 113 in FIG. 1) using the avatar-based conversation function together with the first participating terminal 111 generates the user's voice data, image data, or Sensing data can be collected.
  • the second participation terminal 113 may collect an electrical signal converted from the user's voice input through a microphone (e.g., the input module 1130 in FIG. 11) as voice data.
  • the second participating terminal 113 may collect an electrical signal corresponding to the user's image captured by a camera (eg, the camera module 1150 in FIG. 11) as image data.
  • the second participating terminal 113 may collect an electrical signal sensed by at least one sensor such as a gyroscope sensor (e.g., the sensor module 1160 of FIG. 11) as sensing data.
  • the second participating terminal 113 may collect, for example, an electrical signal sensed by a wearable device equipped with a gyroscope sensor (e.g., the wearable device 120 of FIG. 1 or FIG. 11) as sensing data. there is.
  • the second participation terminal 113 may share the collected data with the operation server 130 in operation 840.
  • the second participation terminal 113 may transmit at least one of collected voice data, image data, or sensing data to the operation server 130.
  • the operation server 130 may configure a conversation screen for each participant based on collected data transmitted from the first participation terminal 111 and/or the second participation terminal 113.
  • the conversation screen for each participant may be, for example, a first conversation screen for the first participation terminal 111 or a second conversation screen for the second participation terminal 113.
  • the operation server 130 may change the conversation screen for each participant in consideration of events such as speaker change or participant movement that can be confirmed through the collected data.
  • the operation server 130 may identify the speaker currently speaking based on the participant's voice data included in the collected data or an image taken of the participant.
  • the operation server 130 may configure a new conversation screen for each participant by changing the angle and/or angle of view based on the identified speaker.
  • the operation server 130 may acquire the movements of participants (e.g., host or guest) from image data included in the collected data, and configure a new conversation screen for each participant reflecting the obtained movements. You can.
  • the operation server 130 acquires the movements of participants (e.g., host or guest) based on the sensing signal included in the collected data, and refreshes the conversation screen for each participant reflecting the obtained movements. It can be configured.
  • the operation server 130 may transmit information (screen configuration data) about the first conversation screen configured for the first participating terminal 111 to the first participating terminal 111 in operation 860.
  • the operation server 130 may transmit information (screen configuration data) about the second conversation screen configured for the second participating terminal 113 to the second participating terminal 113 in operation 870.
  • the first participation terminal 111 may configure the first conversation screen using information (screen configuration data) about the first conversation screen transmitted from the operation server 130 in operation 880. For example, the first participation terminal 111 displays a first conversation screen that has been changed in consideration of events such as speaker change or participant movement that can be confirmed through information (screen configuration data) about the first conversation screen. and the configured first conversation screen can be output through a display.
  • the second participation terminal 113 may configure a second conversation screen based on information (screen configuration data) about the second conversation screen transmitted from the operation server 130 in operation 890. For example, the second participation terminal 113 displays a second conversation screen that has been changed in consideration of events such as speaker change or participant movement that can be confirmed through information (screen configuration data) about the second conversation screen. and the configured second conversation screen can be output through a display.
  • FIG. 9 is a signal flow diagram for performing an avatar conversation subroutine in a system (e.g., system 100 of FIG. 1), according to one embodiment.
  • the signal flow shown in FIG. 9 displays a conversation screen of itself or another participating terminal (e.g., the second participating terminal 113) based on data (e.g., manual event data) collected by the first participating terminal 111.
  • data e.g., manual event data
  • FIG. 9 assumes a situation in which manual event data is acquired by the first participating terminal 111, but the same procedure is performed even when manual event data is acquired by another participating terminal (e.g., the second participating terminal 113). Of course, the operation can be performed.
  • the first participating terminal (e.g., the first electronic device 111 in FIG. 1) using the avatar-based conversation function may collect manual event data caused by the user's operation in operation 910. there is.
  • the first participation terminal 111 may collect information manually input by the user through a touch panel (eg, touch panel 1123 in FIG. 11) as manual event data.
  • the manual event data can be used, for example, to determine the speaker.
  • the manual event data can be used, for example, to determine the screen view (eg, zoom-in or zoom-out).
  • the manual event data can be used, for example, to select an object to zoom in on.
  • the passive event data may be used, for example, to determine the display format (e.g., landscape or portrait screen).
  • the first participation terminal 111 may transmit the collected manual event data to the operation server 130 in operation 920.
  • the operation server 130 may configure a conversation screen based on manual event data transmitted from the first participation terminal 111 in operation 930.
  • the operation server 130 may configure the first conversation screen of the first participation terminal 111 based on manual event data transmitted from the first participation terminal 111.
  • the operation server 130 may configure the second conversation screen of the second participation terminal 113 based on manual event data transmitted from the first participation terminal 111.
  • the operation server 130 may display the first conversation screen of the first participation terminal 111 and the second participation terminal 113 based on manual event data transmitted from the first participation terminal 111. ) can configure the second conversation screen.
  • the operation server 130 may configure a new conversation screen by changing the angle and/or view angle based on the delivered manual event data.
  • the operation server 130 may identify the speaker currently speaking based on the delivered manual event data.
  • the operation server 130 adjusts the angle, screen view (e.g., horizontal screen or vertical screen), and/or view angle (e.g., zoom-in or zoom-out) based on the identified speaker or designated target.
  • the operation server 130 may acquire the movements of participants (e.g., host or guest) based on the delivered manual event data and configure a new conversation screen reflecting the obtained movements.
  • the operation server 130 may acquire the movements of participants (e.g., host or guest) based on the delivered manual event data and configure a new conversation screen reflecting the obtained movements. .
  • the operation server 130 may transmit information (screen configuration data) about the first conversation screen configured for the first participating terminal 111 to the first participating terminal 111 in operation 940.
  • the operation server 130 may transmit information (screen configuration data) about the second conversation screen configured for the second participating terminal 113 to the second participating terminal 113 in operation 960.
  • the first participation terminal 111 may configure the first conversation screen using information (screen configuration data) about the first conversation screen transmitted from the operation server 130 in operation 950. For example, the first participation terminal 111 displays a first conversation screen that has been changed in consideration of events such as speaker change or participant movement that can be confirmed through information (screen configuration data) about the first conversation screen. and the configured first conversation screen can be output through a display.
  • the second participation terminal 113 may configure a second conversation screen based on information (screen configuration data) about the second conversation screen transmitted from the operation server 130 in operation 970. For example, the second participation terminal 113 displays a second conversation screen that has been changed in consideration of events such as speaker change or participant movement that can be confirmed through information (screen configuration data) about the second conversation screen. and the configured second conversation screen can be output through a display.
  • FIG. 10 illustrates an avatar conversation function in an electronic device (e.g., the first or second participation terminals 111 and 113 of FIGS. 6 and 7 or the operation server 130 of FIGS. 8 and 9) according to an embodiment.
  • This is a control flow chart for configuring the conversation screen.
  • the first participating terminal 111 may perform an operation according to the control flowchart of FIG. 10 in operation 640 of FIG. 6 or operation 730 of FIG. 7.
  • the second participating terminal 113 may perform an operation according to the control flowchart of FIG. 10 in operation 650 of FIG. 6 or operation 740 of FIG. 7.
  • the operation server 130 may perform an operation according to the control flowchart of FIG. 10 in operation 850 of FIG. 8 or operation 930 of FIG. 9.
  • the electronic device 110 or 130 may collect data for constructing a conversation screen in operation 1011.
  • the electronic device 110 or 130 may collect the user's voice data, image data, or sensing data.
  • the electronic device 110 can collect data to be referenced to construct a conversation screen using components included therein (e.g., microphone, camera, or sensor) or external devices (e.g., wearable device 120). there is.
  • the electronic device 110 may collect an electrical signal converted from the user's voice input through a microphone (e.g., the input module 1130 of FIG. 11) as voice data.
  • the electronic device 110 may collect an electrical signal corresponding to a user's image captured by a camera (eg, the camera module 1150 of FIG. 11) as image data.
  • the electronic device 110 may collect electrical signals sensed by at least one sensor, such as a gyroscope sensor (e.g., the sensor module 1160 of FIG. 11 ), as sensing data.
  • a gyroscope sensor e.g., the sensor module 1160 of FIG. 11
  • the electronic device 110 may collect electrical signals sensed by a wearable device equipped with a gyroscope sensor (e.g., the wearable device 120 of FIG. 1 or FIG. 11) as sensing data.
  • the electronic device 130 may receive data collected by a participating terminal (e.g., the first and second participating terminals 111 and 113 in FIG. 8 or 9).
  • the first and second participation terminals 111 and 113 may be, for example, electronic devices participating in a conversation using an avatar.
  • the electronic devices 110 and 130 may determine whether a camera angle change event occurs.
  • the camera angle change event may correspond to a situation that requires changing the angle applied to the current conversation screen to an angle in a different direction or from a different viewpoint.
  • the camera angle change event may occur, for example, when the speaker changes or the object of interest changes due to manual manipulation by the user.
  • the electronic devices 110 and 130 may identify the speaker currently speaking based on the participant's voice data included in the collected data. For example, the electronic devices 110 and 130 may acquire the voice characteristics of the participants based on the participants' voice data included in the collected data. The electronic devices 110 and 130 may predict a participant having the acquired voice characteristic using information on reference voice characteristics preset for each participant. The electronic devices 110 and 130 may determine the predicted participant's avatar among the avatars participating in the conversation as the speaker avatar. The electronic devices 110 and 130 may collect voice data of attendees when the avatar-based conversation function is activated and conversations are conducted by attendees. The electronic devices 110 and 130 may obtain information about standard voice characteristics for each of the attendees using the collected voice data. The electronic devices 110 and 130 may set the information on the standard voice characteristic acquired for each participant as the standard voice characteristic corresponding to the participant, or may register it as the standard voice characteristic.
  • the electronic devices 110 and 130 may identify the speaker currently speaking based on the image captured of the participant included in the collected data. For example, the electronic devices 110 and 130 may obtain characteristic information about the mouth shape from the facial images of the participants. The electronic devices 110 and 130 can predict the speaker by determining whether the acquired mouth shape feature is a feature that can appear in the speaker. The electronic devices 110 and 130 may determine the avatar of the participant predicted to be the predicted speaker among the avatars participating in the conversation as the speaker avatar. The electronic devices 110 and 130 may collect features of the mouth shape that the speaker may have through repetitive learning to predict the speaker. The electronic devices 110 and 130 may set or store the collected mouth shape characteristics as reference information for predicting a speaker.
  • the electronic devices 110 and 130 may collect manual event data according to the user's manual operation and determine that an angle change event has occurred based on the collected manual event data.
  • the electronic devices 110 and 130 determine the angle to face the speaker avatar or a specific target specified by manual event data in operation 1025, and conduct a conversation based on the determined angle. You can configure the screen.
  • the electronic devices 110 and 130 may output the configured conversation screen or transmit it to the electronic device to which it is to be applied.
  • the electronic devices 110 and 130 may reflect the gaze or movement of the listener avatar based on the speaker avatar. For example, the electronic devices 110 and 130 may configure the conversation screen so that the gaze of the listener avatar is directed to the speaker avatar.
  • the electronic devices 110 and 130 may determine whether a camera view angle change event occurs.
  • the camera angle of view change event may correspond to a situation that requires changing the angle of view applied to the current conversation screen to a wider or narrower view angle.
  • the camera view angle change event may occur, for example, when it corresponds to a zoom-out requirement or a zoom-in requirement, or by a user's manual operation (e.g., a user's swiping motion).
  • the zoom-out requirement may occur, for example, when a participant enters for the first time and starts a conversation, when a situation arises where all participants must be checked, when participants speak at the same time, when not all participants speak, or when there is a short interval. This may include a situation where a conversation is exchanged.
  • the zoom-in requirement may include, for example, situations in which a particular participant speaks at length in silent mode or a user selects a particular participant.
  • the electronic devices 110 and 130 may identify the speaker currently speaking based on the participant's voice data or image data captured by the participant included in the collected data.
  • the method for the electronic devices 110 and 130 to determine a speaker based on voice data or image data can be applied in the same manner as described above.
  • the electronic device 110 or 130 determines a speaker it zooms in or out by comprehensively considering the time when the speaker avatar opposing the speaker enters the chat room, the time the speaker is maintained as a speaker, or the presence of another speaker. You can determine whether you need to change the angle of view to apply out.
  • the electronic devices 110 and 130 may collect manual event data according to the user's manual operation (e.g., swiping) and determine that a view angle change event has occurred based on the collected manual event data. .
  • the electronic devices 110 and 130 change the angle of view to face the speaker avatar or a specific target specified by manual event data in operation 1027, and conduct a conversation based on the changed angle of view. You can configure the screen.
  • the electronic devices 110 and 130 may output the configured conversation screen or transmit it to the electronic device to which it is to be applied.
  • the electronic devices 110 and 130 may reflect the gaze or movement of the listener avatar based on the speaker avatar. For example, the electronic devices 110 and 130 may configure the conversation screen so that the gaze of the listener avatar is directed to the speaker avatar.
  • the electronic devices 110 and 130 may determine whether a mirroring event occurs in operation 1017.
  • the mirroring event may correspond to an event requesting that the user's actual facial expression or behavior, such as movement, be reflected on the user's avatar on the conversation screen.
  • the electronic devices 110 and 130 determine the occurrence of a mirroring event based on a change in facial expression or movement of a specific body part (e.g., neck, hand) from the user's image captured with the front camera. can do.
  • the electronic devices 110 and 130 may determine the occurrence of a mirroring event based on a change in facial expression or movement of the participant based on data provided from another electronic device.
  • the electronic devices 110 and 130 may configure a mirrored conversation screen in operation 1029.
  • the electronic devices 110 and 130 may check a change in the user's facial expression and reflect the confirmed facial expression change on the face of the corresponding avatar in the same or similar manner.
  • a similar image can be selected from preset avatar images and the selected image can be applied to the conversation screen.
  • the electronic devices 110 and 130 may check the user's movement and reflect the confirmed movement in the same or similar way to the corresponding avatar.
  • a similar image can be selected from preset avatar images and the selected image can be applied to the conversation screen.
  • the electronic devices 110 and 130 may utilize sensing information provided from the wearable device 120 to improve accuracy for determining movement.
  • the electronic devices 110 and 130 may determine whether a view type change event has occurred.
  • the view type change event may include, for example, a situation in which the number of participants in a chat room changes.
  • the electronic devices 110 and 130 may determine an appropriate view type for each situation and configure a conversation screen to which the determined view type is applied.
  • the electronic devices 110 and 130 may configure and output a conversation screen with the other person's avatar placed near the center of the vertical display. At this time, for a sense of immersion, the electronic devices 110 and 130 may not display their avatars on the screen, but may process them transparently and maintain a constant viewing angle.
  • the electronic devices 110 and 130 may output a conversation screen with opposing avatars arranged on both sides of the center of the vertical display. At this time, the electronic devices 110 and 130 do not display their own avatars on the screen, but process them transparently, and change their own avatar's viewpoint from the previous position to that of the other avatars so that the angle of view is wider than when two people are talking. It can be moved to a distant location.
  • the electronic devices 110 and 130 may output a conversation screen with opposing avatars arranged near the center and on both sides on a horizontal display.
  • the electronic devices 110 and 130 do not display the own avatar on the screen, but process it transparently, and move the viewpoint of the own avatar from the previous position to the other person so that the angle of view is wider than when three people are talking. It can be moved to a location away from the avatars.
  • the electronic devices 110 and 130 may output a conversation screen with opposing avatars arranged at substantially equal intervals near the center and on both sides on a horizontal display.
  • the electronic devices 110 and 130 do not display their own avatars on the screen, but process them transparently, and move their avatars' viewpoints from the previous position to the other party so that the angle of view is wider than when four people are talking. It can be moved to a location away from the avatars.
  • the electronic devices 110 and 130 may output a conversation screen in which the opponent's avatars are arranged at substantially equal intervals on a horizontal display.
  • the electronic devices 110 and 130 do not display their own avatars on the screen, but process them transparently, and move their avatars' viewpoints from the previous position to the other party so that the angle of view is wider than when four people are talking. It can be moved to a location away from the avatars.
  • the electronic devices 110 and 130 may determine whether a partner call event that calls the partner avatar occurs.
  • the electronic devices 110 and 130 may determine that a call event has occurred when the user touches the other person's avatar included in the conversation screen on the display.
  • the electronic devices 110 and 130 may notify the conversation partner's electronic device that an avatar call has been requested based on the location where the user's touch was made and sensing information according to the touch.
  • the other party's electronic device may output vibration or sound to notify the other party of the call.
  • the electronic devices 110 and 130 may determine whether the other party responded to the call by analyzing information provided from the other party's electronic device (e.g., a captured image of the other party). If it is determined that the other party has responded to the call, the electronic devices 110 and 130 may configure a conversation screen with the image changed so that the other party's avatar 2170 looks at the other party's avatar 2170.
  • information provided from the other party's electronic device e.g., a captured image of the other party.
  • the electronic devices 110 and 130 may determine whether a recording request event occurs while an avatar-based conversation is being performed or after an avatar-based conversation has ended. When a recording request event occurs, the electronic devices 110 and 130 extract images corresponding to the conversation based on data collected during the conversation in operation 1035 and generate a conversation record image using the extracted images. You can. The electronic devices 110 and 130 may store the generated conversation record image or transmit it to an external electronic device.
  • FIG. 11 is a block diagram of an electronic device (eg, the electronic device 110 of FIG. 1 ) according to an embodiment.
  • the electronic device 110 includes a display module 1120 (e.g., display module 2560 of FIG. 23) and a processor 1110 (e.g., processor 2520 of FIG. 23).
  • input module 1130 e.g., input module 2550 in FIG. 23
  • audio output module 1140 e.g., audio output module 2555 in FIG. 23
  • camera module 1150 e.g., in FIG. 23
  • Camera module 2580 sensor module 1160 (e.g., sensor module 2576 in FIG. 23), communication module 1170 (e.g., communication module 2590 in FIG. 23), or memory 1180 (e.g., It may include the memory 2530 of FIG. 23.
  • the display module 1120 may include a display panel 1121 or a touch panel 1123.
  • the display panel 1121 can visually provide information to the outside of the electronic device 110 (eg, a user).
  • the display module 1120 may include, for example, a display, a hologram device, or a projector, and a control circuit for controlling the device.
  • the touch panel 1123 may include a touch sensor configured to detect a touch by a user, or a pressure sensor configured to measure the intensity of force generated by the touch.
  • the operation of the display module 1120 can be controlled by electrical connection with the processor 1110.
  • the operation of the display panel 1121 or the touch panel 1123 included in the display module 1120 can be independently controlled by electrical connection with the processor 1110.
  • the display panel 1121 may visually provide display information to be displayed to the outside (eg, a user) under the control of the processor 1110.
  • the processor 1110 executes software (e.g., program 2540 in FIG. 23) to electrically connect the display module 1120, input module 1130, audio output module 1140, camera module 1150, and sensor. At least one other component (e.g., hardware or software component) such as the module 1160, the communication module 1170, or the memory 1180 may be controlled, and various data processing or operations may be performed.
  • the processor 1110 stores commands or data received from other components (e.g., display module 1120, communication module 1170, or input/output unit 127). (129) (e.g., volatile memory 2530 in FIG. 25), or the command or data stored in the storage unit 129 can be processed and the processed result data can be stored in the storage unit 129. there is.
  • the input module 1130 may receive commands or data to be used in a component of the electronic device 110 (e.g., the processor 1110) from outside the electronic device 110 (e.g., a user).
  • the input module 1130 may include, for example, a microphone, mouse, keyboard, keys (eg, buttons), or digital pen (eg, stylus pen).
  • the sound output module 1140 may output sound signals to the outside of the electronic device 110.
  • the sound output module 1140 may include, for example, a speaker or a receiver.
  • the speaker can be used for general purposes such as multimedia playback or recorded playback.
  • the receiver can be used to receive incoming calls.
  • the receiver may be implemented separately from the speaker or as part of it.
  • the camera module 1150 can capture still images and moving images.
  • the camera module 1150 may include one or more lenses, image sensors, image signal processors, or flashes.
  • the sensor module 1160 detects the operating state (e.g., power or temperature) of the electronic device 110 or the external environmental state (e.g., user state) and generates an electrical signal or data value corresponding to the detected state. can be created.
  • the sensor module 1160 may include, for example, a gesture sensor, gyro sensor, barometric pressure sensor, magnetic sensor, acceleration sensor, grip sensor, proximity sensor, color sensor, IR (infrared) sensor, biometric sensor, temperature sensor, and humidity sensor. , or may include an illumination sensor.
  • the communication module 1170 may support establishment of a direct (eg, wired) communication channel or wireless communication channel with the wearable device 120, and communication through the established communication channel.
  • the communication module 1170 operates independently of the processor 1110 and may include one or more communication processors that support direct (eg, wired) communication or wireless communication.
  • the communication module 1170 is, for example, a wireless communication module (e.g., the wireless communication module 2592 of FIG. 23) (e.g., a cellular communication module, a short-range wireless communication module, or a global navigation satellite system (GNSS) communication module. ) or a wired communication module (e.g., the wired communication module 2594 of FIG.
  • GNSS global navigation satellite system
  • the corresponding communication module is a network 140 (e.g., a short-range communication network such as Bluetooth, wireless fidelity (WiFi) direct or infrared data association (IrDA), or a legacy cellular network, a 5G network, a next-generation communication network, the Internet, Alternatively, it may communicate with the wearable device 120, which is an external electronic device, through a computer network (e.g., a long-distance communication network such as LAN or WAN).
  • a network 140 e.g., a short-range communication network such as Bluetooth, wireless fidelity (WiFi) direct or infrared data association (IrDA), or a legacy cellular network, a 5G network, a next-generation communication network, the Internet, Alternatively, it may communicate with the wearable device 120, which is an external electronic device, through a computer network (e.g., a long-distance communication network such as LAN or WAN).
  • a computer network e.g., a long-
  • the memory 1180 is used by at least one component (e.g., display module 1120, processor 1110, communication module 1170, or input/output unit 127) of the electronic device 110.
  • a variety of data can be stored.
  • the data may include, for example, software (eg, program 2540) and input data or output data for commands related thereto.
  • the storage unit 129 may include, for example, volatile memory (e.g., volatile memory 2532 in FIG. 25) or non-volatile memory (e.g., non-volatile memory 2534 in FIG. 25).
  • the processor 1110 may include, for example, a face tracking module 1111, a hand tracking module 1113, or a motion tracking module 1115.
  • the face tracking module 1111 may extract data of a part corresponding to the face from the user image captured by the camera module 1150 and track changes in facial expressions based on the extracted data.
  • the hand tracking module 1113 may extract data of a part corresponding to the hand from the user image captured by the camera module 1150 and track hand movement based on the extracted data.
  • the hand tracking module 1113 may track hand movement based on sensing information provided from the sensor module 1160 or sensing information provided from the wearable device 120.
  • the motion tracking module 1115 may track the user's movement from the user image captured by the camera module 1150.
  • the motion tracking module 1115 may track the user's movement based on sensing information provided from the sensor module 1160 or sensing information provided from the wearable device 120.
  • the processor 1110 may be configured to control the communication module 1170 to connect the wearable device 120 and then receive a request to provide display information.
  • the processor 1110 may control the communication module 1170 to transmit some of the display information (eg, closed display information 435 in FIG. 4A) to the wearable device 120.
  • the processor 1110 may be configured to control the display module 1120 to display some display information (eg, open display information) among the display information.
  • the processor 1110 may perform rendering on display information before displaying it on the display module 1120.
  • the display information may be, for example, display information to be displayed on the electronic device 110 (full display information (e.g., full display information 431 in FIG. 4A)) or partial display information (open display information).
  • the processor 1110 may be configured to control the communication module 1170 to connect the wearable device 120 and then receive a request to provide display information. In response to the request, the processor 1110 transmits display information to the wearable device 120 through the communication module 1170, and separates some display information (open display information) to be displayed by the processor from the display information. can do.
  • the processor 1110 may be configured to control the display module 1120 to display some of the separated display information.
  • the processor 1110 may perform rendering on some of the separated display information before displaying it on the display module 1120.
  • the processor 1110 may receive a layering change request from the wearable device 120 through the communication module 1170. In one embodiment, the processor 1110 may receive the layering change request from the wearable device 120. The processor 1110 may transmit display information (eg, full display information) to the wearable device 120 through the communication module 1170 in response to the request. In one embodiment, the processor 1110 may receive adjusted layering-related information from the wearable device 120 along with the layering change request. The processor 1110 may obtain some display information (e.g., closed display information) from display information using the layering-related information and transmit it to the wearable device 120 through the communication module 1170.
  • display information eg, full display information
  • the processor 1110 may receive adjusted layering-related information from the wearable device 120 along with the layering change request.
  • the processor 1110 may obtain some display information (e.g., closed display information) from display information using the layering-related information and transmit it to the wearable device 120 through the communication module 1170.
  • the processor 1110 may be configured to obtain some display information (eg, open display information) from display information using the layering-related information and control the display module 1120 to display it.
  • the processor 1110 may perform rendering on display information to be displayed before displaying it on the display module 1120.
  • FIG. 12 is an example diagram of a user interface (UI) for each procedure for opening an avatar-based chat room in an electronic device (e.g., the electronic device 110 of FIG. 1), according to an embodiment.
  • UI user interface
  • the display of the electronic device 110 may include an icon 1210 of an application program that can be selected to use an avatar-based conversation function (see (a)).
  • the icon 1210 can be created on the screen of the display by installing an application program for using the avatar-based conversation function in the electronic device 110.
  • the electronic device 110 may output a user interface for selecting a guest to participate in an avatar-based conversation through the display (see (b)). For example, the electronic device 110 may output, through a display, a screen including a list of people who can be called for conversation and an icon 1220 that can request to start a conversation.
  • the electronic device 110 displays the selection status 1240 of the guests to be called selected by the user from the target list displayed on the display and displays the icon 1230 for calling the guest.
  • the included screen can be output through the display (see (c)).
  • the electronic device 110 can display a user interface 1250 for selecting a chat room background and an icon 1260 for requesting chat room entry through the display. There is (see (d)).
  • the electronic device 110 can enter the chat room in which the avatar-based conversation function can be used.
  • FIG. 13 illustrates an example of a user interface provided before entering a chat room for an avatar-based chat function in an electronic device (eg, the electronic device 110 of FIG. 1 ), according to one embodiment.
  • the electronic device 110 corresponding to the host terminal for opening a chat room and calling a guest may display an avatar 1311 of an image waiting to enter on the display 1310 (see (a)). ).
  • the electronic device 110 When a request to participate in a conversation is received, the electronic device 110 corresponding to a guest terminal invited to an avatar-based conversation by the host terminal displays an avatar 1320 for requesting participation, an icon 1323 for agreeing to participate in the conversation, and An icon 1325 for refusing to agree to participate in a conversation may be displayed on the display 1320 (see (b)).
  • FIG. 14 illustrates an example of angle switching corresponding to a speaker change in an electronic device (e.g., the electronic device 110 of FIG. 1) according to an embodiment.
  • the electronic device 110 when the user of the electronic device 110 is a speaker, the electronic device 110 includes a first avatar 1410, which is the speaker's own avatar, and second and third avatars, which are the listener avatars and the conversation partner.
  • the first conversation screen facing (1420, 1430) can be displayed (see (a)).
  • a second conversation screen can be configured and output through the display (( see b)).
  • the angle may be adjusted so that the third avatar 1430, the speaker, is located near the center of the screen.
  • the electronic device 110 sends the first avatar 1410 and the third avatar 1410 to the second conversation screen.
  • the gaze of the avatar 1430 is directed toward the second avatar 1420, and the angle to configure the screen is moved to the left, which is toward the second avatar 1420 (1450), to form a third conversation screen and display it. It can be output via (see (c)).
  • the angle may be adjusted so that the second avatar 1420, the speaker, is located near the center of the screen.
  • both the second avatar 1420 and the third avatar 1430 located to the left and right in the direction in which the first avatar 1410 is looking in the third conversation screen are speakers
  • the electronic device 110 The gaze of the first avatar 1410 is directed to the front, the second avatar 1420 and the third avatar 1430 face each other, and the angle at which the screen is composed is directed to the front of the first avatar 1410.
  • a fourth conversation screen can be created and output through the display (see (d)).
  • the angles of the speakers, the second avatar 1420 and the third avatar 1430 may be adjusted so that they are substantially symmetrical about the center on both sides of the screen.
  • a screen can be provided in which the face of the avatar on behalf of the user is turned to face the speaker avatar.
  • FIGS. 15A and 15B illustrate an example of angle switching corresponding to manual manipulation in an electronic device (eg, the electronic device 110 of FIG. 1 ), according to an embodiment.
  • the electronic device 110 may display an icon 1530 for manually controlling angle switching on a conversation screen displayed on the display (see (a)). Before the icon 1530 is manipulated by the user, the electronic device 110 displays a conversation screen configured so that the first avatar 1510 and the second avatar 1520, which are the opposing avatars participating in the conversation, face each other from both sides. can be output through the display.
  • the electronic device 110 moves the angle of the screen to the left and the first avatar 1510 moves to the right and is positioned near the center.
  • the second avatar 1520 can also change the conversation screen to move to the right and output it through the display (see (b)).
  • the electronic device 110 moves the angle of the screen to the right and the second avatar 1520 moves to the left and is positioned near the center.
  • the conversation screen can be changed to move the first avatar 1510 to the left and output through the display (see (c)).
  • the electronic device 110 may display a conversation screen including icons 1560, 1570a, 1570b, 1580a, and 1580b for manually controlling angle switching on the display.
  • the icons 1560, 1570, and 1580 that the user can manually manipulate to change the angle include, for example, a main indicator 1560 indicating the user's status or at least one sub indicator indicating the other party's status. May include characters (1570, 1580).
  • the main indicator 1560 has a semicircular shape and may respond booming in response to the voice generated by the utterance.
  • the booming reaction may correspond to a reaction in which the semicircle shape gradually spreads.
  • at least one sub indicator 1570 or 1580 may be toggled by a user's touch.
  • the color or brightness of the at least one sub indicator 1570 or 1580 may change in response to the operating state according to the toggle operation.
  • the sub indicators 1570 and 1580 may be generated by reflecting the number of people participating in the conversation or their positions on the screen.
  • States that can be identified by the sub-indicators 1570 and 1580 may include, for example, first display states 1570a and 1580a indicating an operating state that automatically changes the screen according to the speaker.
  • the state that can be identified by the sub indicators (1570a, 1570b, 1580a, 1580b) is, for example, an operating state in which manual control is possible so that the screen is focused on the opponent's avatar (1510, 1520) desired by the user.
  • It may include second display states 1570b and 1580b.
  • the first display states 1570a and 1580a and the second display states 1570b and 1580b may be alternately switched in proportion to the number of times the user taps the sub indicators 1570 and 1580.
  • (a) shows a situation in which sub-indicators 1570 and 1580 are displayed in first display states 1570a and 1580a.
  • the electronic device 110 may automatically change the screen according to the speaker.
  • the electronic device 110 may provide a screen in which the user's avatar changes the other person's avatars 1510 and 1520 in proportion to the swiping distance.
  • the first sub indicator 1570 corresponding to the first counterpart avatar 1510 is displayed in the second display state 1570b, and the second sub indicator 1570 corresponding to the second counterpart avatar 1520 is displayed. It shows a situation where the indicator 1580 is displayed as the first display state 1580a. Since the first sub-indicator 1570 is in the second display state 1570b, the electronic device 110 can provide a screen with the center or focus of the screen on the first counterpart's avatar 1510.
  • the first sub indicator 1570 corresponding to the first counterpart avatar 1510 is displayed in the first display state 1570a
  • the second sub indicator 1570 corresponding to the second counterpart avatar 1520 is displayed in the first display state 1570a.
  • FIG. 16 illustrates an example of switching the angle of view in response to setting requirements in an electronic device (e.g., the electronic device 110 of FIG. 1), according to an embodiment.
  • an electronic device e.g., the electronic device 110 of FIG. 1
  • the electronic device 110 may provide a conversation screen (a) in a zoomed-out view or a conversation screen (b) in a zoomed-in view using preset requirements.
  • the participant's electronic device 110 may output a conversation screen (a) in a zoomed-out view through the display.
  • a conversation screen (a) in a zoomed-out view through the display.
  • the participant's electronic device 110 may output a conversation screen (a) in a zoomed-out view through the display.
  • the participant's electronic device 110 may output a conversation screen (a) in a zoomed-out view through the display.
  • the participant's electronic device 110 may output a conversation screen (a) in a zoomed-out view through the display. For example, when a specific participant speaks for longer than a preset time, the electronic device 110 may output a conversation screen (b) providing a zoomed-in view of the specific participant's avatar through the display. For example, when a participant manually selects a specific participant, the participant's electronic device 110 may output a conversation screen (b) providing a zoomed-in view of the specific participant's avatar through the display.
  • the zoom-out requirement for providing a zoomed-out view on the conversation screen is when a participant first enters a chat room and starts a conversation, when a participant performs a manual operation to check all conversation participants, or when a participant enters a conversation room for the first time and starts a conversation, or when a participant performs a manual operation to check all conversation participants, or all participants in the conversation are
  • This can include situations where participants are speaking simultaneously, where no one is speaking, or where participants are speaking at short intervals (e.g., 3 seconds).
  • Zoom-in requirements that provide a zoom-in view of the conversation screen may include situations where a specific participant speaks longer than a preset time or where a specific participant is manually selected.
  • FIG. 17 illustrates an example of switching a view (angle of view) in response to a manual manipulation in an electronic device (eg, the electronic device 110 of FIG. 1 ), according to an embodiment.
  • the electronic device 110 pre-establishes a swipe pattern for manually manipulating view switching and provides a conversation screen in which the view is switched in response to the swipe pattern manually entered by the user. You can.
  • the electronic device ( 110) may output a second conversation screen providing a zoomed-in view of the second avatar 1720 through the display while moving the camera angle to the right.
  • a swipe pattern 1760 moving from left to right on the second conversation screen that provides a zoomed-in view of the second avatar 1720 the electronic device 110 By moving the angle to the left, a third conversation screen providing a zoomed-in view of the first avatar 1710 can be output through the display.
  • a swipe pattern 1770 moving from the bottom to the top on the third conversation screen that provides a zoomed-in view of the first avatar 1710 the electronic device 110 By moving the angle near the center of the two avatars 1710 and 1720, a fourth conversation screen providing a zoomed-out view of the first and second avatars 1710 and 1720 can be output through the display.
  • the user's image 1730 captured by the camera may be displayed in the upper left corner of the first to fourth conversation screens displayed on the display of the electronic device 110.
  • the user can be provided with a conversation screen with a desired view by inputting a simple preset swipe pattern on the display.
  • FIGS. 18A and 18B illustrate an example of mirroring a user's movements on an avatar using an image captured by a camera in an electronic device (e.g., the electronic device 110 of FIG. 1 ), according to an embodiment.
  • the electronic device 110 captures an image including the user's face 1830 through the front camera 1820 and applies a face tracking function to analyze the expression of the face 1830 in the captured image. can do.
  • the electronic device 110 may express the analyzed expression by mirroring the facial expression of the avatar 1840 displayed on the screen of the display 1810.
  • the electronic device 110 captures an image including the user's hand 1850 through the front camera 1820 and applies a hand tracking function to analyze the movement of the hand 1850 in the captured image. can do.
  • the electronic device 110 may express the analyzed movement by mirroring the hand movement of the avatar 1870 displayed on the screen of the display 1810.
  • the electronic device 110 may receive an image of a participant participating in a chat room captured through a camera by the electronic device of the participant, and analyze the movement of the hand 1850 in the received image.
  • the electronic device 110 may express the analyzed movement by mirroring the hand movement of the other avatar 1860 displayed on the screen of the display 1810.
  • the electronic device 110 may additionally consider sensing information provided from a wearable device (e.g., wearable device 120 of FIG. 1) in order to accurately analyze the user's movements.
  • a wearable device e.g., wearable device 120 of FIG. 1
  • the electronic device 110 receives sensing information detected by at least one sensor (e.g., a gyroscope sensor) included in a smart watch, which is one of the wearable devices 120, and accurately analyzes the user's hand movements. You can.
  • the electronic device 110 acquires a facial expression or gesture from the user's image captured by the front camera, and mirrors the acquired facial expression or gesture to the user's avatar included in the conversation screen. It can be expressed by mirroring.
  • the electronic device 110 acquires the facial expressions or gestures of the attendees from the collected data, and mirrors the acquired facial expressions or gestures of the attendees onto the attendees' avatars included in the conversation screen. It can be expressed by mirroring.
  • FIGS. 19A, 19B, and 19C show examples of movements that are preset in an electronic device (e.g., the electronic device 110 of FIG. 1) and can be applied to an avatar, according to an embodiment.
  • an electronic device e.g., the electronic device 110 of FIG. 1
  • FIGS. 19A, 19B, and 19C show examples of movements that are preset in an electronic device (e.g., the electronic device 110 of FIG. 1) and can be applied to an avatar, according to an embodiment.
  • the electronic device 110 displays the movements of avatars 1910 and 1920 that are expected to be frequently used by users (e.g., (a) joy (1951), (b) anger (1953), and (c) love. Expression (1955)) can be set in advance.
  • (a) shows a conversation screen in which a first avatar 1910 and a second avatar 1920 are participating on behalf of two participants.
  • the conversation screen may include, for example, a function key 1930 for activating icons 1951, 1953, and 1955 for expressing one's status.
  • the function key 1930 can be manipulated by the user to convey his or her emotions using a preset avatar gesture. The user's operation may be performed, for example, by touching the function key 1930.
  • the electronic device 110 may display icons 1951, 1953, and 1955 for selecting a preset avatar gesture.
  • the user can select one of the displayed icons (1951, 1953, and 1955).
  • the electronic device 110 may transmit an image of an avatar making a preset gesture to express an emotion corresponding to the selected icon to the other participant's electronic device.
  • an image 1940 in which an avatar on behalf of the user makes the selected gesture may be displayed on the other participant's electronic device.
  • the electronic device 110 can preset avatar movements (e.g., (a) thinking, (b) laughing, (c) cheering, and (d) expressing love) that are expected to be frequently used by users. there is.
  • the electronic device 110 may analyze the user's manual operation or captured image or voice and mirror a motion corresponding to one of preset movements to the avatar.
  • the electronic device 110 may obtain (1980) sensing information 1970 informing of the user's status from an external electronic device 1960 such as a wearable device that can be connected through a wireless channel.
  • the electronic device 110 can predict the user's physical state or the action being taken based on sensing information.
  • the electronic device 110 may express the user's predicted physical state or motion as a motion of an avatar included on behalf of the user on the conversation screen.
  • the electronic device 110 when the electronic device 110 recognizes that the user is in a sleeping state based on sensing information provided from a smart watch, which is one of the wearable devices, the avatar 1990 included in the conversation screen makes a gesture expressing fatigue on behalf of the user. It can be indicated to be taken. Additionally, the electronic device 110 may transmit information indicating the user's status to the other participant's electronic device based on the network environment. In this case, the other participant's electronic device may display an avatar representing the user making a gesture expressing fatigue.
  • FIGS. 20A to 20E illustrate an example of changing the screen shape in consideration of the number of participants in an electronic device (e.g., the electronic device 110 of FIG. 1 ), according to an embodiment.
  • the electronic device 2010 may output a conversation screen with the opponent's avatar 2032 placed near the center of the display 2020, which has a vertical screen shape. At this time, for immersion, the electronic device 2010 may not display its own avatar 2031 on the screen, but may render it transparent and maintain a constant viewing angle.
  • the electronic device 2010 when three people are having a conversation, the electronic device 2010 outputs a conversation screen with opposing avatars 2042 and 2043 arranged on both sides of the center of the display 2020, which has a vertical screen shape. You can. At this time, the electronic device 2010 does not display the own avatar on the screen, but processes it transparently, and moves the viewpoint of the own avatar from the previous position (2041-1) to the other avatar so that the angle of view is wider than when two people are talking. It can be moved to a location (2041-2) away from the fields (2042, 2043).
  • the electronic device 2010 displays a conversation screen with opposing avatars 2052, 2053, and 2054 arranged near the center and on both sides of the display 2020, which has a horizontal screen shape. can be output. At this time, the electronic device 2010 does not display the own avatar on the screen, but processes it transparently, and moves the viewpoint of the own avatar from the previous position (2051-1) to the other avatar so that the angle of view is wider than when three people are talking. It can be moved to a location (2051-2) away from the field (2052, 2053, 2054).
  • the electronic device 2010 displays opposing avatars 2062, 2063, 2064, and 2065 near the center and on both sides of the display 2020, which has a horizontal screen. You can output conversation screens arranged at even intervals. At this time, the electronic device 2010 does not display the own avatar on the screen, but processes it transparently, and moves the viewpoint of the own avatar from the previous position (2061-1) to the other avatar so that the angle of view is wider than when four people are talking. It can be moved to a location (2061-2) away from the fields (2062, 2063, 2064, 2065).
  • the electronic device 2010 displays the opposing avatars 2072, 2073, 2074, 2075, and 2076 at substantially equal intervals on the display 2020 with a horizontal screen shape. You can print the placed conversation screen. At this time, the electronic device 2010 does not display the own avatar on the screen, but makes it transparent, and moves the viewpoint of the own avatar from the previous position (2071-1) to the other avatar so that the angle of view is wider than when four people are talking. It can be moved to a location (2071-2) away from fields (2072, 2073, 2074, 2075, 2076).
  • the electronic device 2010 may improve the angle of view by considering the number of avatars participating in the conversation (or the number of attendees).
  • the upper limb electronic device 110 may output a conversation screen prepared by the adjusted viewing angle. That is, the electronic device 110 can change the shape of the screen from vertical to horizontal in proportion to an increase in the number of avatars participating in the conversation, or move the viewpoint to widen the angle of view.
  • FIG. 21 illustrates an example of calling the other avatar through manual manipulation in an electronic device (e.g., the electronic device 110 of FIG. 1), according to an embodiment.
  • an electronic device e.g., the electronic device 110 of FIG. 1
  • the electronic device 110 may output a conversation screen on the display 2110.
  • the conversation screen may include the opponent's avatar 2130 (see (a)).
  • the conversation screen may display a user's image 2120 captured through a camera at the upper left corner of the display 2110.
  • the user may use the finger 2140 to touch (2150) the opponent's avatar (2130) included in the conversation screen.
  • the electronic device 110 may transmit a request for an avatar call to the electronic device of the conversation partner based on the location where the user's touch 2150 was made and the sensing information according to the touch 2150 (2160).
  • the other party's electronic device may output vibration or sound to notify the other party of the call.
  • the electronic device 110 may determine whether the other party responded to the call by analyzing information provided from the other party's electronic device (e.g., a captured image of the other party). If the electronic device 110 determines that the other party has responded to the call, it can change and display the image on the display 2110 so that the other party's avatar 2170 is looking at the other party (see (b)).
  • information provided from the other party's electronic device e.g., a captured image of the other party.
  • the electronic device 110 when the electronic device 110 detects that the user touches the conversation screen, it can receive a signal to call an external electronic device corresponding to the touched avatar.
  • FIG. 22 illustrates an example of recording a conversation screen at the request of a user in an electronic device (e.g., the electronic device 110 of FIG. 1), according to an embodiment.
  • the electronic device 110 responds to a user's request by displaying images corresponding to the conversation based on data collected during the conversation. It can be extracted.
  • the electronic device 110 may generate a conversation record image using the extracted images.
  • the electronic device 110 may store the generated conversation record image or transmit it to an external electronic device.
  • FIG. 23 is a signal flow diagram for processing a gift event during a conversation using an avatar in a system (e.g., system 100 of FIG. 1), according to one embodiment.
  • a first participating terminal e.g., the first participating terminal 111 in FIG. 1 connects with at least one counterpart terminal (e.g., the second participating terminal 113 in FIG. 1) in operation 2301.
  • three participants e.g., the first participant avatar 2410, the second participant avatar 24220, and the third participant avatar 2430 in Figure 24A
  • a conversation screen of the situation is shown.
  • the first participating terminal 111 may display a menu window on the display in response to the user's request.
  • the menu window may include items that allow the user to select functions that can be used during a conversation using an avatar.
  • Figure 24b shows a conversation screen displaying a menu window 2450 containing items corresponding to functions such as gifting, image sharing, gesture addition, item shop, and exit.
  • the first participating terminal 111 can check the item selected by the user in the menu window 2450 displayed on the conversation screen. In operation 2303, the first participating terminal 111 may recognize that the user has selected the 'Gift' item from among the items included in the menu window 2450. When the user selects the 'Gift' item among the menu items, the first participation terminal 111 may display a screen where the user can select a gift. As an example, (a) of FIG. 24C shows a coupon shovel screen where you can select a coupon as a gift.
  • the first participation terminal 111 may perform an operation of selecting a product to be gifted and a recipient to receive the selected product in operation 2307.
  • the user can select a product to gift from among the products displayed on the screen.
  • the coffee coupon 2461 is selected by the user.
  • the first participation terminal 111 can output detailed information about the selected product on the screen.
  • detailed information about the selected coffee coupon e.g., price information, product description, etc.
  • a selection button to finally select an event item to process the corresponding product (e.g., purchase (2463) ) or gift (2465)).
  • the first participation terminal 111 When the user completes selecting a product to be gifted, the first participation terminal 111 performs an operation to allow the user to select a recipient (e.g., at least one of the participants participating in the conversation) to whom the product is to be delivered. can do.
  • a recipient e.g., at least one of the participants participating in the conversation
  • Figure 24D shows a screen displaying a 'Send' button 2470 to confirm whether to send a gift to an image of the user's avatar 2410 holding a gift box.
  • the first participation terminal 111 may request the user to select a recipient to whom the gift will be delivered when the user touches or presses the 'Send' button 2470.
  • Figure 24e shows a screen displaying selection buttons 2481 and 2483 that can be selected as recipients above the avatars 2420 and 2430 of participants participating in the conversation.
  • the first participation terminal 111 recognizes this as selecting the recipient and selects the avatar or participant corresponding to the touched or pressed selection button to the recipient. You can select .
  • the first participation terminal 111 may display a screen in which an avatar 2410 on behalf of the user sends a gift in operation 2309.
  • Figure 24f shows a screen depicting a gift box leaving the hand of avatar 2410.
  • the screen showing the gift box leaving the hand of the avatar 2410 may be provided as a photo or video.
  • the screen shown in FIG. 26f may also be displayed through the display of the second participating terminal 113, which is the other participating terminal that will receive the gift.
  • the screen shown in FIG. 26f can also be displayed through the display of a participating terminal other than the other participating terminal that will receive the gift.
  • the image depicting the scene where the gift is sent may be displayed on the display of the second participating terminal 113, which is the other participating terminal that will receive the gift, or another participating terminal, may be determined by the settings of the user sending the gift. Meanwhile, although not shown, in order to display an image depicting a scene in which a gift is sent on the display of another participating terminal, an operation for the first participating terminal 111 to transmit related information to the participating terminal must be added. There is a need.
  • the first participating terminal 111 may transmit gift information for gifting the selected product to the second participating terminal 113 corresponding to the recipient of the gift.
  • the gift information may include, for example, information about the product corresponding to the gift or information about the person who sent the gift.
  • the second participating terminal 113 may receive gift information transmitted by the first participating terminal 111 in operation 2311.
  • the second participation terminal 113 may display a screen where an avatar 2430 on behalf of the user receives the gift.
  • Figure 24g shows a screen depicting a gift box falling into the hand of the avatar 2430.
  • a screen showing a gift box falling into the hand of the avatar 2430 may be provided as a photo or video.
  • the screen shown in FIG. 26g may also be displayed through the display of the first participating terminal 111, which is the participating terminal that delivered the gift.
  • the screen shown in FIG. 26g may also be displayed through the display of a participating terminal other than the second participating terminal 113 that received the gift.
  • Whether or not the image depicting the scene of receiving the gift may be displayed on a display of a participating terminal other than the second participating terminal 113 may be determined by the settings of the user sending the gift.
  • the screen shown in FIG. 26g is displayed on the display of a participating terminal other than the first participating terminal 111 or the second participating terminal 113 when the second participating terminal 113 receives the gift without rejecting it. It could be.
  • the second participating terminal 113 can perform an operation to select whether to accept or reject a gift.
  • the image of the avatar 2430 of the second participating terminal 113 holding a gift box shows a 'receive' button 2491 to receive a gift and/or a 'reject' button to reject the gift.
  • a screen displaying a button 2493 is shown.
  • the second participation terminal 113 can display information about the product or information about the person who gave the gift using the received gift information.
  • Figure 24i shows a screen displaying my 'coupon box' including a 'coffee coupon' received as a gift.
  • the second participating terminal 113 may transmit a message confirming that the gift has been delivered to the first participating terminal 111 in operation 2315.
  • the first participating terminal 111 may receive a gift delivery confirmation message from the second participating terminal 113 in operation 2315.
  • the first participation terminal 111 may display a screen in which the other party's avatar 2430 receives the gift in operation 2317.
  • the screen output from the first participating terminal 111 may be the same screen as in FIG. 24G.
  • Figures 24A to 24I are exemplary diagrams of a user interface (UI) for each procedure for delivering a gift on a conversation screen using an avatar, according to an embodiment.
  • UI user interface
  • FIG. 24A shows an example of a conversation screen of a chat room in which three participants (e.g., the first participant avatar 2410, the second participant avatar 24220, and the third participant avatar 2430 in FIG. 24A) are opened. I'm doing it.
  • FIG. 24B shows an example of a conversation screen in which a menu window 2450 is displayed including items corresponding to functions such as gifting, image sharing, gesture addition, item shop, and exit.
  • FIG. 24c an example of a screen representing a coupon shovel selling coupons such as a coffee coupon 2461 that can be selected for a gift is shown, and in (b) of Figure 24c, the selected coffee coupon ( 2661) A screen containing detailed information (e.g., price information, product description, etc.) and a selection button (e.g., purchase (2463) or gift (2465)) to finally select an event item to process the product.
  • detailed information e.g., price information, product description, etc.
  • a selection button e.g., purchase (2463) or gift (2465)
  • FIG. 24d shows an example of a screen displaying a 'Send' button 2470 to confirm whether to send a gift to an image in which the user's avatar 2410 is holding a gift box.
  • FIG. 24e shows an example of a screen displaying selection buttons 2481 and 2483 for selecting recipients above the avatars 2420 and 2430 of participants participating in a conversation.
  • Figure 24f shows an example of a screen depicting a gift box leaving the hand of avatar 2410.
  • Figure 24g shows an example of a screen depicting a gift box falling into the hand of an avatar 2430.
  • the avatar 2430 of the second participating terminal (e.g., the second participating terminal 113 in Figure 1) is shown in an image holding a gift box and a 'receive' button 2491 to receive a gift and/or a gift.
  • An example of a screen displaying a 'reject' button 2493 for rejecting is shown.
  • Figure 24i shows an example of a screen displaying my 'coupon box' including a 'coffee coupon' received as a gift.
  • FIG. 25 is a block diagram of an electronic device 2501 (eg, electronic device 110 of FIG. 1 ) in a network environment 2500, according to various embodiments.
  • the electronic device 2501 communicates with the electronic device 2502 through a first network 2598 (e.g., a short-range wireless communication network) or a second network 2599. It is possible to communicate with at least one of the electronic device 2504 or the server 2508 through (e.g., a long-distance wireless communication network). According to one embodiment, the electronic device 2501 may communicate with the electronic device 2504 through the server 2508.
  • a first network 2598 e.g., a short-range wireless communication network
  • a second network 2599 e.g., a long-distance wireless communication network
  • the electronic device 2501 may communicate with the electronic device 2504 through the server 2508.
  • the electronic device 2501 includes a processor 2520, a memory 2530, an input module 2550, an audio output module 2555, a display module 2560, an audio module 2570, and a sensor module ( 2576), interface (2577), connection terminal (2578), haptic module (2579), camera module (2580), power management module (2588), battery (2589), communication module (2590), subscriber identification module (2596) , or may include an antenna module 2597.
  • at least one of these components eg, the connection terminal 2578
  • some of these components e.g., sensor module 2576, camera module 2580, or antenna module 2597
  • are integrated into one component e.g., display module 2560). It can be.
  • the processor 2520 executes software (e.g., program 2540) to operate at least one other component (e.g., hardware or software component) of the electronic device 2501 connected to the processor 2520. It can be controlled and various data processing or calculations can be performed. According to one embodiment, as at least part of the data processing or computation, the processor 2520 stores instructions or data received from another component (e.g., the sensor module 2576 or the communication module 2590) in the volatile memory 2532. The commands or data stored in the volatile memory 2532 can be processed, and the resulting data can be stored in the non-volatile memory 2534.
  • software e.g., program 2540
  • the processor 2520 stores instructions or data received from another component (e.g., the sensor module 2576 or the communication module 2590) in the volatile memory 2532.
  • the commands or data stored in the volatile memory 2532 can be processed, and the resulting data can be stored in the non-volatile memory 2534.
  • the processor 2520 may include a main processor 2521 (e.g., a central processing unit or an application processor) or an auxiliary processor 2523 (e.g., a graphics processing unit, a neural network processing unit) that can operate independently or together with the main processor 2521. It may include a neural processing unit (NPU), an image signal processor, a sensor hub processor, or a communication processor).
  • a main processor 2521 e.g., a central processing unit or an application processor
  • auxiliary processor 2523 e.g., a graphics processing unit, a neural network processing unit
  • the main processor 2521 may include a neural processing unit (NPU), an image signal processor, a sensor hub processor, or a communication processor.
  • the auxiliary processor 2523 may be set to use lower power than the main processor 2521 or be specialized for a designated function. You can.
  • the auxiliary processor 2523 may be implemented separately from the main processor 2521 or as part of it.
  • the auxiliary processor 2523 may, for example, act on behalf of the main processor 2521 while the main processor 2521 is in an inactive (e.g., sleep) state, or while the main processor 2521 is in an active (e.g., application execution) state. ), together with the main processor 2521, at least one of the components of the electronic device 2501 (e.g., the display module 2560, the sensor module 2576, or the communication module 2590) At least some of the functions or states related to can be controlled.
  • coprocessor 2523 e.g., image signal processor or communication processor
  • may be implemented as part of another functionally related component e.g., camera module 2580 or communication module 2590. there is.
  • the auxiliary processor 2523 may include a hardware structure specialized for processing artificial intelligence models.
  • Artificial intelligence models can be created through machine learning. This learning may be performed, for example, in the electronic device 2501 itself on which the artificial intelligence model is performed, or may be performed through a separate server (e.g., server 2508). Learning algorithms may include, for example, supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, but It is not limited.
  • An artificial intelligence model may include multiple artificial neural network layers.
  • Artificial neural networks include deep neural network (DNN), convolutional neural network (CNN), recurrent neural network (RNN), restricted boltzmann machine (RBM), belief deep network (DBN), bidirectional recurrent deep neural network (BRDNN), It may be one of deep Q-networks or a combination of two or more of the above, but is not limited to the examples described above.
  • artificial intelligence models may additionally or alternatively include software structures.
  • the memory 2530 may store various data used by at least one component (eg, the processor 2520 or the sensor module 2576) of the electronic device 2501. Data may include, for example, input data or output data for software (e.g., program 2540) and instructions related thereto.
  • Memory 2530 may include volatile memory 2532 or non-volatile memory 2534.
  • Non-volatile memory 2532 may include internal memory 2536 or external memory 2538.
  • the program 2540 may be stored as software in the memory 2530 and may include, for example, an operating system 2542, middleware 2544, or applications 2546.
  • the input module 2550 may receive commands or data to be used in a component of the electronic device 2501 (e.g., the processor 2520) from outside the electronic device 2501 (e.g., a user).
  • the input module 2550 may include, for example, a microphone, mouse, keyboard, keys (eg, buttons), or digital pen (eg, stylus pen).
  • the sound output module 2555 can output sound signals to the outside of the electronic device 2501.
  • the sound output module 2555 may include, for example, a speaker or receiver. Speakers can be used for general purposes such as multimedia playback or recording playback.
  • the receiver can be used to receive incoming calls. According to one embodiment, the receiver may be implemented separately from the speaker or as part of it.
  • the display module 2560 can visually provide information to the outside of the electronic device 2501 (eg, a user).
  • the display module 2560 may include, for example, a display, a hologram device, or a projector, and a control circuit for controlling the device.
  • the display module 2560 may include a touch sensor configured to detect a touch, or a pressure sensor configured to measure the intensity of force generated by the touch.
  • the audio module 2570 can convert sound into an electrical signal or, conversely, convert an electrical signal into sound. According to one embodiment, the audio module 2570 acquires sound through the input module 2550, the sound output module 2555, or an external electronic device (e.g., directly or wirelessly connected to the electronic device 2501). Sound may be output through an electronic device 2502 (e.g., speaker or headphone).
  • an electronic device 2502 e.g., speaker or headphone
  • the sensor module 2576 detects the operating state (e.g., power or temperature) of the electronic device 2501 or the external environmental state (e.g., user state) and generates an electrical signal or data value corresponding to the detected state. can do.
  • the sensor module 2576 includes, for example, a gesture sensor, a gyro sensor, an air pressure sensor, a magnetic sensor, an acceleration sensor, a grip sensor, a proximity sensor, a color sensor, an IR (infrared) sensor, a biometric sensor, It may include a temperature sensor, humidity sensor, or light sensor.
  • the interface 2577 may support one or more designated protocols that can be used to connect the electronic device 2501 directly or wirelessly with an external electronic device (e.g., the electronic device 2502).
  • the interface 2577 may include, for example, a high definition multimedia interface (HDMI), a universal serial bus (USB) interface, an SD card interface, or an audio interface.
  • HDMI high definition multimedia interface
  • USB universal serial bus
  • SD card interface Secure Digital interface
  • audio interface audio interface
  • connection terminal 2578 may include a connector through which the electronic device 2501 can be physically connected to an external electronic device (eg, the electronic device 2502).
  • the connection terminal 2578 may include, for example, an HDMI connector, a USB connector, an SD card connector, or an audio connector (eg, a headphone connector).
  • the haptic module 2579 can convert electrical signals into mechanical stimulation (e.g., vibration or movement) or electrical stimulation that the user can perceive through tactile or kinesthetic senses.
  • the haptic module 2579 may include, for example, a motor, a piezoelectric element, or an electrical stimulation device.
  • the camera module 2580 can capture still images and videos. According to one embodiment, the camera module 2580 may include one or more lenses, image sensors, image signal processors, or flashes.
  • the power management module 2588 can manage power supplied to the electronic device 2501.
  • the power management module 2588 may be implemented as at least a part of, for example, a power management integrated circuit (PMIC).
  • PMIC power management integrated circuit
  • Battery 2589 may supply power to at least one component of electronic device 2501.
  • the battery 2589 may include, for example, a non-rechargeable primary cell, a rechargeable secondary cell, or a fuel cell.
  • Communication module 2590 is configured to provide a direct (e.g., wired) communication channel or wireless communication channel between the electronic device 2501 and an external electronic device (e.g., electronic device 2502, electronic device 2504, or server 2508). It can support establishment and communication through established communication channels. Communication module 2590 operates independently of processor 2520 (e.g., an application processor) and may include one or more communication processors that support direct (e.g., wired) communication or wireless communication.
  • processor 2520 e.g., an application processor
  • the communication module 2590 may be a wireless communication module 2592 (e.g., a cellular communication module, a short-range wireless communication module, or a global navigation satellite system (GNSS) communication module) or a wired communication module 2594 (e.g., : LAN (local area network) communication module, or power line communication module) may be included.
  • a wireless communication module 2592 e.g., a cellular communication module, a short-range wireless communication module, or a global navigation satellite system (GNSS) communication module
  • GNSS global navigation satellite system
  • a wired communication module 2594 e.g., : LAN (local area network) communication module, or power line communication module
  • the corresponding communication module is a first network 2598 (e.g., a short-range communication network such as Bluetooth, wireless fidelity (WiFi) direct, or infrared data association (IrDA)) or a second network 2599 (e.g., legacy It may communicate with an external electronic device 2504 through a telecommunication network such as a cellular network, a 5G network, a next-generation communication network, the Internet, or a computer network (e.g., LAN or WAN).
  • a telecommunication network such as a cellular network, a 5G network, a next-generation communication network, the Internet, or a computer network (e.g., LAN or WAN).
  • a telecommunication network such as a cellular network, a 5G network, a next-generation communication network, the Internet, or a computer network (e.g., LAN or WAN).
  • a telecommunication network such as a cellular network, a 5G network, a next-generation communication network
  • the wireless communication module 2592 uses subscriber information (e.g., International Mobile Subscriber Identifier (IMSI)) stored in the subscriber identification module 2596 to communicate within a communication network such as the first network 2598 or the second network 2599.
  • subscriber information e.g., International Mobile Subscriber Identifier (IMSI)
  • IMSI International Mobile Subscriber Identifier
  • the wireless communication module 2592 may support 5G networks after 4G networks and next-generation communication technologies, for example, NR access technology (new radio access technology).
  • NR access technology provides high-speed transmission of high-capacity data (eMBB (enhanced mobile broadband)), minimization of terminal power and access to multiple terminals (mMTC (massive machine type communications)), or high reliability and low latency (URLLC (ultra-reliable and low latency). -latency communications)) can be supported.
  • the wireless communication module 2592 may support high frequency bands (e.g., mmWave bands), for example, to achieve high data rates.
  • the wireless communication module 2592 uses various technologies to secure performance in high frequency bands, such as beamforming, massive MIMO (multiple-input and multiple-output), and full-dimensional multiplexing. It can support technologies such as input/output (FD-MIMO: full dimensional MIMO), array antenna, analog beam-forming, or large scale antenna.
  • the wireless communication module 2592 may support various requirements specified in the electronic device 2501, an external electronic device (e.g., electronic device 2504), or a network system (e.g., second network 2599).
  • the wireless communication module 2592 supports Peak data rate (e.g., 20 Gbps or more) for realizing eMBB, loss coverage (e.g., 164 dB or less) for realizing mmTC, or U-plane latency (e.g., 164 dB or less) for realizing URLLC.
  • Peak data rate e.g., 20 Gbps or more
  • loss coverage e.g., 164 dB or less
  • U-plane latency e.g., 164 dB or less
  • the antenna module 2597 may transmit or receive signals or power to or from the outside (e.g., an external electronic device).
  • the antenna module 2597 may include an antenna including a radiator made of a conductor or a conductive pattern formed on a substrate (eg, PCB).
  • the antenna module 2597 may include a plurality of antennas (eg, an array antenna). In this case, at least one antenna suitable for the communication method used in the communication network, such as the first network 2598 or the second network 2599, is connected to the plurality of antennas by, for example, the communication module 2590. can be selected. Signals or power may be transmitted or received between the communication module 2590 and an external electronic device through the selected at least one antenna.
  • other components eg, radio frequency integrated circuit (RFIC) may be additionally formed as part of the antenna module 2597.
  • RFIC radio frequency integrated circuit
  • antenna module 2597 may form a mmWave antenna module.
  • a mmWave antenna module includes: a printed circuit board, an RFIC disposed on or adjacent to a first side (e.g., bottom side) of the printed circuit board and capable of supporting a designated high frequency band (e.g., mmWave band); And a plurality of antennas (e.g., array antennas) disposed on or adjacent to the second side (e.g., top or side) of the printed circuit board and capable of transmitting or receiving signals in the designated high frequency band. can do.
  • a mmWave antenna module includes: a printed circuit board, an RFIC disposed on or adjacent to a first side (e.g., bottom side) of the printed circuit board and capable of supporting a designated high frequency band (e.g., mmWave band); And a plurality of antennas (e.g., array antennas) disposed on or adjacent to the second side (e.g., top or side) of
  • peripheral devices e.g., bus, general purpose input and output (GPIO), serial peripheral interface (SPI), or mobile industry processor interface (MIPI)
  • signal e.g. commands or data
  • commands or data may be transmitted or received between the electronic device 2501 and the external electronic device 2504 through the server 2508 connected to the second network 2599.
  • Each of the external electronic devices 2502 or 2504 may be of the same or different type as the electronic device 2501.
  • all or part of the operations performed in the electronic device 2501 may be executed in one or more of the external electronic devices 2502, 2504, or 2508.
  • the electronic device 2501 may perform the function or service instead of executing the function or service on its own.
  • one or more external electronic devices may be requested to perform at least part of the function or service.
  • One or more external electronic devices that have received the request may execute at least part of the requested function or service, or an additional function or service related to the request, and transmit the result of the execution to the electronic device 2501.
  • the electronic device 2501 may process the result as is or additionally and provide it as at least part of a response to the request.
  • cloud computing distributed computing, mobile edge computing (MEC), or client-server computing technology can be used.
  • the electronic device 2501 may provide an ultra-low latency service using, for example, distributed computing or mobile edge computing.
  • the external electronic device 2504 may include an Internet of Things (IoT) device.
  • Server 2508 may be an intelligent server using machine learning and/or neural networks.
  • an external electronic device 2504 or a server 2508 may be included in the second network 2599.
  • the electronic device 2501 may be applied to intelligent services (e.g., smart home, smart city, smart car, or healthcare) based on 5G communication technology and IoT-related technology.
  • the electronic device 110 includes a camera module 1150 that includes a front camera and is configured to output an electrical signal by photographing a subject;
  • a display module 1120 that includes a display panel 1121 or a touch panel 1123 and is configured to display an image on the display panel 1121 or output an electrical signal according to a touch of the touch panel 1123;
  • a communication module 1170 configured to communicate with external electronic devices 120 and 130 based on a network environment; and operation of the camera module 1150, the display module 1120, or the communication module 1170 by electrical connection with the camera module 1150, the display module 1120, or the communication module 1170.
  • It may include at least one processor 1110 configured to control.
  • the at least one processor 1110 may display the avatar of at least one participant among a plurality of participants including the user of the electronic device 110 in a virtual space provided for a conversation function.
  • the at least one processor 1110 may display an utterance indicator indicating an utterance state in response to an utterance by at least one speaker among the plurality of participants.
  • the at least one processor 1110 may control the display module 1120 to change and display the gaze of the avatar in the virtual space based on an utterance by the at least one speaker. there is.
  • the at least one processor 1110 may control the display module 1120 to display the avatar of at least one other participant excluding the user among the plurality of participants in the virtual space. .
  • the at least one processor 1110 is configured to replace the at least one other participant in the virtual space in the direction in which the gaze of the first avatar is directed, centering on the first avatar representing the user. Controls the display module 1120 to display a second avatar, wherein at least one of an angle, an angle of view, or a focus position of a virtual camera is considered for displaying the first avatar or the second avatar in the virtual space. can be changed considering the number of participants.
  • the at least one processor 1110 is configured to display the plurality of avatars at different depths in the virtual space (the display module ( 1120) can be controlled.
  • the at least one processor 1110 identifies a change in speaker among the plurality of participants based on data collected from the external electronic devices 120 and 130 through the communication module 1170. Then, a first conversation screen can be configured with a camera angle changed based on the speaker avatar corresponding to the changed speaker, and the display module 1120 can be controlled to display the first conversation screen.
  • the at least one processor 1110 acquires voice characteristics for each participant based on voice data included in the collected data, and combines information on preset reference voice characteristics with the acquired voice characteristics. It may be configured to determine the speaker avatar using .
  • the at least one processor 1110 switches the camera based on an electrical signal provided from the display module 1120 in response to a swipe operation on the touch panel 1123.
  • a second conversation screen can be configured with an angle, and the display module 1120 can be controlled to display the second conversation screen.
  • it includes at least one sensor and includes a sensor module 1160 configured to detect movement of the electronic device 110 in the left/right or up/down directions and output an electrical sensing signal. can do.
  • the at least one processor 1110 configures a third conversation screen with a switched camera angle based on the electrical sensing signal provided from the sensor module 1160, and displays the third conversation screen.
  • the display module 1120 can be controlled to display.
  • the at least one processor 1110 zooms when the speech time by a specific avatar does not exceed a threshold time or in response to a swipe operation on the touch panel 1123 -
  • the display module 1120 is controlled to display a fourth conversation screen provided by a first viewing angle according to the user's input, and the speech time by the specific avatar exceeds the threshold time, or the touch panel 1123
  • the display module 1120 may be controlled to display a fifth conversation screen provided by a second angle of view according to zoom-out.
  • the at least one processor 1110 acquires a facial expression or gesture from the user's image captured by the front camera included in the camera module 1150, or from the collected data. It may be configured to acquire the facial expression or gesture of the other participant, and control the display module 1120 to mirror the acquired facial expression or the acquired gesture to the user's avatar or the avatar of the other participant. there is.
  • the at least one processor 1110 when the at least one processor 1110 detects that the user has touched the avatar through the touch panel 1123, it calls the external electronic device 130 corresponding to the touched avatar.
  • the communication module 1170 can be controlled to transmit a signal, extract images corresponding to the conversation between the plurality of participants in the virtual space, and create and store a conversation record image using the extracted images.
  • a method of providing a conversation function using an avatar in an electronic device includes displaying an avatar of at least one participant among a plurality of participants including a user of the electronic device in a virtual space provided for the conversation function. ; displaying an utterance indicator indicating an utterance state in response to an utterance by at least one speaker among the plurality of participants; and an operation of changing and displaying the gaze of the avatar in the virtual space based on an utterance by the at least one speaker.
  • the operation of displaying the avatar may include the operation of displaying the avatar of at least one other participant excluding the user among the plurality of participants in the virtual space.
  • the operation of displaying the avatar includes a second avatar representing the at least one other participant in the virtual space centered on the first avatar representing the user and in the direction in which the gaze of the first avatar is directed.
  • the operation of displaying the avatar may include, when a plurality of avatars are displayed in the virtual space, displaying the plurality of avatars to have different depths in the virtual space. there is.
  • the method includes an operation 1013 of identifying that a speaker has changed among the plurality of participants based on data collected from external electronic devices 120 and 130 based on a network environment; An operation of configuring a first conversation screen by switching the camera angle based on the speaker avatar corresponding to the identified speaker (1025); and an operation 1025 of displaying the first conversation screen.
  • the method includes obtaining voice characteristics for each participant based on voice data included in the collected data; and determining the speaker avatar using information on preset reference voice characteristics and the acquired voice characteristics.
  • the method includes configuring a second conversation screen with a camera angle switched in response to a user's swipe operation (1013, 1025); and an operation 1025 of displaying the second conversation screen.
  • the method includes an operation 1013 of configuring a third conversation screen with a switched camera angle based on a left/right or up/down movement of the electronic device 110; and an operation 1027 of displaying the third conversation screen.
  • a fourth conversation screen provided by the first angle of view according to zoom-in is output. action(1015, 1027); and an operation of outputting a fifth conversation screen provided by a second angle of view according to zoom-out when the speech time by the specific avatar exceeds the threshold time or in response to a swipe operation of the user (1015) , 1027).
  • the method includes an operation 1017 of acquiring a facial expression or gesture from a user's image captured by a front camera, or acquiring a facial expression or gesture of the other participant from the collected data; And it may include an operation 1029 of mirroring the acquired facial expression or the acquired gesture to the user's avatar or the other participant's avatar.
  • an electronic device (e.g., the electronic device 110 of FIG. 1) includes a front camera and may include a camera module 1150 configured to output an electrical signal by photographing a subject.
  • the electronic device 110 includes a display panel 1121 or a touch panel 1123, and displays an image on the display panel 1121 or outputs an electrical signal according to a touch of the touch panel 1123. It may include a configured display module 1120.
  • the electronic device 110 may include a communication module 1170 configured to communicate with external electronic devices 120 and 130 based on a network environment.
  • the electronic device 110 is connected to the camera module 1150, the display module 1120, or the communication module 1170 by electrical connection with the camera module 1150, the display module 1120, or the communication module 1170. It may include at least one processor 1110 configured to control the operation of the module 1170.
  • the at least one processor 1110 selects a speaker among attendees who participated in a conversation using an avatar based on data collected from the external electronic devices 120 and 130 through the communication module 1170. It can be identified that has changed.
  • the at least one processor 1110 may configure a first conversation screen with a changed camera angle based on the speaker avatar corresponding to the changed speaker.
  • the at least one processor 1110 may control the display module 1120 to display the first conversation screen on the display panel 1121.
  • the at least one processor 1110 may acquire the voice characteristics of the participants based on the participants' voice data included in the collected data.
  • the at least one processor 1110 may predict a participant having the acquired voice characteristic using information about a preset reference voice characteristic.
  • the at least one processor 1110 may determine the predicted participant's avatar among avatars participating in the conversation as the speaker avatar.
  • the at least one processor 1110 may collect voice data of the attendees through the communication module 1170 when the conversation is established and the conversation is performed by the attendees.
  • the at least one processor 1110 may obtain and register information on standard voice characteristics for each of the attendees using the collected voice data.
  • the at least one processor 1110 switches the camera based on an electrical signal provided from the display module 1120 in response to a swipe operation on the touch panel 1123. You can configure the second conversation screen with an angle.
  • the at least one processor 1110 may control the display module 1120 to display the second conversation screen on the display panel 1121.
  • the electronic device 110 includes at least one sensor, and detects movement of the electronic device 110 in the left/right or up/down directions and outputs an electrical sensing signal. It may include a configured sensor module 1160.
  • the at least one processor 1110 may configure a third conversation screen with a switched camera angle based on the electrical sensing signal provided from the sensor module 1160.
  • the at least one processor 1110 may control the display module 1120 to display the third conversation screen on the display panel 1121.
  • the at least one processor 1110 may configure a fourth conversation screen with a changed view angle based on the collected data.
  • the at least one processor 1110 may control the display module 1120 to display the fourth conversation screen on the display panel 1121.
  • the at least one processor 1110 determines that the speech time by the specific avatar does not exceed the threshold time or in response to a swipe operation on the touch panel 1123.
  • the display module 1120 can be controlled to display the fifth conversation screen provided by the first angle of view according to zoom-in on the display panel 1121.
  • the at least one processor 1110 is configured to zoom in response to a speech time by the specific avatar exceeding the threshold time or a swipe operation on the touch panel 1123.
  • the display module 1120 can be controlled to display a sixth conversation screen provided by a second viewing angle according to -out on the display panel 1121.
  • the at least one processor 1110 may obtain a facial expression or gesture from the user's image captured by the front camera included in the camera module 1150.
  • the at least one processor 1110 controls the display module 1120 to mirror the acquired facial expression or the acquired gesture to the user's avatar included in the conversation screen displayed on the display panel 1121 ( mirroring) is possible.
  • the at least one processor 1110 may obtain facial expressions or gestures of the attendees from the collected data.
  • the at least one processor 1110 controls the display module 1120 to display facial expressions of the obtained attendees or gestures of the obtained attendees included in the conversation screen displayed on the display panel 1121. You can mirror it on your avatar.
  • the at least one processor 1110 may adjust the angle of view in consideration of the number of attendees.
  • the at least one processor 1110 may control the display module 1120 to display a seventh conversation screen provided by the adjusted viewing angle on the display panel 1121.
  • the at least one processor 1110 detects that the user has touched the avatar of one of the attendees through the touch panel 1123, the at least one processor 1110 detects that the user has touched the avatar of one of the attendees through the communication module 1170.
  • a signal calling the external electronic device 130 corresponding to the avatar may be transmitted.
  • the at least one processor 1110 may extract images corresponding to the conversation based on the collected data.
  • the at least one processor 1110 may generate a conversation record image using the extracted images and store the generated conversation record image.
  • a method of providing a conversation function using an avatar in an electronic device includes data collected from external electronic devices 120 and 130 based on a network environment. Based on this, it may include an operation (610 & 640, 710 & 730, 810 & 880, or 910 & 950) to output the first conversation screen using the avatar.
  • the method may include an operation 1013 of identifying a speaker among attendees based on the collected data.
  • the method may include an operation 1025 of configuring a second conversation screen by switching the camera angle based on the speaker avatar corresponding to the identified speaker.
  • the method may include an operation 1025 of converting the first conversation screen to the second conversation screen and outputting the second conversation screen.
  • the operation of identifying the speaker may include the operation of acquiring the voice characteristics of the participants based on the participants' voice data included in the collected data.
  • the operation of identifying the speaker may include the operation of predicting a participant with the acquired voice characteristic using information about a preset reference voice characteristic.
  • the operation of identifying the speaker may include the operation of determining the avatar of the predicted participant among avatars participating in the conversation as the speaker avatar.
  • the method may include collecting voice data of the attendees when the conversation is opened and the conversation is performed by the attendees.
  • the method may include an operation of obtaining and registering information on standard voice characteristics for each of the attendees using the collected voice data.
  • the method may include operations 1013 and 1025 of configuring a third conversation screen with a camera angle switched in response to a user's swipe operation.
  • the method may include an operation 1025 of converting the conversation screen to the third conversation screen and outputting it.
  • the method may include an operation 1013 of configuring a fourth conversation screen with a switched camera angle based on the left/right or up/down movement of the electronic device 110. You can.
  • the method may include an operation 1025 of converting a conversation screen to the fourth conversation screen and outputting it.
  • the method may include an operation 1015 of configuring a fifth conversation screen with a view angle changed based on the collected data.
  • the method may include an operation 1027 of converting the conversation screen to the fifth conversation screen and outputting it.
  • the method is provided when the speech time by the specific avatar does not exceed the threshold time, or by the first angle of view according to zoom-in in response to the user's swipe operation. 6 May include operations 1015 and 1027 for outputting a conversation screen.
  • the method includes outputting a seventh conversation screen provided by a second angle of view according to zoom-out in response to a speech time by the specific avatar exceeding the threshold time or a user's swipe operation. It may include (1015, 1027).
  • the method may include an operation 1017 of obtaining a facial expression or gesture from an image of the user captured by the front camera.
  • the method may include an operation 1029 of mirroring the acquired facial expression or the acquired gesture to the user's avatar included in the conversation screen.
  • the method may include an operation 1017 of obtaining facial expressions or gestures of the attendees from the collected data.
  • the method may include an operation 1029 of mirroring the acquired facial expressions of the attendees or the acquired gestures of the attendees onto the attendees' avatars included in the conversation screen.
  • the method may include an operation 1019 of adjusting the angle of view in consideration of the number of attendees.
  • the method may include an operation 1031 of outputting an eighth conversation screen provided by the adjusted view angle.
  • the method may include operations 1021 and 1033 of transmitting a signal to call an external electronic device corresponding to the touched avatar when detecting that the user touches a specific avatar on the conversation screen. You can.
  • the method may include operations 1023 and 1035 of extracting images corresponding to the conversation based on the collected data.
  • the method may include an operation 1035 of generating a conversation record image using the extracted images.
  • the method may include an operation 1035 of storing the generated conversation record image.
  • Electronic devices may be of various types.
  • Electronic devices may include, for example, portable communication devices (e.g., smartphones), computer devices, portable multimedia devices, portable medical devices, cameras, wearable devices, or home appliances.
  • Electronic devices according to embodiments of this document are not limited to the above-described devices.
  • first, second, or first or second may be used simply to distinguish one component from another, and to refer to that component in other respects (e.g., importance or order) is not limited.
  • One (e.g., first) component is said to be “coupled” or “connected” to another (e.g., second) component, with or without the terms “functionally” or “communicatively.”
  • any of the components can be connected to the other components directly (e.g. wired), wirelessly, or through a third component.
  • module used in various embodiments of this document may include a unit implemented in hardware, software, or firmware, and is interchangeable with terms such as logic, logic block, component, or circuit, for example. It can be used as A module may be an integrated part or a minimum unit of the parts or a part thereof that performs one or more functions. For example, according to one embodiment, the module may be implemented in the form of an application-specific integrated circuit (ASIC).
  • ASIC application-specific integrated circuit
  • Various embodiments of the present document are software (e.g., computer) including one or more instructions stored in a storage medium (e.g., memory 1180) readable by a machine (e.g., electronic device 110). It may be implemented as a program 2540.
  • a processor e.g., processor 1110 of a device (e.g., electronic device 110) may execute at least one instruction among one or more instructions stored from a storage medium. and execute it. This enables the device to be operated to perform at least one function according to the called at least one instruction.
  • the one or more instructions are code generated by a compiler or by an interpreter. It may contain executable code.
  • a storage medium that can be read by a device may be provided in the form of a non-transitory storage medium.
  • 'non-transitory' means that the storage medium is tangible. It simply means that it is a device that does not contain signals (e.g. electromagnetic waves), and this term does not distinguish between cases where data is semi-permanently stored in a storage medium and cases where data is stored temporarily.
  • Computer program products are commodities and can be traded between sellers and buyers.
  • the computer program product may be distributed in the form of a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or through an application store (e.g. Play StoreTM) or on two user devices (e.g. It can be distributed (e.g. downloaded or uploaded) directly between smart phones) or online.
  • a machine-readable storage medium e.g. compact disc read only memory (CD-ROM)
  • an application store e.g. Play StoreTM
  • two user devices e.g. It can be distributed (e.g. downloaded or uploaded) directly between smart phones) or online.
  • at least a portion of the computer program product may be at least temporarily stored or temporarily created in a machine-readable storage medium, such as the memory of a manufacturer's server, an application store's server, or a relay server.
  • each component (e.g., module or program) of the above-described components may include a single or plural entity, and some of the plurality of entities may be separately placed in other components. there is.
  • one or more of the components or operations described above may be omitted, or one or more other components or operations may be added.
  • multiple components eg, modules or programs
  • the integrated component may perform one or more functions of each component of the plurality of components in the same or similar manner as those performed by the corresponding component of the plurality of components prior to the integration. .
  • operations performed by a module, program, or other component may be executed sequentially, in parallel, iteratively, or heuristically, or one or more of the operations may be executed in a different order, or omitted. Alternatively, one or more other operations may be added.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

가상 공간에서 아바타를 이용한 대화 기능을 제공하는 전자 장치 및 방법에 관한 것이다. 상기 전자 장치는 네트워크 환경을 기반으로 외부 전자 장치로부터 수집한 데이터를 기반으로 아바타를 이용한 제1 대화 화면을 출력할 수 있다. 상기 전자 장치는 수집한 데이터를 기반으로 참석자들 중에서 화자를 식별하고, 상기 식별한 화자에 대응한 화자 아바타를 기준으로 카메라 앵글을 전환하여 제2 대화 화면을 구성할 수 있다.

Description

아바타를 이용한 대화 기능을 제공하는 전자 장치 및 방법
본 개시(disclosure)의 실시예들은 가상 공간에서 아바타를 이용한 대화 기능을 제공하는 전자 장치 및 방법에 관한 것이다.
스마트폰(smart phone), 모바일 폰(mobile phone), 태블릿 디바이스(tablet device)과 같은 전자 장치는 사용자가 휴대하기 용이한 전자 장치의 대표적인 예가 될 수 있다. 상기 전자 장치에는 다양한 기능을 제공하기 위한 응용프로그램이 설치될 수 있다. 상기 전자 장치는 사용자의 조작에 응답하여 설치된 응용프로그램을 실행할 수 있다. 상기 전자 장치는 응용프로그램의 실행에 따른 정보를 디스플레이를 통해 표시할 수 있다.
상기 전자 장치는 네트워크 환경을 기반으로 가상 공간에서 아바타를 활용한 게임, 쇼핑 또는 채팅과 같은 기능을 사용자가 이용할 수 있도록 한다. 상기 전자 장치가 네트워크 환경을 기반으로 가상 공간에서 제공하는 아바타 기능은, 아바타가 사용자를 대신하여 이동하거나, 음성 또는 문자를 이용하여 대화하는 정도에 머물고 있다.
따라서, 움직임 또는 대화 시의 제스처와 같은 사용자의 특징을 아바타에 반영함으로써, 사용자에게 자연스러운 커뮤니케이션 경험을 제공하는 것에 부족함이 있을 수 있었다.
일 실시예에 따른, 전자 장치는, 전면 카메라를 포함하며, 피사체의 촬영에 의한 전기적 신호를 출력하도록 구성된 카메라 모듈과, 디스플레이 패널 또는 터치 패널을 포함하며, 상기 디스플레이 패널에 이미지를 표시하거나, 또는 상기 터치 패널의 터치에 따른 전기적 신호를 출력하도록 구성된 디스플레이 모듈과, 네트워크 환경을 기반으로 외부 전자 장치와 통신을 수행하도록 구성된 통신 모듈 및 상기 카메라 모듈, 상기 디스플레이 모듈 또는 상기 통신 모듈과의 전기적인 연결에 의해 상기 카메라 모듈, 상기 디스플레이 모듈 또는 상기 통신 모듈의 동작을 제어하도록 구성된 적어도 하나의 프로세서를 포함할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서가, 대화 기능을 위해 마련된 가상 공간에 상기 전자 장치의 사용자를 포함한 복수의 참여자 중 적어도 한 명의 참여자의 아바타를 표시하고, 상기 복수의 참여자 중 적어도 한 명의 화자에 의한 발화에 응답하여 발화 상태를 나타내는 발화 표시자를 표시하며, 상기 적어도 한 명의 화자에 의한 발화에 기반하여 상기 가상 공간에서 상기 아바타의 시선을 변경하여 표시하도록 상기 디스플레이 모듈을 제어할 수 있다.
일 실시예에 따른, 전자 장치에서 아바타를 이용한 대화 기능을 제공하는 방법은, 상기 대화 기능을 위해 마련된 가상 공간에 상기 전자 장치의 사용자를 포함한 복수의 참여자 중 적어도 한 명의 참여자의 아바타를 표시하는 동작과, 상기 복수의 참여자 중 적어도 한 명의 화자에 의한 발화에 응답하여 발화 상태를 나타내는 발화 표시자를 표시하는 동작 및 상기 적어도 한 명의 화자에 의한 발화에 기반하여 상기 가상 공간에서 상기 아바타의 시선을 변경하여 표시하는 동작을 포함할 수 있다.
일 실시예에 따른, 전자 장치는, 전면 카메라를 포함하며, 피사체의 촬영에 의한 전기적 신호를 출력하도록 구성된 카메라 모듈을 포함할 수 있다. 상기 전자 장치는, 디스플레이 패널 또는 터치 패널을 포함하며, 상기 디스플레이 패널에 이미지를 표시하거나, 또는 상기 터치 패널의 터치에 따른 전기적 신호를 출력하도록 구성된 디스플레이 모듈을 포함할 수 있다. 상기 전자 장치는, 네트워크 환경을 기반으로 외부 전자 장치와 통신을 수행하도록 구성된 통신 모듈을 포함할 수 있다. 상기 전자 장치는, 상기 카메라 모듈, 상기 디스플레이 모듈 또는 상기 통신 모듈과의 전기적인 연결에 의해 상기 카메라 모듈, 상기 디스플레이 모듈 또는 상기 통신 모듈의 동작을 제어하도록 구성된 적어도 하나의 프로세서를 포함할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서는, 상기 통신 모듈을 통해 상기 외부 전자 장치로부터 수집한 데이터를 기반으로 아바타를 이용한 대화에 참여한 참석자들 중에서 화자가 변경됨을 식별할 수 있다. 상기 적어도 하나의 프로세서는, 상기 변경된 화자에 대응한 화자 아바타를 기준으로 전환된 카메라 앵글로 제1 대화 화면을 구성할 수 있다. 상기 적어도 하나의 프로세서는, 상기 제1 대화 화면을 상기 디스플레이 패널에 표시하기 위하여 상기 디스플레이 모듈을 제어할 수 있다.
일 실시예에 따른, 전자 장치에서 아바타를 이용한 대화 기능을 제공하는 방법은, 네트워크 환경을 기반으로 외부 전자 장치로부터 수집한 데이터를 기반으로 아바타를 이용한 제1 대화 화면을 출력하는 동작을 포함할 수 있다. 상기 방법은, 상기 수집한 데이터를 기반으로 참석자들 중에서 화자를 식별하는 동작을 포함할 수 있다. 상기 방법은, 상기 식별한 화자에 대응한 화자 아바타를 기준으로 카메라 앵글을 전환하여 제2 대화 화면을 구성하는 동작을 포함할 수 있다. 상기 방법은, 상기 제1 대화 화면을 상기 제2 대화 화면으로 전환하여 출력하는 동작을 포함할 수 있다.
도 1은 일 실시예에 따른, 네트워크 환경에서 아바타 대화 기능을 제공하기 위한 시스템의 구성도이다.
도 2는 일 실시예에 따른, 시스템에서 아바타 대화 기능을 제공하기 위한 제어 흐름도이다.
도 3은 일 실시예에 따른, 시스템에서 아바타 대화 기능을 제공하기 위한 신호 흐름도이다.
도 4는 일 실시예에 따른, 전자 장치에서 아바타 기반 대화 기능을 위해 수행할 제어 흐름도이다.
도 5는 일 실시예에 따른, 운영 서버에서 아바타 기반 대화 기능을 위해 수행할 제어 흐름도이다.
도 6은 일 실시예에 따른, 시스템에서 아바타 대화 서브루틴을 수행하기 위한 신호 흐름도이다.
도 7은 일 실시예에 따른, 시스템에서 아바타 대화 서브루틴을 수행하기 위한 신호 흐름도이다.
도 8은 일 실시예에 따른, 시스템에서 아바타 대화 서브루틴을 수행하기 위한 신호 흐름도이다.
도 9는 일 실시예에 따른, 시스템에서 아바타 대화 서브루틴을 수행하기 위한 신호 흐름도이다.
도 10은 일 실시예에 따른, 전자 장치에서 아바타 대화 기능의 대화 화면을 구성하기 위한 제어 흐름도이다.
도 11은 일 실시예에 따른, 전자 장치의 블록 구성도이다.
도 12는 일 실시예에 따른, 전자 장치에서 아바타 기반 대화방을 개설하는 절차 별 사용자 인터페이스(UI)의 예시도이다.
도 13은 일 실시예에 따른, 전자 장치에서 아바타 기반 대화 기능을 위한 대화방에 입장하기 전에 제공되는 사용자 인터페이스의 예를 도시하고 있다.
도 14는 일 실시예에 따른, 전자 장치에서 화자 변경에 대응한 앵글 전환 예를 도시하고 있다.
도 15a 및 도 15b는 일 실시예에 따른, 전자 장치에서 수동 조작에 대응한 앵글 전환 예를 도시하고 있다.
도 16는 일 실시예에 따른, 전자 장치에서 설정 요건에 대응하여 화각을 전환하는 예를 도시하고 있다.
도 17은 일 실시예에 따른, 전자 장치에서 수동 조작에 응답한 뷰 (화각) 전환 예를 도시하고 있다.
도 18a 및 도 18b는 일 실시예에 따른, 전자 장치에서 카메라에 의해 촬영된 이미지를 사용하여 아바타에 사용자의 움직임을 미러링 하는 예를 도시하고 있다.
도 19a, 도 19b 및 도 19c는 일 실시예에 따른, 전자 장치에서 미리 설정되어 아바타에 적용할 수 있는 움직임의 예시들을 도시하고 있다.
도 20a 내지 도 20e는 일 실시예에 따른, 전자 장치에서 참여자 수를 고려하여 화면 형태를 변화시키는 예를 도시하고 있다.
도 21은 일 실시예에 따른, 전자 장치에서 수동 조작에 의해 상대 아바타를 호출하는 예를 도시하고 있다.
도 22는 일 실시예에 따른, 전자 장치에서 사용자의 요청에 의해 대화 화면을 기록하는 예를 도시하고 있다.
도 23은 일 실시예에 따른, 시스템에서 아바타를 이용한 대화 중에 선물 이벤트를 제공하기 위한 신호 흐름도이다.
도 24a 내지 도 24i는 일 실시예에 따른, 아바타를 이용한 대화 화면에서 선물을 전달하기 위한 절차 별 사용자 인터페이스(UI)의 예시도이다.
도 25는 다양한 실시예들에 따른, 네트워크 환경 내의 전자 장치의 블록도이다.
이하에서는 도면을 참조하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 도면의 설명과 관련하여, 동일하거나 유사한 구성요소에 대해서는 동일하거나 유사한 참조 부호가 사용될 수 있다. 또한, 도면 및 관련된 설명에서는, 잘 알려진 기능 및 구성에 대한 설명이 명확성과 간결성을 위해 생략될 수 있다.
본 개시의 상세한 설명 및 도면 전체에 걸쳐 동일하거나, 유사한 구성 요소에 대하여 동일하거나 유사한 참조 번호가 사용될 수 있다.
본 개시의 일 실시예는, 네트워크 환경을 기반으로 하는 가상 공간에서 화자(話者)에 해당하는 아바타를 기준으로 대화 화면을 마련할 카메라의 앵글 또는 화각을 조정하는 전자 장치 및 그 제어 방법을 제공할 수 있다.
본 개시의 일 실시예에 의하면, 전자 장치는 가상 공간에서 화자에 해당하는 아바타를 중심으로 대화 화면을 마련함으로써, 사용자가 상대방을 직접 만나 대화하는 듯한 자연스러운 경험을 얻을 수 있도록 할 수 있다.
본 개시에서 이루고자 하는 기술적 과제는 앞에서 언급한 기술적 과제로 제한되지 않으며, 당해 기술분야의 통상의 지식을 가진 자에 의해 본 개시의 예시적 실시예들로부터 앞에서 언급되지 않은 다른 기술적 과제들이 도출될 수 있다.
본 개시의 예시적 실시예들에서 얻을 수 있는 효과는 이하의 기재로부터 본 개시의 예시적 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다. 즉, 본 개시의 예시적 실시예들을 실시함에 따른 의도하지 아니한 효과들 역시 본 개시의 예시적 실시예들로부터 당해 기술분야의 통상의 지식을 가진 자에 의해 도출될 수 있다.
도 1은 일 실시예에 따른, 네트워크 환경에서 아바타 대화 기능을 제공하기 위한 시스템(100)의 구성도이다.
도 1을 참조하면, 아바타 대화 기능을 제공하기 위한 시스템(100)은 복수의 전자 장치(예: 도 23의 전자 장치(2501, 2502, 2504))를 포함할 수 있다. 상기 복수의 전자 장치(2501, 2502, 2504)는 복수의 전자 장치(110) 또는 복수의 웨어러블 디바이스(120)를 포함할 수 있다. 상기 시스템(100)은 하나 또는 복수의 서버(130)를 포함할 수 있다. 상기 복수의 전자 장치(110)는 무선 또는 유선 자원을 이용한 통신 채널을 제공하는 네트워크(140)를 통해 상기 서버(130)와 데이터를 송신하거나, 수신할 수 있다.
도 1을 참조하면, 일 실시예로 아바타 대화 기능을 제공하기 위한 시스템(100)은 복수의 전자 장치(예: 도 23의 전자 장치(2501, 2502, 2504)) 또는 서버(130)를 포함할 수 있다. 상기 복수의 전자 장치(2501, 2502, 2504)는 복수의 전자 장치(110) 또는 복수의 웨어러블 디바이스(120)를 포함할 수 있다. 상기 복수의 전자 장치(110)는 제1 내지 제n 전자 장치(111, 113, 115)를 포함할 수 있다. 상기 제1 내지 제n 전자 장치(111, 113, 115)는 동일하거나 상이한 종류의 디바이스일 수 있다. 상기 제1 내지 제n 전자 장치(111, 113, 115)는 스마트폰 또는 태블릿 PC와 같이 응용 프로그램을 설치할 수 있고, 상기 설치된 응용 프로그램을 실행할 수 있으며, 상기 실행된 응용 프로그램이 제공하는 기능을 이용할 수 있는 디바이스일 수 있다. 상기 복수의 웨어러블 디바이스(120)는 스마트 워치(121), 무선 이어폰(123) 또는 스마트 글래스(125)와 같은 다양한 종류의 웨어러블 디바이스를 포함할 수 있다. 상기 복수의 웨어러블 디바이스(120)는 사용자의 신체 상태, 운동량 또는 움직임과 같은 정보를 관리하거나, 사용자에게 음악 청취 또는 가상 공간과 같은 기능을 제공할 수 있다. 상기 서버(130)는 동일하거나 상이한 기능 또는 기능을 제공하는 이종 서버들(131, 133)을 포함할 수 있다. 상기 서버(130)에 포함되는 이종 서버들(131, 133)로는, 인증 서버(authorization server), 매칭 서버(matching server), 운영 서버(present server) 또는 에셋 서버(asset server)를 포함할 수 있다. 상기 인증 서버는 사용자의 접근 자격을 확인하여 접근 권한을 발급할 수 있다. 상기 매칭 서버는 사용자가 운영 서버를 생성하고, 등록할 수 있는 API를 제공할 수 있다. 상기 매칭 서버는 운영 서버에 참여할 수 있도록 목록을 제공할 수 있다. 상기 매칭 서버는 사용자들의 상태 정보를 관리할 수 있다. 상기 매칭 서버는 사용자에게 초대 메시지를 전송할 수 있다. 상기 운영 서버는 실시간 데이터를 수집할 수 있다. 상기 운영 서버는 접속한 사용자들이 데이터를 업로드하거나, 다운로드할 수 있다. 상기 운영 서버는 전자 장치(110) 또는 외부 서버에서 실행되도록 구현될 수 있다. 상기 에셋 서버는 아바타 또는 배경을 렌더링할 수 있는 메쉬(mesh), 텍스처(texture)와 같은 데이터를 제공할 수 있다. 상기 이종 서버들은 하나의 서버에 모듈화하여 추가될 수도 있다.
이하 설명의 편의를 위해, 복수의 전자 장치(111, 113, 115)는 전자 장치(110)으로 통칭할 것이며, 복수의 웨어러블 디바이스(121, 123, 125)는 웨어러블 디바이스(120)로 통칭할 것이다.
상기 전자 장치(110)는 하나 또는 복수의 프로토콜을 기반으로 운영되는 네트워크(140)(예: 도 23의 제1 네트워크(2598), 제2 네트워크(2599))를 통하여 아바타 대화 기능을 위한 데이터를 다른 전자 장치 또는 서버(130)와 교환할 수 있다. 상기 하나 또는 복수의 프로토콜은, 예들 들어, 근거리 통신 네트워크(예: 도 23의 제 1 네트워크(2598)) 또는 원거리 통신 네트워크(예: 도 23의 제2 네트워크(2599)와 같은 네트워크 환경에서 통신을 수행하기 위해 마련된 프로토콜일 수 있다. 상기 근거리 통신 네트워크를 위해 마련된 프로토콜은, 예를 들어, 블루투스, WiFi direct 또는 IrDA 등을 포함할 수 있다. 상기 원거리 통신 네트워크는, 예를 들어, 레거시 셀룰러 네트워크, 5G 네트워크, 차세대 통신 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)가 포함될 수 있다.
상기 전자 장치(110)는 소정의 연결 절차에 의해 상기 웨어러블 디바이스(120)와 연결될 수 있다. 상기 연결하는 절차는 통신 방식 별로 마련된 프로토콜에 따라 수행될 수 있다. 상기 통신 방식 별로 마련된 프로토콜은, 예들 들어, 근거리 통신 네트워크(예: 도 23의 제 1 네트워크(2598)) 또는 원거리 통신 네트워크(예: 도 23의 제2 네트워크(2599)와 같은 네트워크 환경에서 통신을 수행하기 위해 마련된 프로토콜일 수 있다. 상기 근거리 통신 네트워크를 위해 마련된 프로토콜은, 예를 들어, 블루투스, WiFi direct 또는 IrDA 등을 포함할 수 있다. 상기 원거리 통신 네트워크는, 예를 들어, 레거시 셀룰러 네트워크, 5G 네트워크, 차세대 통신 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)가 포함될 수 있다.
상기 전자 장치(110)는 네트워크 환경(140)을 기반으로 외부 전자 장치인 다른 전자 장치, 웨어러블 디바이스(120) 또는 서버(130)로부터 아바타 대화 기능을 위한 데이터를 수집할 수 있다. 상기 전자 장치(110)는 수집한 데이터를 기반으로 아바타를 이용한 제1 대화 화면을 디스플레이를 통해 출력할 수 있다. 상기 전자 장치(110)는 수집한 데이터를 기반으로 참석자들 중에서 화자를 식별할 수 있다. 상기 전자 장치(110)는 식별한 화자에 대응한 화자 아바타를 기준으로 카메라 앵글, 화각 또는 화면 뷰를 전환하여 제2 대화 화면을 구성할 수 있다. 상기 전자 장치(110)는 아바타 대화 기능을 위한 대화 화면을 제1 대화 화면에서 제2 대화 화면으로 전환하여 출력할 수 있다.
상기 전자 장치(110)는 수집한 데이터에 포함된 참여자들의 보이스 데이터를 기반으로 참여자의 보이스 특성을 획득할 수 있다. 상기 전자 장치(110)는 미리 설정된 기준 보이스 특성에 관한 정보를 사용하여 획득한 보이스 특성을 갖는 참여자를 예측할 수 있다. 상기 전자 장치(110)는 대화에 참여하고 있는 아바타들 중에서 예측한 참여자의 아바타를 화자 아바타로 결정할 수 있다.
상기 전자 장치(110)는 아바타를 이용한 대화방이 개설되어 참석자들에 의한 대화가 수행되면, 상기 참석자들의 보이스 데이터를 일정 시간 또는 일정 주기로 수집할 수 있다. 상기 전자 장치(110)는 수집한 보이스 데이터를 사용하여 참석자들 각각에 대한 기준 보이스 특성에 관한 정보를 획득할 수 있다. 상기 전자 장치(110)는 획득한 참가자 별 기준 보이스 특성에 관한 정보를 등록할 수 있다.
상기 전자 장치(110)는 터치 스크린 상에서 이루어지는 사용자의 스와이프(swipe) 동작에 의해 제공되는 전기적 신호를 기반으로 전환된 카메라 앵글로 대화 화면을 구성할 수 있다. 상기 전자 장치(110)는 대화 화면을 디스플레이를 통해 출력할 수 있다.
상기 전자 장치(110)는 사용자에 의한 좌/우 또는 상/하 방향으로의 움직임에 의해 얻어지는 전기적 센싱 신호를 기반으로 전환된 카메라 앵글로 대화 화면을 구성할 수 있다. 상기 전자 장치(110)는 대화 화면을 디스플레이를 통해 출력할 수 있다.
상기 전자 장치(110)는 수집한 데이터를 기반으로 대화 화면의 화각을 조정하거나, 변경할 수 있다. 상기 전자 장치(110)는 조정 또는 변경된 화각을 적용한 대화 화면을 구성할 수 있다. 상기 전자 장치(110)는 대화 화면을 디스플레이를 통해 출력할 수 있다.
상기 전자 장치(110)는 특정 아바타에 의한 발화 시간이 임계 시간을 초과하지 않으면, 대화 화면을 상기 특정 아바타를 줌-인한 대화 화면으로 전환할 수 있다. 상기 전자 장치(110)는 사용자의 스와이프 동작에 응답하여 특정 대상을 줌-인한 대화 화면으로 전환할 수 있다. 상기 전자 장치(110)는 특정 아바타에 의한 발화 시간이 임계 시간을 초과하면, 상기 특정 아바타를 줌-아웃한 대화 화면으로 전환할 수 있다. 상기 전자 장치(110)는 사용자의 스와이프 동작에 응답하여 특정 대상을 줌-아웃한 대화 화면으로 전환할 수 있다.
상기 전자 장치(110)는 전면 카메라에 의한 촬영된 사용자의 이미지로부터 얼굴 표정 또는 제스처를 획득하고, 상기 획득한 얼굴 표정 또는 상기 획득한 제스처를 대화 화면에 포함된 사용자의 아바타에 미러링(mirroring) 시킬 수 있다. 상기 전자 장치(110)는 수집한 데이터로부터 참석자들의 얼굴 표정 또는 제스처를 획득하고, 상기 획득한 참석자들의 얼굴 표정 또는 상기 획득한 참석자들의 제스처를 대화 화면에 포함된 상기 참석자의 아바타에 미러링 시킬 수 있다.
상기 전자 장치(110)는 참석자들의 인원 수를 고려하여 화각을 조정하고, 상기 조정된 화각에 의해 마련된 대화 화면을 출력할 수 있다. 상기 전자 장치(110)는 사용자가 참석자들 중 한 명의 아바타를 터치하였음을 감지하면, 상기 터치된 아바타에 대응한 외부 전자 장치를 호출하는 신호를 전송할 수 있다. 상기 전자 장치(110)는 수집한 데이터를 기반으로 대화에 상응한 이미지들을 추출하고, 상기 추출한 이미지들을 사용하여 대화 기록 이미지를 생성하며, 상기 생성한 대화 기록 이미지를 저장할 수 있다.
상기 서버(130)는 전자 장치(110)로부터의 요청에 응답하여 아바타 기반 대화 기능을 제공할 대화방을 개설할 수 있다. 상기 서버(130)는 개설된 대화방에 초대할 게스트의 전자 장치(110)로 대화방 입장을 요청할 수 있다. 상기 서버(130)는 상기 전자 장치(110)로부터 수집한 데이터를 기반으로 각 전자 장치(110)에 적합한 대화 화면을 구성하고, 상기 구성한 대화 화면에 관한 정보를 해당 전자 장치(110)로 전달할 수 있다.
도 2는 일 실시예에 따른, 시스템(예: 도 1의 시스템(100))에서 아바타 대화 기능을 제공하기 위한 제어 흐름도(200)이다.
도 2를 참조하면, 일 실시예로, 시스템(100)은, 동작 210에서, 대화방 개설을 위한 절차를 수행할 수 있다. 일 실시예로, 대화방 개설을 위한 절차는 대화방을 마련하기 위한 대화방 생성 절차 또는 참가자들이 대화방에 접속하기 위한 대화방 입장 절차를 포함할 수 있다. 상기 참가자들은, 예를 들어, 대화방을 개설한 호스트 또는 대화방에 참여가 요청된 적어도 한 명의 게스트를 포함할 수 있다.
상기 대화방 생성 절차는 호스트에 해당하는 전자 장치(예: 도 1의 제1 전자 장치(111))(이하 “호스트 단말(111)”이라 칭함)가 운영 서버(예: 도 1의 운영 서버(130))로 대화방 개설을 요청하는 요청 절차를 포함할 수 있다. 상기 대화방 생성 절차는 상기 요청에 응답하여 상기 운영 서버(130)가 대화방을 생성하는 생성 절차를 포함할 수 있다. 상기 대화방은, 예를 들어, 아바타들이 참가자들을 대신하여 대화를 할 수 있는 가상 공간에 해당할 수 있다.
상기 대화방 입장 절차는 운영 서버(130)가 호스트 단말(111)에 의해 대화 참여가 요청된 게스트에 해당하는 전자 장치(예: 도 1의 제2 전자 장치(113) 또는 제n 전자 장치(115))(이하 “게스트 단말(113, 115)”이라 칭함)를 호출하는 호출 절차를 포함할 수 있다. 상기 대화방 입장 절차는 운영 서버(130)의 호출에 응답하여 게스트 단말(113, 115)이 대화방에 입장하는 응답 절차를 포함할 수 있다. 상기 호스트 단말(111), 상기 게스트 단말(113 또는 115)은 대화를 위해 대화방에 입장한 '참여 단말(예: 도 1의 전자 장치들(110))'로 통칭될 수 있다.
일 실시예로, 시스템(100)은, 동작 220에서, 아바타 기반 대화 절차를 수행할 수 있다. 상기 아바타 기반 대화 절차는 대화방에서 호스트를 대신할 호스트 아바타 또는 게스트를 대신할 게스트 아바타를 설정하는 아바타 설정 절차를 포함할 수 있다. 상기 호스트 아바타 또는 상기 게스트 아바타는 대화에 참여한 참가자를 대신할 '참여 아바타'로 통칭될 수 있다. 상기 참여 아바타에 관한 정보는, 예를 들어, 참여 단말(110) 간에 공유될 수 있다.
상기 아바타 기반 대화 절차는 참여 아바타들에 의해 대화가 이루어질 대화 화면을 구성하는 화면 구성 절차를 포함할 수 있다. 상기 대화 화면은, 예를 들어, 운영 서버(130)가 참여 단말(110)을 통해 참가자들(예: 호스트 또는 게스트)로부터 수집한 정보를 기반으로 참가자 별로 구성할 수 있다. 상기 운영 서버(130)에 의해 참가자 별로 구성된 대화 화면은 해당 참여 단말(110)로 제공될 수 있다. 상기 참가자 별로 구성된 대화 화면은, 예를 들어, 해당 참가자의 시점에서 마련될 수 있다. 상기 대화 화면은, 예를 들어, 참여 단말(예: 호스트 단말(111))이 다른 참여 단말(예: 게스트 단말(113 또는 115))로부터 수집한 정보를 기반으로 구성할 수 있다. 상기 참여 단말(110)에 의해 구성된 대화 화면은 다른 참가자의 의견과 무관하게 사용자의 요청을 실시간으로 반영할 수 있다.
상기 아바타 기반 대화 절차는 대화 화면 상에서 참여 아바타의 움직임 (예: 얼굴 표정, 시선 또는 손, 팔, 목 또는 다리와 같은 신체의 움직임) 또는 참여 아바타들 간 대화를 수행하는 대화 수행 절차를 포함할 수 있다. 상기 참여 아바타들 간의 대화는, 예를 들어, 참가자들의 음성 또는 상기 참가자들의 음성을 변환한 문자와 같은 자연어를 사용하여 이루어질 수 있다. 일 실시예로, 대화 수행 절차에서는, 참가자들 중 적어도 한 명의 화자를 식별하고, 상기 적어도 한 명의 화자의 아바타(이하 “화자 아바타”라 칭함)를 기준으로 대화 화면을 변경할 수 있다.
상기 대화 화면의 변경은, 예를 들어, 청자(聽者)에 해당하는 아바타(이하 “청자 아바다”라 칭함)의 시선을 화자 아바타 방향으로 변경한 대화 화면을 구성하는 것일 수 있다. 상기 대화 화면의 변경은, 예를 들어, 참가자들의 움직임(예: 얼굴 표정, 시선 또는 손, 팔, 목 또는 다리와 같은 신체의 움직임)을 반영(예: 미러링(mirroring))하여 변경한 대화 화면을 구성하는 것일 수 있다. 상기 참가자들의 움직임은, 예를 들어, 카메라를 통해 촬영된 사용자의 이미지로부터 획득할 수 있다. 상기 참가자들의 움직임은, 예를 들어, 전자 장치(110)에 구비된 센서(예: 자이로스코프 센서(gyroscope sensor)에 의해 측정된 센싱 정보에 의해 획득할 수 있다. 상기 참가자들의 움직임은, 예를 들어, 웨어러블 디바이스(예: 도 1의 웨어러블 디바이스(120))에 구비된 센서(예: 자이로스코프 센서(gyroscope sensor)에 의해 측정된 센싱 정보에 의해 획득할 수 있다.
상기 대화 화면의 변경은, 예를 들어, 화자 아바타가 중심에 위치하도록 카메라 앵글을 전환하여 대화 화면을 구성하는 것일 수 있다. 상기 대화 화면의 변경은, 예를 들어, 화자 아바타를 중심으로 카메라 앵글을 특정 방향(예: 좌우 방향, 상하 방향, 시계 방향 또는 반시계 방향)으로 회전하여 대화 화면을 구성하는 것일 수 있다. 상기 카메라 앵글은, 예를 들어, 가상 공간에서 참가자들이 대화하고 있는 모습을 바라보는 방향에 해당할 수 있다.
상기 대화 화면의 변경은, 예를 들어, 화각을 변화시켜 대화 화면을 구성하는 것일 수 있다. 상기 화각은, 예를 들어, 대화 화면이 특정 대상(예: 화자 아바타)에 집중되는 좁은 화각이거나, 또는 대화 화면이 대상들(예: 참여 아바타들)을 전체적으로 포함하는 넓은 화각일 수 있다. 상기 대화 화면을 구성할 화각을 좁은 화각으로 변화하는 동작은 줌-인(zoom-in) 동작에 해당할 수 있다. 상기 대화 화면을 구성할 화각을 넓은 화각으로 변화하는 동작은 줌-아웃(zoom-out) 동작에 해당할 수 있다.
상술한 예들에 있어서, 대화 화면을 변경하는 앵글 또는 화각은, 예를 들어, 대화 화면의 뷰(view)를 변화시키는 조건이 될 수 있다. 상기 대화 화면의 뷰를 변화시키는 조건에는, 가로 화면 또는 세로 화면과 같은 화면의 형태가 포함될 수도 있다. 상기 화면의 형태인 뷰 타입(view type)은 사용자가 전자 장치를 파지하는 형태 및/또는 화면에 포함될 참여 아바타의 수를 고려하여 결정될 수 있다.
일 실시예로, 시스템(100)은, 동작 230에서, 대화방 폐쇄를 위한 절차를 수행할 수 있다. 일 실시예로, 대화방 폐쇄를 위한 절차는 특정 참가자가 퇴장하는 퇴장 절차 또는 모든 참가자들이 퇴장하는 폐쇄 절차를 포함할 수 있다. 상기 참가자들은, 예를 들어, 대화방을 개설한 호스트 또는 대화방에 참여하고 있는 적어도 한 명의 게스트를 포함할 수 있다.
상기 퇴장 절차는, 예를 들어, 대화에 참여하고 있는 참가자들 중 특정 참가자에 대응한 게스트 단말(예: 도 1의 제1 전자 장치(113))이 운영 서버(130)로 퇴장을 요청하고, 상기 운영 서버(130)가 이를 승인하는 것에 의해 수행될 수 있다. 상기 운영 서버(130)는 게스트 단말(113)의 퇴장을 승인하기 전에 다른 참여 단말(예: 호스트 단말(111))에게 해당 참가자의 퇴장에 동의하는지를 문의할 수 있다.
상기 폐쇄 절차는, 예를 들어, 호스트 단말(예: 도 1의 제1 전자 장치(1111))이 운영 서버(130)로 대화방 폐쇄를 요청하고, 상기 운영 서버(130)가 이를 승인하는 것에 의해 수행될 수 있다. 상기 운영 서버(130)는 대화방 폐쇄를 승인하기 전에 퇴장하지 않고 남아 있는 게스트 단말(예: 제n 게스트 단말(115))에게 대화방 폐쇄에 대한 확인을 받을 수 있다.
도 3은 일 실시예에 따른, 시스템(예: 도 1의 시스템(100))에서 아바타 대화 기능을 제공하기 위한 신호 흐름도이다.
도 3을 참조하면, 호스트 단말(111)은, 동작 311에서, 운영 서버(130)로 대화방 개설 및/또는 게스트 초대를 요청할 수 있다. 상기 호스트 단말(111)은, 예를 들어, 대화방 개설을 요청하기 위하여, 개설할 대화방에 관한 정보(예: 대화방 명칭 또는 비밀번호)를 상기 운영 서버(130)로 제공할 수 있다. 상기 호스트 단말(111)은, 예를 들어, 게스트를 대화방에 초대하기 위하여, 초대할 게스트에 관한 정보(예: 참가자 전화번호 또는 참가자의 ID)를 상기 운영 서버(130)로 제공할 수 있다.
상기 호스트 단말(111)로부터 대화방 개설 및 초대 요청을 접수하면, 상기 운영 서버(130)는, 동작 313 또는 동작 315에서, 대화방에 초대할 게스트의 단말인 제1 게스트 단말(113)(예: 도 1의 제2 전자 장치(113)) 및/또는 제n 게스트 단말(115)(예: 도 1의 제n 전자 장치(115))로 대화방에 입장할 것을 요청할 수 있다. 상기 운영 서버(130)는, 예를 들어, 제1 게스트 단말(113) 및/또는 제n 게스트 단말(115)로 전송하는 입장을 요청하는 메시지에 해당 대화방에 관한 정보(예: 대화방 명칭)를 포함시킬 수 있다. 상기 대화방에 관한 정보는 대화방을 입장할 수 있는 링크 정보(예: URL 정보)일 수 있다.
상기 대화방에 초대된 게스트 단말인 제1 게스트 단말(113) 및/또는 제n 게스트 단말(115)은, 동작 317 또는 동작 319에서, 상기 운영 서버(130)에 의해 개설된 대화방 입장을 응답할 수 있다. 상기 제1 게스트 단말(113) 및/또는 상기 제n 게스트 단말(115)은, 예를 들어, 상기 운영 서버(130)가 입장 요청을 위해 제공한 링크 정보(예: URL 정보)를 디스플레이를 통해 출력하고, 사용자가 디스플레이를 통해 출력된 링크 정보를 터치할 시, 상기 운영 서버(130)로 입장에 동의하는 응답 메시지를 전송할 수 있다.
상기 운영 서버(130)는, 대화방을 개설한 후 초대가 이루어진 모든 게스트 단말(예: 제1 게스트 단말(113) 및/또는 제n 게스트 단말(115))에 의한 응답이 완료되면, 동작 321에서, 호스트 단말(111)로 대화방 개설 및 초대 응답을 할 수 있다. 상기 운영 서버(130)는, 예를 들어, 대화가 가능한 상태가 되면, 대화방에 관한 정보 및/또는 참석한 게스트에 관한 정보를 상기 호스트 단말(111)로 전달할 수 있다.
상기 대화방에 입장한 참여 단말들(110)(예: 호스트 단말(111), 제1 게스트 단말(113) 및/또는 제n 게스트 단말(115))은, 동작 323에서 아바타에 의한 대화를 수행할 수 있다. 상기 아바타에 의한 대화를 수행하기 위하여, 상기 운영 서버(130)는 호스트 아바타 또는 게스트 아바타를 포함하는 참여 아바타를 설정할 수 있다. 상기 운영 서버(130)는 참여 아바타에 관한 정보를 상기 참여 단말들(110)과 공유할 수 있다.
일 실시예에 따르면, 참여 단말들(110)(예: 호스트 단말(111), 제1 게스트 단말(113) 및/또는 제n 게스트 단말(115))은 운영 서버(130)를 통하여 수집하거나, 다른 참여 단말로부터 직접 수집한 정보를 기반으로 대화 화면을 구성할 수 있다. 상기 참여 단말(110)에 의해 구성된 대화 화면은 다른 참가자의 의견과 무관하게 사용자의 요청을 실시간으로 반영할 수 있다. 상기 참여 단말들(110)는, 예를 들어, 화자 변경, 참여자의 수동 조작 또는 참여자의 움직임과 같은 이벤트를 고려하여 대화 화면을 변경할 수 있다. 상기 대화 화면을 변경하기 위하여, 상기 참여 단말들(110)은 이벤트에 관한 정보를 서로 교환할 수 있다. 일 실시예로, 참여 단말들(110)은 참여자의 보이스 데이터 또는 참여자를 촬영한 이미지를 기반으로 현재 말을 하고 있는 화자가 누구인지를 식별할 수 있다. 상기 참여 단말들(110)는 식별된 화자를 기준으로 앵글 및/또는 화각을 변경하여 대화 화면을 새롭게 구성할 수 있다. 일 실시예로, 참여 단말들(110)은 참여자(또는 사용자)의 수동 조작에 응답하여 앵글 및/또는 화각을 변경하여 대화 화면을 새롭게 구성할 수 있다. 일 실시예로, 참여 단말들(110)은 자신이 촬영한 이미지 또는 다른 참여 단말에 의해 촬영된 이미지로부터 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 대화 화면을 새롭게 구성할 수 있다. 일 실시예로, 참여 단말들(110)은 내부 센싱 신호 또는 다른 참여 단말에 의해 제공된 외부 센싱 신호를 기반으로 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 대화 화면을 새롭게 구성할 수 있다.
일 실시예에 따르면, 운영 서버(130)는 참여 단말들(110)로부터 수집한 정보를 기반으로 참가자 별로 대화 화면을 구성할 수 있다. 상기 운영 서버(130)는 참가자 별로 구성된 대화 화면을 해당 참여 단말(110)로 제공할 수 있다. 상기 운영 서버(130)는, 예를 들어, 화자 변경, 참여자의 수동 조작 또는 참여자의 움직임과 같은 이벤트를 고려하여 참가자 별 대화 화면을 변경할 수 있다. 상기 대화 화면을 변경하기 위하여, 상기 운용 서버(130)는 참여 단말들(110)에서 발생하는 이벤트에 관한 정보를 수집할 수 있다. 일 실시예로, 운영 서버(130)는 참여자의 보이스 데이터 또는 참여자를 촬영한 이미지를 기반으로 현재 말을 하고 있는 화자가 누구인지를 식별할 수 있다. 상기 운영 서버(130)는 식별된 화자를 기준으로 앵글 및/또는 화각을 변경하여 참가자 별 대화 화면을 새롭게 구성할 수 있다. 일 실시예로, 운영 서버(130)는 참여자(또는 사용자)의 수동 조작에 응답하여 앵글 및/또는 화각을 변경하여 참여 단말들(110)로 제공할 대화 화면을 새롭게 구성할 수 있다. 일 실시예로, 운영 서버(130)는 참여 단말들(110)에 의해 촬영한 이미지로부터 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 참가자 별 대화 화면을 새롭게 구성할 수 있다. 일 실시예로, 운영 서버(130)는 참여 단말들(110)에 의해 제공되는 센싱 신호를 기반으로 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 참가자 별 대화 화면을 새롭게 구성할 수 있다. 상기 운영 서버(130)는 새롭게 구성된 대화 화면에 관한 정보를 참여 단말들(110)로 제공할 수 있다.
상기 게스트 단말(예: 제1 게스트 단말(113))은, 사용자로부터 대화방에서 나갈 것이 요청되면, 동작 325에서, 상기 운영 서버(130)로 퇴장을 요청할 수 있다. 상기 운영 서버(130)는, 상기 제1 게스트 단말(113)로부터 퇴장 요청을 접수하면, 동작 327에서, 상기 제1 게스트 단말(113)이 퇴장 요청하였음을 알리기 위한 퇴장 승인 요청을 상기 호스트 단말(111)로 전달할 수 있다. 상기 호스트 단말(111)은, 동작 329에서, 상기 제1 게스트 단말(113)의 퇴장에 동의하는 퇴장 승인 응답을 상기 운영 서버(130)로 전달할 수 있다. 도시되지 않았지만, 상기 운용 서버(130)는 다른 게스트 단말인 제n 게스트 단말(115)로도 상기 제1 게스트 단말(113)이 퇴장 요청하였음을 알리기 위한 퇴장 승인 요청을 전달할 수 있다. 상기 제n 게스트 단말(115)은 상기 제1 게스트 단말(113)의 퇴장에 동의하는 퇴장 승인 응답을 상기 운영 서버(130)로 전달할 수 있다.
상기 호스트 단말(111)은, 사용자로부터 대화 종료가 요청되면, 동작 333에서, 상기 운영 서버(130)로 대화방 폐쇄를 요청할 수 있다. 상기 운영 서버(130)는, 상기 호스트 단말(111)로부터 대화방 폐쇄 요청을 접수하면, 동작 335에서, 남은 게스트 단말인 상기 제n 게스트 단말(115)로 대화방 폐쇄를 알릴 수 있다. 상기 n 게스트 단말(115)는, 동작 337에서, 대화방이 폐쇄됨을 확인하는 응답을 상기 운영 서버(130)로 전달할 수 있다. 상기 운영 서버(130)는, 동작 339에서, 상기 호스트 단말(111)로 대화방이 폐쇄되었음을 통보할 수 있다.
도 4는 일 실시예에 따른, 전자 장치(예: 도 1의 전자 장치(110))에서 아바타 기반 대화 기능을 위해 수행할 제어 흐름도이다.
도 4를 참조하면, 전자 장치(110)(예: 도 1의 전자 장치(110) 중 임의의 전자 장치)는, 동작 411에서, 사용자에 의해 대화방 개설을 요청하는 이벤트가 발생하는지를 판단할 수 있다. 상기 대화방 개설을 요청하는 이벤트는, 예를 들어, 아바타 기반 대화 기능을 제공하는 응용 프로그램이 실행되고, 상기 실행된 응용 프로그램에 의해 제공된 사용자 인터페이스(UI: user interface)를 통해 대화방 개설을 위해 요구되는 정보가 입력됨에 의해 발생될 수 있다.
상기 전자 장치(110)는, 사용자에 의해 대화방 개설이 요청되면, 동작 413에서, 대화방 개설 및 참여자 초대 요청을 운용 서버(예: 도 1의 서버(130) 또는 도 3의 운영 서버(130))로 전송할 수 있다. 상기 전자 장치(110)는, 예를 들어, 대화방 개설을 요청하기 위하여, 개설할 대화방에 관한 정보(예: 대화방 명칭 또는 비밀번호)를 상기 운영 서버(130)로 제공할 수 있다. 상기 전자 장치(110)는, 예를 들어, 게스트를 대화방에 초대하기 위하여, 초대할 게스트에 관한 정보(예: 참가자 전화번호 또는 참가자의 ID)를 상기 운영 서버(130)로 제공할 수 있다. 하기 설명에서 '참여자들'은 대화방에 참여하는 호스트 및 하나 또는 복수의 게스트를 지칭할 수 있다. 상기 참여자들에 대응한 전자 장치들은 전자 장치(110) 및 하나 또는 복수의 참여 단말을 포함할 수 있다. 일 예로, 상기 전자 장치(110)가 호스트 단말인 경우, 상기 하나 또는 복수의 참여 단말은 게스트 단말일 수 있다. 일 예로, 상기 전자 장치(110)가 게스트 단말인 경우, 상기 하나 또는 복수의 참여 단말 중 하나의 참여 단말은 호스트 단말일 수 있다.
상기 전자 장치(110)는, 동작 415에서, 아바타 기반 대화 기능을 이용하여 위한 대화방 개설이 성공하였는지를 판단할 수 있다. 상기 대화방 개설 성공은, 예를 들어, 상기 운영 서버(130)가, 대화방을 개설한 후 초대가 이루어진 모든 게스트 단말(예: 도 3의 제1 게스트 단말(113) 및/또는 제n 게스트 단말(115))에 의한 응답이 완료됨에 의한 것이다. 상기 전자 장치(110)는 상기 운영 서버(130)로부터 대화방 개설에 성공하였음에 관한 통보를 받을 시에, 대화방에 관한 정보 및/또는 참석한 게스트에 관한 정보를 전달받을 수 있다.
상기 전자 장치(110)는, 동작 417에서, 운영 서버(130)로부터 아바타 기반 대화 기능을 이용할 수 있도록 하기 위하여 개설된 대화방으로의 입장 요청이 수신되는지를 판단할 수 있다. 상기 입장 요청은, 예를 들어, 다른 전자 장치가 개설을 요청한 대화방으로 초대함으로 인하여 상기 운영 서버(130)로부터 제공될 수 있다.
상기 전자 장치(110)는, 동작 419에서, 상기 운영 서버(130)로부터의 입장 요청에 대응한 입장 응답을 상기 운영 서버(130)로 전송할 수 있다. 상기 전자 장치(110)는, 예를 들어, 입장 응답 전송 시, 자신이 사용할 아바타에 관한 정보를 상기 운영 서버(130)로 전달할 수 있다.
상기 전자 장치(110)는, 대화방 개설에 성공하거나, 입장 요청에 응답하면, 동작 421에서, 가상 공간에 마련된 대화 화면에서 하나 또는 복수의 참여 단말(예: 게스트 단말(예: 도 3의 제1 게스트 단말(113) 및/또는 제n 게스트 단말(115))과 아바타 기반 대화 기능을 사용자에게 제공할 수 있다.
일 실시예에 따르면, 전자 장치(110)는 운영 서버(130)를 통하여 수집하거나, 하나 또는 복수의 참여 단말로부터 직접 수집한 정보를 기반으로 대화 화면을 구성할 수 있다. 상기 전자 장치(110)에 의해 구성된 대화 화면은 다른 참가자의 의견과 무관하게 사용자의 요청을 실시간으로 반영할 수 있다. 상기 전자 장치(110)는, 예를 들어, 화자 변경, 참여자의 수동 조작 또는 참여자의 움직임과 같은 이벤트를 고려하여 대화 화면을 변경할 수 있다. 상기 대화 화면을 변경하기 위하여, 상기 전자 장치(110)는 이벤트에 관한 정보를 하나 또는 복수의 참여 단말들(예: 게스트 단말(예: 도 3의 제1 게스트 단말(113) 및/또는 제n 게스트 단말(115))과 서로 교환할 수 있다. 상기 전자 장치(110)는, 예를 들어, 참여자의 보이스 데이터 또는 참여자를 촬영한 이미지를 기반으로 현재 말을 하고 있는 화자가 누구인지를 식별할 수 있다. 상기 전자 장치(110)는 식별된 화자를 기준으로 앵글 및/또는 화각을 변경하여 대화 화면을 새롭게 구성할 수 있다. 상기 전자 장치(110)는, 예를 들어, 참여자(또는 사용자)의 수동 조작에 응답하여 앵글 및/또는 화각을 변경하여 대화 화면을 새롭게 구성할 수 있다. 상기 전자 장치(110)는, 예를 들어, 자신이 촬영한 이미지 또는 하나 또는 복수의 참여 단말에 의해 촬영된 이미지로부터 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 대화 화면을 새롭게 구성할 수 있다. 상기 전자 장치(110)는, 예를 들어, 내부 센싱 신호 또는 하나 또는 복수의 참여 단말에 의해 제공된 외부 센싱 신호를 기반으로 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 대화 화면을 새롭게 구성할 수 있다.
일 실시예에 따르면, 전자 장치(110)는 운영 서버(130)로부터 제공되는 대화 화면에 관한 정보를 기반으로 아바타 기반 대화 기능을 이용할 대화 화면을 출력할 수 있다. 상기 운영 서버(130)로부터 제공되는 대화 화면에 관한 정보는, 예를 들어, 상기 운영 서버(130)가 전자 장치(110) 및/또는 하나 또는 복수의 참여 단말로부터 수집한 정보를 기반으로 참가자 별로 구성한 대화 화면에 관한 정보일 수 있다. 상기 대화 화면은, 예를 들어, 상기 운영 서버(130)가 화자 변경, 참여자의 수동 조작 또는 참여자의 움직임과 같은 이벤트를 고려하여 참가자 별 변경할 수 있다. 상기 전자 장치(110)는, 상기 운영 서버(130)가 대화 화면을 변경할 수 있도록, 내부에서 발생하는 이벤트에 관한 정보를 수집하여 상기 운영 서버(130)로 전달할 수 있다. 상기 전자 장치(110)는, 예를 들어, 참여자의 보이스 데이터 또는 참여자를 촬영한 이미지를 운영 서버(130)로 전달할 수 있다. 상기 전달된 참여자의 보이스 데이터 또는 참여자를 촬영한 이미지는 상기 운영 서버(130)가 화자가 누구인지를 식별하는데 이용될 수 있다.
상기 운영 서버(130)에 의해 제공되는 대화 화면에 관한 정보를 기반으로 상기 전자 장치(110)에 의해 출력되는 대화 화면은, 화자를 기준으로 앵글 및/또는 화각이 변경된 대화 화면일 수 있다. 상기 전자 장치(110)에 의해 출력되는 대화 화면은, 예를 들어, 참여자(또는 사용자)의 수동 조작에 응답하여 앵글 및/또는 화각이 변경된 대화 화면일 수 있다. 상기 전자 장치(110)에 의해 출력되는 대화 화면은, 예를 들어, 상기 전자 장치(110) 및/또는 하나 또는 복수의 참여 단말에 의해 촬영한 이미지로부터 획득된 참여자들(예: 호스트 또는 게스트)의 움직임을 반영한 대화 화면일 수 있다. 상기 전자 장치(110)에 의해 출력되는 대화 화면은, 예를 들어, 상기 전자 장치(110)의 센싱 신호 및/또는 하나 또는 복수의 참여 단말에 의해 제공되는 센싱 신호를 기반으로 획득된 참여자들(예: 호스트 또는 게스트)의 움직임을 반영한 대화 화면일 수 있다.
상기 전자 장치(110)는, 동작 423에서, 사용자에 의해 대화 종료 요청 이벤트가 발생하거나, 또는 대화방 폐쇄 요청 이벤트가 발생하는지를 판단할 수 있다. 상기 대화 종료 요청 이벤트는, 예를 들어, 상기 전자 장치(110)가 게스트 단말인 경우에 현재 참여하고 있는 대화방을 나가기 위한 목적에서 발생할 수 있다. 상기 대화방 폐쇄 요청 이벤트는, 예를 들어, 상기 전자 장치(110)가 호스트 단말인 경우에 현재 참여하고 있는 대화방을 폐쇄하기 위한 목적에서 발생할 수 있다.
상기 전자 장치(110)는, 대화 종료 또는 대화방 폐쇄 요청 이벤트가 발생하면, 아바타 기반 대화 기능을 종료할 수 있다. 상기 아바타 기반 대화 기능의 종료는, 예를 들어, 아바타 기반 기능을 제공하는 응용 프로그램을 종료하는 것에 해당할 수 있다.
도 5는 일 실시예에 따른, 운영 서버(예: 도 1의 서버(130)에서 아바타 기반 대화 기능을 위해 수행할 제어 흐름도이다.
도 5를 참조하면, 운영 서버(130)는, 동작 511에서, 호스트 단말(예: 도 1의 제1 전자 장치(111) 또는 도 2의 호스트 단말(111))로부터 대화방 개설 및 참여자 초대 요청이 접수되는지를 판단할 수 있다. 상기 운영 서버(130)는, 예를 들어, 상기 호스트 단말(111)로부터 개설할 대화방에 관한 정보(예: 대화방 명칭 또는 비밀번호)를 전달받을 수 있다. 상기 운영 서버(130)는, 예를 들어, 상기 호스트 단말(111)로부터 초대할 게스트에 관한 정보(예: 참가자 전화번호 또는 참가자의 ID)를 전달받을 수 있다.
상기 운영서버(130)는, 상기 대화방 개설 및 상기 참여자 초대 요청을 접수하면, 동작 513에서, 대화방을 개설할 수 있다. 상기 운영 서버(130)는, 예를 들어, 상기 호스트 단말(111)로부터 전달받은 대화방에 관한 정보(예: 대화방 명칭 또는 비밀번호)를 사용하여 대화방을 개설할 수 있다.
상기 운영 서버(130)는, 동작 515에서, 상기 호스트 단말(111)로부터 참여가 요청된 게스트 단말(예: 도 2의 제1 게스트 단말(113) 또는 제n 게스트 단말(115))로 대화방에 입장할 것을 요청할 수 있다. 상기 운영 서버(130)는, 예를 들어, 상기 호스트 단말(111)로부터 전달받은 게스트에 관한 정보(예: 참가자 전화번호 또는 참가자의 ID)를 사용하여 참여자 입장을 요청할 수 있다. 상기 운영 서버(130)는 상기 게스트 단말(113, 115)로 입장을 요청할 시, 해당 대화방에 관한 정보(예: 대화방 명칭)를 포함시킬 수 있다. 상기 대화방에 관한 정보는 대화방을 입장할 수 있는 링크 정보(예: URL 정보)일 수 있다.
상기 운영 서버(130)는, 동작 517에서, 입장을 요청한 모든 게스트 단말(113, 115)이 개설된 대화방에 입장 완료하였는지를 판단할 수 있다. 상기 운영 서버(130)는 일부 게스트 단말만이 입장한 상태라면, 남은 게스트 단말이 입장할 때까지 대기할 수 있다. 상기 운용 서버(130)는 일정 시간이 경과할 때까지 입장을 하지 않은 게스트 단말로는 입장 요청을 소정 회수까지 반복하여 전송할 수 있다. 상기 운영 서버(130)는, 예를 들어, 대화가 가능한 상태가 되면, 대화방에 관한 정보 및/또는 참석한 게스트에 관한 정보를 상기 호스트 단말(111)로 전달할 수 있다.
상기 운영 서버(130)는, 초대된 게스트 단말(113, 115) 모두가 입장하면, 동작 519에서 아바타에 의한 대화 기능을 제공할 수 있다. 일 실시예로, 운영 서버(130)는 참여 단말들(110)(예: 호스트 단말(111) 또는 게스트 단말(113, 115))로부터 수집한 정보를 기반으로 참가자 별로 대화 화면을 구성할 수 있다. 상기 운영 서버(130)는 참가자 별로 구성된 대화 화면을 해당 참여 단말(110)로 제공할 수 있다. 상기 운영 서버(130)는, 예를 들어, 화자 변경, 참여자의 수동 조작 또는 참여자의 움직임과 같은 이벤트를 고려하여 참가자 별 대화 화면을 변경할 수 있다. 상기 대화 화면을 변경하기 위하여, 상기 운용 서버(130)는 참여 단말들(110)에서 발생하는 이벤트에 관한 정보를 수집할 수 있다. 일 실시예로, 운영 서버(130)는 참여자의 보이스 데이터 또는 참여자를 촬영한 이미지를 기반으로 현재 말을 하고 있는 화자가 누구인지를 식별할 수 있다. 상기 운영 서버(130)는 식별된 화자를 기준으로 앵글 및/또는 화각을 변경하여 참가자 별 대화 화면을 새롭게 구성할 수 있다. 일 실시예로, 운영 서버(130)는 참여자(또는 사용자)의 수동 조작에 응답하여 앵글 및/또는 화각을 변경하여 참여 단말들(110)로 제공할 대화 화면을 새롭게 구성할 수 있다. 일 실시예로, 운영 서버(130)는 참여 단말들(110)에 의해 촬영한 이미지로부터 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 참가자 별 대화 화면을 새롭게 구성할 수 있다. 일 실시예로, 운영 서버(130)는 참여 단말들(110)에 의해 제공되는 센싱 신호를 기반으로 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 참가자 별 대화 화면을 새롭게 구성할 수 있다. 상기 운영 서버(130)는 새롭게 구성된 대화 화면에 관한 정보를 참여 단말들(110)로 제공할 수 있다.
상기 운영 서버(130)는, 동작 521에서, 참여 단말(110)로부터 대화 종료 요청 또는 대화방 폐쇄 요청이 접수되는지를 판단할 수 있다. 상기 대화 종료 요청은, 예를 들어, 게스트 단말(113, 115)이 현재 참여하고 있는 대화방을 나가기 위한 목적에서 전달할 수 있다. 상기 대화방 폐쇄 요청은, 예를 들어, 호스트 단말(111)이 현재 참여하고 있는 대화방을 폐쇄하기 위한 목적에서 전달할 수 있다.
상기 운영 서버(130)는, 동작 523에서, 게스트 단말(113, 115)로부터 퇴장 요청을 접수하면, 해당 게스트 단말(113, 115)이 대화방에서 퇴장할 것을 허락할 수 있다. 상기 운영 서버(130)는, 동작 523에서, 호스트 단말(111)로부터 대화방 폐쇄 요청을 접수하면, 대화방을 폐쇄할 수 있다.
도 6은 일 실시예에 따른, 시스템(예: 도 1의 시스템(100))에서 아바타 대화 서브루틴을 수행하기 위한 신호 흐름도이다. 도 6에 도시된 신호 흐름은, 참여 단말(111, 113)이 수집한 데이터(예: 보이스, 이미지 또는 센싱 데이터)를 기반으로 자신의 대화 화면을 구성하는 실시예에 따른 것이다.
도 6을 참조하면, 아바타 기반 대화 기능을 이용하고 있는 제1 참여 단말(예: 도 1의 제1 전자 장치(111))은, 동작 610에서, 사용자의 보이스 데이터, 이미지 데이터 또는 센싱 데이터를 수집할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 마이크(예: 도 11의 입력 모듈(1130))을 통해 입력되는 사용자의 보이스를 변환한 전기적 신호를 보이스 데이터로 수집할 수 있다. 상기 제1 참여 단말(11)은, 예를 들어, 카메라(예: 도 11의 카메라 모듈(1150))에 의해 촬영된 사용자의 이미지에 상응한 전기적 신호를 이]미지 데이터로 수집할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 자이로스코프 센서와 같은 적어도 하나의 센서(예: 도 11의 센서 모듈(1160))에 의해 센싱된 전기적 신호를 센싱 데이터로 수집할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 자이로스코프 센서를 구비한 웨어러블 디바이스(예: 도 1 또는 도 11의 웨어러블 디바이스(120))에 의해 센싱된 전기적 신호를 센싱 데이터로 수집할 수 있다. 상기 수집된 보이스 데이터는, 예를 들어, 화자를 판별하기 위하여 사용될 수 있다. 상기 이미지 데이터는, 예를 들어, 화자를 판별하거나, 또는 사용자의 움직임(예: 얼굴 표정, 시선 또는 손, 팔, 목 또는 다리와 같은 신체의 움직임)을 판별하거나, 또는 화면 앵글의 이동을 판별하기 위하여 사용될 수 있다. 상기 수집된 센싱 데이터는, 예를 들어, 사용자의 움직임(예: 손, 팔, 목 또는 다리와 같은 신체의 움직임)을 판별하거나, 또는 화면 앵글의 이동을 판별하기 위하여 사용될 수 있다.
상기 제1 참여 단말(111)과 함께 아바타 기반 대화 기능을 이용하고 있는 제2 참여 단말(예: 도 1의 제2 전자 장치(113))은, 동작 620에서, 사용자의 보이스 데이터, 이미지 데이터 또는 센싱 데이터를 수집할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 마이크(예: 도 11의 입력 모듈(1130))을 통해 입력되는 사용자의 보이스를 변환한 전기적 신호를 보이스 데이터로 수집할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 카메라(예: 도 11의 카메라 모듈(1150))에 의해 촬영된 사용자의 이미지에 상응한 전기적 신호를 이]미지 데이터로 수집할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 자이로스코프 센서와 같은 적어도 하나의 센서(예: 도 11의 센서 모듈(1160))에 의해 센싱된 전기적 신호를 센싱 데이터로 수집할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 자이로스코프 센서를 구비한 웨어러블 디바이스(예: 도 1 또는 도 11의 웨어러블 디바이스(120))에 의해 센싱된 전기적 신호를 센싱 데이터로 수집할 수 있다. 상기 수집된 보이스 데이터는, 예를 들어, 화자를 판별하기 위하여 사용될 수 있다. 상기 이미지 데이터는, 예를 들어, 화자를 판별하거나, 또는 사용자의 움직임(예: 얼굴 표정, 시선 또는 손, 팔, 목 또는 다리와 같은 신체의 움직임)을 판별하거나, 또는 화면 앵글의 이동을 판별하기 위하여 사용될 수 있다. 상기 수집된 센싱 데이터는, 예를 들어, 사용자의 움직임(예: 손, 팔, 목 또는 다리와 같은 신체의 움직임)을 판별하거나, 또는 화면 앵글의 이동을 판별하기 위하여 사용될 수 있다.
상기 제1 참여 단말(111)은, 동작 630에서, 수집한 데이터를 상기 제2 참여 단말(113)과 공유할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 수집한 보이스 데이터, 이미지 데이터 또는 센싱 데이터 중 적어도 하나를 상기 제2 참여 단말(113)로 전달할 수 있다. 상기 제2 참여 단말(113)은, 동작 630에서, 수집한 데이터를 상기 제1 참여 단말(111)과 공유할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 수집한 보이스 데이터, 이미지 데이터 또는 센싱 데이터 중 적어도 하나를 상기 제1 참여 단말(111)로 전달할 수 있다.
상기 제1 참여 단말(111)은, 동작 640에서, 자신이 수집한 데이터 및/또는 상기 제2 참여 단말(113)로부터 제공된 수집 데이터 중 적어도 하나를 기반으로 대화 화면을 구성할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 수집 데이터를 통해 확인될 수 있는 화자 변경 또는 참여자의 움직임과 같은 이벤트를 고려하여 대화 화면을 변경할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 수집한 참여자의 보이스 데이터 또는 참여자를 촬영한 이미지를 기반으로 현재 말을 하고 있는 화자가 누구인지를 식별할 수 있다. 상기 제1 참여 단말(111)은 식별된 화자를 기준으로 앵글 및/또는 화각을 변경하여 대화 화면을 새롭게 구성할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 수집한 자신이 촬영한 이미지 또는 상기 제2 참여 단말(113)에 의해 촬영된 이미지로부터 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 대화 화면을 새롭게 구성할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 수집한 내부 센싱 신호 또는 상기 제2 참여 단말(113) 또는 웨어러블 디바이스(120)에 의해 제공된 외부 센싱 신호를 기반으로 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 대화 화면을 새롭게 구성할 수 있다.
상기 제2 참여 단말(113)은, 동작 650에서, 자신이 수집한 데이터 및/또는 상기 제1 참여 단말(111)로부터 제공된 수집 데이터 중 적어도 하나를 기반으로 대화 화면을 구성할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 수집 데이터를 통해 확인될 수 있는 화자 변경 또는 참여자의 움직임과 같은 이벤트를 고려하여 대화 화면을 변경할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 수집한 참여자의 보이스 데이터 또는 참여자를 촬영한 이미지를 기반으로 현재 말을 하고 있는 화자가 누구인지를 식별할 수 있다. 상기 제2 참여 단말(113)은 식별된 화자를 기준으로 앵글 및/또는 화각을 변경하여 대화 화면을 새롭게 구성할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 수집한 자신이 촬영한 이미지 또는 상기 제1 참여 단말(111)에 의해 촬영된 이미지로부터 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 대화 화면을 새롭게 구성할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 수집한 내부 센싱 신호 또는 상기 제1 참여 단말(111) 또는 웨어러블 디바이스(120)에 의해 제공된 외부 센싱 신호를 기반으로 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 대화 화면을 새롭게 구성할 수 있다.
도 7은 일 실시예에 따른, 시스템(예: 도 1의 시스템(100))에서 아바타 대화 서브루틴을 수행하기 위한 신호 흐름도이다. 도 7에 도시된 신호 흐름은, 제1 참여 단말(111)이 수집한 데이터(예: 수동 이벤트 데이터)를 기반으로 자신 또는 다른 참여 단말(예: 제2 참여 단말(113))의 대화 화면을 구성하는 실시예에 따른 것이다. 도 7에서는 제1 참여 단말(111)에 의해 수동 이벤트 데이터가 획득되는 상황을 가정하고 있으나, 다른 참여 단말(예: 제2 참여 단말(113))에 의해 수동 이벤트 데이터가 획득되는 경우에도 동일한 절차에 의한 동작이 수행될 수 있음은 물론이다.
도 7을 참조하면, 아바타 기반 대화 기능을 이용하고 있는 제1 참여 단말(예: 도 1의 제1 전자 장치(111))은, 동작 710에서, 사용자의 조작에 의한 수동 이벤트 데이터를 수집할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 터치 패널(예: 도 11의 터치 패널(1123))을 통해 사용자가 수동으로 입력한 정보를 수동 이벤트 데이터로 수집할 수 있다. 상기 수동 이벤트 데이터는, 예를 들어, 화자를 판별하기 위하여 사용될 수 있다. 상기 수동 이벤트 데이터는, 예를 들어, 화면 뷰(예: 줌-인 또는 줌-아웃)를 결정하기 위하여 사용될 수 있다. 상기 수동 이벤트 데이터는, 예를 들어, 줌-인할 대상을 선택하기 위하여 사용될 수 있다. 상기 수동 이벤트 데이터는, 예를 들어, 디스플레이 형태(예: 가로 화면 또는 세로 화면)를 결정하기 위하여 사용될 수 있다.
상기 제1 참여 단말(111)은, 동작 720에서, 수집한 수동 이벤트 데이터를 상기 제2 참여 단말(113)로 전달할 수 있다.
상기 제1 참여 단말(111)은, 동작 730에서, 자신이 수집한 수동 이벤트 데이터를 기반으로 대화 화면을 구성할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 수집한 수동 이벤트 데이터에 기반으로 앵글 및/또는 화각을 변경하여 대화 화면을 새롭게 구성할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 수집한 수동 이벤트 데이터에 기반으로 현재 말을 하고 있는 화자가 누구인지를 식별할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 식별된 화자 또는 지정된 대상을 기준으로 앵글, 화면 뷰(예: 가로 화면 또는 세로 화면) 및/또는 화각(예: 줌-인 또는 줌-아웃)을 변경하여 대화 화면을 새롭게 구성할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 수집한 수동 이벤트 데이터에 기반으로 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 대화 화면을 새롭게 구성할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 수집한 수동 이벤트 데이터에 기반으로 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 대화 화면을 새롭게 구성할 수 있다.
상기 제2 참여 단말(113)은, 동작 740에서, 상기 제1 참여 단말(111)에 의해 전달된 수동 이벤트 데이터를 기반으로 대화 화면을 구성할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 상기 제1 참여 단말(111)에 의해 전달된 수동 이벤트 데이터에 기반으로 앵글 및/또는 화각을 변경하여 대화 화면을 새롭게 구성할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 상기 제1 참여 단말(111)에 의해 전달된 수동 이벤트 데이터에 기반으로 현재 말을 하고 있는 화자가 누구인지를 식별할 수 있다. 상기 제2 참여 단말(113)은 식별된 화자 또는 지정된 대상을 기준으로 앵글, 화면 뷰(예: 가로 화면 또는 세로 화면) 및/또는 화각(예: 줌-인 또는 줌-아웃)을 변경하여 대화 화면을 새롭게 구성할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 상기 제1 참여 단말(111)에 의해 전달된 수동 이벤트 데이터에 기반으로 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 대화 화면을 새롭게 구성할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 상기 제1 참여 단말(111)에 의해 전달된 수동 이벤트 데이터에 기반으로 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 대화 화면을 새롭게 구성할 수 있다.
도 8은 일 실시예에 따른, 시스템(예: 도 1의 시스템(100))에서 아바타 대화 서브루틴을 수행하기 위한 신호 흐름도이다. 도 8에 도시된 신호 흐름은, 참여 단말(111, 113)이 수집한 데이터(예: 보이스, 이미지 또는 센싱 데이터)를 기반으로 운영 서버(예: 도 1의 서버(130))에서 참가자 별 대화 화면(예: 제1 참여 단말(111)의 대화 화면 또는 제2 참여 단말(113)의 대화 화면)을 구성하는 실시예에 따른 것이다.
도 8을 참조하면, 아바타 기반 대화 기능을 이용하고 있는 제1 참여 단말(예: 도 1의 제1 전자 장치(111))은, 동작 810에서, 사용자의 보이스 데이터, 이미지 데이터 또는 센싱 데이터를 수집할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 마이크(예: 도 11의 입력 모듈(1130))을 통해 입력되는 사용자의 보이스를 변환한 전기적 신호를 보이스 데이터로 수집할 수 있다. 상기 제1 참여 단말(11)은, 예를 들어, 카메라(예: 도 11의 카메라 모듈(1150))에 의해 촬영된 사용자의 이미지에 상응한 전기적 신호를 이]미지 데이터로 수집할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 자이로스코프 센서와 같은 적어도 하나의 센서(예: 도 11의 센서 모듈(1160))에 의해 센싱된 전기적 신호를 센싱 데이터로 수집할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 자이로스코프 센서를 구비한 웨어러블 디바이스(예: 도 1 또는 도 11의 웨어러블 디바이스(120))에 의해 센싱된 전기적 신호를 센싱 데이터로 수집할 수 있다.
상기 제1 참여 단말(111)은, 동작 830에서, 수집한 데이터를 운영 서버(130)와 공유할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 수집한 보이스 데이터, 이미지 데이터 또는 센싱 데이터 중 적어도 하나를 상기 운영 서버(130)으로 전달할 수 있다.
상기 제1 참여 단말(111)과 함께 아바타 기반 대화 기능을 이용하고 있는 제2 참여 단말(예: 도 1의 제2 전자 장치(113))은, 동작 820에서, 사용자의 보이스 데이터, 이미지 데이터 또는 센싱 데이터를 수집할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 마이크(예: 도 11의 입력 모듈(1130))을 통해 입력되는 사용자의 보이스를 변환한 전기적 신호를 보이스 데이터로 수집할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 카메라(예: 도 11의 카메라 모듈(1150))에 의해 촬영된 사용자의 이미지에 상응한 전기적 신호를 이]미지 데이터로 수집할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 자이로스코프 센서와 같은 적어도 하나의 센서(예: 도 11의 센서 모듈(1160))에 의해 센싱된 전기적 신호를 센싱 데이터로 수집할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 자이로스코프 센서를 구비한 웨어러블 디바이스(예: 도 1 또는 도 11의 웨어러블 디바이스(120))에 의해 센싱된 전기적 신호를 센싱 데이터로 수집할 수 있다.
상기 제2 참여 단말(113)은, 동작 840에서, 수집한 데이터를 상기 운영 서버(130)와 공유할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 수집한 보이스 데이터, 이미지 데이터 또는 센싱 데이터 중 적어도 하나를 상기 운영 서버(130)으로 전달할 수 있다.
상기 운영 서버(130)는, 동작 850에서, 상기 제1 참여 단말(111) 및/또는 상기 제2 참여 단말(113)로부터 전달된 수집 데이터를 기반으로 참가자 별 대화 화면을 구성할 수 있다. 상기 참가자 별 대화 화면은, 예를 들어, 상기 제1 참여 단말(111)을 위한 제1 대화 화면 또는 상기 제2 참여 단말(113)을 위한 제2 대화 화면일 수 있다.
상기 운영 서버(130)는, 예를 들어, 상기 수집 데이터를 통해 확인될 수 있는 화자 변경 또는 참여자의 움직임과 같은 이벤트를 고려하여 참가자 별 대화 화면을 변경할 수 있다. 상기 운영 서버(130)는, 예를 들어, 상기 수집 데이터에 포함된 참여자의 보이스 데이터 또는 참여자를 촬영한 이미지를 기반으로 현재 말을 하고 있는 화자가 누구인지를 식별할 수 있다. 상기 운영 서버(130)는 식별된 화자를 기준으로 앵글 및/또는 화각을 변경하여 참가자 별 대화 화면을 새롭게 구성할 수 있다. 상기 운영 서버(130)는, 예를 들어, 상기 수집 데이터에 포함된 이미지 데이터로부터 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 참가자 별 대화 화면을 새롭게 구성할 수 있다. 상기 운영 서버(130)는, 예를 들어, 상기 수집 데이터에 포함된 센싱 신호를 기반으로 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 참가자 별 대화 화면을 새롭게 구성할 수 있다.
상기 운영 서버(130)는, 동작 860에서, 제1 참여 단말(111)을 위해 구성한 제1 대화 화면에 관한 정보(화면 구성 데이터)를 상기 제1 참여 단말(111)로 전달할 수 있다. 상기 운영 서버(130)는, 동작 870에서, 제2 참여 단말(113)을 위해 구성한 제2 대화 화면에 관한 정보(화면 구성 데이터)를 상기 제2 참여 단말(113)로 전달할 수 있다.
상기 제1 참여 단말(111)은, 동작 880에서, 상기 운영 서버(130)로부터 전달된 제1 대화 화면에 관한 정보(화면 구성 데이터)에 의해 제1 대화 화면을 구성할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 제1 대화 화면에 관한 정보(화면 구성 데이터)를 통해 확인될 수 있는 화자 변경 또는 참여자의 움직임과 같은 이벤트를 고려하여 변경된 제1 대화 화면을 구성하고, 상기 구성한 제1 대화 화면을 디스플레이를 통해 출력할 수 있다.
상기 제2 참여 단말(113)은, 동작 890에서, 상기 운영 서버(130)로부터 전달된 제2 대화 화면에 관한 정보(화면 구성 데이터)에 의해 제2 대화 화면을 구성할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 제2 대화 화면에 관한 정보(화면 구성 데이터)를 통해 확인될 수 있는 화자 변경 또는 참여자의 움직임과 같은 이벤트를 고려하여 변경된 제2 대화 화면을 구성하고, 상기 구성한 제2 대화 화면을 디스플레이를 통해 출력할 수 있다.
도 9는 일 실시예에 따른, 시스템(예: 도 1의 시스템(100))에서 아바타 대화 서브루틴을 수행하기 위한 신호 흐름도이다. 도 9에 도시된 신호 흐름은, 제1 참여 단말(111)이 수집한 데이터(예: 수동 이벤트 데이터)를 기반으로 자신 또는 다른 참여 단말(예: 제2 참여 단말(113))의 대화 화면을 구성하는 실시예에 따른 것이다. 도 9에서는 제1 참여 단말(111)에 의해 수동 이벤트 데이터가 획득되는 상황을 가정하고 있으나, 다른 참여 단말(예: 제2 참여 단말(113))에 의해 수동 이벤트 데이터가 획득되는 경우에도 동일한 절차에 의한 동작이 수행될 수 있음은 물론이다.
도 9를 참조하면, 아바타 기반 대화 기능을 이용하고 있는 제1 참여 단말(예: 도 1의 제1 전자 장치(111))은, 동작 910에서, 사용자의 조작에 의한 수동 이벤트 데이터를 수집할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 터치 패널(예: 도 11의 터치 패널(1123))을 통해 사용자가 수동으로 입력한 정보를 수동 이벤트 데이터로 수집할 수 있다. 상기 수동 이벤트 데이터는, 예를 들어, 화자를 판별하기 위하여 사용될 수 있다. 상기 수동 이벤트 데이터는, 예를 들어, 화면 뷰(예: 줌-인 또는 줌-아웃)를 결정하기 위하여 사용될 수 있다. 상기 수동 이벤트 데이터는, 예를 들어, 줌-인할 대상을 선택하기 위하여 사용될 수 있다. 상기 수동 이벤트 데이터는, 예를 들어, 디스플레이 형태(예: 가로 화면 또는 세로 화면)를 결정하기 위하여 사용될 수 있다.
상기 제1 참여 단말(111)은, 동작 920에서, 수집한 수동 이벤트 데이터를 운영 서버(130)로 전달할 수 있다.
상기 운영 서버(130)는, 동작 930에서, 상기 제1 참여 단말(111)로부터 전달된 수동 이벤트 데이터를 기반으로 대화 화면을 구성할 수 있다. 상기 운영 서버(130)는, 예를 들어, 상기 제1 참여 단말(111)로부터 전달된 수동 이벤트 데이터를 기반으로 상기 제1 참여 단말(111)의 제1 대화 화면을 구성할 수 있다. 상기 운영 서버(130)는, 예를 들어, 상기 제1 참여 단말(111)로부터 전달된 수동 이벤트 데이터를 기반으로 상기 제2 참여 단말(113)의 제2 대화 화면을 구성할 수 있다. 상기 운영 서버(130)는, 예를 들어, 상기 제1 참여 단말(111)로부터 전달된 수동 이벤트 데이터를 기반으로 상기 제1 참여 단말(111)의 제1 대화 화면 및 상기 제2 참여 단말(113)의 제2 대화 화면을 구성할 수 있다.
상기 운영 서버(130)는, 예를 들어, 상기 전달된 수동 이벤트 데이터를 기반으로 앵글 및/또는 화각을 변경하여 대화 화면을 새롭게 구성할 수 있다. 상기 운영 서버(130)는, 예를 들어, 상기 전달된 수동 이벤트 데이터에 기반으로 현재 말을 하고 있는 화자가 누구인지를 식별할 수 있다. 상기 운영 서버(130)는, 예를 들어, 식별된 화자 또는 지정된 대상을 기준으로 앵글, 화면 뷰(예: 가로 화면 또는 세로 화면) 및/또는 화각(예: 줌-인 또는 줌-아웃)을 변경하여 대화 화면을 새롭게 구성할 수 있다. 상기 운영 서버(130)는, 예를 들어, 상기 전달된 수동 이벤트 데이터에 기반으로 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 대화 화면을 새롭게 구성할 수 있다. 상기 운영 서버(130)는, 예를 들어, 상기 전달된 수동 이벤트 데이터에 기반으로 참여자들(예: 호스트 또는 게스트)의 움직임을 획득하고, 상기 획득한 움직임을 반영한 대화 화면을 새롭게 구성할 수 있다.
상기 운영 서버(130)는, 동작 940에서, 제1 참여 단말(111)을 위해 구성한 제1 대화 화면에 관한 정보(화면 구성 데이터)를 상기 제1 참여 단말(111)로 전달할 수 있다. 상기 운영 서버(130)는, 동작 960에서, 제2 참여 단말(113)을 위해 구성한 제2 대화 화면에 관한 정보(화면 구성 데이터)를 상기 제2 참여 단말(113)로 전달할 수 있다.
상기 제1 참여 단말(111)은, 동작 950에서, 상기 운영 서버(130)로부터 전달된 제1 대화 화면에 관한 정보(화면 구성 데이터)에 의해 제1 대화 화면을 구성할 수 있다. 상기 제1 참여 단말(111)은, 예를 들어, 제1 대화 화면에 관한 정보(화면 구성 데이터)를 통해 확인될 수 있는 화자 변경 또는 참여자의 움직임과 같은 이벤트를 고려하여 변경된 제1 대화 화면을 구성하고, 상기 구성한 제1 대화 화면을 디스플레이를 통해 출력할 수 있다.
상기 제2 참여 단말(113)은, 동작 970에서, 상기 운영 서버(130)로부터 전달된 제2 대화 화면에 관한 정보(화면 구성 데이터)에 의해 제2 대화 화면을 구성할 수 있다. 상기 제2 참여 단말(113)은, 예를 들어, 제2 대화 화면에 관한 정보(화면 구성 데이터)를 통해 확인될 수 있는 화자 변경 또는 참여자의 움직임과 같은 이벤트를 고려하여 변경된 제2 대화 화면을 구성하고, 상기 구성한 제2 대화 화면을 디스플레이를 통해 출력할 수 있다.
상술한 동작 960 및 970은 필요에 의해 선택적으로 수행되거나, 생략될 수도 있다.
도 10은 일 실시예에 따른, 전자 장치(예: 도 6 및 도 7의 제1 또는 제2 참여 단말(111, 113) 또는 도 8 및 도 9의 운영 서버(130))에서 아바타 대화 기능의 대화 화면을 구성하기 위한 제어 흐름도이다. 일 실시예로, 제1 참여 단말(111)은 도 6의 동작 640 또는 도 7의 동작 730에서 도 10의 제어 흐름도에 따른 동작을 수행할 수 있다. 일 실시예로, 제2 참여 단말(113)은 도 6의 동작 650 또는 도 7의 동작 740에서 도 10의 제어 흐름도에 따른 동작을 수행할 수 있다. 일 실시예로, 운영 서버(130)는 도 8의 동작 850 또는 도 9의 동작 930에서 도 10의 제어 흐름도에 따른 동작을 수행할 수 있다.
도 10을 참조하면, 전자 장치(110 또는 130)는, 동작 1011에서, 대화 화면 구성을 위한 데이터를 수집할 수 있다. 상기 전자 장치(110 또는 130)는, 예를 들어, 사용자의 보이스 데이터, 이미지 데이터 또는 센싱 데이터를 수집할 수 있다.
상기 전자 장치(110)는 내부에 포함된 구성 요소(예: 마이크, 카메라 또는 센서) 또는 외부 디바이스(예: 웨어러블 디바이스(120))를 사용하여 대화 화면을 구성하기 위해 참조할 데이터를 수집할 수 있다. 상기 전자 장치(110)는, 예를 들어, 마이크(예: 도 11의 입력 모듈(1130))을 통해 입력되는 사용자의 보이스를 변환한 전기적 신호를 보이스 데이터로 수집할 수 있다. 상기 전자 장치(110)는, 예를 들어, 카메라(예: 도 11의 카메라 모듈(1150))에 의해 촬영된 사용자의 이미지에 상응한 전기적 신호를 이]미지 데이터로 수집할 수 있다. 상기 전자 장치(110)는, 예를 들어, 자이로스코프 센서와 같은 적어도 하나의 센서(예: 도 11의 센서 모듈(1160))에 의해 센싱된 전기적 신호를 센싱 데이터로 수집할 수 있다. 상기 전자 장치(110)는, 예를 들어, 자이로스코프 센서를 구비한 웨어러블 디바이스(예: 도 1 또는 도 11의 웨어러블 디바이스(120))에 의해 센싱된 전기적 신호를 센싱 데이터로 수집할 수 있다. 상기 전자 장치(130)는 참여 단말(예: 도 8 또는 도 9의 제1 및 제2 참여 단말(111, 113))에 의해 수집된 데이터를 전달받을 수 있다. 상기 제1 및 제2 참여 단말(111, 113)은, 예를 들어, 아바타를 이용한 대화에 참여하고 있는 전자 장치일 수 있다.
상기 전자 장치(110, 130)는, 동작 1013에서, 카메라 앵글 전환 이벤트가 발생하는지를 판단할 수 있다. 상기 카메라 앵글 전환 이벤트는 현재 대화 화면에 적용된 앵글을 다른 방향 또는 다른 시점에서의 앵글로의 변경이 필요한 상황이 발생한 것에 해당할 수 있다. 상기 카메라 앵글 전환 이벤트는, 예를 들어, 화자가 변경되거나, 사용자의 수동 조작으로 관심 대상이 변경될 시에 발생할 수 있다.
일 예로, 상기 전자 장치(110, 130)는 상기 수집 데이터에 포함된 참여자의 보이스 데이터를 기반으로 현재 말을 하고 있는 화자가 누구인지를 식별할 수 있다. 상기 전자 장치(110, 130)는, 예를 들어, 상기 수집 데이터에 포함된 참여자들의 보이스 데이터를 기반으로 참여자의 보이스 특성을 획득할 수 있다. 상기 전자 장치(110, 130)는 참가자 별로 미리 설정된 기준 보이스 특성에 관한 정보를 사용하여 상기 획득한 보이스 특성을 갖는 참가자를 예측할 수 있다. 상기 전자 장치(110, 130)은 상기 대화에 참여하고 있는 아바타들 중에서 상기 예측한 참여자의 아바타를 화자 아바타로 결정할 수 있다. 상기 전자 장치(110, 130)는, 아바타 기반 대화 기능이 활성화되어 참석자들에 의한 대화가 수행되면, 상기 참석자들의 보이스 데이터를 수집할 수 있다. 상기 전자 장치(110, 130)는 상기 수집한 보이스 데이터를 사용하여 상기 참석자들 각각에 대한 기준 보이스 특성에 관한 정보를 획득할 수 있다. 상기 전자 장치(110, 130)는 상기 참석자 별로 획득한 기준 보이스 특성에 관한 정보를 해당 참석자에 대응한 기준 보이스 특성으로 설정하거나, 또는 기준 보이스 특성으로 등록할 수 있다.
일 예로, 상기 전자 장치(110, 130)는 상기 수집 데이터에 포함된 참여자를 촬영한 이미지를 기반으로 현재 말을 하고 있는 화자가 누구인지를 식별할 수 있다. 상기 전자 장치(110, 130)는, 예를 들어, 참가자들의 얼굴 이미지에서 입 모양에 대한 특징 정보를 획득할 수 있다. 상기 전자 장치(110, 130)는 상기 획득한 입 모양에 대한 특징이 화자에서 나타날 수 있는 특징인지를 판단하여 화자를 예측할 수 있다. 상기 전자 장치(110, 130)은 상기 대화에 참여하고 있는 아바타들 중에서 상기 예측한 화자로 예측되는 참여자의 아바타를 화자 아바타로 결정할 수 있다. 상기 전자 장치(110, 130)는 화자를 예측하기 위한 반복적인 학습을 통하여 화자가 가질 수 있는 입 모양에 대한 특징을 수집할 수 있다. 상기 전자 장치(110, 130)는 상기 수집한 입 모양에 대한 특징을 화자를 예측하기 위한 기준 정보로 설정하거나, 저장할 수 있다.
일 예로, 상기 전자 장치(110, 130)는 사용자의 수동 조작에 따른 수동 이벤트 데이터를 수집하고, 상기 수집한 수동 이벤트 데이터에 의해 앵글 전환 이벤트가 발생하였음을 판단할 수 있다.
상기 전자 장치(110, 130)는, 카메라 앵글 전환 이벤트가 발생하면, 동작 1025에서 화자 아바타를 향하거나, 수동 이벤트 데이터에 의해 지정된 특정 대상을 향하도록 앵글을 결정하고, 상기 결정된 앵글을 기반으로 대화 화면을 구성할 수 있다. 상기 전자 장치(110, 130)는 상기 구성한 대화 화면을 출력하거나, 적용할 전자 장치로 전달할 수 있다. 상기 전자 장치(110, 130)는 상기 결정된 앵글을 기반으로 대화 화면을 구성할 때, 화자 아바타를 기준으로 청자 아바타의 시선 또는 움직임을 반영할 수 있다. 예컨대, 전자 장치(110, 130)는 청자 아바타의 시선이 화자 아바타를 향하도록 대화 화면을 구성할 수 있다.
상기 전자 장치(110, 130)는, 동작 1015에서, 카메라 화각 전환 이벤트가 발생하는지를 판단할 수 있다. 상기 카메라 화각 전환 이벤트는 현재 대화 화면에 적용된 화각을 넓히거나 좁힌 화각으로의 변경이 필요한 상황이 발생한 것에 해당할 수 있다. 상기 카메라 화각 전환 이벤트는, 예를 들어, 줌-아웃 요건 또는 줌-인 요건에 해당하는 경우 또는 사용자의 수동 조작(예: 사용자의 스와이핑 동작)에 의해 발생할 수 있다. 상기 줌-아웃 요건은, 예를 들어, 참여자가 최초로 입장하여 대화를 시작하거나, 참여자 전체를 확인하여야 하는 상황이 발생하거나, 참여자가 동시에 말을 하거나, 참여자 모두가 말을 하지 않거나, 또는 짧은 간격으로 대화를 주고받는 상황이 발생하는 것을 포함할 수 있다. 상기 줌-인 요건은, 예를 들어, 자동 모드에서 특정 참여자가 말을 길게 하거나, 사용자가 특정 참여자를 선택하는 상황을 포함할 수 있다.
일 예로, 상기 전자 장치(110, 130)는 상기 수집 데이터에 포함된 참여자의 보이스 데이터 또는 참여자를 촬영한 이미지 데이터를 기반으로 현재 말을 하고 있는 화자가 누구인지를 식별할 수 있다. 상기 전자 장치(110, 130)가 보이스 데이터 또는 이미지 데이터를 기반으로 화자를 결정하는 방안은 전술한 바와 동일하게 적용될 수 있다. 상기 전자 장치(110, 130)는, 화자를 결정하면, 상기 화자에 대항하는 화자 아바타의 대화방 입장 시점, 화자로 유지되고 있는 시간 또는 다른 화자의 존재 여부를 종합적으로 고려하여 줌-인 또는 줌-아웃을 적용할 화각을 전환하여야 할지를 판단할 수 있다.
일 예로, 상기 전자 장치(110, 130)는 사용자의 수동 조작(예: 스와이핑)에 따른 수동 이벤트 데이터를 수집하고, 상기 수집한 수동 이벤트 데이터에 의해 화각 전환 이벤트가 발생하였음을 판단할 수 있다.
상기 전자 장치(110, 130)는, 카메라 화각 전환 이벤트가 발생하면, 동작 1027에서 화자 아바타를 향하거나, 수동 이벤트 데이터에 의해 지정된 특정 대상을 향하도록 화각을 변경하고, 상기 변경된 화각을 기반으로 대화 화면을 구성할 수 있다. 상기 전자 장치(110, 130)는 상기 구성한 대화 화면을 출력하거나, 적용할 전자 장치로 전달할 수 있다. 상기 전자 장치(110, 130)는 상기 변경된 화각을 기반으로 대화 화면을 구성할 때, 화자 아바타를 기준으로 청자 아바타의 시선 또는 움직임을 반영할 수 있다. 예컨대, 전자 장치(110, 130)는 청자 아바타의 시선이 화자 아바타를 향하도록 대화 화면을 구성할 수 있다.
상기 전자 장치(110, 130)는, 동작 1017에서, 미러링 이벤트가 발생하는지를 판단할 수 있다. 상기 미러링 이벤트는 대화 화면에서 사용자의 실제 표정 또는 움직임과 같은 행동을 상기 사용자의 아바타에 반영할 것을 요청하는 이벤트에 해당할 수 있다.
일 예로, 상기 전자 장치(110, 130)는 전면 카메라로 촬영된 사용자의 이미지로부터 얼굴의 표정 변화 또는 특정 신체 부분(예: 목, 손)의 움직임이 발생하는 것에 의해, 미러링 이벤트의 발생을 판단할 수 있다. 상기 전자 장치(110, 130)는 다른 전자 장치로부터 제공된 데이터를 기반으로 참여자의 표정 변화 또는 움직임에 의해 미러링 이벤트의 발생을 판단할 수도 있다.
상기 전자 장치(110, 130)는, 미러링 이벤트가 발생하면, 동작 1029에서 미러링 적용된 대화 화면을 구성할 수 있다. 상기 전자 장치(110, 130)는, 예를 들어, 사용자의 표정 변화를 확인하고, 상기 확인된 표정 변화를 해당 아바타의 얼굴에 동일하거나, 유사하게 반영할 수 있다. 상기 유사하게 반영하는 방안으로는, 예를 들어, 미리 설정된 아바타 이미지들 중에서 유사 이미지를 선택하고, 상기 선택한 이미지를 대화 화면에 적용할 수 있다. 상기 전자 장치(110, 130)는, 예를 들어, 사용자의 움직임을 확인하고, 상기 확인된 움직임을 해당 아바타에 동일하거나, 유사하게 반영할 수 있다. 상기 유사하게 반영하는 방안으로는, 예를 들어, 미리 설정된 아바타 이미지들 중에서 유사 이미지를 선택하고, 상기 선택한 이미지를 대화 화면에 적용할 수 있다. 상기 전자 장치(110, 130)는 움직임을 판단하기 위한 정확도를 향상시킬 수 있도록, 웨어러블 디바이스(120)로부터 제공되는 센싱 정보를 활용할 수도 있다.
상기 전자 장치(110, 130)는, 동작 1019에서, 뷰 타입 전환 이벤트 발생을 판단할 수 있다. 상기 뷰 타입 전환 이벤트는, 예를 들어, 대화방의 참여자 수가 변경되는 상황을 포함할 수 있다. 상기 전자 장치(110, 130)는, 뷰 타입 전환 이벤트가 발생하면, 상황 별로 적합한 뷰 타입을 결정하고, 상기 결정한 뷰 타입을 적용한 대화 화면을 구성할 수 있다.
일 예로, 상기 전자 장치(110, 130)는, 두 명이 대화하는 경우, 화면 형태가 세로인 디스플레이 중심 부근에 상대 아바타를 배치한 대화 화면을 구성하여 출력할 수 있다. 이때, 몰입감을 위하여, 전자 장치(110, 130)는 자신의 아바타를 화면에 표시하지 않고, 투명 처리하며, 화각을 일정하게 유지할 수 있다.
일 예로, 상기 전자 장치(110, 130)는, 세 명이 대화하는 경우, 화면 형태가 세로인 디스플레이 중심을 기준으로 양측에 상대 아바타들을 배치한 대화 화면을 출력할 수 있다. 이때, 상기 전자 장치(110, 130)는 자신의 아바타를 화면에 표시하지 않고, 투명 처리하며, 두 명이서 대화할 때보다 화각이 넓어지도록 자신의 아바타의 시점을 이전 위치에서 상기 상대 아바타들과 멀어진 위치로 이동시킬 수 있다.
일 예로, 상기 전자 장치(110, 130)는, 네 명이 대화를 하는 경우, 화면 형태가 가로인 디스플레이에 중심 부근 및 양측에 상대 아바타들을 배치한 대화 화면을 출력할 수 있다. 이때, 일 예로, 상기 전자 장치(110, 130)는 자신의 아바타를 화면에 표시하지 않고, 투명 처리하며, 세 명이서 대화할 때보다 화각이 넓어지도록 자신의 아바타의 시점을 이전 위치에서 상기 상대 아바타들과 멀어진 위치로 이동시킬 수 있다.
일 예로, 상기 전자 장치(110, 130)는, 다섯 명이 대화를 하는 경우, 화면 형태가 가로인 디스플레이에 중심 부근 및 양측에 상대 아바타들을 실질적으로 균등 간격으로 배치한 대화 화면을 출력할 수 있다. 이때, 일 예로, 상기 전자 장치(110, 130)는 자신의 아바타를 화면에 표시하지 않고, 투명 처리하며, 네 명이서 대화할 때보다 화각이 넓어지도록 자신의 아바타의 시점을 이전 위치에서 상기 상대 아바타들과 멀어진 위치로 이동시킬 수 있다.
일 예로, 상기 전자 장치(110, 130)는, 여섯 명이 대화를 하는 경우, 화면 형태가 가로인 디스플레이에 실질적으로 균등 간격으로 상대 아바타들을 배치한 대화 화면을 출력할 수 있다. 이때, 일 예로, 상기 전자 장치(110, 130)는 자신의 아바타를 화면에 표시하지 않고, 투명 처리하며, 네 명이서 대화할 때보다 화각이 넓어지도록 자신의 아바타의 시점을 이전 위치에서 상기 상대 아바타들과 멀어진 위치로 이동시킬 수 있다.
상기 전자 장치(110, 130)는, 동작 1021에서, 상대 아바타를 호출하는 상대 호출 이벤트가 발생하는지를 판단할 수 있다.
일 예로, 상기 전자 장치(110, 130)는 디스플레이에서 대화 화면에 포함된 상대 아바타를 사용자가 터치할 시에 이를 상대 호출 이벤트가 발생한 것으로 판단할 수 있다. 상기 전자 장치(110, 130)는 상기 사용자에 의한 터치가 이루어진 위치 및 상기 터치에 따른 센싱 정보를 기반으로 대화 상대방의 전자 장치로 아바타 호출이 요청되었음을 통보할 수 있다. 상기 상대방의 전자 장치는 상기 호출이 있음을 알리기 위하여 진동 또는 소리를 출력할 수 있다.
일 예로, 상기 전자 장치(110, 130)는 상대방의 전자 장치로부터 제공되는 정보(예: 촬영된 상대방 이미지)를 분석하여 상대방이 호출에 반응하였는지를 판단할 수 있다. 상기 전자 장치(110, 130)는, 상대방이 호출에 반응하였다고 판단되면, 상대방 아바타(2170)가 자신을 쳐다보도록 이미지를 변경한 대화 화면을 구성할 수 있다.
상기 전자 장치(110, 130)는, 동작 1023에서, 아바타 기반 대화가 수행 중이거나, 또는 아바타 기반 대화가 종료한 후, 기록 요청 이벤트가 발생하는지를 판단할 수 있다. 상기 전자 장치(110, 130)는, 기록 요청 이벤트가 발생하면, 동작 1035에서, 대화 중에 수집한 데이터들을 기반으로 대화에 상응한 이미지들을 추출하고, 상기 추출한 이미지들을 사용하여 대화 기록 이미지를 생성할 수 있다. 상기 전자 장치(110, 130)는 상기 생성한 대화 기록 이미지를 저장하거나, 외부 전자 장치로 전달할 수 있다.
도 11은 일 실시예에 따른, 전자 장치(예: 도 1의 전자 장치(110))의 블록 구성도이다.
도 11을 참조하면, 일 실시예로, 전자 장치(110)는 디스플레이 모듈(1120)(예: 도 23의 디스플레이 모듈(2560)), 프로세서(1110)(예: 도 23의 프로세서(2520)), 입력 모듈(1130)(예: 도 23의 입력 모듈(2550)), 음향 출력 모듈(1140)(예: 도 23의 음향 출력 모듈(2555)), 카메라 모듈(1150)(예: 도 23의 카메라 모듈(2580)), 센서 모듈(1160)(예: 도 23의 센서 모듈(2576)), 통신 모듈(1170)(예: 도 23의 통신 모듈(2590)) 또는 메모리(1180)(예: 도 23의 메모리(2530)를 포함할 수 있다.
상기 디스플레이 모듈(1120)은 디스플레이 패널(1121) 또는 터치 패널(1123)을 포함할 수 있다. 상기 디스플레이 패널(1121)은 전자 장치(110)의 외부(예: 사용자)로 정보를 시각적으로 제공할 수 있다. 상기 디스플레이 모듈(1120)은, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 상기 터치 패널(1123)은 사용자에 의한 터치를 감지하도록 설정된 터치 센서, 또는 상기 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 압력 센서를 포함할 수 있다. 상기 디스플레이 모듈(1120)은 상기 프로세서(1110)와의 전기적인 연결에 의해 그 동작을 제어 받을 수 있다. 상기 디스플레이 모듈(1120)에 포함된 디스플레이 패널(1121) 또는 터치 패널(1123)은 상기 프로세서(1110)와의 전기적인 연결에 의해 그 동작을 독립적으로 제어 받을 수 있다. 일 실시예로, 상기 디스플레이 패널(1121)은 상기 프로세서(1110)의 제어를 받아 표시할 디스플레이 정보를 시각적으로 외부(예: 사용자)로 제공할 수 있다.
상기 프로세서(1110)는 소프트웨어(예: 도 23의 프로그램(2540))를 실행하여 전기적으로 연결된 디스플레이 모듈(1120), 입력 모듈(1130), 음향 출력 모듈(1140), 카메라 모듈(1150), 센서 모듈(1160), 통신 모듈(1170) 또는 메모리(1180)와 같은 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 상기 프로세서(1110)는 데이터 처리 또는 연산의 적어도 일부로서, 다른 구성요소(예: 디스플레이 모듈(1120), 통신 모듈(1170) 또는 입/출력부(127))로부터 수신된 명령 또는 데이터를 저장부(129)(예: 도 25의 휘발성 메모리(2530))에 저장하거나, 또는 상기 저장부(129)에 저장된 명령 또는 데이터를 처리하고, 그 처리된 결과 데이터를 상기 저장부(129)에 저장할 수 있다.
상기 입력 모듈(1130)은 전자 장치(110)의 구성요소(예: 프로세서(1110))에 사용될 명령 또는 데이터를 상기 전자 장치(110)의 외부(예: 사용자)로부터 수신할 수 있다. 상기 입력 모듈(1130)은, 예를 들면, 마이크, 마우스, 키보드, 키(예: 버튼), 또는 디지털 펜(예: 스타일러스 펜)을 포함할 수 있다.
상기 음향 출력 모듈(1140)은 음향 신호를 전자 장치(110)의 외부로 출력할 수 있다. 상기 음향 출력 모듈(1140)은, 예를 들면, 스피커 또는 리시버를 포함할 수 있다. 상기 스피커는 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용될 수 있다. 상기 리시버는 착신 전화를 수신하기 위해 사용될 수 있다. 상기 리시버는 상기 스피커와 별개로, 또는 그 일부로서 구현될 수 있다.
상기 카메라 모듈(1150)은 정지 영상 및 동영상을 촬영할 수 있다. 상기 카메라 모듈(1150)은 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다.
상기 센서 모듈(1160)은 전자 장치(110)의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태(예: 사용자 상태)를 감지하고, 감지된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 상기 센서 모듈(1160)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.
상기 통신 모듈(1170)는 웨어러블 디바이스(120)와의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 상기 통신 모듈(1170)는 상기 프로세서(1110)와 독립적으로 운영되고, 직접(예: 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 상기 통신 모듈(1170)는, 예를 들어, 무선 통신 모듈(예: 도 23의 무선 통신 모듈(2592))(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(예: 도 23의 유선 통신 모듈(2594))(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈은 네트워크(140)(예: 블루투스, WiFi(wireless fidelity) direct 또는 IrDA(infrared data association)와 같은 근거리 통신 네트워크 또는 레거시 셀룰러 네트워크, 5G 네트워크, 차세대 통신 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부의 전자 장치인 웨어러블 디바이스(120)와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성요소(예: 단일 칩)로 통합되거나, 또는 서로 별도의 복수의 구성요소들(예: 복수 칩들)로 구현될 수 있다.
상기 메모리(1180)는 상기 전자 장치(110)의 적어도 하나의 구성요소(예: 디스플레이 모듈(1120), 프로세서(1110), 통신 모듈(1170) 또는 입/출력부(127))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 상기 데이터는, 예를 들어, 소프트웨어(예: 프로그램(2540)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 상기 저장부(129)는, 예를 들어, 휘발성 메모리(예: 도 25의 휘발성 메모리(2532)) 또는 비휘발성 메모리(예: 도 25의 비휘발성 메모리(2534))를 포함할 수 있다.
상기 프로세서(1110)는, 예를 들어, 얼굴 추적 모듈(1111), 손 추적 모듈(1113) 또는 모션 추적 모듈(1115)을 포함할 수 있다. 상기 얼굴 추적 모듈(1111)은 상기 카메라 모듈(1150)에 의해 촬영된 사용자 이미지로부터 얼굴에 해당하는 부분의 데이터를 추출하고, 상기 추출한 데이터를 기반으로 얼굴 표정의 변화를 추적할 수 있다. 상기 손 추적 모듈(1113)은 상기 카메라 모듈(1150)에 의해 촬영된 사용자 이미지로부터 손에 해당하는 부분의 데이터를 추출하고, 상기 추출한 데이터를 기반으로 손의 움직임을 추적할 수 있다. 상기 손 추적 모듈(1113)은 상기 센서 모듈(1160)로부터 제공된 센싱 정보 또는 웨어러블 디바이스(120)로부터 제공된 센싱 정보를 기반으로 손의 움직임을 추적할 수 있다. 상기 모션 추적 모듈(1115)은 상기 카메라 모듈(1150)에 의해 촬영된 사용자 이미지로부터 사용자의 움직임을 추적할 수 있다. 상기 모션 추적 모듈(1115)은 상기 센서 모듈(1160)로부터 제공된 센싱 정보 또는 웨어러블 디바이스(120)로부터 제공된 센싱 정보를 기반으로 사용자의 움직임을 추적할 수 있다.
일 실시예에 따르면, 프로세서(1110)는 통신 모듈(1170)를 제어하여 웨어러블 디바이스(120)를 연결한 후 디스플레이 정보의 제공 요청을 수신하도록 구성될 수 있다. 상기 프로세서(1110)는 상기 통신 모듈(1170)를 제어하여 디스플레이 정보 중 일부 디스플레이 정보(예: 도 4a의 클로즈드 디스플레이 정보(435))를 상기 웨어러블 디바이스(120)로 송신할 수 있다. 상기 프로세서(1110)는 상기 디스플레이 모듈(1120)를 제어하여 디스플레이 정보 중 일부 디스플레이 정보(예: 오픈 디스플레이 정보)를 표시하도록 구성될 수 있다. 상기 프로세서(1110)는 상기 디스플레이 모듈(1120)에 표시하기 전에 디스플레이 정보에 대한 렌더링을 수행할 수 있다. 상기 디스플레이 정보는, 예를 들어, 상기 전자 장치(110)에서 표시할 디스플레이 정보(풀 디스플레이 정보(예: 도 4a의 풀 디스플레이 정보(431)) 또는 일부 디스플레이 정보(오픈 디스플레이 정보)일 수 있다.
일 실시예에 따르면, 프로세서(1110)는 통신 모듈(1170)를 제어하여 웨어러블 디바이스(120)를 연결한 후 디스플레이 정보의 제공 요청을 수신하도록 구성될 수 있다. 상기 프로세서(1110)는 상기 요청에 응답하여 디스플레이 정보를 상기 통신 모듈(1170)를 통해 상기 웨어러블 디바이스(120)로 송신하고, 상기 디스플레이 정보에서 자신이 표시할 일부 디스플레이 정보(오픈 디스플레이 정보)를 분리할 수 있다. 상기 프로세서(1110)는 상기 분리된 일부 디스플레이 정보를 상기 디스플레이 모듈(1120)를 제어하여 표시하도록 구성될 수 있다. 상기 프로세서(1110)는 상기 디스플레이 모듈(1120)에 표시하기 전에 상기 분리된 일부 디스플레이 정보에 대한 렌더링을 수행할 수 있다.
일 실시예에 따르면, 프로세서(1110)는 통신 모듈(1170)를 통해 웨어러블 디바이스(120)로부터 계층화 변경 요청을 수신할 수 있다. 일 실시예로, 상기 프로세서(1110)는 상기 계층화 변경 요청을 상기 웨어러블 디바이스(120)로부터 수신할 수 있다. 상기 프로세서(1110)는 상기 요청에 응답하여 디스플레이 정보(예: 풀 디스플레이 정보)를 통신 모듈(1170)를 통해 상기 웨어러블 디바이스(120)로 송신할 수 있다. 일 실시예로, 상기 프로세서(1110)는 상기 계층화 변경 요청과 함께 조정된 계층화 관련 정보를 상기 웨어러블 디바이스(120)로부터 제공받을 수 있다. 상기 프로세서(1110)는 상기 계층화 관련 정보를 사용하여 디스플레이 정보로부터 일부 디스플레이 정보(예: 클로즈드 디스플레이 정보)를 획득하여 상기 통신 모듈(1170)를 통해 상기 웨어러블 디바이스(120)로 송신할 수 있다. 상기 프로세서(1110)는 상기 계층화 관련 정보를 사용하여 디스플레이 정보로부터 일부 디스플레이 정보(예: 오픈 디스플레이 정보)를 획득하여 상기 디스플레이 모듈(1120)를 제어하여 표시하도록 구성될 수 있다. 상기 프로세서(1110)는 상기 디스플레이 모듈(1120)에 표시하기 전에 표시할 디스플레이 정보에 대한 렌더링을 수행할 수 있다.
도 12는 일 실시예에 따른, 전자 장치(예: 도 1의 전자 장치(110))에서 아바타 기반 대화방을 개설하는 절차 별 사용자 인터페이스(UI)의 예시도이다.
도 12를 참조하면, 전자 장치(110)의 디스플레이에는 아바타 기반 대화 기능을 이용하기 위하여 선택할 수 있는 응용 프로그램의 아이콘(1210)이 포함될 수 있다 ((a) 참조). 상기 아이콘(1210)은 상기 전자 장치(110)에서 아바타 기반 대화 기능을 이용하기 위한 응용 프로그램을 설치함으로써, 디스플레이의 화면에 생성될 수 있다.
상기 디스플레이의 화면에 표시된 아이콘(1210)이 선택되면, 상기 전자 장치(110)는 아바타 기반 대화에 참여할 게스트를 선택할 수 있는 사용자 인터페이스를 디스플레이를 통해 출력할 수 있다 ((b) 참조). 상기 전자 장치(110)는, 예를 들어, 대화를 위해 호출할 수 있는 대상자 목록과, 대화 개시를 요청할 수 있는 아이콘(1220)를 포함하는 화면을 디스플레이를 통해 출력할 수 있다.
상기 대화 개시를 요청하는 아이콘(1220)이 선택되면, 상기 전자 장치(110)는 디스플레이에 표시된 대상자 목록에서 사용자가 선택한 호출할 게스트들의 선택 상태 표시(1240) 및 게스트 호출을 위한 아이콘(1230)을 포함하는 화면을 디스플레이를 통해 출력할 수 있다 ((c) 참조).
상기 게스트 호출을 위한 아이콘(1230)이 선택되면, 상기 전자 장치(110)는 디스플레이를 통해 대화방을 배경을 선택할 수 있는 사용자 인터페이스(1250) 및 대화방 입장을 요청할 수 있는 아이콘(1260)을 표시할 수 있다 ((d) 참조). 상기 대화방 입장을 요청할 수 있는 아이콘(1260)이 사용자에 의해 선택되면, 상기 전자 장치(110)은 아바타 기반 대화 기능을 이용할 수 있는 대화방에 입장할 수 있다.
도 13은 일 실시예에 따른, 전자 장치(예: 도 1의 전자 장치(110))에서 아바타 기반 대화 기능을 위한 대화방에 입장하기 전에 제공되는 사용자 인터페이스의 예를 도시하고 있다.
도 13을 참조하면, 대화방 개설 및 게스트를 호출하는 호스트 단말에 해당하는 전자 장치(110)는 디스플레이(1310)에 입장을 대기하고 있는 이미지의 아바타(1311)를 표시할 수 있다 ((a) 참조).
상기 호스트 단말에 의해 아바타 기반 대화에 초대된 게스트 단말에 해당하는 전자 장치(110)는, 대화 참여 요청이 접수되면, 참여를 요청하는 아바타(1320), 대화 참여에 동의하기 위한 아이콘(1323) 및 대화 참여에 동의하지 않고 거절하기 위한 아이콘(1325)을 디스플레이(1320)에 표시할 수 있다 ((b) 참조).
도 14는 일 실시예에 따른, 전자 장치(예: 도 1의 전자 장치(110))에서 화자 변경에 대응한 앵글 전환 예를 도시하고 있다.
도 14를 참조하면, 전자 장치(110)의 사용자가 화자인 경우, 상기 전자 장치(110)는 화자인 자신의 아바타인 제1 아바타(1410)가 대화 상대인 청자 아바타인 제2 및 제3 아바타(1420, 1430)를 바라보고 있는 제1 대화 화면을 표시할 수 있다 ((a) 참조).
상기 제1 대화 화면에서 제1 아바타(1410)가 바라보고 있는 방향에서 우측에 위치하는 제3 아바타(1430)로 화자가 변경된 경우, 상기 전자 장치(110)는 제1 아바타(1410)의 시선이 제3 아바타(1430)를 향하도록 하고, 화면을 구성할 앵글을 상기 제3 아바타(1430) 방향인 우측 방향으로 이동(1440)시켜 제2 대화 화면을 구성하여 디스플레이를 통해 출력할 수 있다 ((b) 참조). 상기 제2 대화 화면에서는 화자인 제3 아바타(1430)가 화면의 중심 부근에 위치하도록 앵글이 조정될 수 있다.
상기 제2 대화 화면에서 제1 아바타(1410)가 바라보고 있는 방향에서 좌측에 위치하는 제2 아바타(1420)로 화자가 변경된 경우, 상기 전자 장치(110)는 제1 아바타(1410) 및 제3 아바타(1430)의 시선이 제2 아바타(1420)를 향하도록 하고, 화면을 구성할 앵글을 상기 제2 아바타(1420) 방향인 좌측 방향으로 이동(1450)시켜 제3 대화 화면을 구성하여 디스플레이를 통해 출력할 수 있다 ((c) 참조). 상기 제3 대화 화면에서는 화자인 제2 아바타(1420)가 화면의 중심 부근에 위치하도록 앵글이 조정될 수 있다.
상기 제3 대화 화면에서 제1 아바타(1410)가 바라보고 있는 방향에서 좌측 및 우측에 위치하는 제2 아바타(1420) 및 제3 아바타(1430) 모두가 화자인 경우, 상기 전자 장치(110)는 제1 아바타(1410)의 시선이 정면을 향하고, 제2 아바타(1420)와 제3 아바타(1430)가 서로 마주 보도록 하고, 화면을 구성할 앵글을 상기 제1 아바타(1410)의 정면을 향하도록 이동시켜 제4 대화 화면을 구성하여 디스플레이를 통해 출력할 수 있다 ((d) 참조). 상기 제4 대화 화면에서는 화자인 제2 아바타(1420)와 제3 아바타(1430)가 화면의 양측에서 중심 부근을 기준으로 실질적으로 대칭하도록 앵글이 조정될 수 있다.
도시된 바와 같이, 아바타 기반 대화 화면을 화자 중심으로 청자의 시점 및 화면을 구성하는 앵글을 조정함으로써, 사용자에게 좀더 현실감 있는 가상 공간에서의 대화 경험을 제공할 수 있다. 예컨대, 사용자의 조작을 요구하지 않으면서 사용자가 전자 장치(110)을 들고 있는 것만으로도, 사용자를 대신한 아바타의 얼굴을 화자 아바타를 바라보는 방향으로 돌린 화면을 제공할 수 있다.
도 15a 및 도 15b는 일 실시예에 따른, 전자 장치(예: 도 1의 전자 장치(110))에서 수동 조작에 대응한 앵글 전환 예를 도시하고 있다.
도 15a를 참조하면, 전자 장치(110)는 앵글 전환을 수동으로 조작할 수 있는 아이콘(1530)을 디스플레이에 표시된 대화 화면 상에 표시할 수 있다 ((a) 참조). 사용자에 의한 아이콘(1530)이 조작이 이루어지기 전에, 상기 전자 장치(110)는 대화에 참여하고 있는 상대 아바타인 제1 아바타(1510)와 제2 아바타(1520)가 양측에서 마주보도록 구성된 대화 화면을 디스플레이를 통해 출력할 수 있다.
사용자에 의해 아이콘(1530)이 좌측 방향으로 스와이프(1540)되면, 상기 전자 장치(110)는 화면의 앵글을 좌측 방향으로 이동시켜 제1 아바타(1510)가 우측 방향으로 이동하여 중심 부근에 위치하도록 하고, 제2 아바타(1520) 또한 우측 방향으로 이동하도록 대화 화면을 변경하여 디스플레이를 통해 출력할 수 있다 ((b) 참조).
사용자에 의해 아이콘(1530)이 우측 방향으로 스와이프(1550)되면, 상기 전자 장치(110)는 화면의 앵글을 우측 방향으로 이동시켜 제2 아바타(1520)가 좌측 방향으로 이동하여 중심 부근에 위치하도록 하고, 제1 아바타(1510) 또한 좌측 방향으로 이동하도록 대화 화면을 변경하여 디스플레이를 통해 출력할 수 있다 ((c) 참조).
도 15b를 참조하면, 전자 장치(110)는 앵글 전환을 수동으로 조작할 수 있는 아이콘(1560, 1570a, 1570b, 1580a, 1580b)을 포함하는 대화 화면을 디스플레이에 표시할 수 있다. 앵글 전환을 위하여 사용자가 수동으로 조작할 수 있는 아이콘(1560, 1570, 1580)은, 예를 들어, 자신의 상태를 지시하는 메인 표시자(1560) 또는 상대방의 상태를 지시하는 적어도 하나의 서브 표시자(1570, 1580)를 포함할 수 있다. 일 예로, 메인 표시자(1560)는 반원 형상을 가지며, 발화에 따른 음성에 대응하여 붐잉 반응할 수 있다. 상기 붐잉 반응은 반원 형상이 점진적으로 퍼져 나가는 반응에 해당할 수 있다. 일 예로, 적어도 하나의 서브 표시자(1570, 1580)는 사용자의 터치에 의해 토글 동작할 수 있다. 상기 적어도 하나의 서브 표시자(1570, 1580)는 토글 동작에 따른 동작 상태에 대응하여 색상 또는 밝기 등이 변화될 수 있다. 상기 서브 표시자(1570, 1580)는 나를 중심으로 대화에 참여하고 있는 상대방의 인원 수 또는 화면 상의 위치를 반영하여 생성될 수 있다. 상기 서브 표시자(1570, 1580)에 의해 식별될 수 있는 상태는, 예를 들어, 화자에 따라 화면을 자동으로 변경하는 동작 상태임을 나타내는 제1 표시 상태(1570a, 1580a)를 포함할 수 있다. 상기 서브 표시자(1570a, 1570b, 1580a, 1580b)에 의해 식별될 수 있는 상태는, 예를 들어, 사용자가 원하는 상대 아바타(1510, 1520)에 화면의 초점이 맞춰지도록 수동 제어가 가능한 동작 상태임을 나타내는 제2 표시 상태(1570b, 1580b)를 포함할 수 있다. 일 예로, 사용자가 서브 표시자(1570, 1580)를 탭 하는 횟수에 비례하여 제1 표시 상태(1570a, 1580a)와 제2 표시 상태(1570b, 1580b)가 교번적으로 전환될 수 있다.
일 예로, (a)에서는 서브 표시자(1570, 1580)가 제1 표시 상태(1570a, 1580a)로 표시된 상황을 도시하고 있다. 상기 제1 표시 상태(1570a, 1580a)에서, 전자 장치(110)는 화자에 따라 화면을 자동으로 변경하는 동작이 이루어질 수 있다. 예컨대, 전자 장치(110)는 스와이핑 거리에 비례하여 사용자의 아바타가 바라볼 상대방 아바타(1510, 1520)를 변경하는 화면을 제공할 수 있다.
일 예로, (b)에서는 제1 상대방 아바타(1510)에 대응한 제1 서브 표시자(1570)가 제2 표시 상태(1570b)로 표시되고, 제2 상대방 아바타(1520)에 대응한 제2 서브 표시자(1580)가 제1 표시 상태(1580a)로 표시된 상황을 도시하고 있다. 상기 제1 서브 표시자(1570)가 제2 표시 상태(1570b)이므로, 전자 장치(110)는 화면의 중심 또는 초점을 제1 상대방 아바타(1510)에 맞춘 화면을 제공할 수 있다.
일 예로, (c)에서는 제1 상대방 아바타(1510)에 대응한 제1 서브 표시자(1570)가 제1 표시 상태(1570a)로 표시되고, 제2 상대방 아바타(1520)에 대응한 제2 서브 표시자(1580)가 제2 표시 상태(1580b)로 표시된 상황을 도시하고 있다. 상기 제2 서브 표시자(1580)가 제2 표시 상태(1580b)이므로, 전자 장치(110)는 화면의 중심 또는 초점을 제2 상대방 아바타(1520)에 맞춘 화면을 제공할 수 있다.
도시된 바와 같이, 아바타 기반 대화 화면을 사용자의 수동 조작에 응답하여 앵글을 조정함으로써, 사용자에게 좀더 현실감 있는 가상 공간에서의 대화 경험을 제공할 수 있다.
도 16는 일 실시예에 따른, 전자 장치(예: 도 1의 전자 장치(110))에서 설정 요건에 대응하여 화각을 전환하는 예를 도시하고 있다.
도 16을 참조하면, 전자 장치(110)는 미리 설정된 요건을 사용하여 줌 아웃 뷰의 대화 화면 (a)을 제공하거나 줌 인 뷰의 대화 화면 (b)를 제공할 수 있다.
일 예로, 참여자가 대화방에 최초 진입하여 대화를 시작할 때, 상기 참여자의 전자 장치(110)는 줌 아웃 뷰의 대화 화면 (a)을 디스플레이를 통해 출력할 수 있다. 일 예로, 참여자가 대화 참여자 전체를 확인하기 위한 수동 조작을 행하면, 상기 참여자의 전자 장치(110)는 줌 아웃 뷰의 대화 화면 (a)을 디스플레이를 통해 출력할 수 있다. 일 예로, 대화에 참여한 전체 참여자들이 동시에 말을 하거나, 아무도 말을 하지 않을 경우, 상기 참여자의 전자 장치(110)는 줌 아웃 뷰의 대화 화면 (a)을 디스플레이를 통해 출력할 수 있다. 일 예로, 대화에 참여한 참여자들이 짧은 간격 (예: 3초)으로 대화를 주고받을 경우, 상기 참여자의 전자 장치(110)는 줌 아웃 뷰의 대화 화면 (a)을 디스플레이를 통해 출력할 수 있다. 일 예로, 특정 참여자가 미리 설정된 시간 이상으로 길게 말을 하는 경우, 전자 장치(110)는 상기 특정 참여자의 아바타에 대한 줌 인 뷰를 제공하는 대화 화면 (b)을 디스플레이를 통해 출력할 수 있다. 일 예로, 참여자가 특정 참여자를 수동으로 선택하는 경우, 상기 참여자의 전자 장치(110)는 상기 특정 참여자의 아바타에 대한 줌 인 뷰를 제공하는 대화 화면 (b)을 디스플레이를 통해 출력할 수 있다.
상술한 바에 따르면, 대화 화면으로 줌 아웃 뷰를 제공하는 줌 아웃 요건은, 참여자가 대화방에 최초 진입하여 대화를 시작하거나, 참여자가 대화 참여자 전체를 확인하기 위한 수동 조작을 행하거나, 대화에 참여한 전체 참여자들이 동시에 말을 하거나, 아무도 말을 하지 않거나, 참여자들이 짧은 간격 (예: 3초)으로 대화를 주고받는 상황을 포함할 수 있다. 대화 화면으로 줌 인 뷰를 제공하는 줌 인 요건은, 특정 참여자가 미리 설정된 시간 이상으로 길게 말을 하거나, 특정 참여자가 수동으로 선택되는 상황을 포함할 수 있다.
도 17은 일 실시예에 따른, 전자 장치(예: 도 1의 전자 장치(110))에서 수동 조작에 응답한 뷰 (화각) 전환 예를 도시하고 있다.
도 17을 참조하면, 전자 장치(110)는 뷰 전환을 수동으로 조작할 수 있는 스와이프 패턴을 미리 설정하고, 사용자가 수동으로 입력하는 스와이프 패턴에 응답하여 뷰를 전환한 대화 화면을 제공할 수 있다.
일 예로, 제1 아바타(1710)와 제2 아바타(1720)가 마주 보면서 대화 중인 제1 대화 화면에서 사용자(1740)가 우측에서 좌측으로 진행하는 스와이프 패턴(1750)을 입력하면, 전자 장치(110)는 카메라의 앵글을 우측으로 이동하면서 제2 아바타(1720)의 줌 인 뷰를 제공하는 제2 대화 화면을 디스플레이를 통해 출력할 수 있다.
일 예로, 제2 아바타(1720)의 줌 인 뷰를 제공하는 제2 대화 화면에서 사용자(1740)가 좌측에서 우측으로 진행하는 스와이프 패턴(1760)을 입력하면, 전자 장치(110)는 카메라의 앵글을 좌측으로 이동하면서 제1 아바타(1710)의 줌 인 뷰를 제공하는 제3 대화 화면을 디스플레이를 통해 출력할 수 있다.
일 예로, 제1 아바타(1710)의 줌 인 뷰를 제공하는 제3 대화 화면에서 사용자(1740)가 하측에서 상측으로 진행하는 스와이프 패턴(1770)을 입력하면, 전자 장치(110)는 카메라의 앵글을 두 아바타들(1710, 1720)의 중심 부근으로 이동하면서 제1 및 제2 아바타(1710, 1720)의 줌 아웃 뷰를 제공하는 제4 대화 화면을 디스플레이를 통해 출력할 수 있다.
상기 전자 장치(110)의 디스플레이에 표시된 제1 내지 제4 대화 화면의 좌측 상단에는 카메라를 통해 촬영된 사용자의 이미지(1730)를 표시할 수 있다.
상술한 바에 따르면, 사용자는 디스플레이 상에서 미리 설정된 간단한 스와이프 패턴을 입력하는 것으로, 원하는 뷰의 대화 화면을 제공받을 수 있다.
도 18a 및 도 18b는 일 실시예에 따른, 전자 장치(예: 도 1의 전자 장치(110))에서 카메라에 의해 촬영된 이미지를 사용하여 아바타에 사용자의 움직임을 미러링 하는 예를 도시하고 있다.
도 18a를 참조하면, 전자 장치(110)는 전면 카메라(1820)를 통해 사용자의 얼굴(1830)를 포함하도록 촬영하고, 얼굴 추적 기능을 적용하여 상기 촬영된 이미지에서 얼굴(1830)의 표정을 분석할 수 있다. 상기 전자 장치(110)는 분석된 표정을 디스플레이(1810)의 화면에 표시된 아바타(1840)의 얼굴 표정에 미러링 하여 표현할 수 있다.
도 18b를 참조하면, 전자 장치(110)는 전면 카메라(1820)를 통해 사용자의 손(1850)를 포함하도록 촬영하고, 손 추적 기능을 적용하여 상기 촬영된 이미지에서 손(1850)의 움직임을 분석할 수 있다. 상기 전자 장치(110)는 분석된 움직임을 디스플레이(1810)의 화면에 표시된 아바타(1870)의 손 움직임에 미러링 하여 표현할 수 있다. 상기 전자 장치(110)는 대화방에 참여 중인 참가자의 전자 장치가 카메라를 통해 촬영한 참가자의 이미지를 수신하고, 상기 수신한 이미지에서 손(1850)의 움직임을 분석할 수 있다. 상기 전자 장치(110)는 상기 분석된 움직임을 디스플레이(1810)의 화면에 표시된 상대 아바타(1860)의 손 움직임에 미러링 하여 표현할 수 있다.
상기 전자 장치(110)는 사용자의 움직임을 정확하게 분석하기 위하여, 웨어러블 디바이스(예: 도 1의 웨어러블 디바이스(120))로부터 제공되는 센싱 정보를 추가로 고려할 수 있다. 일 예로, 전자 장치(110)는 웨어러블 디바이스(120) 중 하나인 스마트 워치에 포함된 적어도 하나의 센서(예: 자이로스코프 센서)에 의해 감지된 센싱 정보를 제공받아 사용자의 손 움직임을 정확하게 분석할 수 있다.
상술한 바에 따르면, 전자 장치(110)는 전면 카메라에 의한 촬영된 사용자의 이미지로부터 얼굴 표정 또는 제스처를 획득하고, 상기 획득한 얼굴 표정 또는 상기 획득한 제스처를 대화 화면에 포함된 사용자의 아바타에 미러링(mirroring)하여 표현할 수 있다.
상술한 바에 따르면, 전자 장치(110)는 수집한 데이터로부터 참석자들의 얼굴 표정 또는 제스처를 획득하고, 상기 획득한 참석자들의 얼굴 표정 또는 상기 획득한 참석자들의 제스처를 대화 화면에 포함된 참석자의 아바타에 미러링(mirroring)하여 표현할 수 있다.
도 19a, 도 19b 및 도 19c는 일 실시예에 따른, 전자 장치(예: 도 1의 전자 장치(110))에서 미리 설정되어 아바타에 적용할 수 있는 움직임의 예시들을 도시하고 있다.
도 19a를 참조하면, 전자 장치(110)는 사용자가 많이 사용할 것으로 예상되는 아바타(1910, 1920)의 움직임(예: (a) 기쁨(1951), (b) 분노(1953), (c) 사랑 표현(1955))을 미리 설정할 수 있다.
일 예로 (a)에서는, 두 명의 참여자를 대신하여 제1 아바타(1910) 및 제2 아바타(1920)가 참여하고 있는 대화 화면을 도시하고 있다. 상기 대화 화면은, 예를 들어, 자신의 상태를 표현하기 위한 아이콘들 (1951, 1953, 1955)을 활성화시키기 위한 기능 키(1930)을 포함할 수 있다. 상기 기능 키(1930)는 사용자가 자신의 감정을 미리 설정된 아바타 제스처를 사용하여 전달하기 위하여 조작될 수 있다. 상기 사용자의 조작은, 예를 들어, 기능 키(1930)를 터치하는 것에 의해 이루어질 수 있다.
일 예로 (b)에서는, 사용자가 기능 키(1930)을 조작함에 의해, 전자 장치(110)가 미리 설정된 아바타 제스처를 선택할 수 있는 아이콘들(1951, 1953, 1955)을 표시할 수 있다. 사용자는 표시된 아이콘들(1951, 1953, 1955) 중 하나의 아이콘을 선택할 수 있다. 상기 전자 장치(110)는 사용자에 의해 하나의 아이콘이 선택될 시, 상기 선택된 아이콘에 대응한 감정을 표현하기 위하여 미리 마련된 제스처를 취하는 아바타의 이미지를 상대방 참여자의 전자 장치로 전달할 수 있다. 이 경우, 상대방 참여자의 전자 장치에는 사용자를 대신한 아바타가 선택된 제스처를 취하는 이미지(1940)가 표시될 수 있다.
도 19b를 참조하면, 전자 장치(110)는 사용자가 많이 사용할 것으로 예상되는 아바타의 움직임(예: (a) 생각, (b) 웃음, (c) 환호, (d) 사랑 표현)을 미리 설정할 수 있다. 상기 전자 장치(110)는 사용자의 수동 조작 또는 촬영 이미지 또는 보이스를 분석하여 미리 설정된 움직임들 중 하나의 움직임에 해당하는 모션을 아바타에 미러링 시킬 수 있다.
도 19c를 참조하면, 전자 장치(110)는 무선 채널을 통해 연결될 수 있는 웨어러블 디바이스와 같은 외부 전자 장치(1960)로부터 사용자의 상태에 알리는 센싱 정보(1970)를 획득(1980)할 수 있다. 상기 전자 장치(110)는 센싱 정보에 의해 사용자의 신체 상태 또는 취하고 있는 동작을 예측할 수 있다. 상기 전자 장치(110)는 예측한 사용자의 신체 상태 또는 동작을 대화 화면에 사용자를 대신하여 포함된 아바타의 모션으로 표현할 수 있다.
일 예로, 전자 장치(110)는 웨어러블 디바이스 중 하나인 스마트 시계로부터 제공된 센싱 정보에 의해 사용자가 수면 상태임을 인지하면, 자신을 대신하여 대화 화면 속에 포함된 아바타(1990)가 피곤함을 표현하는 제스처를 취하도록 표시할 수 있다. 또한, 상기 전자 장치(110)는 네트워크 환경을 기반으로 상대방 참여자의 전자 장치로 사용자의 상태를 지시하는 정보를 전달할 수 있다. 이 경우, 상대방 참여자의 전자 장치에서는 해당 사용자를 대신하는 아바타가 피곤함을 표현하는 제스처를 취하도록 표시할 수 있다.
도 20a 내지 도 20e는 일 실시예에 따른, 전자 장치(예: 도 1의 전자 장치(110))에서 참여자 수를 고려하여 화면 형태를 변화시키는 예를 도시하고 있다.
도 20a를 참조하면, 전자 장치(2010)는, 두 명이 대화하는 경우, 화면 형태가 세로인 디스플레이(2020) 중심 부근에 상대 아바타(2032)를 배치한 대화 화면을 출력할 수 있다. 이때, 몰입감을 위하여, 전자 장치(2010)는 자신의 아바타(2031)를 화면에 표시하지 않고, 투명 처리하며, 화각을 일정하게 유지할 수 있다.
도 20b를 참조하면, 전자 장치(2010)는, 세 명이 대화하는 경우, 화면 형태가 세로인 디스플레이(2020) 중심을 기준으로 양측에 상대 아바타들(2042, 2043)을 배치한 대화 화면을 출력할 수 있다. 이때, 전자 장치(2010)는 자신의 아바타를 화면에 표시하지 않고, 투명 처리하며, 두 명이서 대화할 때보다 화각이 넓어지도록 자신의 아바타의 시점을 이전 위치(2041-1)에서 상기 상대 아바타들(2042, 2043)과 멀어진 위치(2041-2)로 이동시킬 수 있다.
도 20c를 참조하면, 전자 장치(2010)는, 네 명이 대화를 하는 경우, 화면 형태가 가로인 디스플레이(2020)에 중심 부근 및 양측에 상대 아바타들(2052, 2053, 2054)을 배치한 대화 화면을 출력할 수 있다. 이때, 전자 장치(2010)는 자신의 아바타를 화면에 표시하지 않고, 투명 처리하며, 세 명이서 대화할 때보다 화각이 넓어지도록 자신의 아바타의 시점을 이전 위치(2051-1)에서 상기 상대 아바타들(2052, 2053, 2054)과 멀어진 위치(2051-2)로 이동시킬 수 있다.
도 20d를 참조하면, 전자 장치(2010)는, 다섯 명이 대화를 하는 경우, 화면 형태가 가로인 디스플레이(2020)에 중심 부근 및 양측에 상대 아바타들(2062, 2063, 2064, 2065)을 실질적으로 균등 간격으로 배치한 대화 화면을 출력할 수 있다. 이때, 전자 장치(2010)는 자신의 아바타를 화면에 표시하지 않고, 투명 처리하며, 네 명이서 대화할 때보다 화각이 넓어지도록 자신의 아바타의 시점을 이전 위치(2061-1)에서 상기 상대 아바타들(2062, 2063, 2064, 2065)과 멀어진 위치(2061-2)로 이동시킬 수 있다.
도 20e를 참조하면, 전자 장치(2010)는, 여섯 명이 대화를 하는 경우, 화면 형태가 가로인 디스플레이(2020)에 실질적으로 균등 간격으로 상대 아바타들(2072, 2073, 2074, 2075, 2076)을 배치한 대화 화면을 출력할 수 있다. 이때, 전자 장치(2010)는 자신의 아바타를 화면에 표시하지 않고, 투명 처리하며, 네 명이서 대화할 때보다 화각이 넓어지도록 자신의 아바타의 시점을 이전 위치(2071-1)에서 상기 상대 아바타들(2072, 2073, 2074, 2075, 2076)과 멀어진 위치(2071-2)로 이동시킬 수 있다.
상술한 바와 같이, 전자 장치(2010)는 대화에 참여하는 아바타의 수(또는 참석자들의 인원 수)를 고려하여 화각을 조장할 수 있다. 상지 전자 장치(110)는 상기 조정된 화각에 의해 마련된 대화 화면을 출력할 수 있다. 즉, 상기 전자 장치(110)는 대화 참여 아바타 수의 증가에 비례하여 화면의 형태를 세로에서 가로로 변경하거나, 화각이 넓어질 수 있도록 시점을 이동시킬 수 있다.
도 21은 일 실시예에 따른, 전자 장치(예: 도 1의 전자 장치(110))에서 수동 조작에 의해 상대 아바타를 호출하는 예를 도시하고 있다.
도 21을 참조하면, 전자 장치(110)는 디스플레이(2110)에 대화 화면을 출력할 수 있다. 상기 대화 화면은, 예를 들어, 상대 아바타(2130)를 포함할 수 있다 ((a) 참조). 상기 대화 화면은, 예를 들어, 디스플레이(2110)의 좌측 상단에 카메라를 통해 촬영된 사용자의 이미지(2120)를 표시할 수 있다. 사용자는 손가락(2140)을 사용하여 대화 화면에 포함된 상대 아바타(2130)를 터치(2150)할 수 있다. 상기 전자 장치(110)는 상기 사용자에 의한 터치(2150)가 이루어진 위치 및 상기 터치(2150)에 따른 센싱 정보를 기반으로 대화 상대방의 전자 장치로 아바타 호출이 요청되었음을 전달할 수 있다 (2160). 상기 상대방의 전자 장치는 상기 호출이 있음을 알리기 위하여 진동 또는 소리를 출력할 수 있다.
상기 전자 장치(110)는 상대방의 전자 장치로부터 제공되는 정보(예: 촬영된 상대방 이미지)를 분석하여 상대방이 호출에 반응하였는지를 판단할 수 있다. 상기 전자 장치(110)는, 상대방이 호출에 반응하였다고 판단되면, 디스플레이(2110)에 상대방 아바타(2170)가 자신을 쳐다보도록 이미지를 변경하여 표시할 수 있다 ((b) 참조).
상술한 바와 같이, 전자 장치(110)는, 사용자가 대화 화면을 터치함을 감지하면, 상기 터치된 아바타에 대응한 외부 전자 장치를 호출하는 신호를 전공할 수 있다.
도 22는 일 실시예에 따른, 전자 장치(예: 도 1의 전자 장치(110))에서 사용자의 요청에 의해 대화 화면을 기록하는 예를 도시하고 있다.
도 21을 참조하면, 전자 장치(110)는, 아바타 기반 대화가 수행 중이거나, 또는 아바타 기반 대화가 종료한 후, 사용자의 요청에 응답하여 대화 중에 수집한 데이터들을 기반으로 대화에 상응한 이미지들을 추출할 수 있다. 상기 전자 장치(110)는 상기 추출한 이미지들을 사용하여 대화 기록 이미지를 생성할 수 있다. 상기 전자 장치(110)는 상기 생성한 대화 기록 이미지를 저장하거나, 외부 전자 장치로 전달할 수 있다.
도 23은 일 실시예에 따른, 시스템(예: 도 1의 시스템(100))에서 아바타를 이용한 대화 중에 선물 이벤트를 처리하기 위한 신호 흐름도이다.
도 23을 참조하면, 제1 참여 단말(예: 도 1의 제1 참여 단말(111))은, 동작 2301에서, 적어도 하나의 상대 단말(예: 도 1의 제2 참여 단말(113))과 아바타를 이용하여 대화를 수행할 수 있다. 상기 아바타를 이용하여 대화를 수행하는 상세 동작은 전술한 바와 같다. 도면에서는 대화에 두 명이 참여한 것을 가정하고 있으나, 그 이상의 참여자들이 참여한 상황에도 후술될 동작이 동일하거나 유사하게 적용될 수 있음은 물론이다. 일 예로, 도 24a에서는, 세 명의 참여자들 (예: 도 24a의 제1 참여자 아바타(2410), 제2 참여자 아바타 (24220), 제3 참여자 아바타(2430))이 개설된 대화방에서 대화를 나누고 있는 상황의 대화 화면을 도시하고 있다.
상기 제1 참여 단말(111)은, 동작 2303에서, 사용자의 요청에 응답하여 메뉴 창을 디스플레이에 표시할 수 있다. 상기 메뉴 창은, 예를 들어, 사용자가 아바타를 이용한 대화 중에 이용할 수 있는 기능을 선택할 수 있는 항목들을 포함할 수 있다. 일 예로, 도 24b에서는, 선물하기, 이미지 공유, 제스처 추가, 아이템 샵, 나가기와 같은 기능에 대응한 항목들을 포함하는 메뉴 창(2450)을 표시한 대화 화면을 도시하고 있다.
상기 제1 참여 단말(111)은 대화 화면에 표시된 메뉴 창(2450)에서 사용자에 의해 선택되는 항목을 확인할 수 있다. 상기 제1 참여 단말(111)은, 동작 2303에서, 사용자가 메뉴 창(2450)에 포함된 항목들 중에서 '선물하기' 항목을 선택하였음을 인지할 수 있다. 상기 제1 참여 단말(111)은, 사용자가 메뉴 항목 중 '선물하기' 항목을 선택하면, 사용자가 선물을 선택할 수 있는 화면을 출력할 수 있다. 일 예로, 도 24c의 (a)에서는, 선물로 쿠폰을 선택할 수 있는 쿠폰 삽의 화면을 도시하고 있다.
상기 제1 참여 단말(111)은, 사용자가 메뉴 항목 중 '선물하기' 항목을 선택하면, 동작 2307에서, 선물할 상품과 상기 선택한 상품을 받을 수신자를 선택하는 동작을 수행할 수 있다. 상기 사용자는 화면에 표시된 상품들 중에서 선물할 상품을 선택할 수 있다. 일 예로, 도 24c의 (a)에서는, 사용자에 의해 커피 쿠폰 (2461)이 선택된 예를 가정하고 있다. 상기 제1 참여 단말(111)은, 사용자에 의해 선물할 상품이 선택되면, 상기 선택된 상품에 관한 상세 정보를 화면을 통해 출력할 수 있다. 일 예로, 도 24c의 (b)에서는, 선택된 커피 쿠폰에 관한 상세 정보 (예: 가격 정보, 상품 설명 등) 및 해당 상품을 처리할 이벤트 항목을 최종 선택하도록 하는 선택 버튼 (예: 구매하기(2463) 또는 선물하기(2465))을 포함하는 화면을 도시하고 있다.
상기 제1 참여 단말(111)은, 사용자가 선물할 상품 선택을 완료하면, 해당 상품을 전달하고자 하는 수신자 (예: 대화에 참여 중인 참여자들 중 적어도 한 명)를 사용자가 선택하도록 하는 동작을 수행할 수 있다. 일 예로, 도 24d에서는, 사용자의 아바타(2410)가 선물 상자를 들고 있는 이미지에 선물을 보낼 것인지를 확인하기 위한 '보내기' 버튼(2470)을 표시한 화면을 도시하고 있다.
상기 제1 참여 단말(111)은, 사용자가 '보내기' 버튼(2470)을 터치하거나, 누르면, 선물을 전달할 수신자를 선택할 것으로 사용자에게 요구할 수 있다. 일 예로 도 24e에서는, 대화에 참여하고 있는 참석자들의 아바타(2420, 2430) 위쪽에 수신자로 선택할 수 있는 선택 버튼(2481, 2483)을 표시한 화면을 도시하고 있다. 상기 제1 참여 단말(111)은 화면에 표시된 선택 버튼(2481, 2483) 중 하나가 사용자에 의해 터치 되거나 눌리면, 이를 수신자를 선택한 것으로 인지하여 상기 터치 또는 눌린 선택 버튼에 대응한 아바타 또는 참여자를 수신자로 선택할 수 있다.
상기 제1 참여 단말(111)은, 선물할 상품과 수신자가 선택되면, 동작 2309에서, 사용자를 대신하는 아바타(2410)가 선물을 보내는 화면을 표시할 수 있다. 일 예로, 도 24f에서는, 아바타(2410)의 손에서 선물 상자가 떠나는 것을 묘사하는 화면을 도시하고 있다. 상기 아바타(2410)의 손에서 선물 상자가 떠나는 화면은 사진 또는 동영상으로 제공될 수 있다. 일 예로, 도 26f에 도시된 화면은 선물을 받을 상대방 참여 단말인 제2 참여 단말(113)의 디스플레이를 통해서도 표시될 수 있다. 일 예로, 도 26f에 도시된 화면은 선물을 받을 상대방 참여 단말을 제외한 다른 참여 단말의 디스플레이를 통해서도 표시될 수 있다. 상기 선물이 보내지는 장면을 묘사한 이미지는 선물을 보내는 사용자의 설정에 의해 상기 선물을 받을 상대방 참여 단말인 제2 참여 단말(113) 또는 다른 참여 단말의 디스플레이를 통해 표시될지 여부가 결정될 수도 있다. 한편, 도시되고 있지는 않지만, 다른 참여 단말의 디스플레이에 선물이 보내지는 장면을 묘사한 이미지가 표시되도록 하기 위해서는, 상기 제1 참여 단말(111)이 관련 정보를 해당 참여 단말로 전달하는 동작이 추가될 필요가 있다.
상기 제1 참여 단말(111)은, 동작 2311에서, 선택 상품을 선물하기 위한 선물 정보를 선물을 받을 수신자에 해당하는 제2 참여 단말(113)로 전송될 수 있다. 상기 선물 정보는, 예를 들어, 선물에 해당하는 상품에 관한 정보 또는 선물을 보낸 사람에 관한 정보를 포함할 수 있다.
상기 제2 참여 단말(113)은, 동작 2311에서, 상기 제1 참여 단말(111)에 의해 전송된 선물 정보를 수신할 수 있다. 상기 제2 참여 단말(113)은, 상기 상품 정보를 수신하면, 사용자를 대신하는 아바타(2430)가 선물을 받는 화면을 표시할 수 있다. 일 예로, 도 24g에서는, 아바타(2430)의 손으로 선물 상자가 떨어지는 것을 묘사하는 화면을 도시하고 있다. 상기 아바타(2430)의 손에 선물 상자가 떨어지는 화면은 사진 또는 동영상으로 제공될 수 있다. 일 예로, 도 26g에 도시된 화면은 선물을 전달한 참여 단말인 제1 참여 단말(111)의 디스플레이를 통해서도 표시될 수 있다. 일 예로, 도 26g에 도시된 화면은 선물을 받은 제2 참여 단말(113)을 제외한 다른 참여 단말의 디스플레이를 통해서도 표시될 수 있다. 상기 선물이 받는 장면을 묘사한 이미지는 선물을 보내는 사용자의 설정에 의해 상기 제2 참여 단말(113) 외의 다른 참여 단말의 디스플레이를 통해 표시될지 여부가 결정될 수도 있다. 일 예로, 도 26g에 도시된 화면은 상기 제2 참여 단말(113)이 선물을 거절하지 않고 받을 시에 제1 참여 단말(111) 또는 제2 참여 단말(113) 외의 다른 참여 단말의 디스플레이에 표시될 수도 있다.
상기 제2 참여 단말(113)은 선물을 받을 것인지 아니면 거절할 것인지를 선택하도록 하는 동작을 수행할 수 있다. 일 예로, 도 24h에서는, 상기 제2 참여 단말(113)의 아바타(2430)가 선물 상자를 들고 있는 이미지에 선물을 받기 위한 '받기' 버튼(2491) 및/또는 선물을 거절하기 위한 '거절' 버튼(2493)을 표시한 화면을 도시하고 있다.
상기 제2 참여 단말(113)은, 사용자가 '받기' 버튼(2491)을 터치하거나 누르면, 상기 수신한 선물 정보를 사용하여 해당 상품에 관한 정보 또는 선물한 사람에 관한 정보를 표시할 수 있다. 일 예로, 도 24i에서는 선물 받은 '커피 쿠폰'을 포함한 내 '쿠폰 함'이 표시된 화면을 도시하고 있다.
상기 제2 참여 단말(113)은, 사용자가 '받기' 버튼(2491)을 터치하거나 누르면, 동작 2315에서, 선물이 전달되었음을 확인하는 메시지를 상기 제1 참여 단말(111)로 전송할 수 있다.
상기 제1 참여 단말(111)은, 동작 2315에서, 상기 제2 참여 단말(113)로부터 선물 전달 확인 메시지를 수신할 수 있다. 상기 제1 참여 단말(111)은, 선물 전달 확인 메시지를 수신하면, 동작 2317에서, 상대방 아바타(2430)가 선물을 받는 화면을 출력할 수 있다. 상기 제1 참여 단말(111)에서 출력되는 화면은, 예를 들어, 도 24g와 동일한 화면일 수 있다.
도 24a 내지 도 24i는 일 실시예에 따른, 아바타를 이용한 대화 화면에서 선물을 전달하기 위한 절차 별 사용자 인터페이스(UI)의 예시도이다.
도 24a에서는, 세 명의 참여자들 (예: 도 24a의 제1 참여자 아바타(2410), 제2 참여자 아바타 (24220), 제3 참여자 아바타(2430))이 개설된 대화방의 대화 화면의 일 예를 도시하고 있다.
도 24b에서는, 선물하기, 이미지 공유, 제스처 추가, 아이템 샵, 나가기와 같은 기능에 대응한 항목들을 포함하는 메뉴 창(2450)이 표시된 대화 화면의 일 예를 도시하고 있다.
도 24c의 (a)에서는, 선물을 위해 선택할 수 있는 커피 쿠폰(2461)과 같은 쿠폰을 판매하는 쿠폰 삽을 표현한 화면의 일 예를 도시하고 있고, 도 24c의 (b)에서는, 선택된 커피 쿠폰(2661)에 관한 상세 정보 (예: 가격 정보, 상품 설명 등) 및 해당 상품을 처리할 이벤트 항목을 최종 선택하도록 하는 선택 버튼 (예: 구매하기(2463) 또는 선물하기(2465))을 포함하는 화면의 일 예를 도시하고 있다.
도 24d에서는, 사용자의 아바타(2410)가 선물 상자를 들고 있는 이미지에 선물을 보낼 것인지를 확인하기 위한 '보내기' 버튼(2470)을 표시한 화면의 일 예를 도시하고 있다.
도 24e에서는, 대화에 참여하고 있는 참석자들의 아바타(2420, 2430) 위쪽에 수신자로 선택할 수 있는 선택 버튼(2481, 2483)을 표시한 화면의 일 예를 도시한 도면이다.
도 24f에서는, 아바타(2410)의 손에서 선물 상자가 떠나는 것을 묘사하는 화면의 일 예를 도시하고 있다.
도 24g에서는, 아바타(2430)의 손으로 선물 상자가 떨어지는 것을 묘사하는 화면의 일 예를 도시하고 있다.
도 24h에서는, 제2 참여 단말(예: 도 1의 제2 참여 단말(113))의 아바타(2430)가 선물 상자를 들고 있는 이미지에 선물을 받기 위한 '받기' 버튼(2491) 및/또는 선물을 거절하기 위한 '거절' 버튼(2493)을 표시한 화면의 일 예를 도시하고 있다.
도 24i에서는 선물 받은 '커피 쿠폰'을 포함한 내 '쿠폰 함'이 표시된 화면의 일 예를 도시하고 있다.
도 25는 다양한 실시예들에 따른, 네트워크 환경(2500) 내의 전자 장치(2501)(예: 도 1의 전자 장치(110))의 블록도이다.
도 25를 참조하면, 네트워크 환경(2500)에서 전자 장치(2501)는 제 1 네트워크(2598)(예: 근거리 무선 통신 네트워크)를 통하여 전자 장치(2502)와 통신하거나, 또는 제 2 네트워크(2599)(예: 원거리 무선 통신 네트워크)를 통하여 전자 장치(2504) 또는 서버(2508) 중 적어도 하나와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(2501)는 서버(2508)를 통하여 전자 장치(2504)와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(2501)는 프로세서(2520), 메모리(2530), 입력 모듈(2550), 음향 출력 모듈(2555), 디스플레이 모듈(2560), 오디오 모듈(2570), 센서 모듈(2576), 인터페이스(2577), 연결 단자(2578), 햅틱 모듈(2579), 카메라 모듈(2580), 전력 관리 모듈(2588), 배터리(2589), 통신 모듈(2590), 가입자 식별 모듈(2596), 또는 안테나 모듈(2597)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(2501)에는, 이 구성요소들 중 적어도 하나(예: 연결 단자(2578))가 생략되거나, 하나 이상의 다른 구성요소가 추가될 수 있다. 어떤 실시예에서는, 이 구성요소들 중 일부들(예: 센서 모듈(2576), 카메라 모듈(2580), 또는 안테나 모듈(2597))은 하나의 구성요소(예: 디스플레이 모듈(2560))로 통합될 수 있다.
프로세서(2520)는, 예를 들면, 소프트웨어(예: 프로그램(2540))를 실행하여 프로세서(2520)에 연결된 전자 장치(2501)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일 실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(2520)는 다른 구성요소(예: 센서 모듈(2576) 또는 통신 모듈(2590))로부터 수신된 명령 또는 데이터를 휘발성 메모리(2532)에 저장하고, 휘발성 메모리(2532)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(2534)에 저장할 수 있다. 일 실시예에 따르면, 프로세서(2520)는 메인 프로세서(2521)(예: 중앙 처리 장치 또는 어플리케이션 프로세서) 또는 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(2523)(예: 그래픽 처리 장치, 신경망 처리 장치(NPU: neural processing unit), 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 예를 들어, 전자 장치(2501)가 메인 프로세서(2521) 및 보조 프로세서(2523)를 포함하는 경우, 보조 프로세서(2523)는 메인 프로세서(2521)보다 저전력을 사용하거나, 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서(2523)는 메인 프로세서(2521)와 별개로, 또는 그 일부로서 구현될 수 있다.
보조 프로세서(2523)는, 예를 들면, 메인 프로세서(2521)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(2521)를 대신하여, 또는 메인 프로세서(2521)가 액티브(예: 어플리케이션 실행) 상태에 있는 동안 메인 프로세서(2521)와 함께, 전자 장치(2501)의 구성요소들 중 적어도 하나의 구성요소(예: 디스플레이 모듈(2560), 센서 모듈(2576), 또는 통신 모듈(2590))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일 실시예에 따르면, 보조 프로세서(2523)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성요소(예: 카메라 모듈(2580) 또는 통신 모듈(2590))의 일부로서 구현될 수 있다. 일 실시예에 따르면, 보조 프로세서(2523)(예: 신경망 처리 장치)는 인공지능 모델의 처리에 특화된 하드웨어 구조를 포함할 수 있다. 인공지능 모델은 기계 학습을 통해 생성될 수 있다. 이러한 학습은, 예를 들어, 인공지능 모델이 수행되는 전자 장치(2501) 자체에서 수행될 수 있고, 별도의 서버(예: 서버(2508))를 통해 수행될 수도 있다. 학습 알고리즘은, 예를 들어, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)을 포함할 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은, 복수의 인공 신경망 레이어들을 포함할 수 있다. 인공 신경망은 심층 신경망(DNN: deep neural network), CNN(convolutional neural network), RNN(recurrent neural network), RBM(restricted boltzmann machine), DBN(deep belief network), BRDNN(bidirectional recurrent deep neural network), 심층 Q-네트워크(deep Q-networks) 또는 상기 중 둘 이상의 조합 중 하나일 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은 하드웨어 구조 이외에, 추가적으로 또는 대체적으로, 소프트웨어 구조를 포함할 수 있다.
메모리(2530)는, 전자 장치(2501)의 적어도 하나의 구성요소(예: 프로세서(2520) 또는 센서 모듈(2576))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램(2540)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(2530)는, 휘발성 메모리(2532) 또는 비휘발성 메모리(2534)를 포함할 수 있다. 비휘발성 메모리(2532)는 내장 메모리(2536) 또는 외장 메모리(2538)를 포함할 수 있다.
프로그램(2540)은 메모리(2530)에 소프트웨어로서 저장될 수 있으며, 예를 들면, 운영 체제(2542), 미들 웨어(2544) 또는 어플리케이션(2546)을 포함할 수 있다.
입력 모듈(2550)은, 전자 장치(2501)의 구성요소(예: 프로세서(2520))에 사용될 명령 또는 데이터를 전자 장치(2501)의 외부(예: 사용자)로부터 수신할 수 있다. 입력 모듈(2550)은, 예를 들면, 마이크, 마우스, 키보드, 키(예: 버튼), 또는 디지털 펜(예: 스타일러스 펜)을 포함할 수 있다.
음향 출력 모듈(2555)은 음향 신호를 전자 장치(2501)의 외부로 출력할 수 있다. 음향 출력 모듈(2555)은, 예를 들면, 스피커 또는 리시버를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용될 수 있다. 리시버는 착신 전화를 수신하기 위해 사용될 수 있다. 일 실시예에 따르면, 리시버는 스피커와 별개로, 또는 그 일부로서 구현될 수 있다.
디스플레이 모듈(2560)은 전자 장치(2501)의 외부(예: 사용자)로 정보를 시각적으로 제공할 수 있다. 디스플레이 모듈(2560)은, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일 실시예에 따르면, 디스플레이 모듈(2560)은 터치를 감지하도록 설정된 터치 센서, 또는 상기 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 압력 센서를 포함할 수 있다.
오디오 모듈(2570)은 소리를 전기 신호로 변환시키거나, 반대로 전기 신호를 소리로 변환시킬 수 있다. 일 실시예에 따르면, 오디오 모듈(2570)은, 입력 모듈(2550)을 통해 소리를 획득하거나, 음향 출력 모듈(2555), 또는 전자 장치(2501)와 직접 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(2502))(예: 스피커 또는 헤드폰)를 통해 소리를 출력할 수 있다.
센서 모듈(2576)은 전자 장치(2501)의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태(예: 사용자 상태)를 감지하고, 감지된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 일 실시예에 따르면, 센서 모듈(2576)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.
인터페이스(2577)는 전자 장치(2501)가 외부 전자 장치(예: 전자 장치(2502))와 직접 또는 무선으로 연결되기 위해 사용될 수 있는 하나 이상의 지정된 프로토콜들을 지원할 수 있다. 일 실시예에 따르면, 인터페이스(2577)는, 예를 들면, HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.
연결 단자(2578)는, 그를 통해서 전자 장치(2501)가 외부 전자 장치(예: 전자 장치(2502))와 물리적으로 연결될 수 있는 커넥터를 포함할 수 있다. 일 실시예에 따르면, 연결 단자(2578)는, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.
햅틱 모듈(2579)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 일 실시예에 따르면, 햅틱 모듈(2579)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.
카메라 모듈(2580)은 정지 영상 및 동영상을 촬영할 수 있다. 일 실시예에 따르면, 카메라 모듈(2580)은 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다.
전력 관리 모듈(2588)은 전자 장치(2501)에 공급되는 전력을 관리할 수 있다. 일 실시예에 따르면, 전력 관리 모듈(2588)은, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구현될 수 있다.
배터리(2589)는 전자 장치(2501)의 적어도 하나의 구성요소에 전력을 공급할 수 있다. 일 실시예에 따르면, 배터리(2589)는, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.
통신 모듈(2590)은 전자 장치(2501)와 외부 전자 장치(예: 전자 장치(2502), 전자 장치(2504), 또는 서버(2508)) 간의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(2590)은 프로세서(2520)(예: 어플리케이션 프로세서)와 독립적으로 운영되고, 직접(예: 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일 실시예에 따르면, 통신 모듈(2590)은 무선 통신 모듈(2592)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(2594)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈은 제 1 네트워크(2598)(예: 블루투스, WiFi(wireless fidelity) direct 또는 IrDA(infrared data association)와 같은 근거리 통신 네트워크) 또는 제 2 네트워크(2599)(예: 레거시 셀룰러 네트워크, 5G 네트워크, 차세대 통신 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부의 전자 장치(2504)와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성요소(예: 단일 칩)로 통합되거나, 또는 서로 별도의 복수의 구성요소들(예: 복수 칩들)로 구현될 수 있다. 무선 통신 모듈(2592)은 가입자 식별 모듈(2596)에 저장된 가입자 정보(예: 국제 모바일 가입자 식별자(IMSI))를 이용하여 제 1 네트워크(2598) 또는 제 2 네트워크(2599)와 같은 통신 네트워크 내에서 전자 장치(2501)를 확인 또는 인증할 수 있다.
무선 통신 모듈(2592)은 4G 네트워크 이후의 5G 네트워크 및 차세대 통신 기술, 예를 들어, NR 접속 기술(new radio access technology)을 지원할 수 있다. NR 접속 기술은 고용량 데이터의 고속 전송(eMBB(enhanced mobile broadband)), 단말 전력 최소화와 다수 단말의 접속(mMTC(massive machine type communications)), 또는 고신뢰도와 저지연(URLLC(ultra-reliable and low-latency communications))을 지원할 수 있다. 무선 통신 모듈(2592)은, 예를 들어, 높은 데이터 전송률 달성을 위해, 고주파 대역(예: mmWave 대역)을 지원할 수 있다. 무선 통신 모듈(2592)은 고주파 대역에서의 성능 확보를 위한 다양한 기술들, 예를 들어, 빔포밍(beamforming), 거대 배열 다중 입출력(massive MIMO(multiple-input and multiple-output)), 전차원 다중입출력(FD-MIMO: full dimensional MIMO), 어레이 안테나(array antenna), 아날로그 빔형성(analog beam-forming), 또는 대규모 안테나(large scale antenna)와 같은 기술들을 지원할 수 있다. 무선 통신 모듈(2592)은 전자 장치(2501), 외부 전자 장치(예: 전자 장치(2504)) 또는 네트워크 시스템(예: 제 2 네트워크(2599))에 규정되는 다양한 요구사항을 지원할 수 있다. 일 실시예에 따르면, 무선 통신 모듈(2592)은 eMBB 실현을 위한 Peak data rate(예: 20Gbps 이상), mMTC 실현을 위한 손실 Coverage(예: 164dB 이하), 또는 URLLC 실현을 위한 U-plane latency(예: 다운링크(DL) 및 업링크(UL) 각각 0.5ms 이하, 또는 라운드 트립 1ms 이하)를 지원할 수 있다.
안테나 모듈(2597)은 신호 또는 전력을 외부(예: 외부의 전자 장치)로 송신하거나 외부로부터 수신할 수 있다. 일 실시예에 따르면, 안테나 모듈(2597)은 서브스트레이트(예: PCB) 위에 형성된 도전체 또는 도전성 패턴으로 이루어진 방사체를 포함하는 안테나를 포함할 수 있다. 일 실시예에 따르면, 안테나 모듈(2597)은 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다. 이런 경우, 제 1 네트워크(2598) 또는 제 2 네트워크(2599)와 같은 통신 네트워크에서 사용되는 통신 방식에 적합한 적어도 하나의 안테나가, 예를 들면, 통신 모듈(2590)에 의하여 상기 복수의 안테나들로부터 선택될 수 있다. 신호 또는 전력은 상기 선택된 적어도 하나의 안테나를 통하여 통신 모듈(2590)과 외부의 전자 장치 간에 송신되거나 수신될 수 있다. 어떤 실시예에 따르면, 방사체 이외에 다른 부품(예: RFIC(radio frequency integrated circuit))이 추가로 안테나 모듈(2597)의 일부로 형성될 수 있다.
다양한 실시예에 따르면, 안테나 모듈(2597)은 mmWave 안테나 모듈을 형성할 수 있다. 일 실시예에 따르면, mmWave 안테나 모듈은 인쇄 회로 기판, 상기 인쇄 회로 기판의 제 1 면(예: 아래 면)에 또는 그에 인접하여 배치되고 지정된 고주파 대역(예: mmWave 대역)을 지원할 수 있는 RFIC, 및 상기 인쇄 회로 기판의 제 2 면(예: 윗 면 또는 측 면)에 또는 그에 인접하여 배치되고 상기 지정된 고주파 대역의 신호를 송신 또는 수신할 수 있는 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다.
상기 구성요소들 중 적어도 일부는 주변 기기들간 통신 방식(예: 버스, GPIO(general purpose input and output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))을 통해 서로 연결되고 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.
일 실시예에 따르면, 명령 또는 데이터는 제 2 네트워크(2599)에 연결된 서버(2508)를 통해서 전자 장치(2501)와 외부의 전자 장치(2504)간에 송신 또는 수신될 수 있다. 외부의 전자 장치(2502, 또는 2504) 각각은 전자 장치(2501)와 동일한 또는 다른 종류의 장치일 수 있다. 일 실시예에 따르면, 전자 장치(2501)에서 실행되는 동작들의 전부 또는 일부는 외부의 전자 장치들(2502, 2504, 또는 2508) 중 하나 이상의 외부의 전자 장치에서 실행될 수 있다. 예를 들면, 전자 장치(2501)가 어떤 기능이나 서비스를 자동으로, 또는 사용자 또는 다른 장치로부터의 요청에 반응하여 수행해야 할 경우에, 전자 장치(2501)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 하나 이상의 외부의 전자 장치들에게 그 기능 또는 그 서비스의 적어도 일부를 수행하라고 요청할 수 있다. 상기 요청을 수신한 하나 이상의 외부의 전자 장치는 요청된 기능 또는 서비스의 적어도 일부, 또는 상기 요청과 관련된 추가 기능 또는 서비스를 실행하고, 그 실행의 결과를 전자 장치(2501)로 전달할 수 있다. 전자 장치(2501)는 상기 결과를, 그대로 또는 추가적으로 처리하여, 상기 요청에 대한 응답의 적어도 일부로서 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 모바일 에지 컴퓨팅(MEC: mobile edge computing), 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다. 전자 장치(2501)는, 예를 들어, 분산 컴퓨팅 또는 모바일 에지 컴퓨팅을 이용하여 초저지연 서비스를 제공할 수 있다. 다른 실시예에 있어서, 외부의 전자 장치(2504)는 IoT(internet of things) 기기를 포함할 수 있다. 서버(2508)는 기계 학습 및/또는 신경망을 이용한 지능형 서버일 수 있다. 일 실시예에 따르면, 외부의 전자 장치(2504) 또는 서버(2508)는 제 2 네트워크(2599) 내에 포함될 수 있다. 전자 장치(2501)는 5G 통신 기술 및 IoT 관련 기술을 기반으로 지능형 서비스(예: 스마트 홈, 스마트 시티, 스마트 카, 또는 헬스 케어)에 적용될 수 있다.
일 실시예에 따른, 전자 장치(110)는, 전면 카메라를 포함하며, 피사체의 촬영에 의한 전기적 신호를 출력하도록 구성된 카메라 모듈(1150); 디스플레이 패널(1121) 또는 터치 패널(1123)을 포함하며, 상기 디스플레이 패널(1121)에 이미지를 표시하거나, 또는 상기 터치 패널(1123)의 터치에 따른 전기적 신호를 출력하도록 구성된 디스플레이 모듈(1120); 네트워크 환경을 기반으로 외부 전자 장치(120, 130)와 통신을 수행하도록 구성된 통신 모듈(1170); 및 상기 카메라 모듈(1150), 상기 디스플레이 모듈(1120) 또는 상기 통신 모듈(1170)과의 전기적인 연결에 의해 상기 카메라 모듈(1150), 상기 디스플레이 모듈(1120) 또는 상기 통신 모듈(1170)의 동작을 제어하도록 구성된 적어도 하나의 프로세서(1110)를 포함할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)가, 대화 기능을 위해 마련된 가상 공간에 상기 전자 장치(110)의 사용자를 포함한 복수의 참여자 중 적어도 한 명의 참여자의 아바타를 표시할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)가, 상기 복수의 참여자 중 적어도 한 명의 화자에 의한 발화에 응답하여 발화 상태를 나타내는 발화 표시자를 표시할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)가, 상기 적어도 한 명의 화자에 의한 발화에 기반하여 상기 가상 공간에서 상기 아바타의 시선을 변경하여 표시하도록 상기 디스플레이 모듈(1120)을 제어할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)가, 상기 복수의 참여자 중에서 상기 사용자를 제외한 적어도 한 명의 상대방 참여자의 아바타를 상기 가상 공간에 표시하도록 상기 디스플레이 모듈(1120)을 제어할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)가, 상기 가상 공간에 상기 사용자를 대신한 제1 아바타를 중심으로 상기 제1 아바타의 시선이 향하는 방향으로 상기 적어도 한 명의 상대방 참여자를 대신할 제2 아바타를 표시하도록 상기 디스플레이 모듈(1120)을 제어하되, 상기 가상 공간 또는 상기 가상 공간에 상기 제1 아바타 또는 상기 제2 아바타를 표시하기 위해 고려할 가상 카메라의 앵글, 화각 또는 초점 위치 중 적어도 하나를 상기 복수의 참여자의 인원 수를 고려하여 변경할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)가, 상기 가상 공간에 복수의 아바타가 표시되는 경우, 상기 가상 공간에서 상기 복수의 아바타가 서로 상이한 심도(depth)로 표시되도록 상기 디스플레이 모듈(1120)을 제어할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)가, 상기 통신 모듈(1170)을 통해 상기 외부 전자 장치(120, 130)로부터 수집한 데이터를 기반으로 상기 복수의 참여자 중에서 화자가 변경됨을 식별하고, 상기 변경된 화자에 대응한 화자 아바타를 기준으로 전환된 카메라 앵글로 제1 대화 화면을 구성하며, 상기 제1 대화 화면을 표시하도록 상기 디스플레이 모듈(1120)을 제어할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)가, 상기 수집한 데이터에 포함된 보이스 데이터를 기반으로 참여자 별 보이스 특성을 획득하고, 미리 설정된 기준 보이스 특성에 관한 정보와 상기 획득한 보이스 특성을 사용하여 상기 화자 아바타를 결정하도록 구성될 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)가, 상기 터치 패널(1123)에서의 스와이프(swipe) 동작에 응답하여 상기 디스플레이 모듈(1120)로부터 제공되는 전기적 신호를 기반으로 전환된 카메라 앵글로 제2 대화 화면을 구성하며, 상기 제2 대화 화면을 표시하도록 상기 디스플레이 모듈(1120)을 제어할 수 있다.
일 실시예에 따른, 적어도 하나의 센서를 포함하며, 적어도 상기 전자 장치(110)의 좌/우 또는 상/하 방향으로의 움직임을 감지하여 전기적 센싱 신호를 출력하도록 구성된 센서 모듈(1160)를 포함할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)가, 상기 센서 모듈(1160)로부터 제공된 상기 전기적 센싱 신호를 기반으로 전환된 카메라 앵글로 제3 대화 화면을 구성하며, 상기 제3 대화 화면을 표시하도록 상기 디스플레이 모듈(1120)을 제어할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)가, 특정 아바타에 의한 발화 시간이 임계 시간을 초과하지 않거나, 또는 상기 터치 패널(1123)에서의 스와이프(swipe) 동작에 응답하여 줌-인에 따른 제1 화각에 의해 마련된 제4 대화 화면을 표시하기도록 상기 디스플레이 모듈(1120)을 제어하고, 상기 특정 아바타에 의한 발화 시간이 상기 임계 시간을 초과하거나, 또는 상기 터치 패널(1123)에서의 스와이프(swipe) 동작에 응답하여 줌-아웃에 따른 제2 화각에 의해 마련된 제5 대화 화면을 표시하도록 상기 디스플레이 모듈(1120)을 제어할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)가, 상기 카메라 모듈(1150)에 포함된 상기 전면 카메라에 의한 촬영된 사용자의 이미지로부터 얼굴 표정 또는 제스처를 획득하거나, 또는 상기 수집한 데이터로부터 상대방 참석자의 얼굴 표정 또는 제스처를 획득하고, 상기 디스플레이 모듈(1120)을 제어하여 상기 획득한 얼굴 표정 또는 상기 획득한 제스처를 상기 사용자의 아바타 또는 상기 상대방 참여자의 아바타에 미러링(mirroring)하도록 구성될 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)가, 상기 터치 패널(1123)을 통해 사용자가 상기 아바타를 터치하였음을 감지하면, 상기 터치된 아바타에 대응한 외부 전자 장치(130)를 호출하는 신호를 전송하도록 상기 통신 모듈(1170)을 제어하고, 상기 가상 공간에서 이루어지는 상기 복수의 참여자 간의 대화에 상응한 이미지들을 추출하고, 상기 추출한 이미지들을 사용하여 대화 기록 이미지를 생성 및 저장할 수 있다.
일 실시예에 따른, 전자 장치에서 아바타를 이용한 대화 기능을 제공하는 방법은, 상기 대화 기능을 위해 마련된 가상 공간에 상기 전자 장치의 사용자를 포함한 복수의 참여자 중 적어도 한 명의 참여자의 아바타를 표시하는 동작; 상기 복수의 참여자 중 적어도 한 명의 화자에 의한 발화에 응답하여 발화 상태를 나타내는 발화 표시자를 표시하는 동작; 및 상기 적어도 한 명의 화자에 의한 발화에 기반하여 상기 가상 공간에서 상기 아바타의 시선을 변경하여 표시하는 동작을 포함할 수 있다.
일 실시예에 따른, 상기 아바타를 표시하는 동작은, 상기 복수의 참여자 중에서 상기 사용자를 제외한 적어도 한 명의 상대방 참여자의 아바타를 상기 가상 공간에 표시하는 동작을 포함할 수 있다.
일 실시예에 따른, 상기 아바타를 표시하는 동작은, 상기 가상 공간에 상기 사용자를 대신한 제1 아바타를 중심으로 상기 제1 아바타의 시선이 향하는 방향으로 상기 적어도 한 명의 상대방 참여자를 대신할 제2 아바타를 표시하는 동작을 포함하되, 상기 가상 공간 또는 상기 가상 공간에 상기 제1 아바타 또는 상기 제2 아바타를 표시하기 위해 고려할 가상 카메라의 앵글, 화각 또는 초점 위치 중 적어도 하나를 상기 복수의 참여자의 인원 수를 고려하여 변경할 수 있다.
일 실시예에 따른, 상기 아바타를 표시하는 동작은, 상기 가상 공간에 복수의 아바타가 표시되는 경우, 상기 가상 공간에서 상기 복수의 아바타가 서로 상이한 심도(depth)를 갖도록 표시하는 동작을 포함할 수 있다.
일 실시예에 따른, 방법은, 네트워크 환경을 기반으로 외부 전자 장치(120, 130)로부터 수집한 데이터를 기반으로 상기 복수의 참여자 중에서 화자가 변경됨을 식별하는 동작(1013); 상기 식별한 화자에 대응한 화자 아바타를 기준으로 카메라 앵글을 전환하여 제1 대화 화면을 구성하는 동작(1025); 및 상기 제1 대화 화면을 표시하는 동작(1025)을 포함할 수 있다.
일 실시예에 따른, 방법은, 상기 수집한 데이터에 포함된 보이스 데이터를 기반으로 참여자 별 보이스 특성을 획득하는 동작; 및 미리 설정된 기준 보이스 특성에 관한 정보와 상기 획득한 보이스 특성을 사용하여 상기 화자 아바타를 결정하는 동작을 포함할 수 있다.
일 실시예에 따른, 방법은, 사용자의 스와이프(swipe) 동작에 응답하여 전환된 카메라 앵글로 제2 대화 화면을 구성하는 동작(1013, 1025); 및 상기 제2 대화 화면을 표시하는 동작(1025)을 포함할 수 있다.
일 실시예에 따른, 방법은, 상기 전자 장치(110)의 좌/우 또는 상/하 방향으로의 움직임을 기반으로 전환된 카메라 앵글로 제3 대화 화면을 구성하는 동작(1013); 및 상기 제3 대화 화면을 표시하는 동작(1027)을 포함할 수 있다.
일 실시예에 따른, 특정 아바타에 의한 발화 시간이 임계 시간을 초과하지 않거나, 또는 사용자의 스와이프(swipe) 동작에 응답하여 줌-인에 따른 제1 화각에 의해 마련된 제4 대화 화면을 출력하는 동작(1015, 1027); 및 상기 특정 아바타에 의한 발화 시간이 상기 임계 시간을 초과하거나, 또는 상기 사용자의 스와이프(swipe) 동작에 응답하여 줌-아웃에 따른 제2 화각에 의해 마련된 제5 대화 화면을 출력하는 동작(1015, 1027)을 포함할 수 있다.
일 실시예에 따른, 방법은, 전면 카메라에 의한 촬영된 사용자의 이미지로부터 얼굴 표정 또는 제스처를 획득하거나, 또는 상기 수집한 데이터로부터 상대방 참석자의 얼굴 표정 또는 제스처를 획득하는 동작(1017); 및 상기 획득한 얼굴 표정 또는 상기 획득한 제스처를 상기 사용자의 아바타 또는 상기 상대방 참여자의 아바타에 미러링(mirroring)하는 동작(1029)을 포함할 수 있다.
일 실시예에 따른, 사용자가 상기 아바타를 터치하였음을 감지하면, 상기 터치된 아바타에 대응한 외부 전자 장치(130)를 호출하는 신호를 전송하는 동작(1021, 1033); 및 상기 가상 공간에서 이루어지는 상기 복수의 참여자 간의 대화에 상응한 이미지들을 추출하고, 상기 추출한 이미지들을 사용하여 대화 기록 이미지를 생성 및 저장하는 동작(1035)을 포함할 수 있다.
일 실시예에 따른, 전자 장치(예: 도 1의 전자 장치(110))는, 전면 카메라를 포함하며, 피사체의 촬영에 의한 전기적 신호를 출력하도록 구성된 카메라 모듈(1150)를 포함할 수 있다. 상기 전자 장치(110)는 디스플레이 패널(1121) 또는 터치 패널(1123)을 포함하며, 상기 디스플레이 패널(1121)에 이미지를 표시하거나, 또는 상기 터치 패널(1123)의 터치에 따른 전기적 신호를 출력하도록 구성된 디스플레이 모듈(1120)을 포함할 수 있다. 상기 전자 장치(110)는, 네트워크 환경을 기반으로 외부 전자 장치(120, 130)와 통신을 수행하도록 구성된 통신 모듈(1170)을 포함할 수 있다. 상기 전자 장치(110)는 상기 카메라 모듈(1150), 상기 디스플레이 모듈(1120) 또는 상기 통신 모듈(1170)과의 전기적인 연결에 의해 상기 카메라 모듈(1150), 상기 디스플레이 모듈(1120) 또는 상기 통신 모듈(1170)의 동작을 제어하도록 구성된 적어도 하나의 프로세서(1110)를 포함할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)는, 상기 통신 모듈(1170)을 통해 상기 외부 전자 장치(120, 130)로부터 수집한 데이터를 기반으로 아바타를 이용한 대화에 참여한 참석자들 중에서 화자가 변경됨을 식별할 수 있다. 상기 적어도 하나의 프로세서(1110)는, 상기 변경된 화자에 대응한 화자 아바타를 기준으로 전환된 카메라 앵글로 제1 대화 화면을 구성할 수 있다. 상기 적어도 하나의 프로세서(1110)는, 상기 제1 대화 화면을 상기 디스플레이 패널(1121)에 표시하기 위하여 상기 디스플레이 모듈(1120)을 제어할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)는, 상기 수집한 데이터에 포함된 상기 참여자들의 보이스 데이터를 기반으로 참여자의 보이스 특성을 획득할 수 있다. 상기 적어도 하나의 프로세서(1110)는, 미리 설정된 기준 보이스 특성에 관한 정보를 사용하여 상기 획득한 보이스 특성을 갖는 참여자를 예측할 수 있다. 상기 적어도 하나의 프로세서(1110)는, 상기 대화에 참여하고 있는 아바타들 중에서 상기 예측한 참여자의 아바타를 상기 화자 아바타로 결정할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)는, 상기 대화가 개설되어 상기 참석자들에 의한 대화가 수행되면, 상기 통신 모듈(1170)을 통해 상기 참석자들의 보이스 데이터를 수집할 수 있다. 상기 적어도 하나의 프로세서(1110)는, 상기 수집한 보이스 데이터를 사용하여 상기 참석자들 각각에 대한 기준 보이스 특성에 관한 정보를 획득하여 등록할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)는, 상기 터치 패널(1123)에서의 스와이프(swipe) 동작에 응답하여 상기 디스플레이 모듈(1120)로부터 제공되는 전기적 신호를 기반으로 전환된 카메라 앵글로 제2 대화 화면을 구성할 수 있다. 상기 적어도 하나의 프로세서(1110)는, 상기 제2 대화 화면을 상기 디스플레이 패널(1121)에 표시하기 위하여 상기 디스플레이 모듈(1120)을 제어할 수 있다.
일 실시예에 따른, 상기 전자 장치(110)는, 적어도 하나의 센서를 포함하며, 적어도 상기 전자 장치(110)의 좌/우 또는 상/하 방향으로의 움직임을 감지하여 전기적 센싱 신호를 출력하도록 구성된 센서 모듈(1160)를 포함할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)는, 상기 센서 모듈(1160)로부터 제공된 상기 전기적 센싱 신호를 기반으로 전환된 카메라 앵글로 제3 대화 화면을 구성할 수 있다. 상기 적어도 하나의 프로세서(1110)는, 상기 제3 대화 화면을 상기 디스플레이 패널(1121)에 표시하기 위하여 상기 디스플레이 모듈(1120)을 제어할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)는, 상기 수집한 데이터를 기반으로 전환한 화각으로 제4 대화 화면을 구성할 수 있다. 상기 적어도 하나의 프로세서(1110)는, 상기 제4 대화 화면을 상기 디스플레이 패널(1121)에 표시하기 위하여 상기 디스플레이 모듈(1120)을 제어할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)는, 상기 특정 아바타에 의한 발화 시간이 상기 임계 시간을 초과하지 않거나, 또는 상기 터치 패널(1123)에서의 스와이프(swipe) 동작에 응답하여 줌-인에 따른 제1 화각에 의해 마련된 제5 대화 화면을 상기 디스플레이 패널(1121)에 표시하기 위하여 상기 디스플레이 모듈(1120)을 제어할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)는, 상기 특정 아바타에 의한 발화 시간이 상기 임계 시간을 초과하거나, 또는 상기 터치 패널(1123)에서의 스와이프(swipe) 동작에 응답하여 줌-아웃에 따른 제2 화각에 의해 마련된 제6 대화 화면을 상기 디스플레이 패널(1121)에 표시하기 위하여 상기 디스플레이 모듈(1120)을 제어할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)는, 상기 카메라 모듈(1150)에 포함된 상기 전면 카메라에 의한 촬영된 사용자의 이미지로부터 얼굴 표정 또는 제스처를 획득할 수 있다. 상기 적어도 하나의 프로세서(1110)는, 상기 디스플레이 모듈(1120)을 제어하여 상기 획득한 얼굴 표정 또는 상기 획득한 제스처를 상기 디스플레이 패널(1121)에 표시된 대화 화면에 포함된 상기 사용자의 아바타에 미러링(mirroring)할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)는, 상기 수집한 데이터로부터 상기 참석자들의 얼굴 표정 또는 제스처를 획득할 수 있다. 상기 적어도 하나의 프로세서(1110)는, 상기 디스플레이 모듈(1120)을 제어하여 상기 획득한 참석자들의 얼굴 표정 또는 상기 획득한 참석자들의 제스처를 상기 디스플레이 패널(1121)에 표시된 대화 화면에 포함된 상기 참석자의 아바타에 미러링(mirroring)할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)는, 상기 참석자들의 인원 수를 고려하여 화각을 조정할 수 있다. 상기 적어도 하나의 프로세서(1110)는, 상기 조정된 화각에 의해 마련된 제7 대화 화면을 상기 디스플레이 패널(1121)에 표시하기 위하여 상기 디스플레이 모듈(1120)을 제어할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)는, 상기 터치 패널(1123)을 통해 사용자가 상기 참석자들 중 한 명의 아바타를 터치하였음을 감지하면, 상기 통신 모듈(1170)을 통해 상기 터치된 아바타에 대응한 외부 전자 장치(130)를 호출하는 신호를 전송할 수 있다.
일 실시예에 따른, 상기 적어도 하나의 프로세서(1110)는, 상기 수집한 데이터를 기반으로 상기 대화에 상응한 이미지들을 추출할 수 있다. 상기 적어도 하나의 프로세서(1110)는, 상기 추출한 이미지들을 사용하여 대화 기록 이미지를 생성하며, 상기 생성한 대화 기록 이미지를 저장할 수 있다.
일 실시예에 따른, 전자 장치(예: 도 1의 전자 장치(110))에서 아바타를 이용한 대화 기능을 제공하는 방법은, 네트워크 환경을 기반으로 외부 전자 장치(120, 130)로부터 수집한 데이터를 기반으로 아바타를 이용한 제1 대화 화면을 출력하는 동작(610 & 640, 710 & 730, 810 & 880 또는 910 & 950)을 포함할 수 있다. 상기 방법은, 상기 수집한 데이터를 기반으로 참석자들 중에서 화자를 식별하는 동작(1013)을 포함할 수 있다. 상기 방법은, 상기 식별한 화자에 대응한 화자 아바타를 기준으로 카메라 앵글을 전환하여 제2 대화 화면을 구성하는 동작(1025)을 포함할 수 있다. 상기 방법은, 상기 제1 대화 화면을 상기 제2 대화 화면으로 전환하여 출력하는 동작(1025)을 포함할 수 있다.
일 실시예에 따른, 상기 방법에서, 상기 화자를 식별하는 동작은, 상기 수집한 데이터에 포함된 상기 참여자들의 보이스 데이터를 기반으로 참여자의 보이스 특성을 획득하는 동작을 포함할 수 있다. 상기 화자를 식별하는 동작은, 미리 설정된 기준 보이스 특성에 관한 정보를 사용하여 상기 획득한 보이스 특성을 갖는 참여자를 예측하는 동작을 포함할 수 있다. 상기 화자를 식별하는 동작은, 상기 대화에 참여하고 있는 아바타들 중에서 상기 예측한 참여자의 아바타를 상기 화자 아바타로 결정하는 동작을 포함할 수 있다.
일 실시예에 따른, 상기 방법은, 상기 대화가 개설되어 상기 참석자들에 의한 대화가 수행되면, 상기 참석자들의 보이스 데이터를 수집하는 동작을 포함할 수 있다. 상기 방법은, 상기 수집한 보이스 데이터를 사용하여 상기 참석자들 각각에 대한 기준 보이스 특성에 관한 정보를 획득하여 등록하는 동작을 포함할 수 있다.
일 실시예에 따른, 상기 방법은, 사용자의 스와이프(swipe) 동작에 응답하여 전환된 카메라 앵글로 제3 대화 화면을 구성하는 동작(1013, 1025)을 포함할 수 있다. 상기 방법은, 대화 화면을 상기 제3 대화 화면으로 전환하여 출력하는 동작(1025)을 포함할 수 있다.
일 실시예에 따른, 상기 방법은, 상기 전자 장치(110)의 좌/우 또는 상/하 방향으로의 움직임을 기반으로 전환된 카메라 앵글로 제4 대화 화면을 구성하는 동작(1013)을 포함할 수 있다. 상기 방법은, 대화 화면을 상기 제4 대화 화면으로 전환하여 출력하는 동작(1025)을 포함할 수 있다.
일 실시예에 따른, 상기 방법은, 상기 수집한 데이터를 기반으로 전환한 화각으로 제5 대화 화면을 구성하는 동작(1015)을 포함할 수 있다. 상기 방법은, 대화 화면을 상기 제5 대화 화면으로 전환하여 출력하는 동작(1027)을 포함할 수 있다.
일 실시예에 따른, 상기 방법은, 상기 특정 아바타에 의한 발화 시간이 상기 임계 시간을 초과하지 않거나, 또는 사용자의 스와이프(swipe) 동작에 응답하여 줌-인에 따른 제1 화각에 의해 마련된 제6 대화 화면을 출력하는 동작(1015, 1027)을 포함할 수 있다. 상기 방법은, 상기 특정 아바타에 의한 발화 시간이 상기 임계 시간을 초과하거나, 또는 사용자의 스와이프(swipe) 동작에 응답하여 줌-아웃에 따른 제2 화각에 의해 마련된 제7 대화 화면을 출력하는 동작(1015, 1027)을 포함할 수 있다.
일 실시예에 따른, 상기 방법은, 전면 카메라에 의한 촬영된 사용자의 이미지로부터 얼굴 표정 또는 제스처를 획득하는 동작(1017)을 포함할 수 있다. 상기 방법은, 상기 획득한 얼굴 표정 또는 상기 획득한 제스처를 대화 화면에 포함된 사용자의 아바타에 미러링(mirroring)하는 동작(1029)을 포함할 수 있다.
일 실시예에 따른, 상기 방법은, 상기 수집한 데이터로부터 상기 참석자들의 얼굴 표정 또는 제스처를 획득하는 동작(1017)을 포함할 수 있다. 상기 방법은, 상기 획득한 참석자들의 얼굴 표정 또는 상기 획득한 참석자들의 제스처를 대화 화면에 포함된 참석자의 아바타에 미러링(mirroring)하는 동작(1029)을 포함할 수 있다.
일 실시예에 따른, 상기 방법은, 상기 참석자들의 인원 수를 고려하여 화각을 조정하는 동작(1019)을 포함할 수 있다. 상기 방법은, 상기 조정된 화각에 의해 마련된 제8 대화 화면을 출력하는 동작(1031)을 포함할 수 있다.
일 실시예에 따른, 상기 방법은, 사용자가 대화 화면에서 특정 아바타를 터치함을 감지하면, 상기 터치된 아바타에 대응한 외부 전자 장치를 호출하는 신호를 전송하는 동작(1021, 1033)을 포함할 수 있다.
일 실시예에 따른, 상기 방법은, 상기 수집한 데이터를 기반으로 상기 대화에 상응한 이미지들을 추출하는 동작(1023, 1035)을 포함할 수 있다. 상기 방법은, 상기 추출한 이미지들을 사용하여 대화 기록 이미지를 생성하는 동작(1035)을 포함할 수 있다. 상기 방법은 상기 생성한 대화 기록 이미지를 저장하는 동작(1035)을 포함할 수 있다.
본 문서에 개시된 다양한 실시예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치(예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에, "기능적으로" 또는 "통신적으로"라는 용어와 함께 또는 이런 용어 없이, "커플드" 또는 "커넥티드"라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제 3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.
본 문서의 다양한 실시예들에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로와 같은 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(110)에 의해 읽을 수 있는 저장 매체(storage medium)(예: 메모리(1180))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램(2540))로서 구현될 수 있다. 예를 들면, 기기(예: 전자 장치(110))의 프로세서(예: 프로세서(1110))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운용되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory(CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트 폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있으며, 복수의 개체 중 일부는 다른 구성요소에 분리 배치될 수도 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims (18)

  1. 전자 장치(110)에 있어서,
    전면 카메라를 포함하며, 피사체의 촬영에 의한 전기적 신호를 출력하도록 구성된 카메라 모듈(1150);
    디스플레이 패널(1121) 또는 터치 패널(1123)을 포함하며, 상기 디스플레이 패널(1121)에 이미지를 표시하거나, 또는 상기 터치 패널(1123)의 터치에 따른 전기적 신호를 출력하도록 구성된 디스플레이 모듈(1120);
    네트워크 환경을 기반으로 외부 전자 장치(120, 130)와 통신을 수행하도록 구성된 통신 모듈(1170); 및
    상기 카메라 모듈(1150), 상기 디스플레이 모듈(1120) 또는 상기 통신 모듈(1170)과의 전기적인 연결에 의해 상기 카메라 모듈(1150), 상기 디스플레이 모듈(1120) 또는 상기 통신 모듈(1170)의 동작을 제어하도록 구성된 적어도 하나의 프로세서(1110)를 포함하며,
    상기 적어도 하나의 프로세서(1110)가,
    대화 기능을 위해 마련된 가상 공간에 상기 전자 장치(110)의 사용자를 포함한 복수의 참여자 중 적어도 한 명의 참여자의 아바타를 표시하고,
    상기 복수의 참여자 중 적어도 한 명의 화자에 의한 발화에 응답하여 발화 상태를 나타내는 발화 표시자를 표시하며,
    상기 적어도 한 명의 화자에 의한 발화에 기반하여 상기 가상 공간에서 상기 아바타의 시선을 변경하여 표시하도록 상기 디스플레이 모듈(1120)을 제어하는, 전자 장치.
  2. 제1항에 있어서,
    상기 적어도 하나의 프로세서(1110)가,
    상기 가상 공간에 상기 사용자를 대신한 제1 아바타를 중심으로 상기 제1 아바타의 시선이 향하는 방향으로 적어도 한 명의 상대방 참여자를 대신할 제2 아바타를 표시하도록 상기 디스플레이 모듈(1120)을 제어하되,
    상기 가상 공간 또는 상기 가상 공간에 상기 제1 아바타 또는 상기 제2 아바타를 표시하기 위해 고려할 가상 카메라의 앵글, 화각 또는 초점 위치 중 적어도 하나를 상기 복수의 참여자의 인원 수를 고려하여 변경하는, 전자 장치.
  3. 제1항에 있어서,
    상기 적어도 하나의 프로세서(1110)가,
    상기 가상 공간에 복수의 아바타가 표시되는 경우, 상기 가상 공간에서 상기 복수의 아바타가 서로 상이한 심도(depth)로 표시되도록 상기 디스플레이 모듈(1120)을 제어하는, 전자 장치.
  4. 제1항에 있어서,
    상기 적어도 하나의 프로세서(1110)가,
    상기 통신 모듈(1170)을 통해 상기 외부 전자 장치(120, 130)로부터 수집한 데이터를 기반으로 상기 복수의 참여자 중에서 화자가 변경됨을 식별하고,
    상기 변경된 화자에 대응한 화자 아바타를 기준으로 전환된 카메라 앵글로 제1 대화 화면을 구성하며,
    상기 제1 대화 화면을 표시하도록 상기 디스플레이 모듈(1120)을 제어하는, 전자 장치(110).
  5. 제4항에 있어서,
    상기 적어도 하나의 프로세서(1110)가,
    상기 수집한 데이터에 포함된 보이스 데이터를 기반으로 참여자 별 보이스 특성을 획득하고,
    미리 설정된 기준 보이스 특성에 관한 정보와 상기 획득한 보이스 특성을 사용하여 상기 화자 아바타를 결정하도록 구성된, 전자 장치(110).
  6. 제4항 또는 제5항에 있어서,
    상기 적어도 하나의 프로세서(1110)가,
    상기 터치 패널(1123)에서의 스와이프(swipe) 동작에 응답하여 상기 디스플레이 모듈(1120)로부터 제공되는 전기적 신호를 기반으로 전환된 카메라 앵글로 제2 대화 화면을 구성하며,
    상기 제2 대화 화면을 표시하도록 상기 디스플레이 모듈(1120)을 제어하는, 전자 장치(110).
  7. 제4항 또는 제5항에 있어서,
    적어도 하나의 센서를 포함하며, 적어도 상기 전자 장치(110)의 좌/우 또는 상/하 방향으로의 움직임을 감지하여 전기적 센싱 신호를 출력하도록 구성된 센서 모듈(1160)를 포함하며,
    상기 적어도 하나의 프로세서(1110)가,
    상기 센서 모듈(1160)로부터 제공된 상기 전기적 센싱 신호를 기반으로 전환된 카메라 앵글로 제3 대화 화면을 구성하며,
    상기 제3 대화 화면을 표시하도록 상기 디스플레이 모듈(1120)을 제어하는, 전자 장치(110).
  8. 제4항에 있어서,
    상기 적어도 하나의 프로세서(1110)가,
    특정 아바타에 의한 발화 시간이 임계 시간을 초과하지 않거나, 또는 상기 터치 패널(1123)에서의 스와이프(swipe) 동작에 응답하여 줌-인에 따른 제1 화각에 의해 마련된 제4 대화 화면을 표시하기도록 상기 디스플레이 모듈(1120)을 제어하고,
    상기 특정 아바타에 의한 발화 시간이 상기 임계 시간을 초과하거나, 또는 상기 터치 패널(1123)에서의 스와이프(swipe) 동작에 응답하여 줌-아웃에 따른 제2 화각에 의해 마련된 제5 대화 화면을 표시하도록 상기 디스플레이 모듈(1120)을 제어하고,
    상기 카메라 모듈(1150)에 포함된 상기 전면 카메라에 의한 촬영된 사용자의 이미지로부터 얼굴 표정 또는 제스처를 획득하거나, 또는 상기 수집한 데이터로부터 상대방 참석자의 얼굴 표정 또는 제스처를 획득하고,
    상기 디스플레이 모듈(1120)을 제어하여 상기 획득한 얼굴 표정 또는 상기 획득한 제스처를 상기 사용자의 아바타 또는 상기 상대방 참여자의 아바타에 미러링(mirroring)하도록 구성된, 전자 장치(110).
  9. 제1항에 있어서,
    상기 적어도 하나의 프로세서(1110)가,
    상기 터치 패널(1123)을 통해 사용자가 상기 아바타를 터치하였음을 감지하면, 상기 터치된 아바타에 대응한 외부 전자 장치(130)를 호출하는 신호를 전송하도록 상기 통신 모듈(1170)을 제어하고,
    상기 가상 공간에서 이루어지는 상기 복수의 참여자 간의 대화에 상응한 이미지들을 추출하고,
    상기 추출한 이미지들을 사용하여 대화 기록 이미지를 생성 및 저장하는, 전자 장치(110).
  10. 전자 장치에서 아바타를 이용한 대화 기능을 제공하는 방법에 있어서,
    상기 대화 기능을 위해 마련된 가상 공간에 상기 전자 장치의 사용자를 포함한 복수의 참여자 중 적어도 한 명의 참여자의 아바타를 표시하는 동작;
    상기 복수의 참여자 중 적어도 한 명의 화자에 의한 발화에 응답하여 발화 상태를 나타내는 발화 표시자를 표시하는 동작; 및
    상기 적어도 한 명의 화자에 의한 발화에 기반하여 상기 가상 공간에서 상기 아바타의 시선을 변경하여 표시하는 동작을 포함하는, 방법.
  11. 제9항에 있어서,
    상기 아바타를 표시하는 동작은,
    상기 가상 공간에 상기 사용자를 대신한 제1 아바타를 중심으로 상기 제1 아바타의 시선이 향하는 방향으로 적어도 한 명의 상대방 참여자를 대신할 제2 아바타를 표시하는 동작을 포함하되,
    상기 가상 공간 또는 상기 가상 공간에 상기 제1 아바타 또는 상기 제2 아바타를 표시하기 위해 고려할 가상 카메라의 앵글, 화각 또는 초점 위치 중 적어도 하나를 상기 복수의 참여자의 인원 수를 고려하여 변경하는, 방법.
  12. 제9항에 있어서,
    상기 아바타를 표시하는 동작은,
    상기 가상 공간에 복수의 아바타가 표시되는 경우, 상기 가상 공간에서 상기 복수의 아바타가 서로 상이한 심도(depth)를 갖도록 표시하는 동작을 포함하는, 방법.
  13. 제9항에 있어서,
    네트워크 환경을 기반으로 외부 전자 장치(120, 130)로부터 수집한 데이터를 기반으로 상기 복수의 참여자 중에서 화자가 변경됨을 식별하는 동작(1013);
    상기 식별한 화자에 대응한 화자 아바타를 기준으로 카메라 앵글을 전환하여 제1 대화 화면을 구성하는 동작(1025); 및
    상기 제1 대화 화면을 표시하는 동작(1025)을 포함하는, 방법.
  14. 제13항에 있어서,
    상기 수집한 데이터에 포함된 보이스 데이터를 기반으로 참여자 별 보이스 특성을 획득하는 동작; 및
    미리 설정된 기준 보이스 특성에 관한 정보와 상기 획득한 보이스 특성을 사용하여 상기 화자 아바타를 결정하는 동작을 포함하는, 방법.
  15. 제13항 또는 제14항에 있어서,
    사용자의 스와이프(swipe) 동작에 응답하여 전환된 카메라 앵글로 제2 대화 화면을 구성하는 동작(1013, 1025); 및
    상기 제2 대화 화면을 표시하는 동작(1025)을 포함하는, 방법.
  16. 제13항 또는 제14항에 있어서,
    상기 전자 장치(110)의 좌/우 또는 상/하 방향으로의 움직임을 기반으로 전환된 카메라 앵글로 제3 대화 화면을 구성하는 동작(1013); 및
    상기 제3 대화 화면을 표시하는 동작(1027)을 포함하는, 방법.
  17. 제13항에 있어서,
    특정 아바타에 의한 발화 시간이 임계 시간을 초과하지 않거나, 또는 사용자의 스와이프(swipe) 동작에 응답하여 줌-인에 따른 제1 화각에 의해 마련된 제4 대화 화면을 출력하는 동작(1015, 1027);
    상기 특정 아바타에 의한 발화 시간이 상기 임계 시간을 초과하거나, 또는 상기 사용자의 스와이프(swipe) 동작에 응답하여 줌-아웃에 따른 제2 화각에 의해 마련된 제5 대화 화면을 출력하는 동작(1015, 1027);
    전면 카메라에 의한 촬영된 사용자의 이미지로부터 얼굴 표정 또는 제스처를 획득하거나, 또는 상기 수집한 데이터로부터 상대방 참석자의 얼굴 표정 또는 제스처를 획득하는 동작(1017); 및
    상기 획득한 얼굴 표정 또는 상기 획득한 제스처를 상기 사용자의 아바타 또는 상기 상대방 참여자의 아바타에 미러링(mirroring)하는 동작(1029)을 포함하는, 방법.
  18. 제9항에 있어서,
    사용자가 상기 아바타를 터치하였음을 감지하면, 상기 터치된 아바타에 대응한 외부 전자 장치(130)를 호출하는 신호를 전송하는 동작(1021, 1033); 및
    상기 가상 공간에서 이루어지는 상기 복수의 참여자 간의 대화에 상응한 이미지들을 추출하고, 상기 추출한 이미지들을 사용하여 대화 기록 이미지를 생성 및 저장하는 동작(1035)을 포함하는, 방법.
PCT/KR2023/006655 2022-08-17 2023-05-17 아바타를 이용한 대화 기능을 제공하는 전자 장치 및 방법 WO2024039002A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/326,318 US20240061501A1 (en) 2022-08-17 2023-05-31 Electronic device and method for providing conversation function using avatar

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2022-0102399 2022-08-17
KR20220102399 2022-08-17
KR10-2022-0129788 2022-10-11
KR1020220129788A KR20240025431A (ko) 2022-08-17 2022-10-11 아바타를 이용한 대화 기능을 제공하는 전자 장치 및 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/326,318 Continuation US20240061501A1 (en) 2022-08-17 2023-05-31 Electronic device and method for providing conversation function using avatar

Publications (1)

Publication Number Publication Date
WO2024039002A1 true WO2024039002A1 (ko) 2024-02-22

Family

ID=89942015

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/006655 WO2024039002A1 (ko) 2022-08-17 2023-05-17 아바타를 이용한 대화 기능을 제공하는 전자 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2024039002A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180042094A (ko) * 2016-09-30 2018-04-25 고범준 화자의 위치를 기반으로 한 자막 디스플레이 방법 및 이러한 방법을 수행하는 장치
KR20180094449A (ko) * 2017-02-15 2018-08-23 삼성전자주식회사 전자 장치 및 전자 장치의 이미지 데이터 송수신 방법
KR20190071405A (ko) * 2017-12-14 2019-06-24 한국전자통신연구원 스마트 글라스를 이용한 발화자 선택 장치 및 방법
JP2020182092A (ja) * 2019-04-24 2020-11-05 セコム株式会社 警備システム及び監視表示装置
KR20210127054A (ko) * 2020-04-10 2021-10-21 삼성전자주식회사 증강 현실에서 커뮤니케이션을 위한 전자 장치 및 그에 관한 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180042094A (ko) * 2016-09-30 2018-04-25 고범준 화자의 위치를 기반으로 한 자막 디스플레이 방법 및 이러한 방법을 수행하는 장치
KR20180094449A (ko) * 2017-02-15 2018-08-23 삼성전자주식회사 전자 장치 및 전자 장치의 이미지 데이터 송수신 방법
KR20190071405A (ko) * 2017-12-14 2019-06-24 한국전자통신연구원 스마트 글라스를 이용한 발화자 선택 장치 및 방법
JP2020182092A (ja) * 2019-04-24 2020-11-05 セコム株式会社 警備システム及び監視表示装置
KR20210127054A (ko) * 2020-04-10 2021-10-21 삼성전자주식회사 증강 현실에서 커뮤니케이션을 위한 전자 장치 및 그에 관한 방법

Similar Documents

Publication Publication Date Title
WO2020171288A1 (ko) 이동 단말기 및 이동 단말기를 구비한 전자장치
WO2015060621A1 (en) Method and device for transmitting data, and method and device for receiving data
WO2016052814A1 (en) Mobile terminal and method of controlling the same
WO2017052043A1 (en) Mobile terminal and method for controlling the same
WO2016129778A1 (ko) 이동 단말기 및 그 제어 방법
WO2016010202A1 (en) Mobile terminal and control method for the mobile terminal
WO2016175424A1 (ko) 이동 단말기 및 그 제어 방법
WO2017171137A1 (ko) 보청장치, 휴대장치 및 그 제어방법
WO2019194426A1 (en) Method for executing application and electronic device supporting the same
WO2022154387A1 (ko) 전자 장치 및 그의 동작 방법
WO2020032376A1 (en) Mobile terminal and method for controlling the same
WO2016052888A1 (en) Mobile terminal and method of controlling the same
WO2022119219A1 (ko) 전자 장치 및 전자 장치의 동작 방법
WO2022054991A1 (ko) 이동 단말기 및 그 제어 방법
WO2024039002A1 (ko) 아바타를 이용한 대화 기능을 제공하는 전자 장치 및 방법
WO2016088973A1 (en) Mobile terminal and method for controlling the same
WO2022131784A1 (ko) 증강 현실 콘텐츠를 제공하는 전자 장치 및 방법
WO2017047832A1 (ko) 이동 단말기 및 그 제어방법
WO2019168208A1 (ko) 이동 단말기 및 그 제어 방법
WO2022010187A1 (ko) 전자 장치 및 전자 장치의 인증 동작 수행 방법
WO2022025451A1 (ko) 슬라이딩 가능한 전자 장치 및 이의 제어 방법
WO2020190001A1 (ko) 사용자의 움직임에 기반하여 객체의 속성을 제어하는 전자 장치 및 그 제어 방법
WO2021080044A1 (ko) 이동 단말기, 이동 단말기를 구비한 전자 장치, 그리고 전자 장치의 제어 방법
WO2021010528A1 (ko) 카메라 및 그 제어 방법
WO2023132444A1 (ko) 가상환경에서 실 세계의 외부 전자 장치를 제어할 수 있는 시스템, 전자 장치 및 방법