WO2024038975A1 - 발화 비디오 제공 장치 및 방법 - Google Patents

발화 비디오 제공 장치 및 방법 Download PDF

Info

Publication number
WO2024038975A1
WO2024038975A1 PCT/KR2022/095117 KR2022095117W WO2024038975A1 WO 2024038975 A1 WO2024038975 A1 WO 2024038975A1 KR 2022095117 W KR2022095117 W KR 2022095117W WO 2024038975 A1 WO2024038975 A1 WO 2024038975A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
speech
frame
standby
back motion
Prior art date
Application number
PCT/KR2022/095117
Other languages
English (en)
French (fr)
Inventor
김두현
Original Assignee
주식회사 딥브레인에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220102315A external-priority patent/KR102679446B1/ko
Application filed by 주식회사 딥브레인에이아이 filed Critical 주식회사 딥브레인에이아이
Publication of WO2024038975A1 publication Critical patent/WO2024038975A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Definitions

  • AI artificial intelligence
  • a video of the voice message being spoken by a famous person is created to attract people's attention.
  • This is implemented by creating mouth shapes to suit a specific message, just as a famous person speaks a specific message in a video of a famous person.
  • the purpose is to provide a device and method for providing artificial intelligence-based speech videos in real time.
  • a method of providing a speech video performed by a computing device includes the steps of playing a standby video in a video file format in which a person in the video is in a standby state; generating a plurality of speech state images and speech voices in which a person in the video is in a speech state based on a source of speech content during playback of the standby video; stopping playback of the idle video and playing back motion video in a video file format to return to a reference frame of the idle video; and generating a synthesized speech video by synthesizing the plurality of speech state images and the speech voice with the standby video from the reference frame.
  • the back motion video may include a plurality of back motion frame sets for image interpolation between each frame of the idle video and the reference frame.
  • the step of playing the back motion video includes, when the generation of the plurality of speech state images and the speech voice is completed, detecting the closest frame having a back motion frame set among the frames of the standby video after completion. ; detecting a back motion frame set section corresponding to the detected frame in the back motion video; and playing the standby video up to the detected frame and then playing the back motion frame set section. may include.
  • the reference frame may be the first frame.
  • Playing the standby video may include repeatedly playing the standby video; may include.
  • the plurality of speech state images may be face images of people in the video.
  • the face of the person in the video may be replaced with each speech state image starting from the reference frame, and the speech voice may be synthesized to generate the synthesized speech video.
  • An apparatus for providing a speech video includes a speech state image generator that generates a plurality of speech state images based on the source of speech content during playback of a standby video in a video file format in which a person in the video is in a standby state; a spoken voice generator that generates a spoken voice based on the source of the spoken content during playback of the standby video; A back motion video in a video file format for playing the standby video, stopping playback of the standby video when generation of the plurality of speech state images and the speech voice is completed, and returning to the reference frame of the standby video.
  • a reproduction unit that reproduces; and a synthesized speech video generator that generates a synthesized speech video by synthesizing the plurality of speech state images and the speech voice with the standby video from the reference frame. may include.
  • the back motion video may include a plurality of back motion frame sets for image interpolation between each frame of the idle video and the reference frame.
  • the playback unit detects the closest frame having a back motion frame set among the frames of the standby video after completion, and detects the frame in the back motion video from the back motion video.
  • a back motion frame set section corresponding to the detected frame may be detected, the standby video may be played up to the detected frame, and then the back motion frame set section may be played.
  • the reference frame may be the first frame.
  • the playback unit may repeatedly play the standby video.
  • the plurality of speech state images may be face images of people in the video.
  • the synthesized speech video generator may replace the face of the person in the video with each speech state image starting from the reference frame and synthesize the speech voice to generate the synthesized speech video.
  • a synthesized speech video can be created in real time, thereby allowing artificial intelligence-based conversation-related information. Services can be provided in real time.
  • a speech state image is created for the face of the person in the standby video, and only the face part of the standby video is replaced with the speech state image to create a synthetic speech video, thereby reducing the time required to create a synthetic speech video.
  • the amount of data can be reduced.
  • a set of back motion images is prepared for the frames of the standby video, the playback state video is returned to the first frame through the back motion image set, and then the firing state image and
  • FIG. 1 is a diagram illustrating a conversation system using artificial intelligence according to an exemplary embodiment.
  • Figure 2 is a diagram illustrating an apparatus for providing speech video according to an exemplary embodiment.
  • FIG. 3 is a diagram illustrating a process of synthesizing a speech state image and a speech voice into a standby video according to an exemplary embodiment.
  • Figure 4 is a diagram for explaining a back motion video according to an exemplary embodiment.
  • FIG. 5 is a diagram illustrating a process of returning a video in a standby state to the first frame while being played, according to an exemplary embodiment.
  • Figure 6 is a diagram illustrating a method for providing speech video according to an exemplary embodiment.
  • FIG. 7 is a block diagram illustrating and illustrating a computing environment including a computing device suitable for use in example embodiments.
  • each step may occur in a different order from the specified order. That is, each step may be performed in the same order as specified, may be performed substantially simultaneously, or may be performed in the opposite order.
  • each component is responsible for. That is, two or more components may be combined into one component, or one component may be divided into two or more components for more detailed functions.
  • each component may additionally perform some or all of the functions that other components are responsible for, and some of the main functions that each component is responsible for may be performed by other components. It may also be carried out.
  • Each component may be implemented as hardware or software, or as a combination of hardware and software.
  • FIG. 1 is a diagram illustrating a conversation system using artificial intelligence according to an exemplary embodiment
  • FIG. 2 is a diagram illustrating a speech video providing device according to an exemplary embodiment
  • FIG. 3 is a diagram illustrating a waiting system according to an exemplary embodiment. This is a diagram to explain the process of synthesizing the speech state image and speech voice into the status video.
  • the conversation system 100 using artificial intelligence may include a speech video providing device 110 and a terminal 120.
  • the speech video providing device 110 can communicate with the terminal 120 and perform a conversation using artificial intelligence (AI conversation) with the user of the terminal 120.
  • AI conversation artificial intelligence
  • the speech video providing device 110 may generate a synthetic speech video in response to text or voice input through the terminal 120 and provide the generated synthetic speech video to the terminal 120.
  • the synthesized speech video may be a video synthesized based on artificial intelligence and may be a video in which a predetermined person speaks.
  • the predetermined person may be a fictional character or a person widely known to the public, but is not limited thereto.
  • the speech video providing device 110 may include a speech state image generator 210, a speech voice generator 220, a synthesized speech video generator 230, and a playback unit 240. You can.
  • the speech state image generator 210 may generate a plurality of speech state images based on the source of the speech content during playback of the standby video.
  • the speech state image may be an image in which a person in the video (a person with the same identity as the person in the standby video) is in a speech state (talking to the other person in the conversation).
  • the speech state image may be a face image of a person in the idle state video.
  • the speech state image generator 210 can generate the speech state image more quickly and reduce data capacity by generating the speech state image including only the face of the person in the standby video.
  • a standby video is a video in which the person in the video is in a standby state, and the video file format (e.g. WebM, Matroska, Flash Video (FLV), F4V, VOB, Ogg Video, Dirac, AVI, AMV, SVI, 3GPP, Windows Media Video) , Advanced System Format (ASF), MPEG, etc.).
  • the waiting state may be a state before the person in the video speaks (for example, a state of listening to the other person or a state of not speaking before a conversation, etc.).
  • the standby video has a predetermined playback time and may be arranged to express natural movements while the person in the video is in the standby state.
  • the standby video shows the facial expressions, postures, and movements of the person in the video while listening to the other person speaking (for example, nodding, putting both hands together and listening, tilting the head). movements, smiling facial expressions, etc.) can be arranged to express them naturally.
  • the source of the speech content may be in text form as a response to text or voice input through the terminal 120, but is not limited thereto and may also be in voice form.
  • the source of the speech content may be generated through artificial intelligence by the speech video providing device 110 analyzing text or voice input through the terminal 120, but is not limited to this and is not limited to this, and is not limited to an external device (e.g., a terminal ( It may be a device that analyzes text or voice input through 120) and generates the source of the speech content, or it may be input from an administrator.
  • an external device e.g., a terminal ( It may be a device that analyzes text or voice input through 120) and generates the source of the speech content, or it may be input from an administrator.
  • the speaking voice generator 220 may generate a spoken voice based on the source of the spoken content during playback of the standby video.
  • the speech voice may correspond to a plurality of speech state images generated by the speech state image generator 210. That is, based on the source of the same speech content, the speech state image generator 210 can generate a plurality of speech state images, and the speech voice generator 220 can generate speech sounds.
  • the synthetic speech video generator 230 generates a synthetic speech video by combining the plurality of speech state images generated by the speech state image generator 210 and the speech voice generated by the speech voice generator 220 with the standby video. can do.
  • the synthesized speech video generator 230 replaces the face of the person in the standby state video with the speech state image (i.e., the face part of the person) and synthesizes the speech voice.
  • a speech video can be created.
  • the synthesized speech video generator 230 may synthesize each speech state image and speech voice starting from the reference frame of the standby state video.
  • the reference frame may be the first frame of the standby video, but is not limited thereto. That is, synthesis of the standby video, the speech state image, and the speech voice can be performed starting from the reference frame (eg, the first frame) of the standby video.
  • the speaking video providing device 110 unifies the synthesis point of the idle state video, the speaking state image, and the speaking voice with the reference frame (e.g., the first frame) of the waiting state video, during playback of the waiting state video. Even when the utterance state image and utterance voice are generated, the standby state video, utterance state image, and utterance voice are synthesized without considering other variables (for example, the network environment between the utterance video providing device 110 and the terminal 120, etc.) Thus, a synthetic speech video can be easily created.
  • the reference frame is the first frame will be described as an example.
  • the playback unit 240 may play the standby video and transmit it to the terminal 120.
  • the playback unit 240 may repeatedly play the standby video.
  • the playback unit 240 may repeatedly play the standby video by playing from the first frame to the last frame of the standby video and then returning to the first frame.
  • the playback unit 240 stops playing the standby video and plays a backmotion frame set of the backmotion video corresponding to the last frame of the standby video. This allows you to naturally go back to the first frame of the idle video.
  • the playback unit 240 may stop playing the standby video, play the back motion video, and transmit it to the terminal 120.
  • Backmotion video is for image interpolation between arbitrary frames of idle video and reference frames of idle video and supports video file formats (e.g. WebM, Matroska, Flash Video (FLV), F4V, VOB, Ogg Video, Dirac, AVI). , AMV, SVI, 3GPP, Windows Media Video, Advanced System Format (ASF), MPEG, etc.).
  • video file formats e.g. WebM, Matroska, Flash Video (FLV), F4V, VOB, Ogg Video, Dirac, AVI).
  • a back motion video may include a plurality of back motion frame sets (may be referred to as back motion image sets). That is, a plurality of back motion frame sets can be gathered to form one back motion video.
  • Each set of back motion frames may be provided for image interpolation between each frame of the idle video and a reference frame.
  • a set of back motion frames may be prepared for each frame of idle video at preset frame intervals or preset time intervals. For example, when the preset frame interval is 3, a back motion frame set may be prepared for the third frame, sixth frame, ninth frame, etc. of the standby video.
  • the playback unit 240 when the generation of the speech state image and speech voice is completed during playback of the standby video, the playback unit 240 detects the closest frame with the back motion frame set among the frames of the subsequent standby video. And, in the back motion video, a section in which a back motion frame set corresponding to the detected frame of the standby video exists (hereinafter referred to as a back motion frame set section) can be detected. Additionally, the playback unit 240 can naturally return to the first frame of the standby video by playing the standby video up to the detected frame and then playing the detected backmotion frame set section of the backmotion video.
  • the playback unit 240 may play back the detected back motion frame set section of the back motion video, then play the synthesized speech video and transmit it to the terminal 120.
  • the synthesized speech video can be created by combining the speech state image and speech voice from the first frame of the standby video. Therefore, the last playback frame of the standby video and the synthesized speech video can be naturally connected through playback of the corresponding back motion frame set section of the back motion video.
  • the playback unit 240 may replay the standby video from the end of the synthesized speech video.
  • the playback unit 240 plays the standby video up to the last frame
  • the playback unit 240 returns to the standby state by using the backmotion frame set of the backmotion video corresponding to the last frame of the standby video to return to the first frame of the standby video. Videos can be played.
  • the speech video providing device 110 may further include a standby state video generator 250 and a back motion video generator 260.
  • the standby video generator 250 may generate a standby video with a predetermined playback time.
  • the standby video generator 250 may encode a plurality of standby images to generate one standby video in a video file format.
  • a standby video can express natural movements taken by a person in the video while in a standby state.
  • the back motion video generator 260 may generate a set of back motion images corresponding to the frames of the standby video at preset frame intervals or preset time intervals. Additionally, the back motion video generator 260 may generate one back motion video in a video file format by encoding the generated back motion image sets.
  • the terminal 120 may be communicatively connected to the speech video providing device 110 through a communication network.
  • the communications network may include the Internet, one or more local area networks, wide area networks, cellular networks, mobile networks, other types of networks, or a combination of these networks. may include.
  • the terminal 120 is, for example, a user terminal that wants to communicate with artificial intelligence (e.g., smartphone, tablet PC, laptop, desktop PC, etc.), an unmanned ordering kiosk, an electronic information desk, an outdoor advertising screen, a robot, etc. may include.
  • artificial intelligence e.g., smartphone, tablet PC, laptop, desktop PC, etc.
  • unmanned ordering kiosk e.g., an electronic information desk, an outdoor advertising screen, a robot, etc.
  • an electronic information desk e.g., an outdoor advertising screen, a robot, etc.
  • the terminal 120 may access the speech video providing device 110 through a communication network. In this case, the terminal 120 needs a loading process to receive the standby video and the back motion video from the speech video providing device 110.
  • the standby video and the back motion video are in an image file format rather than a video file format, the data size is large, so it takes a long time to load, and accordingly, there is a limit to adding the posture or gesture of the person in the standby state.
  • the speech video providing device 110 uses standby video and back motion video in a video file format rather than an image file format, thereby reducing the loading time of the terminal 120 compared to an image file format. And accordingly, it is possible to add various postures or gestures of the person in the waiting state.
  • the speech video providing device 110 prepares the standby video in advance, generates a speech state image and speech voice while playing the standby video, and synthesizes the speech video with the standby video, thereby producing the synthesized speech video in real time. It can be created, and as a result, artificial intelligence-based conversation-related services can be provided in real time.
  • a speech state image is created for the face of the person in the standby video, and only the face part of the standby video is replaced with the speech state image to create a synthetic speech video, thereby reducing the time required to create a synthetic speech video.
  • the amount of data can be reduced.
  • a set of back motion images is prepared for the frames of the standby video, the playback state video is returned to the first frame through the back motion image set, and then the firing state image and
  • Figure 4 is a diagram for explaining a back motion video according to an exemplary embodiment.
  • Figure 4 illustrates a case where the preset frame interval is 2.
  • the back motion video generator 260 generates 2-frame intervals, that is, the second frame (2nd), fourth frame (4th), ... of the idle state video 310.
  • a back motion image set (411, 412, 413) can be generated for every nth frame (nth).
  • the back motion image set 411 naturally connects the second frame (2nd) to the first frame (1st)
  • the back motion image set 412 naturally connects the fourth frame (4th) to the first frame (1st)
  • the back motion image set 412 naturally connects the fourth frame (4th) to the first frame (1st).
  • the motion image set 413 may be prepared to naturally connect the nth frame (nth) to the first frame (1st).
  • the back motion video generator 260 may generate one back motion video 410 in a video file format by sequentially listing and encoding the back motion image sets 411, 412, and 413.
  • FIG. 5 is a diagram illustrating a process of returning a video in a standby state to the first frame while being played, according to an exemplary embodiment.
  • the playback unit 240 plays the frames after the jth frame (jth). Among (kth, lth), the closest frame with a back motion image set can be detected.
  • the playback unit 240 plays the kth frame (kth) in the back motion video 410.
  • the back motion image set 414 corresponding to kth) can be detected and the idle state video 310 can be returned to the first frame (1st) using the detected back motion image set 414. That is, the playback unit 414 plays the standby video 310 up to the kth frame (kth) and then plays the backmotion image set 414 of the backmotion video 410 to play the standby video 310 as the first You can naturally return to the frame.
  • the synthetic speech video generator 230 synthesizes the speech state image and the speech voice in the first frame (1st) of the standby video 310 to generate a synthetic speech video, and the playback unit 414 generates a back motion image set ( 414), and then the synthesized speech video can be played.
  • the kth frame (kth) and the synthesized speech video can be naturally connected.
  • Figure 6 is a diagram illustrating a method for providing speech video according to an exemplary embodiment.
  • the method of providing speech video in FIG. 6 can be performed by the speech video provision apparatus in FIG. 1.
  • the speech video providing device can play the standby video (610).
  • the standby state video is a video in which a person in the video is in a standby state and may be formed in a video file format.
  • the speech video providing device may generate a plurality of speech state images and speech voices based on the source of the speech content (620).
  • the source of the speech content may be in the form of text or voice as a response to text or voice input through a terminal connected to the speech video providing device through a communication network.
  • the source of the speech content can be created through artificial intelligence by analyzing text or voice input through the terminal.
  • the speech state image is an image of a person in a standby video speaking, and may be a face image of the person in the video.
  • the speech video providing device may stop playing the standby video and play the back motion video (630).
  • the back motion video is for image interpolation between an arbitrary frame of the standby video and a reference frame of the standby video and may be formed in a video file format.
  • the back motion video may include a set of multiple back motion frames provided for image interpolation between each frame of the idle video and the reference frame.
  • the device detects the closest frame with a back motion frame set among the frames of the subsequent standby video, and In the motion video, a back motion frame set section corresponding to the detected frame of the standby video can be detected. Additionally, the speech video providing device can naturally return to the first frame of the idle video by playing the idle video up to the detected frame and then playing the detected back motion frame set section of the back motion video.
  • the speech video providing device can generate and play a synthesized speech video by synthesizing a plurality of speech state images and speech voices into the standby state video (640).
  • the speech video provision device replaces the face of the person in the standby video with the speech state image (i.e., the face part of the person in question) and synthesizes the speech voice to generate a synthetic speech video. can do.
  • each component may have different functions and capabilities in addition to those described below, and may include additional components in addition to those described below.
  • the illustrated computing environment 10 includes a computing device 12 .
  • computing device 12 may be a speaking video presentation device 110 .
  • Computing device 12 includes at least one processor 14, a computer-readable storage medium 16, and a communication bus 18.
  • Processor 14 may cause computing device 12 to operate in accordance with the example embodiments noted above.
  • processor 14 may execute one or more programs stored on computer-readable storage medium 16.
  • the one or more programs may include one or more computer-executable instructions, which, when executed by the processor 14, cause computing device 12 to perform operations according to example embodiments. It can be.
  • Computer-readable storage medium 16 is configured to store computer-executable instructions or program code, program data, and/or other suitable form of information.
  • the program 20 stored in the computer-readable storage medium 16 includes a set of instructions executable by the processor 14.
  • computer-readable storage medium 16 includes memory (volatile memory, such as random access memory, non-volatile memory, or an appropriate combination thereof), one or more magnetic disk storage devices, optical disk storage devices, flash It may be memory devices, another form of storage medium that can be accessed by computing device 12 and store desired information, or a suitable combination thereof.
  • Communication bus 18 interconnects various other components of computing device 12, including processor 14 and computer-readable storage medium 16.
  • Computing device 12 may also include one or more input/output interfaces 22 and one or more network communication interfaces 26 that provide an interface for one or more input/output devices 24.
  • the input/output interface 22 and the network communication interface 26 are connected to the communication bus 18.
  • Input/output device 24 may be coupled to other components of computing device 12 through input/output interface 22.
  • Exemplary input/output devices 24 include, but are not limited to, a pointing device (such as a mouse or trackpad), a keyboard, a touch input device (such as a touchpad or touch screen), a voice or sound input device, various types of sensor devices, and/or imaging devices. It may include input devices and/or output devices such as display devices, printers, speakers, and/or network cards.
  • the exemplary input/output device 24 may be included within the computing device 12 as a component constituting the computing device 12, or may be connected to the computing device 12 as a separate device distinct from the computing device 12. It may be possible.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Circuits (AREA)

Abstract

발화 비디오 제공 장치 및 방법이 개시된다. 일 실시예에 따른 컴퓨팅 장치에 의해 수행되는 발화 비디오 제공 방법은 비디오 속 인물이 대기 상태에 있는 비디오 파일 포맷의 대기 상태 비디오를 재생하는 단계; 상기 대기 상태 비디오의 재생 중 발화 내용의 소스에 기반하여 상기 비디오 속 인물이 발화 상태에 있는 복수의 발화 상태 이미지들 및 발화 음성을 생성하는 단계; 상기 대기 상태 비디오의 재생을 중지하고 상기 대기 상태 비디오의 기준 프레임으로 되돌아가기 위한 비디오 파일 포맷의 백모션 비디오를 재생하는 단계; 및 상기 기준 프레임부터 상기 대기 상태 비디오에 상기 복수의 발화 상태 이미지들 및 상기 발화 음성을 합성하여 합성 발화 비디오를 생성하는 단계; 를 포함한다.

Description

발화 비디오 제공 장치 및 방법
발화 비디오를 제공하는 기술과 관련된다.
최근, 인공 지능 분야의 기술 발전에 따라 다양한 유형의 콘텐츠가 인공 지능(Artificial Intelligence, AI) 기술에 기초하여 생성되고 있다. 그 일 예로, 어떤 전달하고자 하는 음성 메시지가 있을 때, 그 음성 메시지를 유명 인물(예를 들어, 대통령 등)이 말하는 것과 같은 발화 동영상(비디오)을 생성하여 사람들의 주의를 끌고자 하는 경우가 있다. 이는 유명 인물의 동영상에서 유명 인물이 특정 메시지를 말하는 것처럼 입 모양 등을 특정 메시지에 맞게 생성하여 구현하게 된다.
또한, 인공 지능(AI)이 사람과 대화를 진행할 수 있는 기술들이 연구되고 있다. 이러한 기술들에서는 발화 이미지를 합성하는 데 시간이 걸리고 많은 데이터가 필요하기 때문에 실시간 대화하는 비디오(또는 발화하는 비디오)을 생성하기가 어렵다는 문제점이 있다.
인공 지능 기반의 발화 비디오를 실시간으로 제공하기 위한 장치 및 방법을 제공하는데 목적이 있다.
예시적 실시예에 따른 컴퓨팅 장치에 의해 수행되는 발화 비디오 제공 방법은 비디오 속 인물이 대기 상태에 있는 비디오 파일 포맷의 대기 상태 비디오를 재생하는 단계; 상기 대기 상태 비디오의 재생 중 발화 내용의 소스에 기반하여 상기 비디오 속 인물이 발화 상태에 있는 복수의 발화 상태 이미지들 및 발화 음성을 생성하는 단계; 상기 대기 상태 비디오의 재생을 중지하고 상기 대기 상태 비디오의 기준 프레임으로 되돌아가기 위한 비디오 파일 포맷의 백모션 비디오를 재생하는 단계; 및 상기 기준 프레임부터 상기 대기 상태 비디오에 상기 복수의 발화 상태 이미지들 및 상기 발화 음성을 합성하여 합성 발화 비디오를 생성하는 단계; 를 포함할 수 있다.
상기 백모션 비디오는 상기 대기 상태 비디오의 각 프레임과 상기 기준 프레임 간의 이미지 보간을 위한 복수의 백모션 프레임 세트들을 포함할 수 있다.
상기 백모션 비디오를 재생하는 단계는, 상기 복수의 발화 상태 이미지 및 상기 발화 음성의 생성이 완료되면, 완료 이후의 상기 대기 상태 비디오의 프레임들 중 백모션 프레임 세트를 갖는 가장 가까운 프레임을 검출하는 단계; 상기 백모션 비디오에서 상기 검출된 프레임에 대응하는 백모션 프레임 세트 구간을 검출하는 단계; 및 상기 대기 상태 비디오를 상기 검출된 프레임까지 재생한 다음 상기 백모션 프레임 세트 구간을 재생한 단계; 를 포함할 수 있다.
상기 기준 프레임은 첫번째 프레임일 수 있다.
상기 대기 상태 비디오를 재생하는 단계는, 상기 대기 상태 비디오를 반복 재생하는 단계; 를 포함할 수 있다.
상기 복수의 발화 상태 이미지들은 상기 비디오 속 인물의 얼굴 이미지들일 수 있다.
상기 합성 발화 비디오를 생성하는 단계는, 상기 기준 프레임부터 상기 비디오 속 인물의 얼굴을 각 발화 상태 이미지로 교체하고, 상기 발화 음성을 합성하여 상기 합성 발화 비디오를 생성할 수 있다.
다른 양상에 따른 발화 비디오 제공 장치는 비디오 속 인물이 대기 상태에 있는 비디오 파일 포맷의 대기 상태 비디오의 재생 중 발화 내용의 소스에 기반하여 복수의 발화 상태 이미지를 생성하는 발화 상태 이미지 생성부; 상기 대기 상태 비디오의 재생 중 상기 발화 내용의 소스에 기반하여 발화 음성을 생성하는 발화 음성 생성부; 상기 대기 상태 비디오를 재생하고, 상기 복수의 발화 상태 이미지 및 상기 발화 음성의 생성이 완료되면 상기 대기 상태 비디오의 재생을 중지하고 상기 대기 상태 비디오의 기준 프레임으로 되돌아가기 위한 비디오 파일 포맷의 백모션 비디오를 재생하는 재생부; 및 상기 기준 프레임부터 상기 대기 상태 비디오에 상기 복수의 발화 상태 이미지들 및 상기 발화 음성을 합성하여 합성 발화 비디오를 생성하는 합성 발화 비디오 생성부; 를 포함할 수 있다.
상기 백모션 비디오는 상기 대기 상태 비디오의 각 프레임과 상기 기준 프레임 간의 이미지 보간을 위한 복수의 백모션 프레임 세트들을 포함할 수 있다.
상기 재생부는, 상기 복수의 발화 상태 이미지 및 상기 발화 음성의 생성이 완료되면, 완료 이후의 상기 대기 상태 비디오의 프레임들 중 백모션 프레임 세트를 갖는 가장 가까운 프레임을 검출하고, 상기 백모션 비디오에서 상기 검출된 프레임에 대응하는 백모션 프레임 세트 구간을 검출하고, 상기 대기 상태 비디오를 상기 검출된 프레임까지 재생한 다음 상기 백모션 프레임 세트 구간을 재생할 수 있다.
상기 기준 프레임은 첫번째 프레임일 수 있다.
상기 재생부는, 상기 대기 상태 비디오를 반복 재생할 수 있다.
상기 복수의 발화 상태 이미지들은 상기 비디오 속 인물의 얼굴 이미지들일 수 있다.
상기 합성 발화 비디오 생성부는 상기 기준 프레임부터 상기 비디오 속 인물의 얼굴을 각 발화 상태 이미지로 교체하고, 상기 발화 음성을 합성하여 상기 합성 발화 비디오를 생성할 수 있다.
이미지 파일 형식이 아닌 비디오 파일 형식의 대기 상태 비디오와 백모션 비디오를 이용함으로써, 이미지 파일 형식에 비하여 단말의 로딩 시간을 줄이는 것이 가능하며 그에 따라 대기 상태 비디오에 인물의 다양한 자세 또는 제스처를 추가하는 것이 가능하다.
또한 대기 상태 비디오를 미리 준비하여 대기 상태 비디오를 재생하는 중 발화 상태 이미지 및 발화 음성을 생성하여 대기 상태 비디오와 합성함으로써, 합성 발화 비디오를 실시간으로 생성할 수 있으며, 그로 인해 인공 지능 기반의 대화 관련 서비스를 실시간으로 제공할 수 있다.
또한, 발화 상태 이미지를 대기 상태 비디오 속 인물의 얼굴 부분에 대해 생성하고, 대기 상태 비디오의 얼굴 부분만을 발화 상태 이미지로 교체하여 합성 발화 비디오를 생성함으로써, 합성 발화 비디오의 생성에 따른 시간을 줄이면서 데이터 량을 줄일 수 있다.
또한, 대기 상태 비디오의 프레임들에 대하여 백모션 이미지 세트를 마련하고, 백모션 이미지 세트를 통해 재생 중인 대기 상태 비디오를 첫 번째 프레임으로 되돌린 후, 대기 상태 비디오의 첫 번째 프레임부터 발화 상태 이미지와 발화 음성을 합성함으로써, 대기 상태 비디오의 재생 중 언제 발화 상태 이미지와 발화 음성이 생성되더라도 다른 변수를 고려하지 않고도 합성 발화 비디오를 용이하게 생성할 수 있다.
도 1은 예시적 실시예에 따른 인공 지능을 이용한 대화 시스템을 도시한 도면이다.
도 2는 예시적 실시예에 따른 발화 비디오 제공 장치를 도시한 도면이다.
도 3은 예시적 실시예에 따른 대기 상태 비디오에 발화 상태 이미지와 발화 음성을 합성하는 과정을 설명하기 위한 도면이다.
도 4는 예시적 실시예에 따른 백모션 비디오를 설명하기 위한 도면이다.
도 5는 예시적 실시예에 따른 재생 중인 대기 상태 비디오를 첫 번째 프레임으로 되돌리는 과정을 설명하기 위한 도면이다.
도 6은 예시적 실시예에 따른 발화 비디오 제공 방법을 도시한 도면이다.
도 7은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
한편, 각 단계들에 있어, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 수행될 수 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하고, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주 기능별로 구분한 것에 불과하다. 즉, 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있다. 각 구성부는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 예시적 실시예에 따른 인공 지능을 이용한 대화 시스템을 도시한 도면이고, 도 2는 예시적 실시예에 따른 발화 비디오 제공 장치를 도시한 도면이고, 도 3은 예시적 실시예에 따른 대기 상태 비디오에 발화 상태 이미지와 발화 음성을 합성하는 과정을 설명하기 위한 도면이다.
도 1 내지 도 3을 참조하면, 인공 지능을 이용한 대화 시스템(100)은 발화 비디오 제공 장치(110) 및 단말(120)을 포함할 수 있다.
발화 비디오 제공 장치(110)는 단말(120)과 통신하여 단말(120)의 사용자와 인공 지능을 이용한 대화(AI 대화)를 수행할 수 있다.
발화 비디오 제공 장치(110)는 단말(120)을 통해 입력된 텍스트 또는 음성에 대해 답변하는 합성 발화 비디오를 생성하고, 생성된 합성 발화 비디오를 단말(120)에 제공할 수 있다.
예시적 실시예에 따르면, 합성 발화 비디오는 인공 지능을 기반으로 합성된 비디오로 소정의 인물이 발화하는 비디오일 수 있다. 여기서, 소정의 인물은 가상의 인물일 수도 있고, 대중들에게 널리 알려진 인물일 수 있으나 이에 한정되는 것은 아니다.
발화 비디오 제공 장치(110)는 도 2에 도시된 바와 같이, 발화 상태 이미지 생성부(210), 발화 음성 생성부(220), 합성 발화 비디오 생성부(230) 및 재생부(240)를 포함할 수 있다.
발화 상태 이미지 생성부(210)는 대기 상태 비디오의 재생 중 발화 내용의 소스에 기반하여 복수의 발화 상태 이미지를 생성할 수 있다. 이때 발화 상태 이미지는 비디오 속 인물(대기 상태 비디오 속 인물과 아이덴티티가 동일한 인물)이 발화를 하는 상태(대화 상대방에게 말을 하는 상태)에 있는 이미지일 수 있다.
예시적 실시예에 따르면, 발화 상태 이미지는 대기 상태 비디오 속 인물의 얼굴 이미지일 수 있다. 이와 같이, 발화 상태 이미지 생성부(210)는 대기 상태 비디오 속 인물의 얼굴만을 포함하는 발화 상태 이미지를 생성함으로써, 발화 상태 이미지를 보다 신속하게 생성하면서도 데이터 용량을 줄일 수 있다.
대기 상태 비디오는 비디오 속 인물이 대기 상태에 있는 비디오로서 비디오 파일 형식(예컨대, WebM, Matroska, 플래시 비디오(FLV), F4V, VOB, Ogg Video, Dirac, AVI, AMV, SVI, 3GPP, 윈도우 미디어 비디오, 고급 시스템 포맷(ASF), MPEG 등)으로 형성될 수 있다. 여기서 대기 상태는 비디오 속 인물이 발화를 하기 전의 상태(예를 들어, 상대방의 말을 듣고 있는 상태 또는 대화가 있기 전 말이 없는 상태 등)일 수 있다.
대기 상태 비디오는 소정의 재생 시간을 가지며, 비디오 속 인물이 대기 상태에 있는 동안 자연스러운 동작을 표현하도록 마련될 수 있다. 즉, 대기 상태 비디오는 비디오 속 인물이 대화 상대방의 말을 듣는 동안 그에 따른 인물의 표정, 자세, 및 동작(예를 들어, 고개를 끄덕이는 동작, 두 손을 모으고 경청하는 동작, 고개를 갸우뚱 하는 동작, 미소를 짓는 표정 등)을 자연스럽게 표현하도록 마련될 수 있다.
발화 내용의 소스는 단말(120)을 통해 입력된 텍스트 또는 음성에 대한 답변으로서 텍스트 형태일 수 있으나, 이에 한정되는 것은 아니며 음성 형태일 수도 있다.
발화 내용의 소스는 발화 비디오 제공 장치(110)가 단말(120)을 통해 입력된 텍스트 또는 음성을 분석하여 인공 지능을 통해 생성할 수 있으나, 이에 한정되는 것은 아니며 외부 장치(예를 들어, 단말(120)을 통해 입력된 텍스트 또는 음성을 분석하여 발화 내용의 소스를 생성하는 장치) 또는 관리자로부터 입력된 것일 수도 있다.
발화 음성 생성부(220)는 대기 상태 비디오의 재생 중 발화 내용의 소스에 기반하여 발화 음성을 생성할 수 있다. 여기서 발화 음성은 발화 상태 이미지 생성부(210)에서 생성된 복수의 발화 상태 이미지에 대응할 수 있다. 즉, 동일한 발화 내용의 소스를 기반으로 발화 상태 이미지 생성부(210)는 복수의 발화 상태 이미지를 생성하고, 발화 음성 생성부(220)는 발화 음성을 생성할 수 있다.
한편, 발화 내용의 소스(텍스트 또는 음성)를 기반으로 이미지 또는 음성을 생성하는 기술은 기 공지된 기술이므로 이에 대한 자세한 설명은 생략하기로 한다.
합성 발화 비디오 생성부(230)는 대기 상태 비디오에 발화 상태 이미지 생성부(210)에서 생성된 복수의 발화 상태 이미지와 발화 음성 생성부(220)에서 생성된 발화 음성을 합성하여 합성 발화 비디오를 생성할 수 있다.
예를 들어, 도 3에 도시된 바와 같이 합성 발화 비디오 생성부(230)는 대기 상태 비디오 속 인물의 얼굴을 발화 상태 이미지(즉, 해당 인물의 얼굴 부분)로 교체하고, 발화 음성을 합성하여 합성 발화 비디오를 생성할 수 있다.
예시적 실시예에 따르면, 합성 발화 비디오 생성부(230)는 대기 상태 비디오의 기준 프레임부터 각 발화 상태 이미지와 발화 음성을 합성할 수 있다. 여기서 기준 프레임은 대기 상태 비디오의 첫번째 프레임일 수 있으나 이에 한정되는 것은 아니다. 즉, 대기 상태 비디오, 발화 상태 이미지 및 발화 음성의 합성은 대기 상태 비디오의 기준 프레임(예컨대, 첫번째 프레임)부터 이루어질 수 있다.
예시적 실시예에 따른 발화 비디오 제공 장치(110)는 대기 상태 비디오, 발화 상태 이미지 및 발화 음성의 합성 지점을 대기 상태 비디오의 기준 프레임(예컨대, 첫번째 프레임)으로 통일시킴으로써, 대기 상태 비디오의 재생 중 언제 발화 상태 이미지 및 발화 음성이 생성되더라도 다른 변수(예를 들어, 발화 비디오 제공 장치(110)와 단말(120) 간의 네트워크 환경 등)을 고려하지 않고도 대기 상태 비디오, 발화 상태 이미지 및 발화 음성을 합성하여 합성 발화 비디오를 용이하게 생성할 수 있다. 이하에서는 기준 프레임이 첫번째 프레임인 경우를 예를 들어 설명한다.
재생부(240)는 대기 상태 비디오를 재생하여 단말(120)로 전송할 수 있다.
예시적 실시예에 따르면, 재생부(240)는 대기 상태 비디오를 반복 재생할 수 있다. 예를 들어, 재생부(240)는 대기 상태 비디오의 첫번째 프레임부터 마지막 프레임까지 재생 후, 다시 첫번째 프레임으로 되돌아가는 방법으로 대기 상태 비디오를 반복 재생할 수 있다. 이때 후술하는 바와 같이 대기 상태 비디오의 마지막 프레임의 재생이 완료되면, 재생부(240)는 대기 상태 비디오의 재생을 중지하고 대기 상태 비디오의 마지막 프레임에 대응하는 백모션 비디오의 백모션 프레임 세트를 재생함으로써 자연스럽게 대기 상태 비디오의 첫번째 프레임으로 되돌아 갈 수 있다.
재생부(240)는 대기 상태 비디오의 재생 중 발화 상태 이미지와 발화 음성의 생성이 완료되면, 대기 상태 비디오의 재생을 중지하고 백모션 비디오를 재생하여 단말(120)로 전송할 수 있다.
백모션 비디오는 대기 상태 비디오의 임의의 프레임과 대기 상태 비디오의 기준 프레임 간의 이미지 보간을 위한 것으로 비디오 파일 형식(예컨대, WebM, Matroska, 플래시 비디오(FLV), F4V, VOB, Ogg Video, Dirac, AVI, AMV, SVI, 3GPP, 윈도우 미디어 비디오, 고급 시스템 포맷(ASF), MPEG 등)으로 형성될 수 있다. 백모션 비디오를 통해 대기 상태 비디오의 임의의 프레임에서 대기 상태 비디오의 기준 프레임으로 되돌아갈 때 임의의 프레임과 기준 프레임이 자연스럽게 연결될 수 있다. 여기서 프레임간 자연스럽게 연결된다는 것은 비디오 속 인물의 동작이 자연스럽게 연결되는 것을 의미할 수 있다.
백모션 비디오는 복수의 백모션 프레임 세트(백모션 이미지 세트라고 호칭될 수 있음)를 포함할 수 있다. 즉, 복수의 백모션 프레임 세트가 모여 하나의 백모션 비디오를 형성할 수 있다. 각 백모션 프레임 세트는 대기 상태 비디오의 각 프레임과 기준 프레임 간의 이미지 보간을 위해 마련된 것일 수 있다. 예를 들어, 백모션 프레임 세트는 기 설정된 프레임 간격 또는 기 설정된 시간 간격마다 대기 상태 비디오의 각 프레임에 대하여 마련될 수 있다. 예컨대, 기 설정된 프레임 간격이 3인 경우, 백모션 프레임 세트는 대기 상태 비디오의 세번째 프레임, 여섯번째 프레임, 아홉번째 프레임 등에 대하여 마련될 수 있다.
예시적 실시예에 따르면 재생부(240)는 대기 상태 비디오의 재생 중 발화 상태 이미지와 발화 음성의 생성이 완료되면, 이후의 대기 상태 비디오의 프레임들 중 백모션 프레임 세트를 갖는 가장 가까운 프레임을 검출하고, 백모션 비디오에서 대기 상태 비디오의 검출된 프레임에 대응하는 백모션 프레임 세트가 존재하는 구간(이하 백모션 프레임 세트 구간)을 검출할 수 있다. 또한, 재생부(240)는 대기 상태 비디오를 검출된 프레임까지 재생한 다음 백모션 비디오의 검출된 백모션 프레임 세트 구간을 재생함으로써 자연스럽게 대기 상태 비디오의 첫번째 프레임으로 되돌릴 수 있다.
재생부(240)는 백모션 비디오의 검출된 백모션 프레임 세트 구간을 재생한 다음, 합성 발화 비디오를 재생하여 단말(120)로 전송할 수 있다.
전술한 바와 같이 합성 발화 비디오는 대기 상태 비디오의 첫번째 프레임부터 발화 상태 이미지 및 발화 음성과 합성되어 생성될 수 있다. 따라서, 백모션 비디오의 해당 백모션 프레임 세트 구간의 재생을 통해 대기 상태 비디오의 마지막 재생 프레임과 합성 발화 비디오는 자연스럽게 연결될 수 있다.
재생부(240)는 합성 발화 비디오의 재생이 종료되면, 합성 발화 비디오의 종료 시점부터 대기 상태 비디오를 다시 재생할 수 있다. 또한 재생부(240)은 대기 상태 비디오를 마지막 프레임까지 재생한 경우, 대기 상태 비디오의 마지막 프레임에 대응하는 백모션 비디오의 백모션 프레임 세트를 이용하여 대기 상태 비디오의 첫 번째 프레임으로 다시 돌아가 대기 상태 비디오를 재생할 수 있다.
예시적 실시예에 따르면, 발화 비디오 제공 장치(110)는 대기 상태 비디오 생성부(250) 및 백모션 비디오 생성부(260)를 더 포함할 수 있다.
대기 상태 비디오 생성부(250)는 소정의 재생 시간을 갖는 대기 상태 비디오를 생성할 수 있다. 예를 들어, 대기 상태 비디오 생성부(250)는 복수의 대기 상태 이미지를 인코딩하여 비디오 파일 형식의 하나의 대기 상태 비디오를 생성할 수 있다. 전술한 바와 같이, 대기 상태 비디오는 비디오 속 인물이 대기 상태에 있는 동안 취하는 자연스러운 동작을 표현할 수 있다.
백모션 비디오 생성부(260)는 대기 상태 비디오의 프레임들에 대하여 기 설정된 프레임 간격 또는 기 설정된 시간 간격마다 그에 대응하는 백모션 이미지 세트를 생성할 수 있다. 또한, 백모션 비디오 생성부(260)는 생성된 백모션 이미지 세트들을 인코딩하여 비디오 파일 형식의 하나의 백모션 비디오를 생성할 수 있다.
단말(120)은 통신 네트워크를 통해 발화 비디오 제공 장치(110)와 통신 가능하게 연결될 수 있다.
예시적 실시예에 따르면, 통신 네트워크는 인터넷, 하나 이상의 로컬 영역 네트워크(local area networks), 광역 네트워크(wide area networks), 셀룰러 네트워크, 모바일 네트워크, 그 밖에 다른 종류의 네트워크들, 또는 이러한 네트워크들의 조합을 포함할 수 있다.
단말(120)은 예를 들어, 인공 지능과 대화하고자 하는 사용자 단말(예를 들어, 스마트폰, 태블릿 PC, 노트북, 데스크탑 PC 등), 무인 주문용 키오스크, 전자식 안내 데스크, 옥외 광고 스크린, 로봇 등을 포함할 수 있다.
단말(120)은 통신 네트워크를 통해 발화 비디오 제공 장치(110)에 접속할 수 있다. 이 경우, 단말(120)은 대기 상태 비디오와 백모션 비디오를 발화 비디오 제공 장치(110)로부터 수신하는 로딩 과정이 필요하다. 그러나 대기 상태 비디오와 백모션 비디오가 비디오 파일 형식이 아닌 이미지 파일 형식인 경우, 데이터 용량이 커서 로딩 시간이 오래 걸리며, 그에 따라 대기 상태의 인물의 자세 또는 제스처를 추가하는 것도 한계가 있다.
예시적 실시예에 따른 발화 비디오 제공 장치(110)는 이미지 파일 형식이 아닌 비디오 파일 형식의 대기 상태 비디오와 백모션 비디오를 이용함으로써, 이미지 파일 형식에 비하여 단말(120)의 로딩 시간을 줄이는 것이 가능하며 그에 따라 대기 상태의 인물의 다양한 자세 또는 제스처를 추가하는 것이 가능하다.
예시적 실시예에 따른 발화 비디오 제공 장치(110)는 대기 상태 비디오를 미리 준비하여 대기 상태 비디오를 재생하는 중 발화 상태 이미지 및 발화 음성을 생성하여 대기 상태 비디오와 합성함으로써, 합성 발화 비디오를 실시간으로 생성할 수 있으며, 그로 인해 인공 지능 기반의 대화 관련 서비스를 실시간으로 제공할 수 있다.
또한, 발화 상태 이미지를 대기 상태 비디오 속 인물의 얼굴 부분에 대해 생성하고, 대기 상태 비디오의 얼굴 부분만을 발화 상태 이미지로 교체하여 합성 발화 비디오를 생성함으로써, 합성 발화 비디오의 생성에 따른 시간을 줄이면서 데이터 량을 줄일 수 있다.
또한, 대기 상태 비디오의 프레임들에 대하여 백모션 이미지 세트를 마련하고, 백모션 이미지 세트를 통해 재생 중인 대기 상태 비디오를 첫 번째 프레임으로 되돌린 후, 대기 상태 비디오의 첫 번째 프레임부터 발화 상태 이미지와 발화 음성을 합성함으로써, 대기 상태 비디오의 재생 중 언제 발화 상태 이미지와 발화 음성이 생성되더라도 다른 변수를 고려하지 않고도 합성 발화 비디오를 용이하게 생성할 수 있다.
도 4는 예시적 실시예에 따른 백모션 비디오를 설명하기 위한 도면이다. 도 4는 기 설정된 프레임 간격이 2인 경우를 예시한다.
도 4를 참조하면, 백모션 비디오 생성부(260)는 2 프레임 간격, 즉 대기 상태 비디오(310)의 두번째 프레임(2nd), 네번째 프레임(4th), … , n번째 프레임(nth) 마다 백모션 이미지 세트(411, 412, 413)를 생성할 수 있다. 이때 백모션 이미지 세트(411)는 두번째 프레임(2nd)을 첫번째 프레임(1st)에 자연스럽게 연결하고, 백모션 이미지 세트(412)는 네번째 프레임(4th)를 첫번째 프레임(1st)에 자연스럽게 연결하고, 백모션 이미지 세트(413)는 n번째 프레임(nth)를 첫번째 프레임(1st)에 자연스럽게 연결하도록 마련될 수 있다.
백모션 비디오 생성부(260)는 백모션 이미지 세트(411, 412, 413)를 순차적으로 나열하고 인코딩하여 비디오파일 형식의 하나의 백모션 비디오(410)를 생성할 수 있다.
도 5는 예시적 실시예에 따른 재생 중인 대기 상태 비디오를 첫 번째 프레임으로 되돌리는 과정을 설명하기 위한 도면이다.
도 5를 참조하면, 대기 상태 비디오(310)의 재생 중 j번째 프레임(jth)에서 발화 상태 이미지와 발화 음성의 생성이 완료되면, 재생부(240)는 j번째 프레임(jth) 이후의 프레임들(kth, lth) 중 백모션 이미지 세트를 갖는 가장 가까운 프레임을 검출할 수 있다.
예를 들어, 이후의 프레임들(kth, lth) 중 백모션 이미지 세트를 갖는 가장 가까운 프레임이 k번째 프레임(kth)인 경우, 재생부(240)는 백모션 비디오(410)에서 k번째 프레임(kth)에 대응하는 백모션 이미지 세트(414)를 검출하고 검출된 백모션 이미지 세트(414)를 이용하여 대기 상태 비디오(310)를 첫 번째 프레임(1st)으로 되돌릴 수 있다. 즉, 재생부(414)는 대기 상태 비디오(310)를 k번째 프레임(kth)까지 재생한 다음 백모션 비디오(410)의 백모션 이미지 세트(414)를 재생하여 대기 상태 비디오(310)를 첫번째 프레임으로 자연스럽게 되돌릴 수 있다. 또한 합성 발화 비디오 생성부(230)는 대기 상태 비디오(310)의 첫번째 프레임(1st)에서 발화 상태 이미지와 발화 음성을 합성하여 합성 발화 비디오를 생성하고, 재생부(414)는 백모션 이미지 세트(414)를 재생한 다음 합성 발화 비디오를 재생할 수 있다. 이를 통해 k번째 프레임(kth)과 합성 발화 비디오는 자연스럽게 연결될 수 있다.
도 6은 예시적 실시예에 따른 발화 비디오 제공 방법을 도시한 도면이다. 도 6의 발화 비디오 제공 방법은 도 1의 발화 비디오 제공 장치에 의해 수행될 수 있다.
도 6을 참조하면, 발화 비디오 제공 장치는 대기 상태 비디오를 재생할 수 있다(610). 이때, 대기 상태 비디오는 비디오 속 인물이 대기 상태에 있는 비디오로서 비디오 파일 형식으로 형성될 수 있다.
발화 비디오 제공 장치는 발화 내용의 소스에 기반하여 복수의 발화 상태 이미지와 발화 음성을 생성할 수 있다(620).
발화 내용의 소스는 발화 비디오 제공 장치와 통신 네트워크를 통해 연결된 단말을 통해 입력된 텍스트 또는 음성에 대한 답변으로서 텍스트 형태 또는 음성 형태일 수 있다. 발화 내용의 소스는 단말을 통해 입력된 텍스트 또는 음성을 분석하여 인공 지능을 통해 생성될 수 있다.
발화 상태 이미지는 대기 상태 비디오 속 인물이 발화를 하는 상태에 있는 이미지로서 비디오 속 인물의 얼굴 이미지일 수 있다.
발화 비디오 제공 장치는 대기 상태 비디오의 재생을 중지하고 백모션 비디오를 재생할 수 있다(630). 여기서 백모션 비디오는 대기 상태 비디오의 임의의 프레임과 대기 상태 비디오의 기준 프레임 간의 이미지 보간을 위한 것으로 비디오 파일 형식으로 형성될 수 있다. 백모션 비디오는 대기 상태 비디오의 각 프레임과 기준 프레임 간의 이미지 보간을 위해 마련된 복수의 백모션 프레임 세트를 포함할 수 있다.
예를 들어, 발화 비디오 제공 장치는 대기 상태 비디오의 재생 중 발화 상태 이미지와 발화 음성의 생성이 완료되면, 이후의 대기 상태 비디오의 프레임들 중 백모션 프레임 세트를 갖는 가장 가까운 프레임을 검출하고, 백모션 비디오에서 대기 상태 비디오의 검출된 프레임에 대응하는 백모션 프레임 세트 구간을 검출할 수 있다. 또한, 발화 비디오 제공 장치는 대기 상태 비디오를 검출된 프레임까지 재생한 다음 백모션 비디오의 검출된 백모션 프레임 세트 구간을 재생함으로써 자연스럽게 대기 상태 비디오의 첫번째 프레임으로 되돌릴 수 있다.
발화 비디오 제공 장치는 대기 상태 비디오에 복수의 발화 상태 이미지 및 발화 음성을 합성하여 합성 발화 비디오를 생성하여 재생할 수 있다(640).
예를 들어, 발화 비디오 제공 장치는 대기 상태 비디오의 첫번째 프레임부터 대기 상태 비디오 속 인물의 얼굴을 발화 상태 이미지(즉, 해당 인물의 얼굴 부분)로 교체하고, 발화 음성을 합성하여 합성 발화 비디오를 생성할 수 있다.
도 7은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 발화 비디오 제공 장치(110)일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

Claims (14)

  1. 컴퓨팅 장치에 의해 수행되는 발화 비디오 제공 방법에 있어서,
    비디오 속 인물이 대기 상태에 있는 비디오 파일 포맷의 대기 상태 비디오를 재생하는 단계;
    상기 대기 상태 비디오의 재생 중 발화 내용의 소스에 기반하여 상기 비디오 속 인물이 발화 상태에 있는 복수의 발화 상태 이미지들 및 발화 음성을 생성하는 단계;
    상기 대기 상태 비디오의 재생을 중지하고 상기 대기 상태 비디오의 기준 프레임으로 되돌아가기 위한 비디오 파일 포맷의 백모션 비디오를 재생하는 단계; 및
    상기 기준 프레임부터 상기 대기 상태 비디오에 상기 복수의 발화 상태 이미지들 및 상기 발화 음성을 합성하여 합성 발화 비디오를 생성하는 단계; 를 포함하는,
    발화 비디오 제공 방법.
  2. 제1항에 있어서,
    상기 백모션 비디오는 상기 대기 상태 비디오의 각 프레임과 상기 기준 프레임 간의 이미지 보간을 위한 복수의 백모션 프레임 세트들을 포함하는,
    발화 비디오 제공 방법.
  3. 제2항에 있어서,
    상기 백모션 비디오를 재생하는 단계는,
    상기 복수의 발화 상태 이미지 및 상기 발화 음성의 생성이 완료되면, 완료 이후의 상기 대기 상태 비디오의 프레임들 중 백모션 프레임 세트를 갖는 가장 가까운 프레임을 검출하는 단계;
    상기 백모션 비디오에서 상기 검출된 프레임에 대응하는 백모션 프레임 세트 구간을 검출하는 단계; 및
    상기 대기 상태 비디오를 상기 검출된 프레임까지 재생한 다음 상기 백모션 프레임 세트 구간을 재생한 단계; 를 포함하는,
    발화 비디오 제공 방법.
  4. 제1항에 있어서,
    상기 기준 프레임은 첫번째 프레임인,
    발화 비디오 제공 방법.
  5. 제1항에 있어서,
    상기 대기 상태 비디오를 재생하는 단계는,
    상기 대기 상태 비디오를 반복 재생하는 단계; 를 포함하는,
    발화 비디오 제공 방법.
  6. 제1항에 있어서,
    상기 복수의 발화 상태 이미지들은 상기 비디오 속 인물의 얼굴 이미지들인,
    발화 비디오 제공 방법.
  7. 제6항에 있어서,
    상기 합성 발화 비디오를 생성하는 단계는,
    상기 기준 프레임부터 상기 비디오 속 인물의 얼굴을 각 발화 상태 이미지로 교체하고, 상기 발화 음성을 합성하여 상기 합성 발화 비디오를 생성하는,
    발화 비디오 제공 방법.
  8. 비디오 속 인물이 대기 상태에 있는 비디오 파일 포맷의 대기 상태 비디오의 재생 중 발화 내용의 소스에 기반하여 복수의 발화 상태 이미지를 생성하는 발화 상태 이미지 생성부;
    상기 대기 상태 비디오의 재생 중 상기 발화 내용의 소스에 기반하여 발화 음성을 생성하는 발화 음성 생성부;
    상기 대기 상태 비디오를 재생하고, 상기 복수의 발화 상태 이미지 및 상기 발화 음성의 생성이 완료되면 상기 대기 상태 비디오의 재생을 중지하고 상기 대기 상태 비디오의 기준 프레임으로 되돌아가기 위한 비디오 파일 포맷의 백모션 비디오를 재생하는 재생부; 및
    상기 기준 프레임부터 상기 대기 상태 비디오에 상기 복수의 발화 상태 이미지들 및 상기 발화 음성을 합성하여 합성 발화 비디오를 생성하는 합성 발화 비디오 생성부; 를 포함하는,
    발화 비디오 제공 장치.
  9. 제8항에 있어서,
    상기 백모션 비디오는 상기 대기 상태 비디오의 각 프레임과 상기 기준 프레임 간의 이미지 보간을 위한 복수의 백모션 프레임 세트들을 포함하는,
    발화 비디오 제공 장치.
  10. 제9항에 있어서,
    상기 재생부는,
    상기 복수의 발화 상태 이미지 및 상기 발화 음성의 생성이 완료되면, 완료 이후의 상기 대기 상태 비디오의 프레임들 중 백모션 프레임 세트를 갖는 가장 가까운 프레임을 검출하고,
    상기 백모션 비디오에서 상기 검출된 프레임에 대응하는 백모션 프레임 세트 구간을 검출하고,
    상기 대기 상태 비디오를 상기 검출된 프레임까지 재생한 다음 상기 백모션 프레임 세트 구간을 재생하는,
    발화 비디오 제공 장치.
  11. 제8항에 있어서,
    상기 기준 프레임은 첫번째 프레임인,
    발화 비디오 제공 장치.
  12. 제8항에 있어서,
    상기 재생부는,
    상기 대기 상태 비디오를 반복 재생하는,
    발화 비디오 제공 장치.
  13. 제8항에 있어서,
    상기 복수의 발화 상태 이미지들은 상기 비디오 속 인물의 얼굴 이미지들인,
    발화 비디오 제공 장치.
  14. 제13항에 있어서,
    상기 합성 발화 비디오 생성부는,
    상기 기준 프레임부터 상기 비디오 속 인물의 얼굴을 각 발화 상태 이미지로 교체하고, 상기 발화 음성을 합성하여 상기 합성 발화 비디오를 생성하는,
    발화 비디오 제공 장치.
PCT/KR2022/095117 2022-08-16 2022-08-23 발화 비디오 제공 장치 및 방법 WO2024038975A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220102315A KR102679446B1 (ko) 2022-08-16 발화 비디오 제공 장치 및 방법
KR10-2022-0102315 2022-08-16

Publications (1)

Publication Number Publication Date
WO2024038975A1 true WO2024038975A1 (ko) 2024-02-22

Family

ID=89941990

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/095117 WO2024038975A1 (ko) 2022-08-16 2022-08-23 발화 비디오 제공 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2024038975A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000009490A (ko) * 1998-07-24 2000-02-15 윤종용 음성 합성을 위한 립싱크 방법 및 그 장치
WO2017094527A1 (ja) * 2015-12-04 2017-06-08 日本電産株式会社 動画生成システムおよび動画表示システム
KR101925440B1 (ko) * 2018-04-23 2018-12-05 이정도 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법
KR20190085883A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
KR20220057754A (ko) * 2020-10-30 2022-05-09 주식회사 딥브레인에이아이 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000009490A (ko) * 1998-07-24 2000-02-15 윤종용 음성 합성을 위한 립싱크 방법 및 그 장치
WO2017094527A1 (ja) * 2015-12-04 2017-06-08 日本電産株式会社 動画生成システムおよび動画表示システム
KR20190085883A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
KR101925440B1 (ko) * 2018-04-23 2018-12-05 이정도 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법
KR20220057754A (ko) * 2020-10-30 2022-05-09 주식회사 딥브레인에이아이 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치

Also Published As

Publication number Publication date
KR20240023962A (ko) 2024-02-23

Similar Documents

Publication Publication Date Title
JP6280215B2 (ja) ビデオ会議端末、セカンダリストリームデータアクセス方法およびコンピュータ記憶媒体
US20240185877A1 (en) Method for providing speech video and computing device for executing the method
WO2014181969A1 (ko) 멀티 트랙 미디어 파일이 기록된 기록 매체, 멀티 트랙 미디어 파일 편집 방법, 및 멀티 트랙 미디어 파일 편집 장치
WO2023096392A1 (ko) 동영상 자동 제작 시스템
US8451317B2 (en) Indexing a data stream
WO2024038975A1 (ko) 발화 비디오 제공 장치 및 방법
WO2024038976A1 (ko) 발화 비디오 제공 장치 및 방법
JPWO2018020828A1 (ja) 翻訳装置および翻訳システム
WO2022265148A1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
WO2023277231A1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
WO2022270669A1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
KR102679446B1 (ko) 발화 비디오 제공 장치 및 방법
WO2015102412A1 (ko) 음성파일이 포함된 멀티미디어 콘텐츠 제공 시스템, 방법 및 컴퓨터 프로그램이 기록된 기록매체
CN1195445A (zh) 基于电话的动态图像注释
WO2022085970A1 (ko) 사용자 데이터텍스트에 기반하여 영상을 생성하는 방법 및 그를 위한 전자 장치 및 텍스트에 기반하여 영상을 생성하는 방법
WO2023224154A1 (ko) 합성용 동영상 촬영 시스템 및 방법
US20220222451A1 (en) Audio processing apparatus, method for producing corpus of audio pair, and storage medium on which program is stored
WO2020067597A1 (ko) 비동기적 인스턴트 메시지 서비스를 제공하기 위한 장치, 방법 및 컴퓨터 판독가능 저장 매체
WO2017124225A1 (zh) 一种视频网络会议的人物跟踪方法及系统
WO2017124290A1 (zh) 一种视频网络会议的麦克控制方法及系统
WO2017124228A1 (zh) 一种视频网络的图像追踪方法及系统
WO2017124293A1 (zh) 一种视频会议的开会讨论方法及系统
CN116389780A (zh) 一种多直播流同步方法及装置
CN116627517A (zh) 一种电子设备
WO2001097045A1 (en) Application specific live streaming multimedia mixer apparatus, systems and methods

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22955847

Country of ref document: EP

Kind code of ref document: A1