KR20220077180A - Method and appararus of generating image frame based on audio data using artificail intelligence - Google Patents

Method and appararus of generating image frame based on audio data using artificail intelligence Download PDF

Info

Publication number
KR20220077180A
KR20220077180A KR1020200164055A KR20200164055A KR20220077180A KR 20220077180 A KR20220077180 A KR 20220077180A KR 1020200164055 A KR1020200164055 A KR 1020200164055A KR 20200164055 A KR20200164055 A KR 20200164055A KR 20220077180 A KR20220077180 A KR 20220077180A
Authority
KR
South Korea
Prior art keywords
image frame
region
voice data
generating
area
Prior art date
Application number
KR1020200164055A
Other languages
Korean (ko)
Inventor
남영진
류내원
양용석
Original Assignee
네오컨버전스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네오컨버전스 주식회사 filed Critical 네오컨버전스 주식회사
Priority to KR1020200164055A priority Critical patent/KR20220077180A/en
Publication of KR20220077180A publication Critical patent/KR20220077180A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법 및 장치에 관한 것이다.
본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법은 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치가 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성하는 방법에 있어서, 제1이미지 프레임을 수신하는 단계, 음성 데이터를 수신하는 단계, 제1이미지 프레임에서 제1영역을 검출하고, 제1영역을 추출하는 단계, 제1영역 내에서 음성 데이터에 매칭되도록 제2영역을 변환하여 수정 제1영역을 생성하는 단계, 수정 제1영역을 제1이미지 프레임에 삽입하여 제2이미지 프레임을 생성하는 단계를 포함한다.
The present invention relates to a method and apparatus for generating an image frame based on voice data using artificial intelligence.
The method for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention is a method for generating an image frame based on voice data using artificial intelligence by an apparatus for generating an image frame based on voice data using artificial intelligence, the first image Receiving a frame, receiving voice data, detecting a first region in a first image frame, and extracting the first region, transforming and modifying a second region to match the voice data in the first region generating a first region; and generating a second image frame by inserting the corrected first region into the first image frame.

Description

인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법 및 장치{METHOD AND APPARARUS OF GENERATING IMAGE FRAME BASED ON AUDIO DATA USING ARTIFICAIL INTELLIGENCE}A method and apparatus for generating an image frame based on voice data using artificial intelligence

본 발명은 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for generating an image frame based on voice data using artificial intelligence.

최근에 많이 연구되고 있는 인공지능(artificial intelligence)은 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 의미한다.Artificial intelligence, which has been studied a lot in recent years, is a field of computer science and information technology that studies how computers can do the thinking, learning, and self-development that can be done with human intelligence. It means making it possible to imitate human intelligent behavior.

또한, 최근에는 다양한 동영상들이 생산되고 유통되고 있는 실정이다. 이러한, 동영상들은 종류에 따라서 쉽게 제작할 수 있는 경우도 있지만, 특정 목적을 위한 동영상을 제작하기 위해서는 많은 노력과 비용이 투입되어야 한다.In addition, in recent years, various videos are being produced and distributed. These moving pictures can be easily produced depending on the type, but in order to produce a moving picture for a specific purpose, a lot of effort and money must be invested.

종래에는 기존에 만들어진 동영상에 새로운 음성 데이터를 매칭하여 쉽고 저비용으로 동영상 콘텐츠를 제작하고 싶은 필요가 있었지만, 인공지능을 이용하여 기존에 만들어진 동영상에 새로운 음성 데이터를 매칭하고 동영상을 생성할 수 있는 방법은 없었다.In the past, there was a need to create video content easily and at low cost by matching new audio data to an existing video. However, there is no way to match new audio data to an existing video using artificial intelligence and create a video. there was no

대한민국 공개특허 제10-2019-0094310호Republic of Korea Patent Publication No. 10-2019-0094310

본 발명이 이루고자 하는 기술적인 과제는 음성 데이터를 이미지 프레임에 이질감없이 적용한 동영상 콘텐츠를 만들 수 있는 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법 및 장치를 제공하는데 있다.An object of the present invention is to provide a method and apparatus for generating an image frame based on voice data using artificial intelligence that can create video content by applying voice data to an image frame without any sense of heterogeneity.

본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법은 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치가 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성하는 방법에 있어서, 제1이미지 프레임을 수신하는 단계, 상기 음성 데이터를 수신하는 단계, 상기 제1이미지 프레임에서 제1영역을 검출하고, 상기 제1영역을 추출하는 단계, 상기 제1영역 내에서 상기 음성 데이터에 매칭되도록 제2영역을 변환하여 수정 제1영역을 생성하는 단계, 상기 수정 제1영역을 상기 제1이미지 프레임에 삽입하여 제2이미지 프레임을 생성하는 단계를 포함한다.The method for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention is a method for generating an image frame based on voice data using artificial intelligence by an apparatus for generating an image frame based on voice data using artificial intelligence, the first image receiving a frame, receiving the voice data, detecting a first region in the first image frame, and extracting the first region; a second to match the voice data within the first region generating a first corrected region by transforming the region; and generating a second image frame by inserting the first corrected region into the first image frame.

본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법은 상기 제2이미지 프레임을 보정하여 제3이미지 프레임을 생성하는 단계를 더 포함하되, 상기 수정 제1영역을 수정 제1영역 크기에 따라 기 설정된 비율로 상기 수정 제1영역의 블랜딩 영역을 지정하여, 상기 블랜딩 영역을 보정하는 것을 특징으로 한다.The method for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention further comprises generating a third image frame by correcting the second image frame, wherein the corrected first region is first corrected. The blending area is corrected by designating the blending area of the first correction area at a preset ratio according to the size of the area.

상기 블랜딩 영역은 왼쪽 블랜딩 영역, 오른쪽 블랜딩 영역, 위쪽 블랜딩 영역, 아래쪽 블랜딩 영역, 가운데 블랜딩 영역을 포함하고, 상기 왼쪽 블랜딩 영역과 상기 오른쪽 블랜딩 영역은 크기가 동일하고, 상기 위쪽 블랜딩 영역, 상기 아래쪽 블랜딩 영역은 크기가 동일한 것을 특징으로 한다.The blending area includes a left blending area, a right blending area, an upper blending area, a lower blending area, and a center blending area, the left blending area and the right blending area having the same size, the upper blending area and the lower blending area The regions are characterized in that they are the same size.

본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치는 제1이미지 프레임과 음성 데이터를 저장하는 메모리, 상기 제1이미지 프레임을 수신하고, 상기 음성 데이터를 수신하고, 상기 제1이미지 프레임에서 제1영역을 검출하고, 상기 제1영역을 추출하고, 상기 제1영역 내에서 상기 음성 데이터에 매칭되도록 제2영역을 변환하여 수정 제1영역을 생성하고, 상기 수정 제1영역을 상기 제1이미지 프레임에 삽입하여 제2이미지 프레임을 생성하도록 제어하는 제어부를 포함한다.An apparatus for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention includes a memory for storing a first image frame and voice data, receiving the first image frame, receiving the voice data, and A first region is detected in one image frame, the first region is extracted, and a second region is transformed to match the voice data within the first region to generate a corrected first region, and the corrected first region is generated. and a control unit for controlling to generate a second image frame by inserting the , into the first image frame.

상기 제어부는, 상기 제2이미지 프레임을 보정하여 제3이미지 프레임을 생성하도록 제어하며, 상기 수정 제1영역을 수정 제1영역 크기에 따라 기 설정된 비율로 상기 수정 제1영역의 블랜딩 영역을 지정하여, 상기 블랜딩 영역을 보정하는 것을 특징으로 한다.The control unit controls to generate a third image frame by compensating the second image frame, and designates a blending area of the first corrected region at a preset ratio according to the size of the first corrected region. , characterized in that the blending area is corrected.

본 발명의 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법 및 장치에 의하면 다음과 같은 효과가 있다. According to the method and apparatus for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention, the following effects are obtained.

첫째, 본 발명은 본 발명은 다양한 음성 데이터를 이미지 프레임에 이질감없이 적용하여, 다양한 동영상 콘텐츠를 효율적으로 생성할 수 있다.First, according to the present invention, various video contents can be efficiently generated by applying various voice data to an image frame without any sense of heterogeneity.

둘째, 본 발명은 인공지능 기반 기술을 이용하여 제2이미지 프레임의 블랜딩을 수행함으로써, 수정 제1영역과 제1이미지 프레임 주변 픽셀 간 이질감을 효율적으로 해결 가능하다.Second, in the present invention, by performing the blending of the second image frame using an artificial intelligence-based technology, it is possible to efficiently solve the heterogeneity between the first corrected region and the pixels around the first image frame.

셋째, 본 발명은 다른 언어 등으로 더빙된 동영상에서 실제 발음하는 음소에 맞추어 영상의 입술 모양을 변환하여 입술 모양과 소리가 맞지 않아 발생하는 이질감 제거한 동영상 변환이 가능하다.Third, according to the present invention, it is possible to convert a moving image in which the lip shape of the image is changed according to the phoneme actually pronounced in a video dubbed in another language, etc., thereby removing the heterogeneity caused by the lip shape and the sound not matching.

넷째, 본 발명은 단일 이미지인 이미지 프레임과 음성 데이터를 입력받아 입술 모양을 음소에 맞추어 프레임을 연속적으로 만들어 동영상을 생성할 수 있다.Fourth, according to the present invention, it is possible to generate a moving picture by receiving an image frame and voice data, which are a single image, and continuously making frames by matching the shape of the lips to the phoneme.

다섯째, 본 발명은 대형 학원은 수출을 위하여 기존 동영상 콘텐츠를 더빙된 외국어에 맞게 입모양을 변환하여 쉽게 새로운 동영상 콘텐츠를 만들 수 있고, 홈쇼핑은 기 제작된 동영상을 편성하여 송출하다가 긴급히 가격 변경 시 가격 부분만 오디오와 입 모양을 신속히 변환한 새로운 동영상을 만들 수 있다.Fifth, according to the present invention, large private institutes can easily create new video content by changing the mouth shape of existing video content to match the dubbed foreign language for export. You can create a new video that quickly converts only partial audio and mouth shape.

도 1은 본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법을설명하기 위한 블록도이다.
도 3은 본 명명의 일 실시예에 따른 제2이미지 프레임을 보정하는 방법을 설명하기 위한 도면이다.
1 is a block diagram illustrating an apparatus for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention.
2 is a block diagram illustrating a method for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention.
3 is a diagram for explaining a method of correcting a second image frame according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. Advantages and features of the present invention and methods of achieving them will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only these embodiments allow the disclosure of the present invention to be complete, and are common in the art to which the present invention pertains. It is provided to fully inform those with knowledge of the scope of the invention, and the present invention is only defined by the scope of the claims.

또한, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 이외의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다.In addition, the terminology used herein is for the purpose of describing the embodiments and is not intended to limit the present invention. In this specification, the singular also includes the plural unless specifically stated otherwise in the phrase. As used herein, "comprises" and/or "comprising" does not exclude the presence or addition of elements other than those mentioned. Unless otherwise defined, all terms (including technical and scientific terms) used herein may be used with the meaning commonly understood by those of ordinary skill in the art to which the present invention belongs.

이하, 본 발명을 보다 구체적으로 설명하기 위하여 본 발명에 따른 실시예들을 첨부 도면을 참조하면서 보다 상세하게 설명하고자 한다.Hereinafter, in order to describe the present invention in more detail, embodiments according to the present invention will be described in more detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치를 설명하기 위한 블록도이다..1 is a block diagram illustrating an apparatus for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치(이하, “이미지 프레임 생성장치”라 한다.)는 메모리(10), 제어부(20), 표시부(30), 입력부(40), 송수신부(50)를 포함한다. 이러한 구성요소는 하나 이상의 통신버스 또는 신호선을 통하여 통신한다.Referring to FIG. 1 , an apparatus for generating an image frame based on voice data using artificial intelligence (hereinafter, referred to as an “image frame generating apparatus”) according to an embodiment of the present invention includes a memory 10, a control unit 20, and a display unit. 30 , an input unit 40 , and a transceiver 50 . These components communicate via one or more communication buses or signal lines.

메모리(10)는 다양한 데이터 저장하는 부분이다.The memory 10 is a part for storing various data.

예를 들어, 메모리(10)는 제1이미지 프레임과 음성 데이터, 동영상 등을 저장한다. 여기서, 음성 데이터는 다양한 언어(한국어, 영어, 베트남어, 중국어, 일본어 등)로 음성 데이터가 가능하다. 예를 들어, 음성 데이터는 강의 내용을 포함하는 음성 데이터, 사내 방송을 위한 음성 데이터, 홈쇼핑에서 제품 설명을 위한 음성 데이터 등 다양한 음성 데이터가 가능하다.For example, the memory 10 stores the first image frame, audio data, and video. Here, the voice data may be in various languages (Korean, English, Vietnamese, Chinese, Japanese, etc.). For example, as for the voice data, various voice data such as voice data including lecture contents, voice data for in-house broadcasting, and voice data for product description in home shopping are possible.

또한, 메모리(10)는 기 설정된 비율, 제2이미지 프레임, 제3이미지 프레임 등을 저장할 수 있다.Also, the memory 10 may store a preset ratio, a second image frame, a third image frame, and the like.

또한, 메모리(10)는 각각의 최초 프레임에 음성 데이터에 따라 변환된 변환 프레임을 저장한다.In addition, the memory 10 stores the converted frame converted according to the voice data in each initial frame.

제어부(20)는 본 발명에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치를 제어하는 부분이다. 또한, 제어부(20)는 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치의 각 구성요소를 제어하는 부분이다. The control unit 20 is a part that controls the apparatus for generating an image frame based on voice data using artificial intelligence according to the present invention. In addition, the control unit 20 is a part that controls each component of the apparatus for generating an image frame based on voice data using artificial intelligence.

제어부(20)는 제1이미지 프레임을 수신하고, 음성 데이터를 수신하고, 제1이미지 프레임에서 제1영역을 검출하고, 제1영역을 추출하고, 제1영역 내에서 음성 데이터에 매칭되도록 제2영역을 변환하여 수정 제1영역을 생성하고, 수정 제1영역을 제1이미지 프레임에 삽입하여 제2이미지 프레임을 생성하도록 제어한다.The control unit 20 receives the first image frame, receives voice data, detects a first region in the first image frame, extracts the first region, and the second region to match the voice data within the first region. The region is converted to generate a first corrected region, and the second image frame is generated by inserting the first corrected region into the first image frame.

또한, 제어부(20)는 제2이미지 프레임을 보정하여 제3이미지 프레임을 생성하도록 제어한다. 이때, 제어부(20)수정 제1영역을 수정 제1영역 크기에 따라 기 설정된 비율로 수정 제1영역의 블랜딩 영역을 지정하여, 블랜딩 영역을 보정할 수 있다.In addition, the controller 20 controls to generate a third image frame by correcting the second image frame. In this case, the control unit 20 may correct the blending area by designating a blending area of the first corrected area at a preset ratio according to the size of the first corrected area.

표시부(30)는 사용자와 이미지 프레임 생성장치 사이의 시각적인 출력을 위한 인터페이스를 제공한다. The display unit 30 provides an interface for visual output between the user and the image frame generating device.

또한, 표시부(30)는 제1이미지 프레임, 제1영역, 제2영역, 제2이미지 프레임, 제3이미지 프레임을 표시하는 부분이다.Also, the display unit 30 is a portion that displays the first image frame, the first region, the second region, the second image frame, and the third image frame.

또한, 표시부(30)는 적어도 하나 이상의 제3이미지 프레임을 오디오 타임 스탬프에 맞추어 인코딩한 동영상을 표시할 수 있다.Also, the display unit 30 may display a moving picture obtained by encoding at least one or more third image frames according to an audio time stamp.

입력부(40)는 사용자와 이미지 프레임 생성장치 사이의 명령신호를 입력하는 인터페이스를 제공한다. The input unit 40 provides an interface for inputting a command signal between the user and the image frame generating device.

즉, 입력부(40)는 사용자가 이미지 프레임 생성장치에 입력신호와 같은 명령신호 등을 입력할 수 있고, 사용자가 입력부(40)를 통해서 사용자 명령신호를 입력하면, 이미지 프레임 생성장치는 다양한 종류의 사용자 명령신호를 검출하고 제어부(20)의 제어에 의해서 사용자의 명령을 수행한다. That is, the input unit 40 allows the user to input a command signal such as an input signal to the image frame generating device. The user command signal is detected and the user command is executed under the control of the control unit 20 .

사용자는 입력부(40)를 통해서 기 설정된 비율 등을 변경하는 명령신호를 이미지 프레임 생성장치에 입력할 수 있다.A user may input a command signal for changing a preset ratio or the like to the image frame generating apparatus through the input unit 40 .

다만, 터치스크린과 같은 일부 실시예에서는 표시부(30)와 입력부(40)가 일체로 될 수 있고, 분리될 수도 있다.However, in some embodiments such as a touch screen, the display unit 30 and the input unit 40 may be integrated or separated.

송수신부(50)는 전자파와 같은 신호로 데이터를 송수신하는 부분이다. 송수신부(50)는 전기신호를 전자파로 변환하며 이 전자파를 통하여 통신 네트워크 및 다른 통신장치와 통신한다.The transmitter/receiver 50 is a part that transmits/receives data using a signal such as an electromagnetic wave. The transceiver 50 converts an electrical signal into an electromagnetic wave and communicates with a communication network and other communication devices through the electromagnetic wave.

예를 들어, 송수신부(50)는 제어부(20)의 제어에 따라서 프레임, 동영상, 음성 데이터 등을 외부 서버에 전송하거나, 외부 서버로부터 전체 이미지 파일이나 다양한 정보를 수신할 수 있다.For example, the transceiver 50 may transmit frames, moving images, voice data, etc. to an external server under the control of the controller 20 , or may receive an entire image file or various information from the external server.

도 2는 본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법을 설명하기 위한 블록도이다.2 is a block diagram illustrating a method of generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention.

도 3은 본 발명의 일 실시예에 따른 제2이미지 프레임을 보정하는 방법을 설명하기 위한 도면이다.3 is a view for explaining a method of correcting a second image frame according to an embodiment of the present invention.

이하의 설명에서, 이미지 프레임 생성장치는 내부에 포함된 제어부(20)의 제어에 의해서 동작이 수행되는 것이라고 설명될 수 있다.In the following description, it may be described that the image frame generating apparatus is operated under the control of the controller 20 included therein.

도 2, 도 3을 참조하여, 본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법을 설명한다.A method of generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention will be described with reference to FIGS. 2 and 3 .

이미지 프레임 생성장치는 제1이미지 프레임을 수신한다(S201). 여기서, 제1이미지 프레임은 동영상과 같은 연속된 프레임에서 특정된 하나의 프레임이 가능하다. 예를 들어, 제1이미지 프레임은 사람의 얼굴을 포함하는 이미지 프레임이 될 수 있다.The image frame generating apparatus receives the first image frame (S201). Here, the first image frame may be one frame specified in continuous frames such as moving pictures. For example, the first image frame may be an image frame including a human face.

이미지 프레임 생성장치는 음성 데이터를 수신한다(S202). 여기서, 음성 데이터는 다양한 언어(한국어, 영어, 베트남어, 중국어, 일본어 등)로 음성 데이터가 가능하다. 예를 들어, 음성 데이터는 강의 내용을 포함하는 음성 데이터, 사내 방송을 위한 음성 데이터, 홈쇼핑에서 제품 설명을 위한 음성 데이터 등 다양한 음성 데이터가 가능하다.The image frame generating apparatus receives voice data (S202). Here, the voice data may be in various languages (Korean, English, Vietnamese, Chinese, Japanese, etc.). For example, as for the voice data, various voice data such as voice data including lecture contents, voice data for in-house broadcasting, and voice data for product description in home shopping are possible.

이미지 프레임 생성장치는 제1이미지 프레임에서 제1영역을 검출하고, 제1영역을 추출한다(S203). 예를 들어, 제1영역은 사람 얼굴을 포함하는 사람 얼굴 영역이 가능하다. The image frame generating apparatus detects the first region from the first image frame and extracts the first region (S203). For example, the first region may be a human face region including a human face.

여기서, 이미지 프레임 생성장치는 제1영역인 사람 얼굴 영역을 검출할 때, 얼굴의 상하 각도 및 좌우 회전 상황을 인식하는데 효과적인 랜드마크를 기반으로 한 검출 방식으로 제1영역인 사람 얼굴 영역을 검출할 수 있다. 이러한 본 발명은 제1영역인 사람 얼굴 영역을 검출하는데 실시간성보다 검출 후 이질감 없는 변환 가능 여부를 판단하는데 유리하다. Here, when the image frame generating apparatus detects the human face region as the first region, it is possible to detect the human face region as the first region using a landmark-based detection method effective for recognizing the vertical angle and left and right rotation of the face. can Such an embodiment of the present invention is advantageous in determining whether transformation without heterogeneity after detection is possible rather than real-time in detecting the human face region, which is the first region.

또한, 이미지 프레임 생성장치는 제1이미지 프레임에서 제1영역을 검출할 때, 얼굴 중심점을 기준으로 캐너니컬 얼라인먼트(Canonical Alignment)를 수행할 수 있다. 이러한 캐너니컬 얼라인먼트(Canonical Alignment)는 제1영역인 사람 얼굴 영역을 검출 후, 정확하게 제2영역(입술 부분)을 변환하기 위해 수행할 수 있다.Also, when detecting the first region in the first image frame, the image frame generating apparatus may perform canonical alignment based on the center point of the face. Such canonical alignment may be performed to accurately transform the second region (the lip portion) after detecting the human face region, which is the first region.

이미지 프레임 생성장치는 제1영역 내에서 음성 데이터에 매칭되도록 제2영역을 변환하여 수정 제1영역을 생성한다(S204). 예를 들어, 제2영역은 입술 부분으로, 이미지 프레임 생성장치는 음성 데이터에 매칭되도록 입술 부분을 변환하여 수정 제1영역을 생성할 수 있다. 즉, 이미지 프레임 생성장치는 음성 데이터인 음소 및/또는 발음 특성에 맞추어 제2영역인 입술 부분의 모양을 변환하여 수정 제1영역을 생성할 수 있다. 이렇게 생성된 수정 제1영역은 기존의 동영상에 다른 언어로 더빙하는 경우에 실제 발음하는 음소에 동영상의 입술 부분의 모양을 변환하여 입술 모양과 음성이 일치하지 않아서 발행하는 이질감을 제거할 수 있다.The image frame generating apparatus converts the second area to match the voice data in the first area to generate a modified first area (S204). For example, the second region may be a lip portion, and the image frame generating apparatus may convert the lip portion to match the voice data to generate the corrected first region. That is, the image frame generating apparatus may generate the corrected first region by transforming the shape of the lip portion, which is the second region, according to phoneme and/or pronunciation characteristics of voice data. In the case of dubbing an existing video into another language, the generated first corrected region converts the shape of the lips of the video to the phoneme that is actually pronounced, thereby removing the sense of heterogeneity generated because the shape of the lips and the voice do not match.

만약, S203단계에서 이미지 프레임 생성장치는 제1이미지 프레임에서 제1영역을 검출할 때, 얼굴 중심점을 기준으로 캐너니컬 얼라인먼트(Canonical Alignment)를 수행한 경우, S204 단계에서 디얼라인먼트(De-alignment)를 수행하여 다시 사람 얼굴 영역을 원래의 각도로 복원해야한다.If, when the image frame generating apparatus detects the first region in the first image frame in step S203, canonical alignment is performed based on the center point of the face, de-alignment in step S204 to restore the human face area back to its original angle.

이미지 프레임 생성장치는 수정 제1영역을 제1이미지 프레임에 삽입하여 제2이미지 프레임을 생성한다(S205). 이때, 제2이미지 프레임은 수정 제1영역을 제1이미지 프레임에 삽입하면서 이질감의 문제가 발생할 수 있다.The image frame generating apparatus inserts the corrected first region into the first image frame to generate a second image frame (S205). In this case, in the second image frame, a problem of heterogeneity may occur while the correction first region is inserted into the first image frame.

이미지 프레임 생성장치는 제2이미지 프레임을 보정하여 제3이미지 프레임을 생성한다(S206).The image frame generating apparatus generates a third image frame by correcting the second image frame (S206).

이미지 프레임 생성장치는 제2이미지 프레임의 이질감을 해결하기 위해서 보정을 수행한다. The image frame generating apparatus performs correction in order to solve the heterogeneity of the second image frame.

도 3을 참조하면, 이미지 프레임 생성장치는 수정 제1영역을 수정 제1영역 크기에 따라 기 설정된 비율로 수정 제1영역의 블랜딩 영역을 지정하여, 각각의 블랜딩 영역을 각각 보정할 수 있다. Referring to FIG. 3 , the image frame generating apparatus may correct the respective blending areas by designating the first retouched area as a blending area of the retouched first area at a preset ratio according to the size of the retouched first area.

예를 들어, 수정 제1영역 크기가 가로*세로가 80*100이고, 기 설정된 비율이 5%이면, 이미지 프레임 생성장치는 수정 제1영역에서 왼쪽 블랜딩 영역(310)의 크기는 가로*세로가 4*100이고, 오른쪽 블랜딩 영역(320)의 크기는 가로*세로가 4*100이고, 위쪽 블랜딩 영역(330)의 크기는 가로*세로가 80*5이고, 아래쪽 블랜딩 영역(340)의 크기는 가로*세로가 80*5이고, 가운데 블랜딩 영역(350)의 크기는 가로*세로가 72*90로 블랜딩 영역을 지정하여, 각 블랜딩 영역을 보정하는 것이 가능하다. 이때, 왼쪽 블랜딩 영역(310)과 오른쪽 블랜딩 영역(320)은 크기가 동일하고, 위쪽 블랜딩 영역(330), 아래쪽 블랜딩 영역(340)은 크기가 동일하도록 설정할 수 있다.For example, if the size of the first correction area is 80*100 in width*length and the preset ratio is 5%, the image frame generating apparatus determines that the size of the left blending area 310 in the first correction area is horizontal*length 4*100, the size of the right blending area 320 is 4*100 in width*length, the size of the upper blending area 330 is 80*5 in width*length, and the size of the lower blending area 340 is Horizontal*length is 80*5, and the size of the central blending area 350 is 72*90 horizontal*vertical, so it is possible to correct each blending area. In this case, the left blending area 310 and the right blending area 320 may have the same size, and the upper blending area 330 and the lower blending area 340 may be set to have the same size.

여기서, 기 설정된 비율, 블랜딩 영역의 개수, 블랜딩 영역의 크기 등은 사용자에 의해서 설정 가능하고, 다양한 실시예가 가능하다.Here, the preset ratio, the number of blending regions, the size of the blending regions, etc. can be set by the user, and various embodiments are possible.

이렇게 함으로써, 본 발명은 제2이미지 프레임의 이질감을 해결하고, 이질감이 해결된 제3이미지 프레임을 생성할 수 있다.By doing this, the present invention can solve the heterogeneity of the second image frame and generate a third image frame in which the heterogeneity is resolved.

특히, 본 발명에 따른 이미지 프레임 생성장치는 인공지능 기반 기술을 이용하여 제2이미지 프레임의 블랜딩을 수행함으로써, 수정 제1영역과 제1이미지 프레임 주변 픽셀 간 이질감을 효율적으로 해결 가능하다.In particular, the apparatus for generating an image frame according to the present invention can efficiently resolve the heterogeneity between the first corrected region and the pixels surrounding the first image frame by blending the second image frame using an artificial intelligence-based technology.

이미지 프레임 생성장치는 적어도 하나 이상의 제3이미지 프레임을 오디오 타임 스탬프에 맞추어 인코딩하여 동영상을 생성한다(S207).The image frame generating apparatus generates a moving picture by encoding at least one or more third image frames according to an audio time stamp (S207).

이와 같이, 본 발명은 다양한 음성 데이터를 이미지 프레임에 이질감 없이 적용하여, 다양한 동영상 콘텐츠를 효율적으로 생성할 수 있다.As described above, according to the present invention, various video contents can be efficiently generated by applying various audio data to an image frame without any sense of heterogeneity.

본 발명의 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 기록매체에 기록될 수 있다. 컴퓨터 판독 가능 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램(프로그램 명령)은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic media), CDROM, DVD와 같은 광기록 매체(Optical media), 플롭티컬 디스크(Floptical disk)와 같은 자기-광 매체(Magneto-optical media), 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment of the present invention may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable recording medium. The computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination. The programs (program instructions) recorded on the recording medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CDROMs and DVDs, and magneto-optical disks such as floppy disks. Hardware devices specially configured to store and execute program instructions, such as magneto-optical media, ROM, RAM, flash memory, and the like are included. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상과 같이 본 발명을 도면에 도시한 실시예를 참고하여 설명하였으나, 이는 발명을 설명하기 위한 것일 뿐이며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자라면 발명의 상세한 설명으로부터 다양한 변형 또는 균등한 실시예가 가능하다는 것을 이해할 수 있을 것이다. 따라서 본 발명의 진정한 권리범위는 특허청구범위의 기술적 사상에 의해 결정되어야 한다.As described above, the present invention has been described with reference to the embodiments shown in the drawings, but this is only for explaining the invention, and various modifications or equivalents from the detailed description of the invention to those of ordinary skill in the art to which the present invention pertains It will be appreciated that one embodiment is possible. Therefore, the true scope of the present invention should be determined by the technical spirit of the claims.

10: 메모리
20: 제어부
30: 표시부
40: 입력부
50: 송수신부
10: memory
20: control unit
30: display
40: input unit
50: transceiver

Claims (5)

인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치가 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성하는 방법에 있어서,
제1이미지 프레임을 수신하는 단계,
상기 음성 데이터를 수신하는 단계,
상기 제1이미지 프레임에서 제1영역을 검출하고, 상기 제1영역을 추출하는 단계,
상기 제1영역 내에서 상기 음성 데이터에 매칭되도록 제2영역을 변환하여 수정 제1영역을 생성하는 단계,
상기 수정 제1영역을 상기 제1이미지 프레임에 삽입하여 제2이미지 프레임을 생성하는 단계를 포함하는 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법.
A method for generating an image frame based on voice data using artificial intelligence by an apparatus for generating an image frame based on voice data using artificial intelligence, the method comprising:
receiving a first image frame;
receiving the voice data;
detecting a first region in the first image frame and extracting the first region;
generating a modified first region by transforming a second region to match the voice data within the first region;
and generating a second image frame by inserting the modified first region into the first image frame.
제1항에 있어서,
상기 제2이미지 프레임을 보정하여 제3이미지 프레임을 생성하는 단계를 더 포함하되,
상기 수정 제1영역을 수정 제1영역 크기에 따라 기 설정된 비율로 상기 수정 제1영역의 블랜딩 영역을 지정하여, 상기 블랜딩 영역을 보정하는 것을 특징으로 하는 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법.
According to claim 1,
Compensating the second image frame further comprising generating a third image frame,
A method for generating an image frame based on voice data using artificial intelligence, characterized in that the blending region of the first correction region is corrected by designating the blending region of the first correction region at a preset ratio according to the size of the first correction region .
제2항에 있어서,
상기 블랜딩 영역은 왼쪽 블랜딩 영역, 오른쪽 블랜딩 영역, 위쪽 블랜딩 영역, 아래쪽 블랜딩 영역, 가운데 블랜딩 영역을 포함하고,
상기 왼쪽 블랜딩 영역과 상기 오른쪽 블랜딩 영역은 크기가 동일하고,
상기 위쪽 블랜딩 영역, 상기 아래쪽 블랜딩 영역은 크기가 동일한 것을 특징으로 하는 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법.
3. The method of claim 2,
The blending area includes a left blending area, a right blending area, an upper blending area, a lower blending area, and a center blending area,
The left blending area and the right blending area have the same size,
The method for generating an image frame based on voice data using artificial intelligence, characterized in that the upper blending area and the lower blending area have the same size.
제1이미지 프레임과 음성 데이터를 저장하는 메모리,
상기 제1이미지 프레임을 수신하고, 상기 음성 데이터를 수신하고, 상기 제1이미지 프레임에서 제1영역을 검출하고, 상기 제1영역을 추출하고, 상기 제1영역 내에서 상기 음성 데이터에 매칭되도록 제2영역을 변환하여 수정 제1영역을 생성하고, 상기 수정 제1영역을 상기 제1이미지 프레임에 삽입하여 제2이미지 프레임을 생성하도록 제어하는 제어부를 포함하는 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치.
a memory for storing the first image frame and voice data;
receiving the first image frame, receiving the voice data, detecting a first region in the first image frame, extracting the first region, and matching the voice data within the first region A voice data-based image frame generation using artificial intelligence, comprising a control unit that converts two regions to generate a first corrected region, and inserts the first corrected region into the first image frame to generate a second image frame Device.
제4항에 있어서
상기 제어부는,
상기 제2이미지 프레임을 보정하여 제3이미지 프레임을 생성하도록 제어하며,
상기 수정 제1영역을 수정 제1영역 크기에 따라 기 설정된 비율로 상기 수정 제1영역의 블랜딩 영역을 지정하여, 상기 블랜딩 영역을 보정하는 것을 특징으로 하는 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치.
5. The method of claim 4
The control unit is
control to generate a third image frame by compensating the second image frame;
The apparatus for generating an image frame based on voice data using artificial intelligence, characterized in that the blending area is corrected by designating the blending area of the first modified area at a preset ratio according to the size of the first modified area according to the size of the first modified area .
KR1020200164055A 2020-11-30 2020-11-30 Method and appararus of generating image frame based on audio data using artificail intelligence KR20220077180A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200164055A KR20220077180A (en) 2020-11-30 2020-11-30 Method and appararus of generating image frame based on audio data using artificail intelligence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200164055A KR20220077180A (en) 2020-11-30 2020-11-30 Method and appararus of generating image frame based on audio data using artificail intelligence

Publications (1)

Publication Number Publication Date
KR20220077180A true KR20220077180A (en) 2022-06-09

Family

ID=81985706

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200164055A KR20220077180A (en) 2020-11-30 2020-11-30 Method and appararus of generating image frame based on audio data using artificail intelligence

Country Status (1)

Country Link
KR (1) KR20220077180A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190094310A (en) 2019-06-18 2019-08-13 엘지전자 주식회사 Voice synthesizer using artificial intelligence, operating method of voice synthesizer and computer redable recording medium

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190094310A (en) 2019-06-18 2019-08-13 엘지전자 주식회사 Voice synthesizer using artificial intelligence, operating method of voice synthesizer and computer redable recording medium

Similar Documents

Publication Publication Date Title
JP6030945B2 (en) Viewer video display control device, viewer video display control method, and viewer video display control program
KR101378493B1 (en) Synchronized text editing method and apparatus based on image data
US11330342B2 (en) Method and apparatus for generating caption
EP2960905A1 (en) Method and device of displaying a neutral facial expression in a paused video
WO2012086357A1 (en) Electronic comic viewer device, electronic comic reading system, viewer program, recording medium having viewer program recorded thereon, and electronic comic display method
US8386909B2 (en) Capturing and presenting interactions with image-based media
TW202002611A (en) Video subtitle display method and apparatus
US20190215421A1 (en) Detecting errors in the timing between subtitles and shot changes
TW200514057A (en) Storage medium including text-based caption information, reproducing apparatus and reproducing method thereof
US10304439B2 (en) Image processing device, animation display method and computer readable medium
US10750149B2 (en) Information processing apparatus, information recording medium, information processing method, and program
CN112714348A (en) Intelligent audio and video synchronization method
CN112822546A (en) Content-aware-based double-speed playing method, system, storage medium and device
US20230164400A1 (en) Audio improvement using closed caption data
CN117596433B (en) International Chinese teaching audiovisual courseware editing system based on time axis fine adjustment
KR20110100649A (en) Method and apparatus for synthesizing speech
KR20220077180A (en) Method and appararus of generating image frame based on audio data using artificail intelligence
US20230039248A1 (en) Systems and Methods for Assisted Translation and Lip Matching for Voice Dubbing
CN113033357B (en) Subtitle adjusting method and device based on mouth shape characteristics
Jha et al. Cross-language speech dependent lip-synchronization
KR102202577B1 (en) Method and apparatus for de-identificationing personal data based on deep learning
US11216684B1 (en) Detection and replacement of burned-in subtitles
KR101425381B1 (en) Learning system using subtitles and method thereof
Park et al. Automatic subtitles localization through speaker identification in multimedia system
KR102265102B1 (en) Editing method for subtitle with kinetic typography and electronic apparatus thereof

Legal Events

Date Code Title Description
E601 Decision to refuse application