KR20220077180A - Method and appararus of generating image frame based on audio data using artificail intelligence - Google Patents
Method and appararus of generating image frame based on audio data using artificail intelligence Download PDFInfo
- Publication number
- KR20220077180A KR20220077180A KR1020200164055A KR20200164055A KR20220077180A KR 20220077180 A KR20220077180 A KR 20220077180A KR 1020200164055 A KR1020200164055 A KR 1020200164055A KR 20200164055 A KR20200164055 A KR 20200164055A KR 20220077180 A KR20220077180 A KR 20220077180A
- Authority
- KR
- South Korea
- Prior art keywords
- image frame
- region
- voice data
- generating
- area
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 30
- 230000001131 transforming effect Effects 0.000 claims abstract description 4
- 238000002156 mixing Methods 0.000 claims description 46
- 238000012937 correction Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Processing Or Creating Images (AREA)
Abstract
본 발명은 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법 및 장치에 관한 것이다.
본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법은 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치가 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성하는 방법에 있어서, 제1이미지 프레임을 수신하는 단계, 음성 데이터를 수신하는 단계, 제1이미지 프레임에서 제1영역을 검출하고, 제1영역을 추출하는 단계, 제1영역 내에서 음성 데이터에 매칭되도록 제2영역을 변환하여 수정 제1영역을 생성하는 단계, 수정 제1영역을 제1이미지 프레임에 삽입하여 제2이미지 프레임을 생성하는 단계를 포함한다.The present invention relates to a method and apparatus for generating an image frame based on voice data using artificial intelligence.
The method for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention is a method for generating an image frame based on voice data using artificial intelligence by an apparatus for generating an image frame based on voice data using artificial intelligence, the first image Receiving a frame, receiving voice data, detecting a first region in a first image frame, and extracting the first region, transforming and modifying a second region to match the voice data in the first region generating a first region; and generating a second image frame by inserting the corrected first region into the first image frame.
Description
본 발명은 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for generating an image frame based on voice data using artificial intelligence.
최근에 많이 연구되고 있는 인공지능(artificial intelligence)은 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 의미한다.Artificial intelligence, which has been studied a lot in recent years, is a field of computer science and information technology that studies how computers can do the thinking, learning, and self-development that can be done with human intelligence. It means making it possible to imitate human intelligent behavior.
또한, 최근에는 다양한 동영상들이 생산되고 유통되고 있는 실정이다. 이러한, 동영상들은 종류에 따라서 쉽게 제작할 수 있는 경우도 있지만, 특정 목적을 위한 동영상을 제작하기 위해서는 많은 노력과 비용이 투입되어야 한다.In addition, in recent years, various videos are being produced and distributed. These moving pictures can be easily produced depending on the type, but in order to produce a moving picture for a specific purpose, a lot of effort and money must be invested.
종래에는 기존에 만들어진 동영상에 새로운 음성 데이터를 매칭하여 쉽고 저비용으로 동영상 콘텐츠를 제작하고 싶은 필요가 있었지만, 인공지능을 이용하여 기존에 만들어진 동영상에 새로운 음성 데이터를 매칭하고 동영상을 생성할 수 있는 방법은 없었다.In the past, there was a need to create video content easily and at low cost by matching new audio data to an existing video. However, there is no way to match new audio data to an existing video using artificial intelligence and create a video. there was no
본 발명이 이루고자 하는 기술적인 과제는 음성 데이터를 이미지 프레임에 이질감없이 적용한 동영상 콘텐츠를 만들 수 있는 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법 및 장치를 제공하는데 있다.An object of the present invention is to provide a method and apparatus for generating an image frame based on voice data using artificial intelligence that can create video content by applying voice data to an image frame without any sense of heterogeneity.
본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법은 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치가 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성하는 방법에 있어서, 제1이미지 프레임을 수신하는 단계, 상기 음성 데이터를 수신하는 단계, 상기 제1이미지 프레임에서 제1영역을 검출하고, 상기 제1영역을 추출하는 단계, 상기 제1영역 내에서 상기 음성 데이터에 매칭되도록 제2영역을 변환하여 수정 제1영역을 생성하는 단계, 상기 수정 제1영역을 상기 제1이미지 프레임에 삽입하여 제2이미지 프레임을 생성하는 단계를 포함한다.The method for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention is a method for generating an image frame based on voice data using artificial intelligence by an apparatus for generating an image frame based on voice data using artificial intelligence, the first image receiving a frame, receiving the voice data, detecting a first region in the first image frame, and extracting the first region; a second to match the voice data within the first region generating a first corrected region by transforming the region; and generating a second image frame by inserting the first corrected region into the first image frame.
본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법은 상기 제2이미지 프레임을 보정하여 제3이미지 프레임을 생성하는 단계를 더 포함하되, 상기 수정 제1영역을 수정 제1영역 크기에 따라 기 설정된 비율로 상기 수정 제1영역의 블랜딩 영역을 지정하여, 상기 블랜딩 영역을 보정하는 것을 특징으로 한다.The method for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention further comprises generating a third image frame by correcting the second image frame, wherein the corrected first region is first corrected. The blending area is corrected by designating the blending area of the first correction area at a preset ratio according to the size of the area.
상기 블랜딩 영역은 왼쪽 블랜딩 영역, 오른쪽 블랜딩 영역, 위쪽 블랜딩 영역, 아래쪽 블랜딩 영역, 가운데 블랜딩 영역을 포함하고, 상기 왼쪽 블랜딩 영역과 상기 오른쪽 블랜딩 영역은 크기가 동일하고, 상기 위쪽 블랜딩 영역, 상기 아래쪽 블랜딩 영역은 크기가 동일한 것을 특징으로 한다.The blending area includes a left blending area, a right blending area, an upper blending area, a lower blending area, and a center blending area, the left blending area and the right blending area having the same size, the upper blending area and the lower blending area The regions are characterized in that they are the same size.
본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치는 제1이미지 프레임과 음성 데이터를 저장하는 메모리, 상기 제1이미지 프레임을 수신하고, 상기 음성 데이터를 수신하고, 상기 제1이미지 프레임에서 제1영역을 검출하고, 상기 제1영역을 추출하고, 상기 제1영역 내에서 상기 음성 데이터에 매칭되도록 제2영역을 변환하여 수정 제1영역을 생성하고, 상기 수정 제1영역을 상기 제1이미지 프레임에 삽입하여 제2이미지 프레임을 생성하도록 제어하는 제어부를 포함한다.An apparatus for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention includes a memory for storing a first image frame and voice data, receiving the first image frame, receiving the voice data, and A first region is detected in one image frame, the first region is extracted, and a second region is transformed to match the voice data within the first region to generate a corrected first region, and the corrected first region is generated. and a control unit for controlling to generate a second image frame by inserting the , into the first image frame.
상기 제어부는, 상기 제2이미지 프레임을 보정하여 제3이미지 프레임을 생성하도록 제어하며, 상기 수정 제1영역을 수정 제1영역 크기에 따라 기 설정된 비율로 상기 수정 제1영역의 블랜딩 영역을 지정하여, 상기 블랜딩 영역을 보정하는 것을 특징으로 한다.The control unit controls to generate a third image frame by compensating the second image frame, and designates a blending area of the first corrected region at a preset ratio according to the size of the first corrected region. , characterized in that the blending area is corrected.
본 발명의 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법 및 장치에 의하면 다음과 같은 효과가 있다. According to the method and apparatus for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention, the following effects are obtained.
첫째, 본 발명은 본 발명은 다양한 음성 데이터를 이미지 프레임에 이질감없이 적용하여, 다양한 동영상 콘텐츠를 효율적으로 생성할 수 있다.First, according to the present invention, various video contents can be efficiently generated by applying various voice data to an image frame without any sense of heterogeneity.
둘째, 본 발명은 인공지능 기반 기술을 이용하여 제2이미지 프레임의 블랜딩을 수행함으로써, 수정 제1영역과 제1이미지 프레임 주변 픽셀 간 이질감을 효율적으로 해결 가능하다.Second, in the present invention, by performing the blending of the second image frame using an artificial intelligence-based technology, it is possible to efficiently solve the heterogeneity between the first corrected region and the pixels around the first image frame.
셋째, 본 발명은 다른 언어 등으로 더빙된 동영상에서 실제 발음하는 음소에 맞추어 영상의 입술 모양을 변환하여 입술 모양과 소리가 맞지 않아 발생하는 이질감 제거한 동영상 변환이 가능하다.Third, according to the present invention, it is possible to convert a moving image in which the lip shape of the image is changed according to the phoneme actually pronounced in a video dubbed in another language, etc., thereby removing the heterogeneity caused by the lip shape and the sound not matching.
넷째, 본 발명은 단일 이미지인 이미지 프레임과 음성 데이터를 입력받아 입술 모양을 음소에 맞추어 프레임을 연속적으로 만들어 동영상을 생성할 수 있다.Fourth, according to the present invention, it is possible to generate a moving picture by receiving an image frame and voice data, which are a single image, and continuously making frames by matching the shape of the lips to the phoneme.
다섯째, 본 발명은 대형 학원은 수출을 위하여 기존 동영상 콘텐츠를 더빙된 외국어에 맞게 입모양을 변환하여 쉽게 새로운 동영상 콘텐츠를 만들 수 있고, 홈쇼핑은 기 제작된 동영상을 편성하여 송출하다가 긴급히 가격 변경 시 가격 부분만 오디오와 입 모양을 신속히 변환한 새로운 동영상을 만들 수 있다.Fifth, according to the present invention, large private institutes can easily create new video content by changing the mouth shape of existing video content to match the dubbed foreign language for export. You can create a new video that quickly converts only partial audio and mouth shape.
도 1은 본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법을설명하기 위한 블록도이다.
도 3은 본 명명의 일 실시예에 따른 제2이미지 프레임을 보정하는 방법을 설명하기 위한 도면이다.1 is a block diagram illustrating an apparatus for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention.
2 is a block diagram illustrating a method for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention.
3 is a diagram for explaining a method of correcting a second image frame according to an embodiment of the present invention.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. Advantages and features of the present invention and methods of achieving them will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only these embodiments allow the disclosure of the present invention to be complete, and are common in the art to which the present invention pertains. It is provided to fully inform those with knowledge of the scope of the invention, and the present invention is only defined by the scope of the claims.
또한, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 이외의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다.In addition, the terminology used herein is for the purpose of describing the embodiments and is not intended to limit the present invention. In this specification, the singular also includes the plural unless specifically stated otherwise in the phrase. As used herein, "comprises" and/or "comprising" does not exclude the presence or addition of elements other than those mentioned. Unless otherwise defined, all terms (including technical and scientific terms) used herein may be used with the meaning commonly understood by those of ordinary skill in the art to which the present invention belongs.
이하, 본 발명을 보다 구체적으로 설명하기 위하여 본 발명에 따른 실시예들을 첨부 도면을 참조하면서 보다 상세하게 설명하고자 한다.Hereinafter, in order to describe the present invention in more detail, embodiments according to the present invention will be described in more detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치를 설명하기 위한 블록도이다..1 is a block diagram illustrating an apparatus for generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치(이하, “이미지 프레임 생성장치”라 한다.)는 메모리(10), 제어부(20), 표시부(30), 입력부(40), 송수신부(50)를 포함한다. 이러한 구성요소는 하나 이상의 통신버스 또는 신호선을 통하여 통신한다.Referring to FIG. 1 , an apparatus for generating an image frame based on voice data using artificial intelligence (hereinafter, referred to as an “image frame generating apparatus”) according to an embodiment of the present invention includes a
메모리(10)는 다양한 데이터 저장하는 부분이다.The
예를 들어, 메모리(10)는 제1이미지 프레임과 음성 데이터, 동영상 등을 저장한다. 여기서, 음성 데이터는 다양한 언어(한국어, 영어, 베트남어, 중국어, 일본어 등)로 음성 데이터가 가능하다. 예를 들어, 음성 데이터는 강의 내용을 포함하는 음성 데이터, 사내 방송을 위한 음성 데이터, 홈쇼핑에서 제품 설명을 위한 음성 데이터 등 다양한 음성 데이터가 가능하다.For example, the
또한, 메모리(10)는 기 설정된 비율, 제2이미지 프레임, 제3이미지 프레임 등을 저장할 수 있다.Also, the
또한, 메모리(10)는 각각의 최초 프레임에 음성 데이터에 따라 변환된 변환 프레임을 저장한다.In addition, the
제어부(20)는 본 발명에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치를 제어하는 부분이다. 또한, 제어부(20)는 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치의 각 구성요소를 제어하는 부분이다. The
제어부(20)는 제1이미지 프레임을 수신하고, 음성 데이터를 수신하고, 제1이미지 프레임에서 제1영역을 검출하고, 제1영역을 추출하고, 제1영역 내에서 음성 데이터에 매칭되도록 제2영역을 변환하여 수정 제1영역을 생성하고, 수정 제1영역을 제1이미지 프레임에 삽입하여 제2이미지 프레임을 생성하도록 제어한다.The
또한, 제어부(20)는 제2이미지 프레임을 보정하여 제3이미지 프레임을 생성하도록 제어한다. 이때, 제어부(20)수정 제1영역을 수정 제1영역 크기에 따라 기 설정된 비율로 수정 제1영역의 블랜딩 영역을 지정하여, 블랜딩 영역을 보정할 수 있다.In addition, the
표시부(30)는 사용자와 이미지 프레임 생성장치 사이의 시각적인 출력을 위한 인터페이스를 제공한다. The
또한, 표시부(30)는 제1이미지 프레임, 제1영역, 제2영역, 제2이미지 프레임, 제3이미지 프레임을 표시하는 부분이다.Also, the
또한, 표시부(30)는 적어도 하나 이상의 제3이미지 프레임을 오디오 타임 스탬프에 맞추어 인코딩한 동영상을 표시할 수 있다.Also, the
입력부(40)는 사용자와 이미지 프레임 생성장치 사이의 명령신호를 입력하는 인터페이스를 제공한다. The
즉, 입력부(40)는 사용자가 이미지 프레임 생성장치에 입력신호와 같은 명령신호 등을 입력할 수 있고, 사용자가 입력부(40)를 통해서 사용자 명령신호를 입력하면, 이미지 프레임 생성장치는 다양한 종류의 사용자 명령신호를 검출하고 제어부(20)의 제어에 의해서 사용자의 명령을 수행한다. That is, the
사용자는 입력부(40)를 통해서 기 설정된 비율 등을 변경하는 명령신호를 이미지 프레임 생성장치에 입력할 수 있다.A user may input a command signal for changing a preset ratio or the like to the image frame generating apparatus through the
다만, 터치스크린과 같은 일부 실시예에서는 표시부(30)와 입력부(40)가 일체로 될 수 있고, 분리될 수도 있다.However, in some embodiments such as a touch screen, the
송수신부(50)는 전자파와 같은 신호로 데이터를 송수신하는 부분이다. 송수신부(50)는 전기신호를 전자파로 변환하며 이 전자파를 통하여 통신 네트워크 및 다른 통신장치와 통신한다.The transmitter/
예를 들어, 송수신부(50)는 제어부(20)의 제어에 따라서 프레임, 동영상, 음성 데이터 등을 외부 서버에 전송하거나, 외부 서버로부터 전체 이미지 파일이나 다양한 정보를 수신할 수 있다.For example, the
도 2는 본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법을 설명하기 위한 블록도이다.2 is a block diagram illustrating a method of generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention.
도 3은 본 발명의 일 실시예에 따른 제2이미지 프레임을 보정하는 방법을 설명하기 위한 도면이다.3 is a view for explaining a method of correcting a second image frame according to an embodiment of the present invention.
이하의 설명에서, 이미지 프레임 생성장치는 내부에 포함된 제어부(20)의 제어에 의해서 동작이 수행되는 것이라고 설명될 수 있다.In the following description, it may be described that the image frame generating apparatus is operated under the control of the
도 2, 도 3을 참조하여, 본 발명의 일 실시예에 따른 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법을 설명한다.A method of generating an image frame based on voice data using artificial intelligence according to an embodiment of the present invention will be described with reference to FIGS. 2 and 3 .
이미지 프레임 생성장치는 제1이미지 프레임을 수신한다(S201). 여기서, 제1이미지 프레임은 동영상과 같은 연속된 프레임에서 특정된 하나의 프레임이 가능하다. 예를 들어, 제1이미지 프레임은 사람의 얼굴을 포함하는 이미지 프레임이 될 수 있다.The image frame generating apparatus receives the first image frame (S201). Here, the first image frame may be one frame specified in continuous frames such as moving pictures. For example, the first image frame may be an image frame including a human face.
이미지 프레임 생성장치는 음성 데이터를 수신한다(S202). 여기서, 음성 데이터는 다양한 언어(한국어, 영어, 베트남어, 중국어, 일본어 등)로 음성 데이터가 가능하다. 예를 들어, 음성 데이터는 강의 내용을 포함하는 음성 데이터, 사내 방송을 위한 음성 데이터, 홈쇼핑에서 제품 설명을 위한 음성 데이터 등 다양한 음성 데이터가 가능하다.The image frame generating apparatus receives voice data (S202). Here, the voice data may be in various languages (Korean, English, Vietnamese, Chinese, Japanese, etc.). For example, as for the voice data, various voice data such as voice data including lecture contents, voice data for in-house broadcasting, and voice data for product description in home shopping are possible.
이미지 프레임 생성장치는 제1이미지 프레임에서 제1영역을 검출하고, 제1영역을 추출한다(S203). 예를 들어, 제1영역은 사람 얼굴을 포함하는 사람 얼굴 영역이 가능하다. The image frame generating apparatus detects the first region from the first image frame and extracts the first region (S203). For example, the first region may be a human face region including a human face.
여기서, 이미지 프레임 생성장치는 제1영역인 사람 얼굴 영역을 검출할 때, 얼굴의 상하 각도 및 좌우 회전 상황을 인식하는데 효과적인 랜드마크를 기반으로 한 검출 방식으로 제1영역인 사람 얼굴 영역을 검출할 수 있다. 이러한 본 발명은 제1영역인 사람 얼굴 영역을 검출하는데 실시간성보다 검출 후 이질감 없는 변환 가능 여부를 판단하는데 유리하다. Here, when the image frame generating apparatus detects the human face region as the first region, it is possible to detect the human face region as the first region using a landmark-based detection method effective for recognizing the vertical angle and left and right rotation of the face. can Such an embodiment of the present invention is advantageous in determining whether transformation without heterogeneity after detection is possible rather than real-time in detecting the human face region, which is the first region.
또한, 이미지 프레임 생성장치는 제1이미지 프레임에서 제1영역을 검출할 때, 얼굴 중심점을 기준으로 캐너니컬 얼라인먼트(Canonical Alignment)를 수행할 수 있다. 이러한 캐너니컬 얼라인먼트(Canonical Alignment)는 제1영역인 사람 얼굴 영역을 검출 후, 정확하게 제2영역(입술 부분)을 변환하기 위해 수행할 수 있다.Also, when detecting the first region in the first image frame, the image frame generating apparatus may perform canonical alignment based on the center point of the face. Such canonical alignment may be performed to accurately transform the second region (the lip portion) after detecting the human face region, which is the first region.
이미지 프레임 생성장치는 제1영역 내에서 음성 데이터에 매칭되도록 제2영역을 변환하여 수정 제1영역을 생성한다(S204). 예를 들어, 제2영역은 입술 부분으로, 이미지 프레임 생성장치는 음성 데이터에 매칭되도록 입술 부분을 변환하여 수정 제1영역을 생성할 수 있다. 즉, 이미지 프레임 생성장치는 음성 데이터인 음소 및/또는 발음 특성에 맞추어 제2영역인 입술 부분의 모양을 변환하여 수정 제1영역을 생성할 수 있다. 이렇게 생성된 수정 제1영역은 기존의 동영상에 다른 언어로 더빙하는 경우에 실제 발음하는 음소에 동영상의 입술 부분의 모양을 변환하여 입술 모양과 음성이 일치하지 않아서 발행하는 이질감을 제거할 수 있다.The image frame generating apparatus converts the second area to match the voice data in the first area to generate a modified first area (S204). For example, the second region may be a lip portion, and the image frame generating apparatus may convert the lip portion to match the voice data to generate the corrected first region. That is, the image frame generating apparatus may generate the corrected first region by transforming the shape of the lip portion, which is the second region, according to phoneme and/or pronunciation characteristics of voice data. In the case of dubbing an existing video into another language, the generated first corrected region converts the shape of the lips of the video to the phoneme that is actually pronounced, thereby removing the sense of heterogeneity generated because the shape of the lips and the voice do not match.
만약, S203단계에서 이미지 프레임 생성장치는 제1이미지 프레임에서 제1영역을 검출할 때, 얼굴 중심점을 기준으로 캐너니컬 얼라인먼트(Canonical Alignment)를 수행한 경우, S204 단계에서 디얼라인먼트(De-alignment)를 수행하여 다시 사람 얼굴 영역을 원래의 각도로 복원해야한다.If, when the image frame generating apparatus detects the first region in the first image frame in step S203, canonical alignment is performed based on the center point of the face, de-alignment in step S204 to restore the human face area back to its original angle.
이미지 프레임 생성장치는 수정 제1영역을 제1이미지 프레임에 삽입하여 제2이미지 프레임을 생성한다(S205). 이때, 제2이미지 프레임은 수정 제1영역을 제1이미지 프레임에 삽입하면서 이질감의 문제가 발생할 수 있다.The image frame generating apparatus inserts the corrected first region into the first image frame to generate a second image frame (S205). In this case, in the second image frame, a problem of heterogeneity may occur while the correction first region is inserted into the first image frame.
이미지 프레임 생성장치는 제2이미지 프레임을 보정하여 제3이미지 프레임을 생성한다(S206).The image frame generating apparatus generates a third image frame by correcting the second image frame (S206).
이미지 프레임 생성장치는 제2이미지 프레임의 이질감을 해결하기 위해서 보정을 수행한다. The image frame generating apparatus performs correction in order to solve the heterogeneity of the second image frame.
도 3을 참조하면, 이미지 프레임 생성장치는 수정 제1영역을 수정 제1영역 크기에 따라 기 설정된 비율로 수정 제1영역의 블랜딩 영역을 지정하여, 각각의 블랜딩 영역을 각각 보정할 수 있다. Referring to FIG. 3 , the image frame generating apparatus may correct the respective blending areas by designating the first retouched area as a blending area of the retouched first area at a preset ratio according to the size of the retouched first area.
예를 들어, 수정 제1영역 크기가 가로*세로가 80*100이고, 기 설정된 비율이 5%이면, 이미지 프레임 생성장치는 수정 제1영역에서 왼쪽 블랜딩 영역(310)의 크기는 가로*세로가 4*100이고, 오른쪽 블랜딩 영역(320)의 크기는 가로*세로가 4*100이고, 위쪽 블랜딩 영역(330)의 크기는 가로*세로가 80*5이고, 아래쪽 블랜딩 영역(340)의 크기는 가로*세로가 80*5이고, 가운데 블랜딩 영역(350)의 크기는 가로*세로가 72*90로 블랜딩 영역을 지정하여, 각 블랜딩 영역을 보정하는 것이 가능하다. 이때, 왼쪽 블랜딩 영역(310)과 오른쪽 블랜딩 영역(320)은 크기가 동일하고, 위쪽 블랜딩 영역(330), 아래쪽 블랜딩 영역(340)은 크기가 동일하도록 설정할 수 있다.For example, if the size of the first correction area is 80*100 in width*length and the preset ratio is 5%, the image frame generating apparatus determines that the size of the
여기서, 기 설정된 비율, 블랜딩 영역의 개수, 블랜딩 영역의 크기 등은 사용자에 의해서 설정 가능하고, 다양한 실시예가 가능하다.Here, the preset ratio, the number of blending regions, the size of the blending regions, etc. can be set by the user, and various embodiments are possible.
이렇게 함으로써, 본 발명은 제2이미지 프레임의 이질감을 해결하고, 이질감이 해결된 제3이미지 프레임을 생성할 수 있다.By doing this, the present invention can solve the heterogeneity of the second image frame and generate a third image frame in which the heterogeneity is resolved.
특히, 본 발명에 따른 이미지 프레임 생성장치는 인공지능 기반 기술을 이용하여 제2이미지 프레임의 블랜딩을 수행함으로써, 수정 제1영역과 제1이미지 프레임 주변 픽셀 간 이질감을 효율적으로 해결 가능하다.In particular, the apparatus for generating an image frame according to the present invention can efficiently resolve the heterogeneity between the first corrected region and the pixels surrounding the first image frame by blending the second image frame using an artificial intelligence-based technology.
이미지 프레임 생성장치는 적어도 하나 이상의 제3이미지 프레임을 오디오 타임 스탬프에 맞추어 인코딩하여 동영상을 생성한다(S207).The image frame generating apparatus generates a moving picture by encoding at least one or more third image frames according to an audio time stamp (S207).
이와 같이, 본 발명은 다양한 음성 데이터를 이미지 프레임에 이질감 없이 적용하여, 다양한 동영상 콘텐츠를 효율적으로 생성할 수 있다.As described above, according to the present invention, various video contents can be efficiently generated by applying various audio data to an image frame without any sense of heterogeneity.
본 발명의 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 기록매체에 기록될 수 있다. 컴퓨터 판독 가능 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램(프로그램 명령)은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic media), CDROM, DVD와 같은 광기록 매체(Optical media), 플롭티컬 디스크(Floptical disk)와 같은 자기-광 매체(Magneto-optical media), 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment of the present invention may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable recording medium. The computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination. The programs (program instructions) recorded on the recording medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CDROMs and DVDs, and magneto-optical disks such as floppy disks. Hardware devices specially configured to store and execute program instructions, such as magneto-optical media, ROM, RAM, flash memory, and the like are included. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
이상과 같이 본 발명을 도면에 도시한 실시예를 참고하여 설명하였으나, 이는 발명을 설명하기 위한 것일 뿐이며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자라면 발명의 상세한 설명으로부터 다양한 변형 또는 균등한 실시예가 가능하다는 것을 이해할 수 있을 것이다. 따라서 본 발명의 진정한 권리범위는 특허청구범위의 기술적 사상에 의해 결정되어야 한다.As described above, the present invention has been described with reference to the embodiments shown in the drawings, but this is only for explaining the invention, and various modifications or equivalents from the detailed description of the invention to those of ordinary skill in the art to which the present invention pertains It will be appreciated that one embodiment is possible. Therefore, the true scope of the present invention should be determined by the technical spirit of the claims.
10: 메모리
20: 제어부
30: 표시부
40: 입력부
50: 송수신부10: memory
20: control unit
30: display
40: input unit
50: transceiver
Claims (5)
제1이미지 프레임을 수신하는 단계,
상기 음성 데이터를 수신하는 단계,
상기 제1이미지 프레임에서 제1영역을 검출하고, 상기 제1영역을 추출하는 단계,
상기 제1영역 내에서 상기 음성 데이터에 매칭되도록 제2영역을 변환하여 수정 제1영역을 생성하는 단계,
상기 수정 제1영역을 상기 제1이미지 프레임에 삽입하여 제2이미지 프레임을 생성하는 단계를 포함하는 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법.A method for generating an image frame based on voice data using artificial intelligence by an apparatus for generating an image frame based on voice data using artificial intelligence, the method comprising:
receiving a first image frame;
receiving the voice data;
detecting a first region in the first image frame and extracting the first region;
generating a modified first region by transforming a second region to match the voice data within the first region;
and generating a second image frame by inserting the modified first region into the first image frame.
상기 제2이미지 프레임을 보정하여 제3이미지 프레임을 생성하는 단계를 더 포함하되,
상기 수정 제1영역을 수정 제1영역 크기에 따라 기 설정된 비율로 상기 수정 제1영역의 블랜딩 영역을 지정하여, 상기 블랜딩 영역을 보정하는 것을 특징으로 하는 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법.According to claim 1,
Compensating the second image frame further comprising generating a third image frame,
A method for generating an image frame based on voice data using artificial intelligence, characterized in that the blending region of the first correction region is corrected by designating the blending region of the first correction region at a preset ratio according to the size of the first correction region .
상기 블랜딩 영역은 왼쪽 블랜딩 영역, 오른쪽 블랜딩 영역, 위쪽 블랜딩 영역, 아래쪽 블랜딩 영역, 가운데 블랜딩 영역을 포함하고,
상기 왼쪽 블랜딩 영역과 상기 오른쪽 블랜딩 영역은 크기가 동일하고,
상기 위쪽 블랜딩 영역, 상기 아래쪽 블랜딩 영역은 크기가 동일한 것을 특징으로 하는 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성방법.3. The method of claim 2,
The blending area includes a left blending area, a right blending area, an upper blending area, a lower blending area, and a center blending area,
The left blending area and the right blending area have the same size,
The method for generating an image frame based on voice data using artificial intelligence, characterized in that the upper blending area and the lower blending area have the same size.
상기 제1이미지 프레임을 수신하고, 상기 음성 데이터를 수신하고, 상기 제1이미지 프레임에서 제1영역을 검출하고, 상기 제1영역을 추출하고, 상기 제1영역 내에서 상기 음성 데이터에 매칭되도록 제2영역을 변환하여 수정 제1영역을 생성하고, 상기 수정 제1영역을 상기 제1이미지 프레임에 삽입하여 제2이미지 프레임을 생성하도록 제어하는 제어부를 포함하는 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치.a memory for storing the first image frame and voice data;
receiving the first image frame, receiving the voice data, detecting a first region in the first image frame, extracting the first region, and matching the voice data within the first region A voice data-based image frame generation using artificial intelligence, comprising a control unit that converts two regions to generate a first corrected region, and inserts the first corrected region into the first image frame to generate a second image frame Device.
상기 제어부는,
상기 제2이미지 프레임을 보정하여 제3이미지 프레임을 생성하도록 제어하며,
상기 수정 제1영역을 수정 제1영역 크기에 따라 기 설정된 비율로 상기 수정 제1영역의 블랜딩 영역을 지정하여, 상기 블랜딩 영역을 보정하는 것을 특징으로 하는 인공지능을 이용한 음성 데이터 기반 이미지 프레임 생성장치.5. The method of claim 4
The control unit is
control to generate a third image frame by compensating the second image frame;
The apparatus for generating an image frame based on voice data using artificial intelligence, characterized in that the blending area is corrected by designating the blending area of the first modified area at a preset ratio according to the size of the first modified area according to the size of the first modified area .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200164055A KR20220077180A (en) | 2020-11-30 | 2020-11-30 | Method and appararus of generating image frame based on audio data using artificail intelligence |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200164055A KR20220077180A (en) | 2020-11-30 | 2020-11-30 | Method and appararus of generating image frame based on audio data using artificail intelligence |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220077180A true KR20220077180A (en) | 2022-06-09 |
Family
ID=81985706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200164055A KR20220077180A (en) | 2020-11-30 | 2020-11-30 | Method and appararus of generating image frame based on audio data using artificail intelligence |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20220077180A (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190094310A (en) | 2019-06-18 | 2019-08-13 | 엘지전자 주식회사 | Voice synthesizer using artificial intelligence, operating method of voice synthesizer and computer redable recording medium |
-
2020
- 2020-11-30 KR KR1020200164055A patent/KR20220077180A/en not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190094310A (en) | 2019-06-18 | 2019-08-13 | 엘지전자 주식회사 | Voice synthesizer using artificial intelligence, operating method of voice synthesizer and computer redable recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6030945B2 (en) | Viewer video display control device, viewer video display control method, and viewer video display control program | |
KR101378493B1 (en) | Synchronized text editing method and apparatus based on image data | |
US11330342B2 (en) | Method and apparatus for generating caption | |
EP2960905A1 (en) | Method and device of displaying a neutral facial expression in a paused video | |
WO2012086357A1 (en) | Electronic comic viewer device, electronic comic reading system, viewer program, recording medium having viewer program recorded thereon, and electronic comic display method | |
US8386909B2 (en) | Capturing and presenting interactions with image-based media | |
TW202002611A (en) | Video subtitle display method and apparatus | |
US20190215421A1 (en) | Detecting errors in the timing between subtitles and shot changes | |
TW200514057A (en) | Storage medium including text-based caption information, reproducing apparatus and reproducing method thereof | |
US10304439B2 (en) | Image processing device, animation display method and computer readable medium | |
US10750149B2 (en) | Information processing apparatus, information recording medium, information processing method, and program | |
CN112714348A (en) | Intelligent audio and video synchronization method | |
CN112822546A (en) | Content-aware-based double-speed playing method, system, storage medium and device | |
US20230164400A1 (en) | Audio improvement using closed caption data | |
CN117596433B (en) | International Chinese teaching audiovisual courseware editing system based on time axis fine adjustment | |
KR20110100649A (en) | Method and apparatus for synthesizing speech | |
KR20220077180A (en) | Method and appararus of generating image frame based on audio data using artificail intelligence | |
US20230039248A1 (en) | Systems and Methods for Assisted Translation and Lip Matching for Voice Dubbing | |
CN113033357B (en) | Subtitle adjusting method and device based on mouth shape characteristics | |
Jha et al. | Cross-language speech dependent lip-synchronization | |
KR102202577B1 (en) | Method and apparatus for de-identificationing personal data based on deep learning | |
US11216684B1 (en) | Detection and replacement of burned-in subtitles | |
KR101425381B1 (en) | Learning system using subtitles and method thereof | |
Park et al. | Automatic subtitles localization through speaker identification in multimedia system | |
KR102265102B1 (en) | Editing method for subtitle with kinetic typography and electronic apparatus thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E601 | Decision to refuse application |