WO2023101570A1 - Способ и система определения синтетических изменений лиц в видео - Google Patents
Способ и система определения синтетических изменений лиц в видео Download PDFInfo
- Publication number
- WO2023101570A1 WO2023101570A1 PCT/RU2021/000532 RU2021000532W WO2023101570A1 WO 2023101570 A1 WO2023101570 A1 WO 2023101570A1 RU 2021000532 W RU2021000532 W RU 2021000532W WO 2023101570 A1 WO2023101570 A1 WO 2023101570A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- video
- pixel
- frame
- frames
- array
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000004075 alteration Effects 0.000 title 1
- 238000001228 spectrum Methods 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000003491 array Methods 0.000 claims description 4
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims 1
- 230000008859 change Effects 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000010349 pulsation Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 241001211977 Bida Species 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
Definitions
- the present technical solution relates to the field of computer technology used in the field of data processing, in particular to a method and system for determining synthetically modified images of faces in a video.
- the claimed technical solution is aimed at creating a new approach for detecting synthetic changes in people's faces in a video.
- the technical result is to enable the detection of synthetically modified images of faces in video using pixel analysis of the dynamics of color changes in frames.
- face frames at step b) are determined using the OpenCV library algorithm, which provides determination of the locations of faces on video frames.
- steps c) to h) are performed using the EVM library algorithm (Euler Gain Algorithm).
- the frames are determined by cropping the area of the video frame containing the face image.
- the notification is displayed in a graphical user interface.
- the area of the image with a synthetically modified face image is marked.
- the claimed solution is also implemented using a system for detecting synthetic changes in faces in a video, containing at least one processor and at least one memory that stores machine-readable instructions that, when executed by the processor, implement the above described method.
- FIG. 1 illustrates a block diagram of the claimed method.
- FIG. 2 illustrates an example of framing from video frames.
- FIG. FOR illustrates the general representation of the periodic law of change in the red spectrum of a pixel through frames.
- FIG. The ST illustrates the value of the red spectrum of a pixel through F frames in case the video is original.
- FIG. The SR illustrates the meaning of the red spectrum of a pixel through F frames in case the video with DeepFake overlay.
- FIG. The CG illustrates the creation of a new row of pixels across Fr frames if the video was original.
- FIG. The TD illustrates the creation of a new row of pixels across Fr frames if the video was with a DeepFake overlay.
- FIG. 4 illustrates the general architecture of a machine learning model.
- FIG. 5A-5B illustrate an example of frame analysis to determine synthetic changes in video.
- FIG. 6 illustrates a general view of the computing device. IMPLEMENTATION OF THE INVENTION
- the implementation of the claimed method (100) for determining synthetically modified images of faces in a video consists in the execution by a computing computer device, in particular, using one or more processors in an automated mode, of a software algorithm presented as a sequence of steps that ensure the performance of material actions in the form of processing electronic signals generated when the processor of the computing device performs its functions in order to implement the execution of data processing within the execution of the method (100).
- synthetically modified face image hereinafter in the text will be understood as any type of digital imaging that imitates the face or part of the face of another person, including by applying digital masks, distorting/changing parts of the face, etc. .P.
- a synthetically modified face image should be understood as both fully generated images, for example, masks using DeepFake technology, superimposed on the face of a real person in the frame while maintaining the mimic activity of the image, and the formation of a partial change in individual parts of the face (eyes, nose, lips, ears and so on.).
- video will mean a video image, a video stream (for example, from an IP camera, an electronic device camera, a virtual camera, from an Internet application), an ordered sequence of frames (images), subsampling of frames, including up to and including up to one image.
- Framing is performed using libraries such as OpenCV, EmguCV, AForge, Accord and other similar libraries for face detection on video frames. These classifiers are able to detect faces in static images (frames).
- Each frame from the set F ⁇ F lt F 2 , ... , F n ⁇ contains an image of a face in the RGB color palette, which allows at step (103) to extract the R component of the RGB palette of each pixel.
- FIG. 2 on the example of frame F pixel components T? 15 R 2 are extracted for further processing, so that at the stage (104) form an array of red spectrum values R for each pixel in each frame from the set F .
- FIG. ST For the example of the analysis of the intensity of changes in the pixels of the image is given on the example of the dynamics of the human pulse, which usually obeys the periodic distribution law ⁇ sin(at).
- ⁇ sin(at) By changes in the time of the red spectrum pulsation R, the distribution of an array of values on frames F (Fig. ST) is formed, which correspond to the image of a real person on video frames.
- FIG. An example of the distribution of the R components is given in the SR, which indicates a possible anomaly associated with a significant gap between the R points, at which a change in the red spectrum usually occurs due to blood pulsation.
- step (106) Based on the generated Arr kR array, in step (106), the gain parameter between the current and the next frame is calculated and an Argr array is formed for each pixel.
- the gain parameter ft is defined as follows. For each Px(x, y)-pixel of frame F with coordinates (x, y): where: i - sequence number of frame F of the video, i - non-negative integer, i ⁇ n , n - number of frames;
- R Fi the value of the red component of the brightness of the pixel in the i-th frame; a - human pulse rate (for example, 0.5 - 1 Hz.).
- each received new frame from the set Fr is processed using a machine learning model that is performed with the ability to detect the presence of pixel dynamics in the R component of the RGB palette. Since the EVM analysis gives a huge number of color combinations, their direct analysis by enumeration is not possible by algorithmic means. For this, a machine learning model is used, which is built on the basis of a deep learning neural network (DNN).
- DNN deep learning neural network
- FIG. ZG shows the principle of forming new frames Fr by multiplying the R components by the gain parameter /?. If the received frames Fr in terms of displaying changes in the R component are identical or close to the frames R, then this indicates a living person in the video frames. If a significant gap is determined between the display of pixels in the red spectrum, then this indicates the imposition of synthetic changes and the presented face image is a substitute.
- the task that the present machine learning model performs refers to the task of binary image classification, complicated by the fact that it is necessary to recognize not an object in the image, but based on color combinations in the image, to answer whether this image contains a synthetic face change or not .
- the proposed model can use MS libraries. ML, TensorFlow, Torch, Accord, etc. A general view of the model structure is shown in Fig. 4.
- the model is a bagging of decision trees (eg, htps://www.geeksforgeeks.org/ml-bagging-classifier/), each of which compares the result of the DNN of the current iteration with the result of the DNN of the previous iteration. And, if the result is better, the result of the current DNN is transferred to the next iteration, otherwise the next iteration reworks according to the old data. Thus, the quality of the DNN operation is achieved, in which the prediction result approaches the result of the neural network operation.
- decision trees eg, htps://www.geeksforgeeks.org/ml-bagging-classifier/
- the neural network itself is a complex convolutional deep neural network with internal trees created on TF (Tensor Flow).
- DFDC Deepfake Detection Challenge
- the detection algorithm Based on the results of the analysis of the model at step (109), the detection algorithm detects the presence of pixel activity (30 g - 30 p ) in the face display area based on the generated frames Fr and outputs the result of the check at step (110). As shown in FIG. 5A, if there is dynamics of pixel changes in the R component on frames Fr, then this indicates the imposition of a synthetic change on the face image. Otherwise, as shown in FIG. 5B, if there are no pixel changes in the R component, then this indicates the absence of synthetic changes in faces in the video. Upon completion of the stage (PO), a notification is generated about the presence of a synthetically modified face in the video.
- the notification may be displayed directly in the graphical user interface, for example, during an online conference (Zoom, Skype, MS Teams). Also, the notification may be displayed directly in the synthetic face change detection area, for example, in the area with the image of a person's face.
- An additional effect of the application of the invention may be its use in biometric control systems, for example, when receiving services (for example, banking services) or access (access control system, turnstile with a biometric sensor).
- services for example, banking services
- access access control system, turnstile with a biometric sensor
- user authentication data may be additionally requested, selected from the group: login, code, password, two-factor authentication, or combinations thereof.
- the claimed solution can be used in systems for monitoring the media space and analyzing social media and media, to identify public famous people (first persons of the state, media personalities, famous people, etc.), on whom an attempt can be made to compromise them.
- Such systems will be the source of the received video for its subsequent analysis, and if synthetic changes in the images of the faces of such people are detected, they or the relevant service may be notified of the falsely generated information.
- information about the time of the detected event, the source of the event can also be stored.
- FIG. 6 shows a general view of a computing device (400) suitable for performing the claimed method (100).
- the device (400) may be, for example, a server or other type of computing device that can be used to implement the claimed technical solution. Including being part of a cloud computing platform.
- the computing device (400) contains one or more processors (401), memory facilities such as RAM (402) and ROM (403), input / output interfaces (404), input devices connected by a common information exchange bus /output (405), and a device for networking (406).
- processors 401
- memory facilities such as RAM (402) and ROM (403
- input / output interfaces 404
- a device for networking 406
- the processor (401) may be selected from a variety of devices currently widely used, such as IntelTM, AMDTM, AppleTM, Samsung ExynosTM, MediaTEKTM, Qualcomm SnapdragonTM, and etc.
- the processor (501) can also be a graphics processor such as Nvidia, AMD, Graphcore, etc.
- RAM (402) is a random access memory and is designed to store machine-readable instructions executable by the processor (401) to perform the necessary data logical processing operations.
- the RAM (402) typically contains the executable instructions of the operating system and associated software components (applications, program modules, etc.).
- a ROM is one or more persistent storage devices such as a hard disk drive (HDD), a solid state drive (SSD), flash memory (EEPROM, NAND, etc.), optical storage media ( CD-R/RW, DVD-R/RW, BlueRay Disc, MD), etc.
- I/O interfaces are used to organize the operation of device components (400) and organize the operation of external connected devices.
- the choice of appropriate interfaces depends on the specific design of the computing device, which can be, but are not limited to: PCI, AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232, etc.
- I / O information To ensure user interaction with the computing device (400), various means (405) of I / O information are used, for example, a keyboard, a display (monitor), a touch screen, a touch pad, a joystick, a mouse, a light pen, a stylus, touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, indicator lights, projector, camera, biometric identification tools (retinal scanner, fingerprint scanner, voice recognition module), etc.
- a keyboard a display (monitor), a touch screen, a touch pad, a joystick, a mouse, a light pen, a stylus, touch panel, trackball, speakers, microphone, augmented reality, optical sensors, tablet, indicator lights, projector, camera, biometric identification tools (retinal scanner, fingerprint scanner, voice recognition module), etc.
- the networking means (406) enables the communication of data by the device (400) via an internal or external computer network, such as an Intranet, the Internet, a LAN, and the like.
- an internal or external computer network such as an Intranet, the Internet, a LAN, and the like.
- one or more means (406) can be used, but not limited to: Ethernet card, GSM modem, GPRS modem, LTE modem, 5G modem, satellite communication module, NFC module, Bluetooth and / or BLE module, Wi-Fi module and others
- satellite navigation tools in the device (400) can also be used, for example, GPS, GLONASS, BeiDou, Galileo.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
Изобретение относится к области компьютерных технологий, применяемых для обработки данных, в частности, для определения синтетически измененных изображений лиц на видео. Способ содержит этапы, на которых получают видео, содержащее по меныпей мере одно изображение лица, разбивают полученное видео на множество фреймов, при этом каждый фрейм содержит область кадра с изображением лица, извлекают компоненту R палитры RGB каждого пикселя в каждом фрейме из множества F, составляют массив значений красного спектра для каждого пикселя, рассчитывают AR компоненты R между текущим и следующим фреймом для каждого пикселя и формируют массив, отображающий интенсивность изменения пикселей. Рассчитывают параметр усиления между текущим и следующим фреймом на основании массива и формируют массив для каждого пикселя.
Description
СПОСОБ И СИСТЕМА ОПРЕДЕЛЕНИЯ СИНТЕТИЧЕСКИХ ИЗМЕНЕНИЙ ЛИЦ В ВИДЕО
ОБЛАСТЬ ТЕХНИКИ
[0001] Настоящее техническое решение относится к области компьютерных технологий, применяемых в области обработки данных, в частности к способу и системе для определения синтетически измененных изображений лиц на видео.
УРОВЕНЬ ТЕХНИКИ
[0002] На сегодняшний день применение технологий для формирования синтетических изображений, накладываемых на изображения лиц реальных людей, основано, как правило, на применении алгоритмов машинного обучения, например, искусственных нейронных сетей (ИНС). Такие подходы направлены на наложение цифровых масок, имитирующих лица людей. Примером такой технологии является методика DeepFake, основанная на искусственном интеллекте и применяемая для синтеза изображений (см. https://ru.wikipedia.org/wiki/Deepfake).
[0003] Известен способ распознавания синтетически измененных изображений лиц людей, в частности DeepFake изображений (Tolosana et al. DeepFakes Evolution: Analysis of Facial Regionsand Fake Detection Performance // Biometrics and Data Pattern Analytics - BiDA Lab, Universidad Autonoma de Madrid. 2020), который основан на анализе сегментов, формирующих изображения лица. Анализ осуществляется с помощью ИНС, обученной на реальных и синтетических изображениях лиц людей, в частности, знаменитостей, что может применяться для выявления подложных (фейковых) видео. Способ позволяет анализировать сегменты лица, на основании которых выдается классификация соответствующего изображения как содержащего синтетические изменения или нет.
[0004] В уровне техники также известен алгоритм усиления Эйлера (Eulerian Video Magnification, сокр. EVM // http://people.csail.mit.edu/mrub/evm/), который основывается на усилении компонента R цветового спектра палитры RGB, что позволяет наблюдать на видео биологические изменения людей, в частности, проводить анализ за счет визуализации пульсации крови в венах. Данный подход на сегодняшний день не применяется для выявления синтетических изменений лиц в видео, что ограничивает существующий спектр методов определение синтетических изменений видеоизображений.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0005] Заявленное техническое решение направлено на создание нового подхода по выявлению синтетических изменений лиц людей в видео.
[0006] Техническим результатом является обеспечение возможности выявления синтетически измененных изображений лиц в видео с помощью пиксельного анализа динамики изменений цвета на кадрах.
[0007] Заявленный технический результат достигается за счет способа определения синтетических изменений лиц в видео, выполняемого с помощью процессора и содержащего этапы, на которых: a) получают видео, содержащее по меньшей мере одно изображение лица; b) разбивают полученное видео на множество фреймов F = {Е1л F2, ... , Fn }, при этом каждый фрейм содержит область кадра с изображением лица; c) извлекают компоненту R палитры RGB каждого пикселя в каждом фрейме из множества F ; d) составляют массив значений красного спектра для каждого пикселя в каждом фрейме из множества F ; e) рассчитывают Д7? компонент R между текущим и следующим фреймом для каждого пикселя и формируют массив ЛггДЙ = {(7?! — R21, |Т?2 — Е3|, — , |Т?П-2 — Rn_ г |] , отображающую интенсивность изменения пикселей; f) рассчитывают параметр усиления ? между текущим и следующим фреймом на основании массива Arr&R и формируют массив Аггр для каждого пикселя ; g) формируют массив матриц MRp = на основании
массивов каждого пикселя Аггри значений компоненты R во фреймах F; h) формируют новые фреймы Fr = {Frlt Fr2, ... , Frn- } на основании MRp замены в компоненты R палитры RGB в каждом фрейме F; i) осуществляют анализ каждого фрейма из Fr, полученного на этапе h) с помощью модели машинного обучения, выполненной с возможностью выявления наличия динамики пикселей в компоненте R палитры RGB; j) определяют синтетические изменения изображений лиц в видео на основании анализа фреймов на этапе i).
[0008] В одном из частных примеров реализации способа фреймы лиц на этапе Ь) определяются с помощью алгоритма библиотеки OpenCV, обеспечивающего определение местоположений лиц на кадрах видео.
[0009] В другом частном примере реализации способа этапы с)- h) выполняются с помощью алгоритма библиотеки EVM (Алгоритм усиления Эйлера).
[0010] В другом частном примере реализации способа фреймы определяются с помощью обрезки области кадра видео, содержащего изображение лица.
[ООП] В другом частном примере реализации способа при выявлении синтетически измененного лица формируется уведомление.
[0012] В другом частном примере реализации способа уведомление отображается в графическом интерфейсе пользователя.
[0013] В другом частном примере реализации способа выполняется маркировка области изображения с синтетически измененным изображением лица.
[0014] Заявленное решение также осуществляется с помощью системы определения синтетических изменений лиц в видео, содержащей по меньшей мере один процессор и по меньшей мере одну память, в которой хранятся машиночитаемые инструкции, которые при их выполнении процессором реализуют вышеописанный способ.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0015] Фиг. 1 иллюстрирует блок-схему заявленного способа.
[0016] Фиг. 2 иллюстрирует пример формирования фреймов из кадров видео.
[0017] Фиг. ЗА иллюстрирует общее представление периодического закона изменения красного спектра пикселя сквозь фреймы.
[0018] Фиг. ЗБ иллюстрирует значение красного спектра пикселя сквозь фреймы F в случае, если видеоролик оригинальный.
[0019] Фиг. ЗВ иллюстрирует значение красного спектра пикселя сквозь фреймы F в случае, если видеоролик с наложением DeepFake.
[0020] Фиг. ЗГ иллюстрирует создание нового ряда пикселей сквозь фреймы Fr, если видеоролик был оригинальный.
[0021] Фиг. ЗД иллюстрирует создание нового ряда пикселей сквозь фреймы Fr, если видеоролик был с наложением DeepFake.
[0022] Фиг. 4 иллюстрирует общую архитектуру модели машинного обучения.
[0023] Фиг. 5А - 5Б иллюстрируют пример анализа фреймов для определения синтетических изменений в видео.
[0024] Фиг. 6 иллюстрирует общий вид вычислительного устройства.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
[0025] Как представлено на Фиг. 1, реализация заявленного способа (100) определения синтетически измененных изображений лиц в видео заключается в выполнении вычислительным компьютерным устройством, в частности, с помощью одного или нескольких процессоров в автоматизированном режиме программного алгоритма, представленного в виде последовательности этапов, обеспечивающих выполнение материальных действий в виде обработки электронных сигналов, порождаемых при исполнении процессором вычислительного устройства своих функций в целях реализации выполнения обработки данных в рамках исполнения способа (100).
[0026] В настоящем решении под термином «синтетически измененное изображения лица» здесь и далее по тексту будет пониматься любой тип формирования цифрового изображения, имитирующего лицо или часть лица другого человека, в том числе путем наложения цифровых масок, искажение/изменение частей лица и т.п. Под синтетически измененным изображением лица следует понимать, как полностью сгенерированные изображения, например, масок с помощью технологии DeepFake, накладываемых на лицо реального человека в кадре с сохранением мимической активности изображения, так и формирование частичного изменения отдельных частей лица (глаз, носа, губ, ушей и т.п.). [0027] На первом этапе (101) осуществляется получение и сохранение в память вычислительного устройства, выполняющего способ (100), одного или нескольких изображений, получаемых из видео. В настоящих материалах заявки под термином «видео» будет пониматься видеоизображение, видеопоток (например, с ip-камеры, камеры электронного устройства, виртуальной камеры, с Интернет-приложения), упорядоченная последовательность кадров (изображений), подвыборка кадров, в том числе вплоть и до одного изображения.
[0028] Как представлено на Фиг. 2, из полученных на этапе (101) кадров (201) видео (20) на этапе (102) формируются фреймы F = {Г1л F2, ... , Fn }, где каждый фрейм содержит область кадра с изображением лица. Разбиение на фреймы выполняются с помощью библиотек, таких как OpenCV, EmguCV, AForge, Accord и других подобных библиотек для выявления лиц на видеокадрах. Данные классификаторы способны выявлять лица на статическом изображениях (кадрах).
[0029] Каждый фрейм из множества F = {Flt F2, ... , Fn } содержит изображение лица в цветовой палитре RGB, что позволяет на этапе (103) выполнить извлечение компоненты R палитры RGB каждого пикселя. Как представлено на Фиг. 2 на примере фрейма F компоненты пикселей Т?15 R2 извлекаются для последующей обработки, чтобы на этапе
(104) сформировать массива значений красного спектра R для каждого пикселя в каждом фрейме из множества F .
[0030] На Фиг. ЗА приведен пример анализа интенсивности изменения пикселей изображения на примере динамики пульса человека, который обычно подчиняется периодическому закону распределения ~ sin(at). По изменениям во времени пульсации красного спектра R формируется распределение массива значений на кадрах F (Фиг. ЗБ), который соответствуют изображению реального человека на кадрах видео. На Фиг. ЗВ приведен пример распределения компонент R, который свидетельствует о возможной аномалии, связанной со значительным разрывом между точками R, в которых обычно происходит изменение в красном спектре в связи с пульсацией крови.
[0031] На основании сформированного массива компонент R на этапе (105) для каждого фрейма выполняется расчет Д/? компоненты (например, R — R2 для пикселя на фрейме пикселя между текущим и следующим фреймом, что позволяет сформировать массив Аггдд, отображающий интенсивность изменения пикселей для каждого фрейма в области изображения лица.
[0032] На основании сформированного массива ArrkR на этапе (106) рассчитывают параметр усиления между текущим и следующим фреймом и формируют массив Аггр для каждого пикселя. Параметр усиления ft определяется следующим образом. Для каждого Рх(х, у)- пикселя фрейма F с координатами (х, у) :
где: i - порядковый номер фрейма F видеоролика, i - целое неотрицательное число, i < п , п - количество фреймов;
RFi - значение красной компоненты яркости пикселя в i-ом фрейме; а - частота пульса человека (например, 0,5 - 1 Гц.).
[0034] Далее на этапе (108) с помощью сформированной матриц MRp выполняется формирование новых фреймов Fr = {Frlt Fr2, ... , Frn-1 } с помощью замены в компоненты R палитры RGB в каждом фрейме F .
[0035] На этапе (109) каждый полученный новый фрейм из множества Fr обрабатывается с помощью модели машинного обучения, которая выполнена с
возможностью выявления наличия динамики пикселей в компоненте R палитры RGB. Так как анализ EVM дает огромное количество сочетаний цветов, их прямой анализ перебором не возможен алгоритмическими средствами. Для этого применяется модель машинного обучения, которая построена на базе нейронной сети глубокого обучения (DNN).
[0036] На Фиг. ЗГ показан принцип формирования новых фреймов Fr с помощью умножения компонент R на параметр усиления /?. Если полученные фреймы Fr в части отображения изменений R компонент является идентичной или близкой к фреймам R, то это свидетельствует о живом человеке в кадрах видео. Если же определяется значительный разрыв между отображением пикселей в красном спектре, то это говорит о наложении синтетических изменений и представленное изображение лица является подменным.
[0037] Задача, которую выполняет настоящая модель машинного обучения, относится к задаче бинарной классификации изображения, осложненной тем, что необходимо распознать не объект в изображении, а на основе сочетаний цветов в изображении, дать ответ, содержит ли данное изображение синтетическое изменение лица или нет. В предлагаемой модели могут использоваться библиотеки MS. ML, TensorFlow, Torch, Accord и т.п. Общий вид структуры модели приведен на Фиг. 4.
[0038] Модель представляет собой бэггинг из решающих деревьев (например, htps://www.geeksforgeeks.org/ml-bagging-classifier/), в каждой из которых результат работы DNN текущей итерации сравнивается с результатом работы DNN предыдущей итерации. И, если результат лучше, результат работы текущей DNN передается в следующую итерацию, иначе следующая итерация заново отрабатывает по старым данным. Таким образом достигается качество работы DNN, при которой результат предсказания приближается к результату работы нейронной сети.
[0039] Сама нейросеть представляет собой сложную сверточную глубинную нейросеть со внутренними деревьями созданной на TF (Tensor Flow).
[0040] Модель была обучена на базе видеороликов из Deepfake Detection Challenge (DFDC), организованной AWS, Facebook, Microsoft. Из 70% всех скачанных видеороликов (-250 Гб) использовалось ~2 300 из 6 000 оригинальных видеороликов (real) и -2 300 из 33 000 видеороликов с нанесенными дипфейками (fake). Из оставшихся 30% видеороликов была проведена проверка на -300 видеороликах из real и -300 видеороликов из категории fake. Алгоритм показал следующие результаты:
[0041] При этом необходимо отметить, что видеоролики DFDC имеют следующие свойства:
• разное качество видеороликов, наличие зернистости, квадратности, обусловленное работой камеры;
• разные скорости воспроизведения видеороликов;
• наличие нескольких человек в кадре;
• наличие посторонних предметов в кадре, имитирующих человеческое лицо (значки
- смайлики, постеры);
• лица людей не всегда смотрят в кадр, сьемка ведется сбоку;
• в видеороликах присутствуют люди разных полов, рас;
• алгоритмы нанесения дипфейков заранее неизвестны.
[0042] По итогам анализа модели на этапе (109) алгоритм определения выявляет по сформированным фреймам Fr наличие пиксельной активности (30г - 30п) в области отображения лица и выдает итог проверки на этапе (110). Как показано на Фиг. 5 А, в случае наличия динамики изменения пикселей в R компоненте на фреймах Fr, то это свидетельствует о наложении синтетического изменения на изображение лица. В противном случае, как показано на Фиг. 5Б, если изменений пикселей в R компоненте нет, то это свидетельствует об отсутствии синтетических изменений лиц в видео. По завершению этапа (ПО) генерируется уведомление о наличии синтетически измененного лица в видео.
[0043] Уведомление может отображаться непосредственно в графическом интерфейсе пользователя, например, при проведении онлайн-конференции (Zoom, Skype, MS Teams). Также, уведомление может отображаться непосредственно в области выявления синтетического изменения лица, например, в области с изображением лица человека. Дополнительным эффектом от применения изобретения может являться его использование в системах биометрического контроля, например, при получении услуг (например, банковских услуг) или доступа (система контроля доступа, турникет с биометрическим сенсором). При выявлении синтетически измененного изображения лица осуществляется блокировка доступа или запрашиваемого действия со стороны пользователя. В этом случае может дополнительно запрашиваться данные аутентификации пользователя, выбираемые из группы: логин, код, пароль, двухфакторная аутентификация или их сочетания.
[0044] Заявленное решение может применяться в системах мониторинга медиапространства и анализа социальных медиа и СМИ, для выявления публичных
известных людей (первые лица государства, медийные личности, известные люди и т.п.), на которых может производиться попытка их компрометации. Такие системы будут являться источником получаемого видео для его последующего анализа, и, в случае выявления синтетических изменений изображений лиц таких людей, им или соответствующей службе может быть направлено уведомление о подложно сформированной информации. Для такого вида уведомления может также сохраняться информация о времени выявленного события, источнике события.
[0045] На Фиг. 6 представлен общий вид вычислительного устройства (400), пригодного для выполнения заявленного способа (100). Устройство (400) может представлять собой, например, сервер или иной тип вычислительного устройства, который может применяться для реализации заявленного технического решения. В том числе входить в состав облачной вычислительной платформы.
[0046] В общем случае вычислительное устройство (400) содержит объединенные общей шиной информационного обмена один или несколько процессоров (401), средства памяти, такие как ОЗУ (402) и ПЗУ (403), интерфейсы ввода/вывода (404), устройства ввода/вывода (405), и устройство для сетевого взаимодействия (406).
[0047] Процессор (401) (или несколько процессоров, многоядерный процессор) могут выбираться из ассортимента устройств, широко применяемых в текущее время, например, компаний Intel™, AMD™, Apple™, Samsung Exynos™, MediaTEK™, Qualcomm Snapdragon™ и т.п. В качестве процессора (501) может также применяться графический процессор, например, Nvidia, AMD, Graphcore и пр.
[0048] ОЗУ (402) представляет собой оперативную память и предназначено для хранения исполняемых процессором (401) машиночитаемых инструкций для выполнение необходимых операций по логической обработке данных. ОЗУ (402), как правило, содержит исполняемые инструкции операционной системы и соответствующих программных компонент (приложения, программные модули и т.п.).
[0049] ПЗУ (403) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD), флэш- память (EEPROM, NAND и т.п.), оптические носители информации (CD-R/RW, DVD- R/RW, BlueRay Disc, MD) и др.
[0050] Для организации работы компонентов устройства (400) и организации работы внешних подключаемых устройств применяются различные виды интерфейсов В/В (404). Выбор соответствующих интерфейсов зависит от конкретного исполнения вычислительного устройства, которые могут представлять собой, не ограничиваясь: PCI,
AGP, PS/2, IrDa, FireWire, LPT, COM, SATA, IDE, Lightning, USB (2.0, 3.0, 3.1, micro, mini, type C), TRS/Audio jack (2.5, 3.5, 6.35), HDMI, DVI, VGA, Display Port, RJ45, RS232 и т.п.
[0051 ] Для обеспечения взаимодействия пользователя с вычислительным устройством (400) применяются различные средства (405) В/В информации, например, клавиатура, дисплей (монитор), сенсорный дисплей, тач-пад, джойстик, манипулятор мышь, световое перо, стилус, сенсорная панель, трекбол, динамики, микрофон, средства дополненной реальности, оптические сенсоры, планшет, световые индикаторы, проектор, камера, средства биометрической идентификации (сканер сетчатки глаза, сканер отпечатков пальцев, модуль распознавания голоса) и т.п.
[0052] Средство сетевого взаимодействия (406) обеспечивает передачу данных устройством (400) посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (406) может использоваться, но не ограничиваться: Ethernet карта, GSM модем, GPRS модем, LTE модем, 5G модем, модуль спутниковой связи, NFC модуль, Bluetooth и/или BLE модуль, Wi-Fi модуль и др.
[0053] Дополнительно могут применяться также средства спутниковой навигации в составе устройства (400), например, GPS, ГЛОНАСС, BeiDou, Galileo.
[0054] Представленные материалы заявки раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники.
Claims
1. Способ определения синтетических изменений лиц в видео, выполняемый с помощью процессора и содержащий этапы, на которых: a) получают видео, содержащее по меньшей мере одно изображение лица; b) разбивают полученное видео на множество фреймов F = { 1( F2, ... , Fn }, при этом каждый фрейм содержит область кадра с изображением лица; c) извлекают компоненту R палитры RGB каждого пикселя в каждом фрейме из множества F; d) составляют массив значений красного спектра для каждого пикселя в каждом фрейме из множества F ; e) рассчитывают А/? компоненты R пикселя между текущим и следующим фреймом для каждого пикселя и формируют массивы Arr^R, отображающие интенсивности изменений пикселей сквозь F; f) рассчитывают параметры усиления ft и формируют массивы Аггр между текущим и следующим фреймом и для каждого пикселя на основании массивов ггдл, полученных на этапе е); g) формируют массив матриц MRp на основании массива Аггр, полученного этапе f); h) формируют фреймы Fr = [Ргг, Fr2, ... , Frn } на основании массива матриц MRp полученных на этапе g) путем замены красного спектра каждого пикселя R во множестве F, полученного на этапе Ь); i) осуществляют анализ каждого фрейма из Fr, полученного на этапе h) с помощью модели машинного обучения, выполненной с возможностью выявления наличия динамики пикселей в компоненте R палитры RGB; j) определяют синтетические изменения изображений лиц в видео на основании анализа фреймов на этапе g).
2. Способ по п.1, в котором фреймы лиц на этапе Ь) определяются с помощью алгоритма библиотеки OpenCV, обеспечивающего определение местоположений лиц на кадрах видео.
3. Способ по п.1, в котором этапы с)- h) выполняются с помощью алгоритма библиотеки EVM (Алгоритм усиления Эйлера).
4. Способ по п.2, в котором фреймы определяются с помощью обрезки области кадра видео, содержащего изображение лица.
Способ по п.1, в котором при выявлении синтетически измененного лица формируется уведомление. Способ по п.5, в котором уведомление отображается в графическом интерфейсе пользователя. Способ по п.6, в котором выполняется маркировка области изображения с синтетически измененным изображением лица. Система определения синтетических изменений лиц в видео, содержащая по меньшей мере один процессор и по меньшей мере одну память, в которой хранятся машиночитаемые инструкции, которые при их выполнении процессором реализуют способ по пп. 1-7.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2021135267 | 2021-12-01 | ||
RU2021135267A RU2774624C1 (ru) | 2021-12-01 | Способ и система определения синтетических изменений лиц в видео |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023101570A1 true WO2023101570A1 (ru) | 2023-06-08 |
Family
ID=86612857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/RU2021/000532 WO2023101570A1 (ru) | 2021-12-01 | 2021-12-01 | Способ и система определения синтетических изменений лиц в видео |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023101570A1 (ru) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021007652A1 (en) * | 2019-07-18 | 2021-01-21 | Nuralogix Corporation | System and method for detection of synthesized videos of humans |
US20210209388A1 (en) * | 2020-01-06 | 2021-07-08 | The Research Foundation For The State University Of New York | Fakecatcher: detection of synthetic portrait videos using biological signals |
CN113435292A (zh) * | 2021-06-22 | 2021-09-24 | 北京交通大学 | 一种基于固有特征挖掘的ai伪造人脸检测方法 |
-
2021
- 2021-12-01 WO PCT/RU2021/000532 patent/WO2023101570A1/ru unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021007652A1 (en) * | 2019-07-18 | 2021-01-21 | Nuralogix Corporation | System and method for detection of synthesized videos of humans |
US20210209388A1 (en) * | 2020-01-06 | 2021-07-08 | The Research Foundation For The State University Of New York | Fakecatcher: detection of synthetic portrait videos using biological signals |
CN113435292A (zh) * | 2021-06-22 | 2021-09-24 | 北京交通大学 | 一种基于固有特征挖掘的ai伪造人脸检测方法 |
Non-Patent Citations (8)
Title |
---|
"16th European Conference - Computer Vision – ECCV 2020", vol. 6, 1 January 1900, CORNELL UNIVERSITY LIBRARY,, 201 Olin Library Cornell University Ithaca, NY 14853, article QIAN YUYANG; YIN GUOJUN; SHENG LU; CHEN ZIXUAN; SHAO JING: "Thinking in Frequency: Face Forgery Detection by Mining Frequency-Aware Clues", pages: 86 - 103, XP047565214, DOI: 10.1007/978-3-030-58610-2_6 * |
DURALL RICARD; KEUPER MARGRET; KEUPER JANIS: "Watch Your Up-Convolution: CNN Based Generative Deep Neural Networks Are Failing to Reproduce Spectral Distributions", 2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 13 June 2020 (2020-06-13), pages 7887 - 7896, XP033803493, DOI: 10.1109/CVPR42600.2020.00791 * |
HAODONG LI; BIN LI; SHUNQUAN TAN; JIWU HUANG: "Identification of Deep Network Generated Images Using Disparities in Color Components", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 31 August 2020 (2020-08-31), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081750648, DOI: 10.1016/j.sigpro.2020.107616 * |
HASHMI MOHAMMAD FARUKH; ASHISH B. KIRAN KUMAR; KESKAR AVINASH G.; BOKDE NEERAJ DHANRAJ; YOON JIN HEE; GEEM ZONG WOO: "An Exploratory Analysis on Visual Counterfeits Using Conv-LSTM Hybrid Architecture", IEEE ACCESS, IEEE, USA, vol. 8, 28 May 2020 (2020-05-28), USA , pages 101293 - 101308, XP011792238, DOI: 10.1109/ACCESS.2020.2998330 * |
JEONG YONGHYUN; KIM DOYEON; MIN SEUNGJAI; JOE SEONGHO; GWON YOUNGJUNE; CHOI JONGWON: "BiHPF: Bilateral High-Pass Filters for Robust Deepfake Detection", 2022 IEEE/CVF WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV), IEEE, 3 January 2022 (2022-01-03), pages 2878 - 2887, XP034086483, DOI: 10.1109/WACV51458.2022.00293 * |
LEWIS JOHN K.; TOUBAL IMAD EDDINE; CHEN HELEN; SANDESERA VISHAL; LOMNITZ MICHAEL; HAMPEL-ARIAS ZIGFRIED; PRASAD CALYAM; PALANIAPPA: "Deepfake Video Detection Based on Spatial, Spectral, and Temporal Inconsistencies Using Multimodal Deep Learning", 2020 IEEE APPLIED IMAGERY PATTERN RECOGNITION WORKSHOP (AIPR), IEEE, 13 October 2020 (2020-10-13), pages 1 - 9, XP033913559, DOI: 10.1109/AIPR50011.2020.9425167 * |
UMUR AYBARS CIFTCI; ILKE DEMIR: "FakeCatcher: Detection of Synthetic Portrait Videos using Biological Signals", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 19 July 2020 (2020-07-19), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081702490, DOI: 10.1109/TPAMI.2020.3009287 * |
YANG HE; NING YU; MARGRET KEUPER; MARIO FRITZ: "Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 29 May 2021 (2021-05-29), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081971971 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10650280B2 (en) | Systems and methods for machine learning enhanced by human measurements | |
Wang et al. | A video is worth more than 1000 lies. Comparing 3DCNN approaches for detecting deepfakes | |
US10832069B2 (en) | Living body detection method, electronic device and computer readable medium | |
EP3951750A1 (en) | Liveness detection safe against replay attack | |
US20170178287A1 (en) | Identity obfuscation | |
JP2021520530A (ja) | 生体検出方法及び装置、電子機器ならびに記憶媒体 | |
US20210256707A1 (en) | Learning to Segment via Cut-and-Paste | |
US20220262163A1 (en) | Method of face anti-spoofing, device, and storage medium | |
JP2022133378A (ja) | 顔生体検出方法、装置、電子機器、及び記憶媒体 | |
WO2020159437A1 (en) | Method and system for face liveness detection | |
WO2023165616A1 (zh) | 图像模型隐蔽后门的检测方法及系统、存储介质、终端 | |
CN110543848B (zh) | 一种基于三维卷积神经网络的驾驶员动作识别方法及装置 | |
Hadiprakoso et al. | Face anti-spoofing using CNN classifier & face liveness detection | |
US20230118361A1 (en) | User input based distraction removal in media items | |
WO2022227765A1 (zh) | 生成图像修复模型的方法、设备、介质及程序产品 | |
US11335128B2 (en) | Methods and systems for evaluating a face recognition system using a face mountable device | |
RU2768797C1 (ru) | Способ и система для определения синтетически измененных изображений лиц на видео | |
CN111274447A (zh) | 基于视频的目标表情生成方法、装置、介质、电子设备 | |
Anghelescu et al. | Surveillance system using IP camera and face-detection algorithm | |
TWI745808B (zh) | 狀況認知系統與方法 | |
RU2774624C1 (ru) | Способ и система определения синтетических изменений лиц в видео | |
Emeršič et al. | Towards accessories-aware ear recognition | |
JP6892844B2 (ja) | 情報処理装置、情報処理方法、透かし検出装置、透かし検出方法、及びプログラム | |
WO2023101570A1 (ru) | Способ и система определения синтетических изменений лиц в видео | |
CN110689066A (zh) | 一种人脸识别数据均衡与增强相结合的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
NENP | Non-entry into the national phase |
Ref country code: DE |