RU2829461C1 - Способ программной обработки видео контента с применением семантического анализа - Google Patents

Способ программной обработки видео контента с применением семантического анализа Download PDF

Info

Publication number
RU2829461C1
RU2829461C1 RU2024110560A RU2024110560A RU2829461C1 RU 2829461 C1 RU2829461 C1 RU 2829461C1 RU 2024110560 A RU2024110560 A RU 2024110560A RU 2024110560 A RU2024110560 A RU 2024110560A RU 2829461 C1 RU2829461 C1 RU 2829461C1
Authority
RU
Russia
Prior art keywords
video
content
audio
analysis
videos
Prior art date
Application number
RU2024110560A
Other languages
English (en)
Inventor
Михаил Алексеевич Молчанов
Original Assignee
Михаил Алексеевич Молчанов
Filing date
Publication date
Application filed by Михаил Алексеевич Молчанов filed Critical Михаил Алексеевич Молчанов
Application granted granted Critical
Publication of RU2829461C1 publication Critical patent/RU2829461C1/ru

Links

Abstract

Изобретение относится к области вычислительной техники для семантического анализа в видео и аудио. Технический результат заключается в повышении эффективности управления памятью устройства, предотвращая перегрузку вычислительного устройства. Технический результат достигается за счет способа программной обработки видео контента с применением семантического анализа, который использует технологии для семантического анализа в видео и аудио, выделяя ключевые смыслы. Способ выполняет покадровый анализ видео и системное вычисление пространственно-временной значимости каждого изображения лица для каждого объекта в рассматриваемом видео, при этом значимость определяется векторным представлением пространственной характеристики лица, которая отражает размер области лица относительно кадра, и векторным представлением временной характеристики изображения лица, описывающей длительность отображения анализируемого изображения лица в последовательных кадрах видео и автоматическое выделение ключевых слов и фраз, наиболее релевантных содержанию видео за счет использования алгоритмов для определения наиболее эффективных ключевых слов исходя из их популярности и использования в аналогичных контекстах. 2 з.п. ф-лы, 2 ил.

Description

Уровень техники
Современные видеоредакторы с семантическим поиском упрощают работу с видеоматериалами и монтаж нужных фрагментов видео. Использование искусственного интеллекта и алгоритмов обработки естественного языка становится все более распространенным для улучшения пользовательского опыта. Технологии обработки видео и аудио с применением искусственного интеллекта включают более точное распознавание объектов и лиц, анализ эмоционального окраса и автоматическое извлечение смысла из мультимедийного контента. Подобные решения для видео также интегрируют облачные ресурсы для более мощных вычислений и хранения данных.
Общий вектор развития данной области указывает на более умные и адаптивные системы обработки видео и аудио, предоставляя пользователям широкий и продвинутый набор инструментов для творчества и редактирования мультимедийного контента. Несмотря на успехи в распознавании объектов, лиц и речи, точность этих технологий может не всегда соответсовавть, особенно при работе с сложным видео и аудио, например, в условиях низкого качества записи. Обработка в реальном времени видео и аудио также представляет технические сложности, требуя высокой производительности и эффективности алгоритмов. Существует необходимость в создании интуитивного и легкого в использовании решения для эффективной работы с функционалом семантического поиска и интеллектуальной обработки при работе с видео.
Известна Система и способ контекстуализации потока неструктурированного текста, представляющего устную речь (System and method for contextualising a stream of unstructured text representative of spoken word) по патенту US 20170011024 A1, включающая грамматический процессор, процессор предложений, частотный процессор, процессор агрегации и процессор эмоций. Неструктурированный поток текста обрабатывается и выводит общее количество аудиофайлов для каждой совпадающей фразы, слова и имени собственного, определенных из неструктурированного текста, в обработчик значимости данных. Обработчик значимости данных получает общее количество аудиофайлов для каждого имени, имени собственного и совпадающей реальной фразы, определенных из неструктурированного текста, и выводит список, включающий имена, имена собственные и совпадающие реальные фразы в порядке контекстуальной значимости.
Однако, данное решение в отличие от заявленного не может быть использовано для семантического поиска в видео и аудио, выделяя при этом ключевые смыслы, быструю обработку, а также отсутствует возможность создавать индивидуальные ролики и осуществлять онлайн-мониторинг и анализ, а также генерацию ключевых слов для SEO-оптимизации.
Раскрытие изобретения
Задачей изобретения является обеспечение пользователей более удобными и продвинутыми средствами обработки, анализа и управления видеоматериалами. Это включает в себя семантический поиск внутри видео, выделение ключевых смыслов, моментальное извлечение основного содержания, анализ контента, использование искусственного интеллекта для улучшения контента и анализа эмоционального контекста. Решение направлено на обеспечение пользователей более удобными и продвинутыми средствами обработки, анализа и управления видеоматериалами.
Основная цель состоит в предоставлении пользователям широкого набора инструментов для работы с видео, включая семантический поиск внутри видео, выделение ключевых смыслов, моментальное извлечение основного содержания, анализ контента, использование искусственного интеллекта для упрощения работы с контентом и анализом эмоционального контекста. Это также включает создание персонализированных видеороликов, проведение онлайн-мониторинга и анализа, а также оптимизацию контента для поисковых систем (SEO).
Существующие инструменты для обработки видеоматериалов обладают недостатками в эффективности, скорости и удобстве использования. При работе с выделением ключевой информации требуются значительные временные и трудовые затраты для анализа и управления контентом. Кроме того, известные решения не обеспечивают возможность персонализации контента или адаптации его для оптимизации веб-поиска.
Технический результат заключается в предоставлении пользователям удобных, быстрых инструментов для обработки, анализа и управления видеоматериалами, что содействует улучшению пользовательского опыта в создании и редактировании мультимедийного контента.
Пользователь может использовать настоящее решения для быстрого поиска конкретных сцен или ключевых моментов в больших видеоархивах, сокращая время, затраченное на поиск нужной информации. Также благодаря функциям семантического анализа и анализа эмоционального контекста, пользователь может быстро выявлять настроение или основные темы в видеоматериалах, что полезно для исследований и маркетинговых целей.
Осуществление изобретения
При реализации изобретения представлен компьютерно-реализуемый способ эффективной обработки видео для видеоаналитики и оптимизации поисковых систем, выполняемый с использованием процессора, который включает в себя следующие этапы:
a. семантический анализ внутри видео и аудио, осуществляемый за счет технологии для контекстного поиска в видео и аудио, основан на выделении ключевых смыслов и элементов контента в процессе поиска;
b. извлечение основного смысла из видео и аудио происходит за счет использования
специализированных алгоритмов обработки сигналов, машинного обучения и технологий обработки естественного языка;
c. покадровый анализ видео и системное вычисление пространственно-временной значимости каждого изображения лица для каждого объекта в рассматриваемом видео, при этом значимость определяется векторным представлением пространственной характеристики лица, которая отражает размер области лица относительно кадра, и векторным представлением временной характеристики изображения лица, описывающей длительность отображения анализируемого изображения лица в последовательных кадрах видео;
d. преобразование видео в отдельные ролики по смыслам проходит через автоматическое выделение смысловых фрагментов видео, реализованное через алгоритмы компьютерного зрения и технологии обработки сигналов, анализ аудиодорожки выделяет ключевые звуки речи или музыки, которые служат признаками смысловых фрагментов;
e. возможность работы с видео без перегрузки памяти системы и сохранение только необходимых роликов или их загрузка в социальные сети;
f. мгновенный анализ контента для быстрого ориентирования пользователя в видео с возможностью создания тайм-кодов для удобства навигации;
g. возможность использования искусственного интеллекта для выбора, редактирования и мгновенной загрузки роликов в социальные сети;
h. функционал анализа эмоционального окраса контента включает анализ изображений или видео для выделения лиц и определения эмоциональных выражений на них, а анализ аудиодорожки видео определяет интонации, тональность и эмоциональную окраску голоса в видео;
i. возможность создания и индивидуализии видео пользователями реализовано за счет использования алгоритмов машинного обучения для предложения пользователю индивидуальных идей и стилей редактирования на основе предыдущих предпочтений, включая возможность редактирования длину видео;
j. автоматическое выделение ключевых слов и фраз, наиболее релевантных содержанию видео за счет использования алгоритмов для определения наиболее эффективных ключевых слов, исходя из их популярности и использования в аналогичных контекстах.
При реализации использованы алгоритмы для проведения семантического анализа видео и аудио. В частности применяются такие алгоритмы, как “zero shot classification” и “sentence similarity”. Эти алгоритмы играют ключевую роль в процессе обработки медиа-контента, так как они способны проводить семантический анализ непосредственно после декодирования медиа в текст. Это позволяет быстро и эффективно извлекать основной смысл из видео и аудио.
Активация функционала, который выделяет ключевые смыслы и элементы контента в процессе поиска, осуществляется на основе данных, полученных от алгоритмов семантического анализа. Это позволяет системе точно определять и извлекать важную информацию из видео и аудио-материалов.
Преобразование видео в отдельные ролики по смыслам осуществляется путем автоматического выделения смысловых фрагментов видео с использованием алгоритмов компьютерного зрения и обработки сигналов. Это позволяет создавать более структурированные и информативные ролики, что улучшает их восприятие и удобство использования.
Алгоритм zero shot classification применяется для классификации объектов или данных на основе их характеристик. Этот способ позволяет системе обрабатывать новые классы без необходимости переобучения на новых данных, что значительно упрощает и ускоряет процесс обработки видео и аудио-контента.
Алгоритм sentence similarity используется для оценки семантической близости между предложениями или фразами. Это помогает системе определять степень схожести между текстовыми строками на основе их содержания и контекста, что является важным элементом в анализе и интерпретации контента.
Решение базируется на основах NLP (Natural language processing). Применяются модели машинного обучения, которые выстраивают контекстуальные отношения в тексте. Важно отметить, что такие модели позволяют получать численное или векторное представление некоторой формы данных в зависимости от контекста, который ее окружает. Так, например, Word2Vec не учитывают данного фактора, поэтому векторизация одного слова или предложения в разных текстах дает один и тот же результат. В данном решении же используются модели, которые подстраиваются под контекст и на выходе реализована возможность получать векторы фиксированной длины для дальнейшей обработки. Кроме того, скрытые состояния модели также хранят информацию, которая применяется в анализе.
Имея численное представление данных, имеется возможность выполнять разные задачи (при этом возможно их пересечение в итоговом результате):
1) извлекать главный смысл из видео - для этого необходимо разбить текст видео на предложения или группы предложений s_1,...s_n, называемыми ngram-ми. затем применяем алгоритм кластеризации, чтобы разделить s_i на группы связных текстов. Достигается это за счет минимизации расстояния (например, косинусного) между векторами или максимизации похожести (например, косинусного).
На рис. 1 представлена формула расчета косинусной схожести. Стоит отметить, что similarity=1-distance и поэтому оба эти алгоритма используются в данном решении.
Также необходимо выставить минимальный порог разности кластеров для их образования. Или необходимо выставить максимальный порог схожести. Эти понятия связаны и мы оперируем тем и другим.
На рис. 2 представлена формула формализации составления кластеров. C - кластеры, ε - максимальный порог схожести векторных представлений. В нашем случае представлений s_i.
Когда кластеры выстроены, мы берем максимальный из них по размеру и составляем из него итоговое видео. То есть мы находим argmax C_i по всем кластерам. Если задается ограничение на длительность видео, то мы находим центр масс векторов и ранжируем их по близости к этому центру.
2) извлекать смысл по запросу (q) - на данном этапе формируется всего один кластер или не формируется вовсе. Если кластер создается, то модель отвечает на вопрос вхождения каждого тестового s_i в кластер q, иначе используется вышеописанные алгоритмы поиска близости. Разница небольшая, но при необходимости используются оба подхода. Для этого выставляется некоторый порог вероятности p* и каждый s_i проверяется по условию: p(1 - dist(vectorized(s_i), vectorized(q))) >= p* или p(similarity(vectorized(s_i), vectorized(q))) >= p*. Также проверяется, насколько q может быть продолжением предыдущего контекста (то есть предложения или группы предложений или даже нескольких слов): p(is_next(q, s_i)) >= p*. Последний способ может как использовать векторизацию, так и использовать только скрытые состояния нейронной сети. Эти методы в частности имеют названия Sentence similarity и Zero Shot Classification. В общих чертах необходимо найти top n элементов функции argmax p(), убирая из выборки найденный элемент, пока p>=p*.
3) проводить мультимодальную обработку - разработанные модели могут получать на вход как текст, так и изображение и участок видео небольшой длины. После векторизации сопоставляются контексты разных видов друг с другом, то есть производится поиск значения функции argmax(p(q, x)), где q - входной вектор, а x пробегает некоторое множество векторизованных контекстов. Это множество может быть как списком текстов, видео так и изображений. Таким образом, добавляется эмоциональный окрас в видео, вставляя в некоторый его участок медиа, похожее на его контекст и иллюстрирующее суть.
4) проводить эффективный поиск - составляется упорядоченный набор векторизованных контекстов, благодаря этому проводится первичный поиск похожего контента с помощью классических алгоритмов поиска ближайших элементов в метрическом пространстве и при необходимости применяем модели машинного обучения для исходного контекста при необходимости конкретизации поиска.
5) выделять эмоциональный окрас. Составляем кластер с эмоциональными контекстами, далее обработка идет по пунктам 1) - 4). Такой кластер может содержать обобщение для эмоций или же только конкретный тип (например, негатив).
Пункты 4 и 5 представляют собой методы для эффективного поиска и выделения эмоционального окраса контента, они используют те же основные методы, что и представленные в пунктах 1-3.
Краткое описание чертежей
рис.1 - формула косинусная схожесть,
рис. 2 - формула формализации составления кластеров.

Claims (13)

1. Компьютерно-реализуемый способ для работы с видео для видеоаналитики и поисковыми системами, осуществляемый с помощью процессора, включающий в себя:
a. семантический анализ внутри видео и аудио, осуществляемый за счет технологии для контекстного поиска в видео и аудио, основан на выделении ключевых смыслов и элементов контента в процессе поиска;
b. извлечение основного смысла из видео и аудио происходит за счет использования специализированных алгоритмов обработки сигналов, машинного обучения и технологий обработки естественного языка;
c. покадровый анализ видео и системное вычисление пространственно-временной значимости каждого изображения лица для каждого объекта в рассматриваемом видео, при этом значимость определяется векторным представлением пространственной характеристики лица, которая отражает размер области лица относительно кадра, и векторным представлением временной характеристики изображения лица, описывающей длительность отображения анализируемого изображения лица в последовательных кадрах видео;
d. преобразование видео в отдельные ролики по смыслам проходит через автоматическое выделение смысловых фрагментов видео, реализованное через алгоритмы компьютерного зрения и технологии обработки сигналов, анализ аудиодорожки выделяет ключевые звуки речи или музыки, которые служат признаками смысловых фрагментов;
e. возможность работы с видео без перегрузки памяти системы и сохранение только необходимых роликов или их загрузка в социальные сети;
f. мгновенный анализ контента для быстрого ориентирования пользователя в видео с возможностью создания тайм-кодов для удобства навигации;
g. возможность использования искусственного интеллекта для выбора, редактирования и мгновенной загрузки роликов в социальные сети;
h. функционал анализа эмоционального окраса контента включает анализ изображений или видео для выделения лиц и определения эмоциональных выражений на них, а анализ аудиодорожки видео определяет интонации, тональность и эмоциональную окраску голоса в видео;
i. возможность создания и индивидуализации видео пользователями реализована за счет использования алгоритмов машинного обучения для предложения пользователю индивидуальных идей и стилей редактирования на основе предыдущих предпочтений, включая возможность редактирования длины видео;
j. автоматическое выделение ключевых слов и фраз, наиболее релевантных содержанию видео, за счет использования алгоритмов для определения наиболее эффективных ключевых слов исходя из их популярности и использования в аналогичных контекстах.
2. Способ по п. 1, характеризующийся тем, что проведение анализа контента происходит непрерывно, в режиме реального времени, основываясь на ключевых характеристиках и особенностях контента с целью быстрого и точного выделения ключевых аспектов и изменений.
3. Способ по п. 1, характеризующийся тем, что модель машинного обучения состоит из группы моделей, каждая из которых обучена на выявление определенного алгоритма обработки контента, при этом каждая группа моделей специализируется на распознавании и анализе конкретных аспектов видеоматериала для выявления ключевых смыслов и элементов контента внутри видео и аудио, автоматически выделяющих смысловые фрагменты видео, для использования искусственного интеллекта в выборе готовых роликов, их редактирования и мгновенной загрузки в социальные сети.
RU2024110560A 2024-04-17 Способ программной обработки видео контента с применением семантического анализа RU2829461C1 (ru)

Publications (1)

Publication Number Publication Date
RU2829461C1 true RU2829461C1 (ru) 2024-10-30

Family

ID=

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120324491A1 (en) * 2011-06-17 2012-12-20 Microsoft Corporation Video highlight identification based on environmental sensing
US20140232863A1 (en) * 2011-05-12 2014-08-21 Solink Corporation Video analytics system
KR101632689B1 (ko) * 2014-09-16 2016-06-23 상명대학교서울산학협력단 멀티미디어 조각파일의 복구방법
US20190156124A1 (en) * 2017-11-22 2019-05-23 Amazon Technologies, Inc. Analysis of video content
RU2710308C1 (ru) * 2019-09-20 2019-12-25 Общество с ограниченной ответственностью "Ай Ти Ви групп" Система и способ для обработки видеоданных из архива
US20210201047A1 (en) * 2015-12-24 2021-07-01 Intel Corporation Video summarization using semantic information
US20210272599A1 (en) * 2020-03-02 2021-09-02 Geneviève Patterson Systems and methods for automating video editing

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140232863A1 (en) * 2011-05-12 2014-08-21 Solink Corporation Video analytics system
US20120324491A1 (en) * 2011-06-17 2012-12-20 Microsoft Corporation Video highlight identification based on environmental sensing
KR101632689B1 (ko) * 2014-09-16 2016-06-23 상명대학교서울산학협력단 멀티미디어 조각파일의 복구방법
US20210201047A1 (en) * 2015-12-24 2021-07-01 Intel Corporation Video summarization using semantic information
US20190156124A1 (en) * 2017-11-22 2019-05-23 Amazon Technologies, Inc. Analysis of video content
RU2710308C1 (ru) * 2019-09-20 2019-12-25 Общество с ограниченной ответственностью "Ай Ти Ви групп" Система и способ для обработки видеоданных из архива
US20210272599A1 (en) * 2020-03-02 2021-09-02 Geneviève Patterson Systems and methods for automating video editing

Similar Documents

Publication Publication Date Title
CN114694076B (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
Sultana et al. Bangla speech emotion recognition and cross-lingual study using deep CNN and BLSTM networks
US20230350929A1 (en) Method and system for generating intent responses through virtual agents
Jothimani et al. MFF-SAug: Multi feature fusion with spectrogram augmentation of speech emotion recognition using convolution neural network
CN111858859B (zh) 自动问答处理方法、装置、计算机设备及存储介质
Wang et al. Application of convolutional neural network in natural language processing
CN112201228A (zh) 一种基于人工智能的多模态语义识别服务接入方法
CN110188168A (zh) 语义关系识别方法和装置
Tran et al. Ensemble application of ELM and GPU for real-time multimodal sentiment analysis
Orjesek et al. DNN based music emotion recognition from raw audio signal
CN106446109A (zh) 语音文件摘要的获取方法和装置
CN116958342A (zh) 虚拟形象的动作生成方法、动作库的构建方法及装置
El Janati et al. Adaptive e-learning AI-powered chatbot based on multimedia indexing
CN113869040B (zh) 一种电网调度的语音识别方法
Thuseethan et al. Multimodal deep learning framework for sentiment analysis from text-image web data
CN112434164A (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
Luitel et al. Audio sentiment analysis using spectrogram and bag-of-visual-words
Dvoynikova et al. Emotion recognition and sentiment analysis of extemporaneous speech transcriptions in Russian
US11574629B1 (en) Systems and methods for parsing and correlating solicitation video content
Miao et al. Chinese multimodal emotion recognition in deep and traditional machine leaming approaches
RU2829461C1 (ru) Способ программной обработки видео контента с применением семантического анализа
CN118170919B (zh) 一种文学作品的分类方法及系统
CN120540557A (zh) 一种基于多模态的ai数字人智能交互方法、系统及设备
CN120163166A (zh) 基于情感分析的交互优化方法、系统、设备及存储介质
CN119621929A (zh) 一种基于llm的智能数据检索方法