RU2829461C1 - Способ программной обработки видео контента с применением семантического анализа - Google Patents
Способ программной обработки видео контента с применением семантического анализа Download PDFInfo
- Publication number
- RU2829461C1 RU2829461C1 RU2024110560A RU2024110560A RU2829461C1 RU 2829461 C1 RU2829461 C1 RU 2829461C1 RU 2024110560 A RU2024110560 A RU 2024110560A RU 2024110560 A RU2024110560 A RU 2024110560A RU 2829461 C1 RU2829461 C1 RU 2829461C1
- Authority
- RU
- Russia
- Prior art keywords
- video
- content
- audio
- analysis
- videos
- Prior art date
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 12
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 3
- 230000002123 temporal effect Effects 0.000 claims abstract description 3
- 238000012545 processing Methods 0.000 claims description 21
- 230000002996 emotional effect Effects 0.000 claims description 14
- 238000004040 coloring Methods 0.000 claims description 8
- 230000001815 facial effect Effects 0.000 claims description 8
- 239000012634 fragment Substances 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 2
- 230000009885 systemic effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 230000009897 systematic effect Effects 0.000 abstract 1
- 239000000463 material Substances 0.000 description 6
- 238000005457 optimization Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Abstract
Изобретение относится к области вычислительной техники для семантического анализа в видео и аудио. Технический результат заключается в повышении эффективности управления памятью устройства, предотвращая перегрузку вычислительного устройства. Технический результат достигается за счет способа программной обработки видео контента с применением семантического анализа, который использует технологии для семантического анализа в видео и аудио, выделяя ключевые смыслы. Способ выполняет покадровый анализ видео и системное вычисление пространственно-временной значимости каждого изображения лица для каждого объекта в рассматриваемом видео, при этом значимость определяется векторным представлением пространственной характеристики лица, которая отражает размер области лица относительно кадра, и векторным представлением временной характеристики изображения лица, описывающей длительность отображения анализируемого изображения лица в последовательных кадрах видео и автоматическое выделение ключевых слов и фраз, наиболее релевантных содержанию видео за счет использования алгоритмов для определения наиболее эффективных ключевых слов исходя из их популярности и использования в аналогичных контекстах. 2 з.п. ф-лы, 2 ил.
Description
Уровень техники
Современные видеоредакторы с семантическим поиском упрощают работу с видеоматериалами и монтаж нужных фрагментов видео. Использование искусственного интеллекта и алгоритмов обработки естественного языка становится все более распространенным для улучшения пользовательского опыта. Технологии обработки видео и аудио с применением искусственного интеллекта включают более точное распознавание объектов и лиц, анализ эмоционального окраса и автоматическое извлечение смысла из мультимедийного контента. Подобные решения для видео также интегрируют облачные ресурсы для более мощных вычислений и хранения данных.
Общий вектор развития данной области указывает на более умные и адаптивные системы обработки видео и аудио, предоставляя пользователям широкий и продвинутый набор инструментов для творчества и редактирования мультимедийного контента. Несмотря на успехи в распознавании объектов, лиц и речи, точность этих технологий может не всегда соответсовавть, особенно при работе с сложным видео и аудио, например, в условиях низкого качества записи. Обработка в реальном времени видео и аудио также представляет технические сложности, требуя высокой производительности и эффективности алгоритмов. Существует необходимость в создании интуитивного и легкого в использовании решения для эффективной работы с функционалом семантического поиска и интеллектуальной обработки при работе с видео.
Известна Система и способ контекстуализации потока неструктурированного текста, представляющего устную речь (System and method for contextualising a stream of unstructured text representative of spoken word) по патенту US 20170011024 A1, включающая грамматический процессор, процессор предложений, частотный процессор, процессор агрегации и процессор эмоций. Неструктурированный поток текста обрабатывается и выводит общее количество аудиофайлов для каждой совпадающей фразы, слова и имени собственного, определенных из неструктурированного текста, в обработчик значимости данных. Обработчик значимости данных получает общее количество аудиофайлов для каждого имени, имени собственного и совпадающей реальной фразы, определенных из неструктурированного текста, и выводит список, включающий имена, имена собственные и совпадающие реальные фразы в порядке контекстуальной значимости.
Однако, данное решение в отличие от заявленного не может быть использовано для семантического поиска в видео и аудио, выделяя при этом ключевые смыслы, быструю обработку, а также отсутствует возможность создавать индивидуальные ролики и осуществлять онлайн-мониторинг и анализ, а также генерацию ключевых слов для SEO-оптимизации.
Раскрытие изобретения
Задачей изобретения является обеспечение пользователей более удобными и продвинутыми средствами обработки, анализа и управления видеоматериалами. Это включает в себя семантический поиск внутри видео, выделение ключевых смыслов, моментальное извлечение основного содержания, анализ контента, использование искусственного интеллекта для улучшения контента и анализа эмоционального контекста. Решение направлено на обеспечение пользователей более удобными и продвинутыми средствами обработки, анализа и управления видеоматериалами.
Основная цель состоит в предоставлении пользователям широкого набора инструментов для работы с видео, включая семантический поиск внутри видео, выделение ключевых смыслов, моментальное извлечение основного содержания, анализ контента, использование искусственного интеллекта для упрощения работы с контентом и анализом эмоционального контекста. Это также включает создание персонализированных видеороликов, проведение онлайн-мониторинга и анализа, а также оптимизацию контента для поисковых систем (SEO).
Существующие инструменты для обработки видеоматериалов обладают недостатками в эффективности, скорости и удобстве использования. При работе с выделением ключевой информации требуются значительные временные и трудовые затраты для анализа и управления контентом. Кроме того, известные решения не обеспечивают возможность персонализации контента или адаптации его для оптимизации веб-поиска.
Технический результат заключается в предоставлении пользователям удобных, быстрых инструментов для обработки, анализа и управления видеоматериалами, что содействует улучшению пользовательского опыта в создании и редактировании мультимедийного контента.
Пользователь может использовать настоящее решения для быстрого поиска конкретных сцен или ключевых моментов в больших видеоархивах, сокращая время, затраченное на поиск нужной информации. Также благодаря функциям семантического анализа и анализа эмоционального контекста, пользователь может быстро выявлять настроение или основные темы в видеоматериалах, что полезно для исследований и маркетинговых целей.
Осуществление изобретения
При реализации изобретения представлен компьютерно-реализуемый способ эффективной обработки видео для видеоаналитики и оптимизации поисковых систем, выполняемый с использованием процессора, который включает в себя следующие этапы:
a. семантический анализ внутри видео и аудио, осуществляемый за счет технологии для контекстного поиска в видео и аудио, основан на выделении ключевых смыслов и элементов контента в процессе поиска;
b. извлечение основного смысла из видео и аудио происходит за счет использования
специализированных алгоритмов обработки сигналов, машинного обучения и технологий обработки естественного языка;
c. покадровый анализ видео и системное вычисление пространственно-временной значимости каждого изображения лица для каждого объекта в рассматриваемом видео, при этом значимость определяется векторным представлением пространственной характеристики лица, которая отражает размер области лица относительно кадра, и векторным представлением временной характеристики изображения лица, описывающей длительность отображения анализируемого изображения лица в последовательных кадрах видео;
d. преобразование видео в отдельные ролики по смыслам проходит через автоматическое выделение смысловых фрагментов видео, реализованное через алгоритмы компьютерного зрения и технологии обработки сигналов, анализ аудиодорожки выделяет ключевые звуки речи или музыки, которые служат признаками смысловых фрагментов;
e. возможность работы с видео без перегрузки памяти системы и сохранение только необходимых роликов или их загрузка в социальные сети;
f. мгновенный анализ контента для быстрого ориентирования пользователя в видео с возможностью создания тайм-кодов для удобства навигации;
g. возможность использования искусственного интеллекта для выбора, редактирования и мгновенной загрузки роликов в социальные сети;
h. функционал анализа эмоционального окраса контента включает анализ изображений или видео для выделения лиц и определения эмоциональных выражений на них, а анализ аудиодорожки видео определяет интонации, тональность и эмоциональную окраску голоса в видео;
i. возможность создания и индивидуализии видео пользователями реализовано за счет использования алгоритмов машинного обучения для предложения пользователю индивидуальных идей и стилей редактирования на основе предыдущих предпочтений, включая возможность редактирования длину видео;
j. автоматическое выделение ключевых слов и фраз, наиболее релевантных содержанию видео за счет использования алгоритмов для определения наиболее эффективных ключевых слов, исходя из их популярности и использования в аналогичных контекстах.
При реализации использованы алгоритмы для проведения семантического анализа видео и аудио. В частности применяются такие алгоритмы, как “zero shot classification” и “sentence similarity”. Эти алгоритмы играют ключевую роль в процессе обработки медиа-контента, так как они способны проводить семантический анализ непосредственно после декодирования медиа в текст. Это позволяет быстро и эффективно извлекать основной смысл из видео и аудио.
Активация функционала, который выделяет ключевые смыслы и элементы контента в процессе поиска, осуществляется на основе данных, полученных от алгоритмов семантического анализа. Это позволяет системе точно определять и извлекать важную информацию из видео и аудио-материалов.
Преобразование видео в отдельные ролики по смыслам осуществляется путем автоматического выделения смысловых фрагментов видео с использованием алгоритмов компьютерного зрения и обработки сигналов. Это позволяет создавать более структурированные и информативные ролики, что улучшает их восприятие и удобство использования.
Алгоритм zero shot classification применяется для классификации объектов или данных на основе их характеристик. Этот способ позволяет системе обрабатывать новые классы без необходимости переобучения на новых данных, что значительно упрощает и ускоряет процесс обработки видео и аудио-контента.
Алгоритм sentence similarity используется для оценки семантической близости между предложениями или фразами. Это помогает системе определять степень схожести между текстовыми строками на основе их содержания и контекста, что является важным элементом в анализе и интерпретации контента.
Решение базируется на основах NLP (Natural language processing). Применяются модели машинного обучения, которые выстраивают контекстуальные отношения в тексте. Важно отметить, что такие модели позволяют получать численное или векторное представление некоторой формы данных в зависимости от контекста, который ее окружает. Так, например, Word2Vec не учитывают данного фактора, поэтому векторизация одного слова или предложения в разных текстах дает один и тот же результат. В данном решении же используются модели, которые подстраиваются под контекст и на выходе реализована возможность получать векторы фиксированной длины для дальнейшей обработки. Кроме того, скрытые состояния модели также хранят информацию, которая применяется в анализе.
Имея численное представление данных, имеется возможность выполнять разные задачи (при этом возможно их пересечение в итоговом результате):
1) извлекать главный смысл из видео - для этого необходимо разбить текст видео на предложения или группы предложений s_1,...s_n, называемыми ngram-ми. затем применяем алгоритм кластеризации, чтобы разделить s_i на группы связных текстов. Достигается это за счет минимизации расстояния (например, косинусного) между векторами или максимизации похожести (например, косинусного).
На рис. 1 представлена формула расчета косинусной схожести. Стоит отметить, что similarity=1-distance и поэтому оба эти алгоритма используются в данном решении.
Также необходимо выставить минимальный порог разности кластеров для их образования. Или необходимо выставить максимальный порог схожести. Эти понятия связаны и мы оперируем тем и другим.
На рис. 2 представлена формула формализации составления кластеров. C - кластеры, ε - максимальный порог схожести векторных представлений. В нашем случае представлений s_i.
Когда кластеры выстроены, мы берем максимальный из них по размеру и составляем из него итоговое видео. То есть мы находим argmax C_i по всем кластерам. Если задается ограничение на длительность видео, то мы находим центр масс векторов и ранжируем их по близости к этому центру.
2) извлекать смысл по запросу (q) - на данном этапе формируется всего один кластер или не формируется вовсе. Если кластер создается, то модель отвечает на вопрос вхождения каждого тестового s_i в кластер q, иначе используется вышеописанные алгоритмы поиска близости. Разница небольшая, но при необходимости используются оба подхода. Для этого выставляется некоторый порог вероятности p* и каждый s_i проверяется по условию: p(1 - dist(vectorized(s_i), vectorized(q))) >= p* или p(similarity(vectorized(s_i), vectorized(q))) >= p*. Также проверяется, насколько q может быть продолжением предыдущего контекста (то есть предложения или группы предложений или даже нескольких слов): p(is_next(q, s_i)) >= p*. Последний способ может как использовать векторизацию, так и использовать только скрытые состояния нейронной сети. Эти методы в частности имеют названия Sentence similarity и Zero Shot Classification. В общих чертах необходимо найти top n элементов функции argmax p(), убирая из выборки найденный элемент, пока p>=p*.
3) проводить мультимодальную обработку - разработанные модели могут получать на вход как текст, так и изображение и участок видео небольшой длины. После векторизации сопоставляются контексты разных видов друг с другом, то есть производится поиск значения функции argmax(p(q, x)), где q - входной вектор, а x пробегает некоторое множество векторизованных контекстов. Это множество может быть как списком текстов, видео так и изображений. Таким образом, добавляется эмоциональный окрас в видео, вставляя в некоторый его участок медиа, похожее на его контекст и иллюстрирующее суть.
4) проводить эффективный поиск - составляется упорядоченный набор векторизованных контекстов, благодаря этому проводится первичный поиск похожего контента с помощью классических алгоритмов поиска ближайших элементов в метрическом пространстве и при необходимости применяем модели машинного обучения для исходного контекста при необходимости конкретизации поиска.
5) выделять эмоциональный окрас. Составляем кластер с эмоциональными контекстами, далее обработка идет по пунктам 1) - 4). Такой кластер может содержать обобщение для эмоций или же только конкретный тип (например, негатив).
Пункты 4 и 5 представляют собой методы для эффективного поиска и выделения эмоционального окраса контента, они используют те же основные методы, что и представленные в пунктах 1-3.
Краткое описание чертежей
рис.1 - формула косинусная схожесть,
рис. 2 - формула формализации составления кластеров.
Claims (13)
1. Компьютерно-реализуемый способ для работы с видео для видеоаналитики и поисковыми системами, осуществляемый с помощью процессора, включающий в себя:
a. семантический анализ внутри видео и аудио, осуществляемый за счет технологии для контекстного поиска в видео и аудио, основан на выделении ключевых смыслов и элементов контента в процессе поиска;
b. извлечение основного смысла из видео и аудио происходит за счет использования специализированных алгоритмов обработки сигналов, машинного обучения и технологий обработки естественного языка;
c. покадровый анализ видео и системное вычисление пространственно-временной значимости каждого изображения лица для каждого объекта в рассматриваемом видео, при этом значимость определяется векторным представлением пространственной характеристики лица, которая отражает размер области лица относительно кадра, и векторным представлением временной характеристики изображения лица, описывающей длительность отображения анализируемого изображения лица в последовательных кадрах видео;
d. преобразование видео в отдельные ролики по смыслам проходит через автоматическое выделение смысловых фрагментов видео, реализованное через алгоритмы компьютерного зрения и технологии обработки сигналов, анализ аудиодорожки выделяет ключевые звуки речи или музыки, которые служат признаками смысловых фрагментов;
e. возможность работы с видео без перегрузки памяти системы и сохранение только необходимых роликов или их загрузка в социальные сети;
f. мгновенный анализ контента для быстрого ориентирования пользователя в видео с возможностью создания тайм-кодов для удобства навигации;
g. возможность использования искусственного интеллекта для выбора, редактирования и мгновенной загрузки роликов в социальные сети;
h. функционал анализа эмоционального окраса контента включает анализ изображений или видео для выделения лиц и определения эмоциональных выражений на них, а анализ аудиодорожки видео определяет интонации, тональность и эмоциональную окраску голоса в видео;
i. возможность создания и индивидуализации видео пользователями реализована за счет использования алгоритмов машинного обучения для предложения пользователю индивидуальных идей и стилей редактирования на основе предыдущих предпочтений, включая возможность редактирования длины видео;
j. автоматическое выделение ключевых слов и фраз, наиболее релевантных содержанию видео, за счет использования алгоритмов для определения наиболее эффективных ключевых слов исходя из их популярности и использования в аналогичных контекстах.
2. Способ по п. 1, характеризующийся тем, что проведение анализа контента происходит непрерывно, в режиме реального времени, основываясь на ключевых характеристиках и особенностях контента с целью быстрого и точного выделения ключевых аспектов и изменений.
3. Способ по п. 1, характеризующийся тем, что модель машинного обучения состоит из группы моделей, каждая из которых обучена на выявление определенного алгоритма обработки контента, при этом каждая группа моделей специализируется на распознавании и анализе конкретных аспектов видеоматериала для выявления ключевых смыслов и элементов контента внутри видео и аудио, автоматически выделяющих смысловые фрагменты видео, для использования искусственного интеллекта в выборе готовых роликов, их редактирования и мгновенной загрузки в социальные сети.
Publications (1)
| Publication Number | Publication Date |
|---|---|
| RU2829461C1 true RU2829461C1 (ru) | 2024-10-30 |
Family
ID=
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20120324491A1 (en) * | 2011-06-17 | 2012-12-20 | Microsoft Corporation | Video highlight identification based on environmental sensing |
| US20140232863A1 (en) * | 2011-05-12 | 2014-08-21 | Solink Corporation | Video analytics system |
| KR101632689B1 (ko) * | 2014-09-16 | 2016-06-23 | 상명대학교서울산학협력단 | 멀티미디어 조각파일의 복구방법 |
| US20190156124A1 (en) * | 2017-11-22 | 2019-05-23 | Amazon Technologies, Inc. | Analysis of video content |
| RU2710308C1 (ru) * | 2019-09-20 | 2019-12-25 | Общество с ограниченной ответственностью "Ай Ти Ви групп" | Система и способ для обработки видеоданных из архива |
| US20210201047A1 (en) * | 2015-12-24 | 2021-07-01 | Intel Corporation | Video summarization using semantic information |
| US20210272599A1 (en) * | 2020-03-02 | 2021-09-02 | Geneviève Patterson | Systems and methods for automating video editing |
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20140232863A1 (en) * | 2011-05-12 | 2014-08-21 | Solink Corporation | Video analytics system |
| US20120324491A1 (en) * | 2011-06-17 | 2012-12-20 | Microsoft Corporation | Video highlight identification based on environmental sensing |
| KR101632689B1 (ko) * | 2014-09-16 | 2016-06-23 | 상명대학교서울산학협력단 | 멀티미디어 조각파일의 복구방법 |
| US20210201047A1 (en) * | 2015-12-24 | 2021-07-01 | Intel Corporation | Video summarization using semantic information |
| US20190156124A1 (en) * | 2017-11-22 | 2019-05-23 | Amazon Technologies, Inc. | Analysis of video content |
| RU2710308C1 (ru) * | 2019-09-20 | 2019-12-25 | Общество с ограниченной ответственностью "Ай Ти Ви групп" | Система и способ для обработки видеоданных из архива |
| US20210272599A1 (en) * | 2020-03-02 | 2021-09-02 | Geneviève Patterson | Systems and methods for automating video editing |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN114694076B (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
| Sultana et al. | Bangla speech emotion recognition and cross-lingual study using deep CNN and BLSTM networks | |
| US20230350929A1 (en) | Method and system for generating intent responses through virtual agents | |
| Jothimani et al. | MFF-SAug: Multi feature fusion with spectrogram augmentation of speech emotion recognition using convolution neural network | |
| CN111858859B (zh) | 自动问答处理方法、装置、计算机设备及存储介质 | |
| Wang et al. | Application of convolutional neural network in natural language processing | |
| CN112201228A (zh) | 一种基于人工智能的多模态语义识别服务接入方法 | |
| CN110188168A (zh) | 语义关系识别方法和装置 | |
| Tran et al. | Ensemble application of ELM and GPU for real-time multimodal sentiment analysis | |
| Orjesek et al. | DNN based music emotion recognition from raw audio signal | |
| CN106446109A (zh) | 语音文件摘要的获取方法和装置 | |
| CN116958342A (zh) | 虚拟形象的动作生成方法、动作库的构建方法及装置 | |
| El Janati et al. | Adaptive e-learning AI-powered chatbot based on multimedia indexing | |
| CN113869040B (zh) | 一种电网调度的语音识别方法 | |
| Thuseethan et al. | Multimodal deep learning framework for sentiment analysis from text-image web data | |
| CN112434164A (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
| Luitel et al. | Audio sentiment analysis using spectrogram and bag-of-visual-words | |
| Dvoynikova et al. | Emotion recognition and sentiment analysis of extemporaneous speech transcriptions in Russian | |
| US11574629B1 (en) | Systems and methods for parsing and correlating solicitation video content | |
| Miao et al. | Chinese multimodal emotion recognition in deep and traditional machine leaming approaches | |
| RU2829461C1 (ru) | Способ программной обработки видео контента с применением семантического анализа | |
| CN118170919B (zh) | 一种文学作品的分类方法及系统 | |
| CN120540557A (zh) | 一种基于多模态的ai数字人智能交互方法、系统及设备 | |
| CN120163166A (zh) | 基于情感分析的交互优化方法、系统、设备及存储介质 | |
| CN119621929A (zh) | 一种基于llm的智能数据检索方法 |