RU2444072C2 - System and method for using content features and metadata of digital images to find related audio accompaniment - Google Patents
System and method for using content features and metadata of digital images to find related audio accompaniment Download PDFInfo
- Publication number
- RU2444072C2 RU2444072C2 RU2008125058/28A RU2008125058A RU2444072C2 RU 2444072 C2 RU2444072 C2 RU 2444072C2 RU 2008125058/28 A RU2008125058/28 A RU 2008125058/28A RU 2008125058 A RU2008125058 A RU 2008125058A RU 2444072 C2 RU2444072 C2 RU 2444072C2
- Authority
- RU
- Russia
- Prior art keywords
- metadata
- image
- sequence
- content
- soundtrack
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000015654 memory Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000012015 optical character recognition Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 239000000126 substance Substances 0.000 abstract 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 abstract 1
- 238000010191 image analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 241000385223 Villosa iris Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/638—Presentation of query results
- G06F16/639—Presentation of query results using playlists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
- G11B27/105—Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
- G11B27/32—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
- G11B27/327—Table of contents
- G11B27/329—Table of contents on a disc [VTOC]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
Данное изобретение относится к использованию метаданных последовательности цифровых изображений, чтобы идентифицировать и связать с ними звуковое сопровождение, включая музыку и звук, имеющие текст и метаданные, которые аналогичны метаданным изображения, и создать последовательность, объединенную с идентифицированным звуком для презентации пользователю в качестве предлагаемого списка проигрывания (плей-листа) или в качестве смотрового и звукового показа.This invention relates to the use of metadata in a sequence of digital images to identify and associate soundtracks, including music and sound, having text and metadata that are similar to image metadata, and to create a sequence combined with the identified sound for presentation to the user as a suggested playlist (playlist) or as a viewing and sound show.
Все чаще и чаще системы потребителя сочетают хранение и воспроизведение различных типов контента. В результате система, которую пользователь использует для воспроизведения цифровых фотографий, часто к тому же будет в состоянии воспроизвести музыкальное сопровождение во время отображения этих фотографий. Проблема состоит в том, что эта возможность вводит дополнительную задачу для пользователя, а именно найти и выбрать соответствующую музыку для сопровождения демонстрации фотослайдов (последовательности цифровых изображений).Increasingly, consumer systems combine the storage and playback of various types of content. As a result, the system that the user uses to play digital photographs will often also be able to play back music while these photographs are displayed. The problem is that this feature introduces an additional task for the user, namely, to find and select the appropriate music to accompany the demonstration of photo slides (a sequence of digital images).
Следовательно, нужен способ, чтобы автоматически воспроизвести (или предлагать) звуковое сопровождение, которое соответствует контенту конкретной последовательности цифровых изображений.Therefore, a method is needed to automatically play back (or offer) sound that matches the content of a particular sequence of digital images.
В одном варианте осуществления система, устройство и способ согласно данному изобретению обеспечивают возможность использовать метаданные цифровых изображений (таких как фотографии, фотоальбомы, домашнее видео) для поиска музыки, которая содержит текст песни, имеющий отношение к этим фотографиям.In one embodiment, the system, device, and method of the invention provides the ability to use metadata of digital images (such as photographs, photo albums, home videos) to search for music that contains song lyrics related to these photographs.
Чтобы достигнуть этого:To achieve this:
(1) текстовые метки выводятся из (набора/последовательности) изображений или из метаданных изображений, и(1) text labels are derived from (set / sequence) of images or from image metadata, and
(2) эти текстовые метки или ключевые фразы включают в себя, по меньшей мере, одно ключевое слово и используются, чтобы найти звуковое сопровождение, которое содержит такие же ключевые фразы в заголовке музыки или в (основных/главных) частях текста песни, ассоциированных с музыкой или с метаданными звукозаписи.(2) these text labels or key phrases include at least one keyword and are used to find a soundtrack that contains the same key phrases in the music title or in the (main / main) parts of the lyrics associated with music or sound recording metadata.
Ко многим классическим музыкальным произведениям были написаны слова, например "Я всегда преследую радуги" - это песня, написанная на музыку “Fantasie Impromptu” Шопена. Также множество музыкальных произведений, которые не содержат никаких слов, являются подходящими как музыкальный фон для демонстраций слайдов, например демонстрация слайдов морского курорта ассоциирована со звуками океана. В дополнение к музыке, звуковые дорожки предоставлены как звуковое сопровождение. Эти последние упомянутые звуковые сопровождения должны иметь ассоциированные метаданные, описывающие их контент.Words have been written for many classical pieces of music, for example, “I always chase rainbows” - this is a song written to the music of Chopin's “Fantasie Impromptu”. Also, many musical works that do not contain any words are suitable as a musical background for slide shows, for example, a slide show of a seaside resort is associated with the sounds of the ocean. In addition to music, soundtracks are provided as soundtracks. These last mentioned sounds should have associated metadata describing their content.
ПЕРЕЧЕНЬ ЧЕРТЕЖЕЙLIST OF DRAWINGS
Фиг.1 иллюстрирует функциональную блок-схему последовательности операций способа согласно данному изобретению;Figure 1 illustrates a functional block diagram of the operational sequence of the method according to this invention;
фиг.2 иллюстрирует устройство согласно данному изобретению для того, чтобы ассоциировать музыку с песнями; иfigure 2 illustrates a device according to this invention in order to associate music with songs; and
фиг.3 иллюстрирует систему согласно данному изобретению.figure 3 illustrates a system according to this invention.
Специалисты в данной области техники должны понимать, что последующие описания предоставляются в качестве примера, а не ограничения. Специалист понимает, что есть множество вариаций, которые заложены в сущности изобретения и объеме, определенном приложенной формулой изобретения. Ненужные детали известных функций и операций могут быть пропущены в текущем описании, чтобы не делать данное изобретение неясным.Those skilled in the art should understand that the following descriptions are provided by way of example and not limitation. The specialist understands that there are many variations that are inherent in the essence of the invention and the scope defined by the attached claims. Unnecessary details of known functions and operations may be omitted in the current description so as not to obscure the invention.
В предпочтительном варианте осуществления контент цифрового изображения и характеристики, предоставленные пользователем, используются, чтобы получить текстовые метки (метаданные изображения), которые могут быть ключевой фразой, включающей в себя по меньшей мере одно ключевое слово, полученное из предоставленного пользователем названия/метки изображения, или ключевой фразой, полученной из текстовой аннотации изображения. В предпочтительном варианте осуществления контент последовательности изображений распознается, используя оптическое распознавание символов (OCR) для текстового контента, распознавание сцен изображения для сцен и распознавание объектов изображения для объектов (включая людей и животных). Характеристики изображения, предоставленные пользователем, обрабатываются как метаданные изображения и могут включать в себя такие элементы, как специфические для конкретного пользователя данные (например, этническая принадлежность, пол, возраст, вид деятельности), информацию времени создания и места создания изображения(й), которые преобразовываются в значащие имена или в ключевые фразы, включающие в себя стандартизированные ключевые слова и описывающие наиболее вероятное происходящее событие и местоположение (например, день рождения, Рождество, Нью-Йорк, Париж, летний праздник…).In a preferred embodiment, the digital image content and characteristics provided by the user are used to obtain text labels (image metadata), which may be a keyword phrase including at least one keyword derived from a user-provided image name / label, or a key phrase derived from a text annotation image. In a preferred embodiment, image sequence content is recognized using optical character recognition (OCR) for text content, image scene recognition for scenes, and image object recognition for objects (including humans and animals). Image characteristics provided by the user are processed as image metadata and may include elements such as user-specific data (e.g. ethnicity, gender, age, type of activity), information about the time of creation and the place of creation of the image (s) that translate into meaningful names or key phrases that include standardized keywords and describe the most likely occurring event and location (e.g., birthday oia, Christmas, New York, Paris, summer holiday ...).
В одном варианте осуществления алгоритмы анализа контента изображения используются, чтобы классифицировать пейзаж изображений и предоставлять метаданные, описывающие изображения, которые могут использоваться в качестве поисковых терминов для осуществления поиска в базе данных, индексированных по ключевым фразам звуковых сопровождений. Слова или метки, ассоциированные с таким классом, также используются для получения текстовых меток (метаданных изображения), которые затем используются, чтобы найти соответствующий звуковой контент. Например, можно выявить зимнюю сцену из полной белизны. Идентификация такой характеристики преобразовывается в некоторые текстовые метаданные (метку), такие как зима, снег, белизна. Эти метаданные могут затем использоваться для поиска звукозаписи, имеющей тексты песен и звуковые метаданные о зиме, снеге и т.д.In one embodiment, image content analysis algorithms are used to classify an image landscape and provide metadata describing images that can be used as search terms to search a database indexed by keyword phrases of audio. Words or tags associated with such a class are also used to obtain text tags (image metadata), which are then used to find the corresponding audio content. For example, you can reveal a winter scene of complete whiteness. The identification of such a characteristic is converted into some text metadata (label), such as winter, snow, whiteness. This metadata can then be used to search for sound recordings that have lyrics and sound metadata about winter, snow, etc.
В предпочтительном варианте осуществления метаданные для изображения комбинируются. Например, информация о времени может быть преобразована в "Рождество", тогда как информация анализа сцены дает в результате (из числа других слов) "Белизна". Данное изобретение находит песню "Белое Рождество" в этом примере и звук падающего снега.In a preferred embodiment, the metadata for the image is combined. For example, time information can be converted to "Christmas", while scene analysis information results in (from among other words) "White". The present invention finds the song "White Christmas" in this example and the sound of falling snow.
В предпочтительном варианте осуществления выбранное звуковое сопровождение растягивается во времени, чтобы покрыть последовательность изображений, потому как, в общем, не желательно для подобной последовательности изображений перескакивать на другое звуковое сопровождение для каждого из составляющих изображений. Поэтому предпочтительней объединить метаданные, доступные для последовательности изображений, в описание целой последовательности. Тогда, используя объединенные метаданные, может быть выбрано по меньшей мере одно звуковое сопровождение, которое подходит для всей последовательности изображений.In a preferred embodiment, the selected soundtrack is stretched in time to cover the sequence of images, because, in general, it is not desirable for such a sequence of images to jump to another soundtrack for each of the constituent images. Therefore, it is preferable to combine the metadata available for the image sequence into a description of the whole sequence. Then, using the combined metadata, at least one soundtrack that is suitable for the entire sequence of images can be selected.
Далее, в альтернативном варианте осуществления преобразование метаданных в значимые текстовые метки улучшено наличием доступной информации о пользователе (например, собственное географическое положение для обеспечения соответствующего уровня детализации местоположения, региональный/культурный фон для получения подходящих событий, личная/семейная информация для того, чтобы определить праздники, и т.д.).Further, in an alternative embodiment, the conversion of metadata to meaningful text labels is improved by the availability of user information (e.g., one’s own geographic location to provide an appropriate level of granularity of location, regional / cultural background to receive suitable events, personal / family information to determine holidays , etc.).
В предпочтительном варианте осуществления звуковые эффекты предоставляются как звуковое сопровождение, которое имеет отношение к метаданными изображения(й). Например, демонстрация слайдов вечеринки может быть украшена звуком стаканов. Изображение толпы может инициировать звук бормотания.In a preferred embodiment, sound effects are provided as sound that relates to the metadata of the image (s). For example, a party slideshow can be decorated with the sound of glasses. An image of a crowd can trigger a murmur.
Ссылаясь теперь на фигуру 1, проиллюстрирован один пример блок-схемы последовательности операций предпочтительного варианта осуществления способа согласно данному изобретению. На этапе 102 изображение или последовательность изображений 101 вводятся наряду с ассоциированными метаданными 101, которые являются, по меньшей мере, одними из принятых и созданных по меньшей мере для одного изображения, и изображение и метаданные затем сохраняются в краткосрочной постоянной памяти 103. Метаданные изображения могут быть введены пользователем или могут быть получены согласно данному изобретению и могут включать в себя: дату, время, событие, местоположение, взаимосвязь изображения с пользователем или другой описатель. Система, устройство и способ согласно данному изобретению могут включать в себя словарь терминов и их синонимов 104.1, используемых для того, чтобы привести любые метаданные, введенные пользователем, к стандартному набору, например мам, мать, ма, мама и т.д. все относятся к идентичной характеристике "мама" изображения.Referring now to FIG. 1, one example of a flowchart of a preferred embodiment of a method according to the invention is illustrated. At step 102, an image or
Подобным образом способ 100 согласно данному изобретению может включать в себя возможности анализа изображения для создания метаданных изображения, например белой зимней сцены. Оба типа метаданных, содержащих введенные пользователем метаданные и созданные системой метаданные, сохраняются в постоянной памяти 103 вместе с последовательностью изображений, и по меньшей мере один тип должен быть сохранен для системы 300, устройства 200 и способа 100 согласно данному изобретению, чтобы обнаружить соответствующее звуковое сопровождение для вводимой последовательности изображений.Similarly, the method 100 of the present invention may include image analysis capabilities for generating image metadata, for example, a white winter scene. Both types of metadata containing user-entered metadata and system-generated metadata are stored in read-
Предусмотрена база данных звукового сопровождения 104, которая ранее была аннотирована (индексирована) стандартизированными метаданными звукового сопровождения. Используя стандартизированные захваченные/созданные метаданные изображения, сохраненные в краткосрочной постоянной памяти 103, на этапе 105 в предоставленной базе данных музыки 104 осуществляется поиск соответствующих метаданных музыки. На этапе 106 все соответствующие метаданные музыки компонуются в плей-лист, ассоциированный с изображением (изображениями), и сохраняются в постоянной памяти 103. В предпочтительном варианте осуществления также выводится степень соответствия, например изображение зимы и белого фона, и предоставленная пользователем дата 25 декабря приведет к 100%-ному совпадению с "Белым Рождеством" и меньшему совпадению с "Ходьбой В Зимней Стране чудес". На этапе 107 результаты поиска извлекаются из постоянной памяти 103, и наилучшее соответствие либо проигрывается, либо предоставляется в ранжированном списке предлагаемых музыкальных сопровождений, во время отображения изображений. В предпочтительном варианте осуществления и изображения, и звуковые аннотации сохраняются в базе данных 108 для последующего извлечения, отображения и проигрывания.A
Ссылаясь теперь на фигуру 2, проиллюстрировано устройство 200 для того, чтобы ассоциировать звуковые сопровождения с изображениями, в то время как изображения отображаются, или представить пользователю плей-лист звуковых сопровождений. Устройство включает в себя модуль захвата/создания 201 метаданных изображения, который принимает изображение, последовательность изображений и метаданные, описывающие изображение и последовательность изображений. Метаданные включают в себя дату, время, время года, событие, отношение к пользователю, имя (имена) персоны (персон)/домашнего животного (животных), местоположение изображения и последовательности изображений. Введенные пользователем метаданные захватываются модулем 201 и также создаются модулем 201 посредством анализа изображения, например океан или озеро, острова и т.д. Как только изображение и его метаданные захвачены и метаданные для введенной последовательности изображений созданы модулем 201, они сохраняются в краткосрочной постоянной памяти 103. Тогда модуль 203 поиска/ассоциирования осуществляет поиск по базе данных 104 на предмет соответствующих звуковых сопровождений, основываясь на метаданных, и модуль 204 предложения/проигрывания выполняет по меньшей мере одно из предложения плей-листа и проигрывания наиболее релевантного звукового сопровождения, найденного в результате поиска. Устройство 200 дополнительно содержит модуль 202 отображения последовательности изображений для отображения последовательности изображений одновременно с проигрыванием модулем 204 предложения/проигрывания звукового сопровождения, являющегося результатом поиска. В предпочтительном варианте осуществления результаты сохраняются в базе данных 108 аннотированных изображений для будущего извлечения и проигрывания. Каждый из модуля 201 захвата/создания метаданных изображения и модуля 203 поиска/ассоциирования предпочтительно сконфигурирован для сохранения последовательности изображений, метаданных и звукового сопровождения, являющегося результатом поиска, в базе данных 108, а каждый из модуля 204 предложения/проигрывания звукового сопровождения и модуля 202 отображения последовательности изображений предпочтительно сконфигурирован для извлечения последовательности изображений и ассоциированных метаданных из базы данных 108 для одновременного их отображения и проигрывания. Постоянная память 103 является относительно краткосрочной памятью, действующей только пока пользователь желает, чтобы устройство отображения, которое включает в себя устройство 200, отображало последовательность изображений.Referring now to FIG. 2, an
Ссылаясь теперь на фиг.3, иллюстрируется система 300, включающая в себя устройство 200 по фиг.2. Система дополнительно содержит устройство 302 отображения и устройство 301 проигрывания звукового сопровождения, каждое из которых функционально связано с устройством 200. Система 300 принимает цифровой контент изображений и метаданные, введенные таким образом пользователем 101, и, используя устройство 200 по фиг.2, создает дополнительные метаданные изображений, при необходимости с помощью словаря 104.1, чтобы найти соответствующее звуковое сопровождение в базе данных 104, сохраняя результирующее звуковое сопровождение, ассоциированное с введенной последовательностью, в краткосрочной постоянной памяти 103. Тогда система или проигрывает, через устройство 301 проигрывания звукового сопровождения, звуковое сопровождение при отображении устройством 302 отображения изображения/последовательности, или предлагает, посредством устройства 302 отображения, плей-лист результатов пользователю. Результаты и изображение(я) могут также быть сохранены в базе данных 108 аннотированных изображений для будущего извлечения и просмотра.Referring now to FIG. 3, a
Хотя предпочтительный вариант осуществления данного изобретения был иллюстрирован и описан, специалисты поймут, что система, устройство и способ, описанные здесь, являются иллюстративными и различные изменения и модификации могут быть реализованы и элементы могут быть заменены эквивалентами, не отступая от истинного объема данного изобретения. В дополнение, множество модификаций могут быть сделаны, чтобы адаптировать идеи данного изобретения к специфическому воспроизведению изображений с установленным звуком/звуковыми эффектами, не отступая от его объема. Поэтому подразумевается, что данное изобретение не будет ограничено специфическими вариантами осуществления, рассмотренными как наилучший способ для осуществления данного изобретения, но чтобы данное изобретение включало в себя все варианты осуществления, подпадающие под объем, определенный приложенной формулой изобретения.Although a preferred embodiment of the present invention has been illustrated and described, those skilled in the art will understand that the system, device and method described herein are illustrative and that various changes and modifications can be made and elements can be replaced by equivalents without departing from the true scope of the present invention. In addition, many modifications can be made to adapt the ideas of the present invention to specific reproduction of images with established sound / sound effects without departing from its scope. Therefore, it is intended that the invention be not limited to the specific embodiments considered to be the best way to carry out the present invention, but that the invention includes all embodiments falling within the scope defined by the appended claims.
Claims (17)
получают текстовую метку из метаданных контента,
выявляют соответствующее (105) звуковое сопровождение в базе данных (104), используя метаданные контента, ассоциированные с упомянутой последовательностью, и
предоставляют выявленное звуковое сопровождение (107) в качестве сопровождения для этой последовательности,
отличающийся тем, что упомянутое соответствующее звуковое сопровождение выявляют в базе данных посредством поиска по базе данных с использованием текстовой метки в качестве поискового термина.1. A method of using content metadata associated with a sequence of at least one image (101) to provide audio for it, including the steps of
get a text label from the content metadata,
revealing the corresponding (105) soundtrack in the database (104) using the metadata of the content associated with said sequence, and
provide the identified soundtrack (107) as accompaniment for this sequence,
characterized in that said corresponding soundtrack is revealed in the database by searching the database using a text label as a search term.
обеспечивают словарь стандартных метаданных контента и их синонимов (104.1) и
используют словарь (104.1) для приведения метаданных контента, ассоциированных с упомянутой последовательностью (101), к стандартным метаданным контента (104.1).3. The method according to claim 1, characterized in that it further includes the steps of
provide a dictionary of standard content metadata and their synonyms (104.1) and
use a dictionary (104.1) to bring the content metadata associated with said sequence (101) to standard content metadata (104.1).
сохраняют упомянутую последовательность и выявленное для нее звуковое сопровождение в краткосрочной постоянной памяти (103) и
до этапа предоставления извлекают сохраненную последовательность и выявленное для нее звуковое сопровождение.8. The method according to claim 7, characterized in that it further includes the steps of
save the above sequence and the soundtrack identified for it in short-term constant memory (103) and
prior to the provisioning step, the stored sequence and soundtrack identified for it are retrieved.
обеспечивают словарь стандартных метаданных контента и их синонимов (104.1) и
используют словарь (104.1) для приведения метаданных контента, ассоциированных с упомянутой последовательностью (101), к стандартным метаданных контента (104.1).10. The method according to claim 9, characterized in that it further includes the steps of
provide a dictionary of standard content metadata and their synonyms (104.1) and
use a dictionary (104.1) to bring the content metadata associated with said sequence (101) to standard content metadata (104.1).
сохраняют последовательность, ассоциированную с выявленным звуковым сопровождением, в базе данных (108) аннотированных изображений и
извлекают сохраненную последовательность и ассоциированное звуковое сопровождение из базы данных (108) аннотированных изображений.12. The method according to claim 10, characterized in that the step of providing further includes the steps at which
save the sequence associated with the identified sound in the database (108) of annotated images and
retrieving the stored sequence and associated sound from the annotated image database (108).
модуль (201) захвата/создания изображения/метаданных для захвата упомянутой последовательности и для захвата и создания метаданных, описывающих контент упомянутого по меньшей мере одного изображения,
модуль (203) поиска/ассоциирования метаданных звукового сопровождения, который осуществляет поиск звукового сопровождения в базе данных (104) звукового сопровождения, используя текстовую метку, полученную из метаданных контента, как поисковый термин,
модуль (204) предложения/проигрывания звукового сопровождения для предложения списка проигрывания звуковых сопровождений, являющихся результатом поиска, при этом список проигрывания ассоциирует звуковые сопровождения с упомянутой последовательностью, и
модуль (202) отображения последовательности изображений для одновременного отображения упомянутой последовательности, когда модуль (204) предложения/проигрывания звукового сопровождения проигрывает звуковое сопровождение, являющееся результатом поиска,
отличающееся тем, что соответствующее звуковое сопровождение выявляется в упомянутой базе данных посредством поиска по упомянутой базе данных с использованием текстовой метки в качестве поискового термина.13. A device (200) that associates sound with a sequence of at least one image having content for simultaneous presentation with it, including
an image capturing / creating / metadata module (201) for capturing said sequence and for capturing and creating metadata describing the content of said at least one image,
a soundtrack metadata search / association module (203) that searches for soundtrack in the soundtrack database (104) using a text label obtained from the content metadata as a search term,
a sound suggestion / play module (204) for proposing a playlist of soundtracks resulting from the search, the playlist associating the soundtracks with said sequence, and
an image sequence display module (202) for simultaneously displaying said sequence when the audio suggestion / playing module (204) plays a sound result from a search,
characterized in that the corresponding sound is detected in said database by searching the said database using a text label as a search term.
устройство (302) отображения,
устройство (301) проигрывания звукового сопровождения и
устройство (200) по п.16, функционально связанное с устройством (302) отображения и устройством (301) проигрывания звукового сопровождения,
при этом устройство (200) принимает последовательность из по меньшей мере одного изображения и первых метаданных изображения (101), получает вторые метаданные изображения, используя методики (102) анализа контента, выявляет соответствующее звуковое сопровождение, используя первые и вторые метаданные, и затем либо устройство (301) проигрывания звукового сопровождения проигрывает звуковое сопровождение при отображении устройством (302) отображения упомянутой последовательности либо устройство (302) отображения предлагает пользователю список проигрывания, соответствующий результатам. 17. System (300) for soundtracking a sequence of at least one digital image, including
display device (302),
device (301) for playing sound and
the device (200) according to clause 16, functionally associated with the display device (302) and the sound playback device (301),
wherein the device (200) receives a sequence of at least one image and the first image metadata (101), obtains the second image metadata using the content analysis techniques (102), reveals the corresponding sound using the first and second metadata, and then either the device (301) playing the sound plays the sound when the display device (302) displays the above sequence or the display device (302) offers the user a list of igryvaniya corresponding results.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US73849705P | 2005-11-21 | 2005-11-21 | |
US60/738,497 | 2005-11-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2008125058A RU2008125058A (en) | 2009-12-27 |
RU2444072C2 true RU2444072C2 (en) | 2012-02-27 |
Family
ID=38049048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2008125058/28A RU2444072C2 (en) | 2005-11-21 | 2006-11-15 | System and method for using content features and metadata of digital images to find related audio accompaniment |
Country Status (7)
Country | Link |
---|---|
US (1) | US8171016B2 (en) |
EP (1) | EP1958203A2 (en) |
JP (1) | JP5457676B2 (en) |
KR (1) | KR101329266B1 (en) |
CN (1) | CN101313364B (en) |
RU (1) | RU2444072C2 (en) |
WO (1) | WO2007057850A2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2608873C2 (en) * | 2014-02-14 | 2017-01-25 | Общество С Ограниченной Ответственностью "Яндекс" | Method of binding metadata of digital content with digital content (versions), electronic device (versions), computer-readable medium (versions) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2235650A1 (en) * | 2008-01-22 | 2010-10-06 | Koninklijke Philips Electronics N.V. | Method of suggesting accompaniment tracks for synchronised rendering with a content data item |
US8261178B2 (en) * | 2008-09-12 | 2012-09-04 | Sony Corporation | Audio data distribution system and method for generating a photo slideshow which automatically selects music |
JP5316022B2 (en) * | 2009-01-26 | 2013-10-16 | オンキヨー株式会社 | Content playback system for synchronized playback of image and audio files |
JP2010257266A (en) * | 2009-04-27 | 2010-11-11 | Sharp Corp | Content output system, server device, device, method, and program for outputting content, and recording medium storing the content output program |
JP4930564B2 (en) * | 2009-09-24 | 2012-05-16 | カシオ計算機株式会社 | Image display apparatus and method, and program |
CN101727943B (en) * | 2009-12-03 | 2012-10-17 | 无锡中星微电子有限公司 | Method and device for dubbing music in image and image display device |
US8542982B2 (en) * | 2009-12-22 | 2013-09-24 | Sony Corporation | Image/video data editing apparatus and method for generating image or video soundtracks |
CN102256030A (en) * | 2010-05-20 | 2011-11-23 | Tcl集团股份有限公司 | Photo album showing system capable of matching background music and background matching method thereof |
CN101859562B (en) * | 2010-07-01 | 2013-03-06 | 无锡骏聿科技有限公司 | Method for matching conventional images with karaoke melodies in real time |
DE102010052527A1 (en) * | 2010-11-25 | 2012-05-31 | Institut für Rundfunktechnik GmbH | Method and device for improved sound reproduction of video recording video |
CN102547298B (en) * | 2010-12-17 | 2014-09-10 | 中国移动通信集团公司 | Method for outputting image information, device and terminal |
US8751565B1 (en) | 2011-02-08 | 2014-06-10 | Google Inc. | Components for web-based configurable pipeline media processing |
US8935259B2 (en) | 2011-06-20 | 2015-01-13 | Google Inc | Text suggestions for images |
CN102622386A (en) * | 2011-08-05 | 2012-08-01 | 北京小米科技有限责任公司 | Method and system for playing webpage music |
US20150006618A9 (en) * | 2011-09-09 | 2015-01-01 | Robert Bryce Clemmer | System and method for providing matched multimedia video content |
US20130086143A1 (en) * | 2011-09-30 | 2013-04-04 | Google Inc. | Music On Video Site |
US20140013193A1 (en) * | 2012-06-29 | 2014-01-09 | Joseph John Selinger | Methods and systems for capturing information-enhanced images |
KR20140038577A (en) * | 2012-09-11 | 2014-03-31 | 한국과학기술연구원 | Recommendation for multimedia contents by using metadata |
US9171015B2 (en) | 2012-09-14 | 2015-10-27 | At&T Intellectual Property I, L.P. | Sharing asserted media |
KR20140037440A (en) * | 2012-09-18 | 2014-03-27 | 주식회사 엘지유플러스 | Music play method using feature information of picture and the terminal |
US10565245B2 (en) * | 2012-12-19 | 2020-02-18 | Oath Inc. | Method and system for storytelling on a computing device via a mixed-media module engine |
JP2014135599A (en) * | 2013-01-09 | 2014-07-24 | Sony Corp | Information processing apparatus, information processing method, and recording medium |
US9172740B1 (en) | 2013-01-15 | 2015-10-27 | Google Inc. | Adjustable buffer remote access |
US9311692B1 (en) | 2013-01-25 | 2016-04-12 | Google Inc. | Scalable buffer remote access |
US9225979B1 (en) | 2013-01-30 | 2015-12-29 | Google Inc. | Remote access encoding |
US9208382B2 (en) * | 2013-03-08 | 2015-12-08 | Trimble Navigation Limited | Methods and systems for associating a keyphrase with an image |
CN103475789B (en) * | 2013-08-26 | 2016-05-04 | 宇龙计算机通信科技(深圳)有限公司 | A kind of mobile terminal and control method thereof |
EP2879047A3 (en) * | 2013-11-28 | 2015-12-16 | LG Electronics Inc. | Mobile terminal and controlling method thereof |
US20150185599A1 (en) * | 2013-12-31 | 2015-07-02 | Brian Mullins | Audio based on captured image data of visual content |
CN103795897A (en) * | 2014-01-21 | 2014-05-14 | 深圳市中兴移动通信有限公司 | Method and device for automatically generating background music |
US10049477B1 (en) | 2014-06-27 | 2018-08-14 | Google Llc | Computer-assisted text and visual styling for images |
CN104199876B (en) * | 2014-08-20 | 2018-03-02 | 广州三星通信技术研究有限公司 | The method and apparatus for associating melody and picture |
CN104615645A (en) * | 2014-12-18 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | Search implementation method, device and system and computer equipment |
CN104615689A (en) * | 2015-01-22 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | Searching method and device |
CN104573132B (en) * | 2015-02-13 | 2017-10-31 | 广东欧珀移动通信有限公司 | Song lookup method and device |
US9875245B2 (en) * | 2015-04-10 | 2018-01-23 | Apple Inc. | Content item recommendations based on content attribute sequence |
CN105335455A (en) * | 2015-08-28 | 2016-02-17 | 广东小天才科技有限公司 | Text reading method and apparatus |
CN105159988B (en) * | 2015-08-28 | 2018-08-21 | 广东小天才科技有限公司 | A kind of method and device of browsing photo |
KR102545768B1 (en) | 2015-11-11 | 2023-06-21 | 삼성전자주식회사 | Method and apparatus for processing metadata |
CN105912722B (en) * | 2016-05-04 | 2018-11-09 | 广州酷狗计算机科技有限公司 | Song sending method and device |
CN106055671B (en) * | 2016-06-03 | 2022-06-14 | 腾讯科技(深圳)有限公司 | Multimedia data processing method and equipment thereof |
US10140515B1 (en) * | 2016-06-24 | 2018-11-27 | A9.Com, Inc. | Image recognition and classification techniques for selecting image and audio data |
CN107038233A (en) * | 2017-04-14 | 2017-08-11 | 维沃移动通信有限公司 | A kind of photo film making method and mobile terminal |
CN107025295A (en) * | 2017-04-14 | 2017-08-08 | 维沃移动通信有限公司 | A kind of photo film making method and mobile terminal |
US11182424B2 (en) * | 2018-05-08 | 2021-11-23 | Spotify Ab | Image based content search and recommendations |
CN109063163B (en) * | 2018-08-14 | 2022-12-02 | 腾讯科技(深圳)有限公司 | Music recommendation method, device, terminal equipment and medium |
KR102579452B1 (en) * | 2018-09-05 | 2023-09-15 | 삼성전자주식회사 | Image display device and operating method for the same |
US11263493B2 (en) | 2019-06-25 | 2022-03-01 | Spotify Ab | Automatic metadata detector based on images |
US11544314B2 (en) | 2019-06-27 | 2023-01-03 | Spotify Ab | Providing media based on image analysis |
KR20230037329A (en) | 2021-09-09 | 2023-03-16 | 네이버 주식회사 | Computer system for rendering event-customized audiod content, and method thereof |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2005109169A (en) * | 2003-03-13 | 2005-09-20 | Самсунг Электроникс Ко., Лтд. (KR) | METHOD AND DEVICE FOR SYNCHRONIZING INTERACTIVE CONTENT |
WO2005124763A1 (en) * | 2004-05-17 | 2005-12-29 | Samsung Electronics Co., Ltd. | Method of and apparatus for reproducing downloaded data along with data recorded on storage medium |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3840321B2 (en) * | 1997-08-18 | 2006-11-01 | 松下電器産業株式会社 | Prediction method and apparatus for heterogeneous media pair |
JP2000250944A (en) * | 1998-12-28 | 2000-09-14 | Toshiba Corp | Information providing method and device, information receiving device and information describing method |
US6404925B1 (en) * | 1999-03-11 | 2002-06-11 | Fuji Xerox Co., Ltd. | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition |
JP2001184357A (en) * | 1999-12-24 | 2001-07-06 | Victor Co Of Japan Ltd | Multimedia material retrieving device |
JP2001202082A (en) * | 2000-01-17 | 2001-07-27 | Matsushita Electric Ind Co Ltd | Device and method for editing video signal |
JP2002057975A (en) * | 2000-08-11 | 2002-02-22 | Noritsu Koki Co Ltd | Photographing image recording device |
US6629104B1 (en) * | 2000-11-22 | 2003-09-30 | Eastman Kodak Company | Method for adding personalized metadata to a collection of digital images |
US6993532B1 (en) * | 2001-05-30 | 2006-01-31 | Microsoft Corporation | Auto playlist generator |
US20030065503A1 (en) * | 2001-09-28 | 2003-04-03 | Philips Electronics North America Corp. | Multi-lingual transcription system |
FR2830714B1 (en) * | 2001-10-04 | 2004-01-16 | Eastman Kodak Co | AUTOMATIC DIGITAL IMAGE ENRICHMENT PROCESS |
JP4542301B2 (en) * | 2002-02-27 | 2010-09-15 | ホットアルバムコム株式会社 | Movie data generation system and movie data generation method |
US8285111B2 (en) * | 2002-04-19 | 2012-10-09 | Tivo Inc. | Method and apparatus for creating an enhanced photo digital video disc |
AU2003267783A1 (en) * | 2002-11-08 | 2004-06-07 | Koninklijke Philips Electronics N.V. | Recommender and method of providing a recommendation of content therefor |
US20040095379A1 (en) * | 2002-11-15 | 2004-05-20 | Chirico Chang | Method of creating background music for slideshow-type presentation |
EP1422668B1 (en) * | 2002-11-25 | 2017-07-26 | Panasonic Intellectual Property Management Co., Ltd. | Short film generation/reproduction apparatus and method thereof |
US20040122539A1 (en) * | 2002-12-20 | 2004-06-24 | Ainsworth Heather C. | Synchronization of music and images in a digital multimedia device system |
JP2004297424A (en) * | 2003-03-27 | 2004-10-21 | Fuji Photo Film Co Ltd | Digital camera |
JP4444210B2 (en) * | 2003-06-17 | 2010-03-31 | パイオニア株式会社 | Information recording medium, information recording apparatus and method, information reproducing apparatus and method, information recording / reproducing apparatus and method, information recording program, information reproducing program, information recording / reproducing program, and data structure including control signal |
JP2007502035A (en) | 2003-07-29 | 2007-02-01 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Digital photo enriched photo viewing experience |
US7546288B2 (en) * | 2003-09-04 | 2009-06-09 | Microsoft Corporation | Matching media file metadata to standardized metadata |
US20050057578A1 (en) * | 2003-09-16 | 2005-03-17 | Shan-Jang Chen | Digital photo frame |
JP3944160B2 (en) * | 2003-12-25 | 2007-07-11 | キヤノン株式会社 | Imaging apparatus, information processing apparatus, control method thereof, and program |
JP4221308B2 (en) * | 2004-01-15 | 2009-02-12 | パナソニック株式会社 | Still image reproduction device, still image reproduction method and program |
GB2412804A (en) * | 2004-03-30 | 2005-10-05 | Nokia Corp | Recording images with associated context information |
JP2006065002A (en) * | 2004-08-26 | 2006-03-09 | Kenwood Corp | Device and method for content reproduction |
JP4595704B2 (en) * | 2005-06-22 | 2010-12-08 | カシオ計算機株式会社 | Image processing apparatus, imaging apparatus, and program |
WO2007004139A2 (en) * | 2005-06-30 | 2007-01-11 | Koninklijke Philips Electronics N.V. | Method of associating an audio file with an electronic image file, system for associating an audio file with an electronic image file, and camera for making an electronic image file |
-
2006
- 2006-11-15 WO PCT/IB2006/054281 patent/WO2007057850A2/en active Application Filing
- 2006-11-15 EP EP06821463A patent/EP1958203A2/en not_active Ceased
- 2006-11-15 KR KR1020087014955A patent/KR101329266B1/en active IP Right Grant
- 2006-11-15 JP JP2008540766A patent/JP5457676B2/en not_active Expired - Fee Related
- 2006-11-15 US US12/094,170 patent/US8171016B2/en not_active Expired - Fee Related
- 2006-11-15 RU RU2008125058/28A patent/RU2444072C2/en not_active IP Right Cessation
- 2006-11-15 CN CN2006800435524A patent/CN101313364B/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2005109169A (en) * | 2003-03-13 | 2005-09-20 | Самсунг Электроникс Ко., Лтд. (KR) | METHOD AND DEVICE FOR SYNCHRONIZING INTERACTIVE CONTENT |
WO2005124763A1 (en) * | 2004-05-17 | 2005-12-29 | Samsung Electronics Co., Ltd. | Method of and apparatus for reproducing downloaded data along with data recorded on storage medium |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2608873C2 (en) * | 2014-02-14 | 2017-01-25 | Общество С Ограниченной Ответственностью "Яндекс" | Method of binding metadata of digital content with digital content (versions), electronic device (versions), computer-readable medium (versions) |
Also Published As
Publication number | Publication date |
---|---|
JP2009516951A (en) | 2009-04-23 |
EP1958203A2 (en) | 2008-08-20 |
KR101329266B1 (en) | 2013-11-14 |
RU2008125058A (en) | 2009-12-27 |
US8171016B2 (en) | 2012-05-01 |
CN101313364A (en) | 2008-11-26 |
JP5457676B2 (en) | 2014-04-02 |
KR20080085848A (en) | 2008-09-24 |
CN101313364B (en) | 2011-12-21 |
WO2007057850A2 (en) | 2007-05-24 |
US20080256100A1 (en) | 2008-10-16 |
WO2007057850A3 (en) | 2007-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2444072C2 (en) | System and method for using content features and metadata of digital images to find related audio accompaniment | |
US9524349B2 (en) | Identifying particular images from a collection | |
CN110249387B (en) | Method for creating audio track accompanying visual image | |
US10089392B2 (en) | Automatically selecting thematically representative music | |
US8442976B2 (en) | Adaptation of location similarity threshold in associative content retrieval | |
JP5998807B2 (en) | Information processing system, information processing apparatus, information processing method, and information processing program | |
GB2379051A (en) | System and Method for Combining Voice Annotation and Recognition Search Criteria With Traditional Search Criteria into Metadata | |
US9009163B2 (en) | Lazy evaluation of semantic indexing | |
KR20080043129A (en) | Method for recommending photo using music of mood and system thereof | |
US11166000B1 (en) | Creating a video for an audio file | |
US8862582B2 (en) | System and method of organizing images | |
Cai et al. | Automated music video generation using web image resource | |
Kuo et al. | Building personal digital photograph libraries: An approach with ontology-based MPEG-7 dozen dimensional digital content architecture | |
Kuo et al. | MPEG-7 based dozen dimensional digital content architecture for semantic image retrieval services | |
Phang et al. | Tools and technologies for enhancing access to audiovisual archives: The Singapore journey | |
JP6206534B2 (en) | Information processing system, information processing apparatus, information processing method, and information processing program | |
GB2412988A (en) | A system for storing documents in an electronic storage media | |
Kuo et al. | Continuous Archiving of Personal Digital Photograph Collections with a MPEG-7 Based Dozen Dimensional Digital Content Architecture | |
Joshi et al. | Suggesting Songs for Media Creation Using Semantics | |
Chen et al. | Using Speech Annotation for Home Digital Image Indexing and Retrieval | |
Kuo et al. | An experiment on personal archiving and retrieving image system (PARIS) | |
Cavaco et al. | Video Annotation of TV Content using Audiovisual Information | |
Kuo et al. | MPEG-7 Based Dozen Dimensional Digital Content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20191116 |