RU2813619C1 - Устройство обработки изображения и способ обработки изображения - Google Patents

Устройство обработки изображения и способ обработки изображения Download PDF

Info

Publication number
RU2813619C1
RU2813619C1 RU2022124589A RU2022124589A RU2813619C1 RU 2813619 C1 RU2813619 C1 RU 2813619C1 RU 2022124589 A RU2022124589 A RU 2022124589A RU 2022124589 A RU2022124589 A RU 2022124589A RU 2813619 C1 RU2813619 C1 RU 2813619C1
Authority
RU
Russia
Prior art keywords
image
audio data
fundamental frequency
frequency
component
Prior art date
Application number
RU2022124589A
Other languages
English (en)
Inventor
Сатору ХИРОСЕ
Тору ТАКАГИ
Original Assignee
Ниссан Мотор Ко., Лтд.
Рено С.А.С.
Filing date
Publication date
Application filed by Ниссан Мотор Ко., Лтд., Рено С.А.С. filed Critical Ниссан Мотор Ко., Лтд.
Application granted granted Critical
Publication of RU2813619C1 publication Critical patent/RU2813619C1/ru

Links

Images

Abstract

Изобретение относится к устройству обработки изображений. Технический результат заключается в повышении точности обработки звукового сигнала и генерации графического изображения. Устройство обработки звуковых данных для генерации изображения, причем упомянутое устройство обработки содержит: контроллер, содержащий блок получения звуковых данных, с возможностью получения звуковых данных через микрофон, блок анализа частотных характеристик, блок вычисления основной частоты, блок генерации изображения звуковых данных и блок генерации модели машинного обучения, при этом блок генерации изображения звуковых данных генерирует двумерное изображение, включающее в себя двумерную матрицу заранее заданной области, в котором компонента основной частоты и гармоническая компонента представлены пикселями, которые были расположены в первой заранее заданной области рядом в частотном порядке по одной оси двумерной матрицы, и в двумерном изображении другие частотные компоненты, включенные в звуковые данные и отличающиеся от компоненты основной частоты и гармонической компоненты, представлены пикселями, расположенными в соответствующей второй заранее заданной области, отличной от первой заранее заданной области. 2 н. и 7 з.п. ф-лы, 20 ил.

Description

ОБЛАСТЬ ТЕХНИКИ
[0001]
Настоящее изобретение относится к устройству обработки изображения и способу обработки изображения.
УРОВЕНЬ ТЕХНИКИ
[0002]
Известен способ определения, является ли звук устройства нормальным или ненормальным (патентный документ 1). Изобретение, описанное в патентном документе 1, определяет, является ли звук устройства нормальным или ненормальным, с использованием вектора локуса, указывающего характеристики интенсивности во всех временных направлениях, и ранее обученного идентификационного параметра.
СПИСОК ЦИТИРУЕМЫХ ДОКУМЕНТОВ
ПАТЕНТНЫЙ ДОКУМЕНТ
[0003]
Патентный документ 1: WO 2015/068446
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
ТЕХНИЧЕСКАЯ ЗАДАЧА
[0004]
При генерации модели машинного обучения для определения ненормальности с использованием звуковых данных возможно сгенерировать модель машинного обучения путем количественной оценки звуковых данных с помощью физических величин, таких как звуковое давление (дБ), указывающее величину звуковых данных, и частота (Гц), указывающая основной тон звуковых данных. Хотя возможно эффективно генерировать модель машинного обучения путем формирования изображения звуковых данных, изобретение, описанное в патентном документе 1, не упоминает формирование изображения звуковых данных.
[0005]
В ответ на вышеуказанную проблему целью настоящего изобретения является предоставление устройства обработки изображения и способа обработки изображения для формирования изображения звуковых данных.
ТЕХНИЧЕСКОЕ РЕШЕНИЕ
[0006]
Устройство обработки изображения в соответствии с одним аспектом настоящего изобретения вычисляет компоненту основной частоты, включенную в звуковые данные, и гармоническую компоненту, соответствующую компоненте основной частоты, преобразует компоненту основной частоты и гармоническую компоненту в данные изображения и генерирует звуковое изображение, причем компонента основной частоты и гармоническая компонента, которые были преобразованы в данные изображения, располагаются рядом друг с другом.
ПРЕИМУЩЕСТВА ИЗОБРЕТЕНИЯ
[0007]
Настоящее изобретение позволяет генерировать модель машинного обучения звуковых данных посредством формирования изображения звуковых данных.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0008]
Фиг. 1 является блок-схемой конфигурации, иллюстрирующей устройство 1 обработки изображения согласно первому варианту осуществления настоящего изобретения.
Фиг. 2А является примером изображения звуковых данных согласно первому варианту осуществления настоящего изобретения.
Фиг. 2B является примером результата частотного анализа.
Фиг. 3 является примером модели машинного обучения, отображаемой на дисплее 50.
Фиг. 4 является блок-схемой последовательности операций, иллюстрирующей пример работы устройства 1 обработки изображения согласно первому варианту осуществления настоящего изобретения.
Фиг. 5 является блок-схемой конфигурации, иллюстрирующей устройство 1 обработки изображения согласно второму варианту осуществления настоящего изобретения.
Фиг. 6 является примером изображения звуковых данных согласно второму варианту осуществления настоящего изобретения.
Фиг. 7 является блок-схемой последовательности операций, иллюстрирующей пример работы устройства 1 обработки изображения согласно второму варианту осуществления настоящего изобретения.
Фиг. 8 является блок-схемой конфигурации, иллюстрирующей устройство 1 обработки изображения согласно третьему варианту осуществления настоящего изобретения.
Фиг. 9 является примером изображения звуковых данных согласно третьему варианту осуществления настоящего изобретения.
Фиг. 10 является блок-схемой последовательности операций, иллюстрирующей пример работы устройства 1 обработки изображения согласно третьему варианту осуществления настоящего изобретения.
Фиг. 11 является блок-схемой конфигурации, иллюстрирующей устройство 1 обработки изображения согласно четвертому варианту осуществления настоящего изобретения.
Фиг. 12 является примером изображения звуковых данных согласно четвертому варианту осуществления настоящего изобретения.
Фиг. 13 является блок-схемой последовательности операций, иллюстрирующей пример работы устройства 1 обработки изображения согласно четвертому варианту осуществления настоящего изобретения.
Фиг. 14 является блок-схемой конфигурации устройства 1 обработки изображения согласно пятому варианту осуществления настоящего изобретения.
Фиг. 15 является схемой, иллюстрирующей пример способа вырезания изображения звуковых данных.
Фиг. 16 является блок-схемой последовательности операций, иллюстрирующей пример работы устройства 1 обработки изображения согласно пятому варианту осуществления настоящего изобретения.
Фиг. 17 является блок-схемой конфигурации устройства 1 обработки изображения согласно шестому варианту осуществления настоящего изобретения.
Фиг. 18A является блок-схемой последовательности операций, иллюстрирующей пример работы устройства 1 обработки изображения согласно шестому варианту осуществления настоящего изобретения.
Фиг. 18B является блок-схемой последовательности операций, иллюстрирующей пример работы устройства 1 обработки изображения согласно шестому варианту осуществления настоящего изобретения.
ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
[0009]
Варианты осуществления настоящего изобретения описаны ниже со ссылкой на чертежи. На чертежах одни и те же элементы обозначены одними и теми же ссылочными позициями, и их описание опущено.
[0010]
[Первый вариант осуществления]
Пример конфигурации устройства обработки изображения
Пример конфигурации устройства 1 обработки изображения согласно первому варианту осуществления описан со ссылкой на фиг. 1. Как показано на фиг. 1, устройство 1 обработки изображения включает в себя контроллер 20, запоминающее устройство 40 и дисплей 50.
[0011]
Контроллер 20 получает звуковые данные через микрофон 10 и анализирует полученные звуковые данные. Контроллер 20 представляет собой микрокомпьютер общего назначения, включающий в себя ЦП (центральный процессор), память и блок ввода/вывода. Микрокомпьютер имеет установленную компьютерную программу для работы в качестве устройства 1 обработки изображения. Выполняя компьютерную программу, микрокомпьютер функционирует как множество схем обработки информации, обеспеченных в устройстве 1 обработки изображения. Следует отметить, что описанный здесь пример предназначен для использования программного обеспечения для реализации множества схем обработки информации, обеспеченных в устройстве 1 обработки изображения, однако также возможно подготовить выделенное аппаратное обеспечение для выполнения каждой обработки информации, описанной ниже, чтобы сконфигурировать схемы обработки информации. Кроме того, множество схем обработки информации могут быть сконфигурированы отдельным аппаратным обеспечением. Контроллер 20 включает в себя блок 21 получения звуковых данных, блок 22 анализа частотных характеристик, блок 23 вычисления основной частоты, блок 24 генерации изображения звуковых данных и блок 25 генерации модели машинного обучения в качестве множества схем обработки информации.
[0012]
Как описано выше, блок 21 получения звуковых данных получает звуковые данные через микрофон 10. Звуковые данные, полученные блоком 21 получения звуковых данных, преобразуются в электрический сигнал и обрабатываются как данные временного ряда. Звуковым данным, полученным блоком 21 получения звуковых данных, присваивается метка, указывающая нормальные или ненормальные, и они используются в качестве данных учителя машинного обучения. Обратите внимание, что звуковые данные являются, например, звуковыми данными машины, используемой на промышленном предприятии.
[0013]
Блок 22 анализа частотных характеристик анализирует частотные характеристики звуковых данных, полученных блоком 21 получения звуковых данных. В качестве способа анализа используется, например, обработка сигналов, представленная БПФ (быстрым преобразованием Фурье). БПФ преобразует данные временных рядов в частотные данные, чтобы получить «частотно-энергетические характеристики».
[0014]
Блок 23 вычисления основной частоты вычисляет основную частоту звуковых данных, используя «частотно-энергетические характеристики», полученные блоком 22 анализа частотных характеристик. Блок 23 вычисления основной частоты вычисляет гармоники, соответствующие вычисленной основной частоте.
[0015]
Блок 24 генерации изображения звуковых данных генерирует изображение звуковых данных с использованием основной частоты, вычисленной блоком 23 вычисления основной частоты.
[0016]
Блок 25 генерации модели машинного обучения генерирует оптимальную модель машинного обучения для определения нормальности и ненормальности в звуковых данных с использованием изображения, сгенерированного блоком 24 генерации изображения звуковых данных. Блок 25 генерации модели машинного обучения подтверждает эффективность определения нормальности и ненормальности звуковых данных с помощью множества алгоритмов машинного обучения с использованием перекрестной проверки и тому подобного и выводит модель с наилучшей эффективностью. Следует отметить, что блок 25 генерации модели машинного обучения может также выводить вместе другие модели.
[0017]
Запоминающее устройство 40 хранит «частотно-энергетические характеристики», полученные блоком 22 анализа частотных характеристик, изображение звуковых данных, сгенерированное блоком 24 генерации изображения звуковых данных, модель машинного обучения, сгенерированную блоком 25 генерации модели машинного обучения, и тому подобное.
[0018]
Дисплей 50 отображает модель машинного обучения, сгенерированную блоком 25 генерации модели машинного обучения, и ее характеристики предсказания и тому подобное.
[0019]
Далее со ссылкой на фиг. 2А и 2В описан пример изображения, сгенерированного блоком 24 генерации изображения звуковых данных.
[0020]
Изображение 60 на фиг. 2A является примером изображения, сгенерированного блоком 24 генерации изображения звуковых данных. Сначала описан способ генерации изображения 60. Подробности изображения 60 описаны позже. Блок 21 получения звуковых данных получает звуковые данные любой машины. Звуковые данные преобразуются в электрический сигнал. Следует отметить, что изображение 60 получается путем преобразования звуковых данных в данные изображения и может упоминаться как звуковое изображение.
[0021]
Блок 22 анализа частотных характеристик анализирует электрический сигнал с использованием БПФ. Фиг. 2B иллюстрирует пример результата анализа. На фиг. 2В вертикальная ось указывает звуковое давление (дБ(А)), а горизонтальная ось указывает частоты (Гц). БПФ обеспечивает «частотно-энергетические характеристики», показанные на фиг. 2В.
[0022]
Блок 23 вычисления основной частоты вычисляет основную частоту звуковых данных с использованием «частотно-энергетических характеристик», показанных на фиг. 2В. Основная частота относится к частоте самой низкочастотной компоненты, когда сигнал (который здесь относится к звуковым данным, преобразованным в электрический сигнал) представлен синтезом синусоидальных волн. Основную частоту иногда называют основной волной. Согласно БПФ, как показано на фиг. 2В, обычно появляются множественные пиковые частоты (пики спектра). Способ вычисления основной частоты не ограничен, но, например, как показано на фиг. 2В, минимальная пиковая частота (400 Гц на фиг. 2В) среди множества пиковых частот может быть вычислена как основная частота.
[0023]
В качестве другого способа вычисления частота между пиками может быть вычислена как основная частота. Как показано на фиг. 2В, большие пики появляются при 1200 Гц и 1600 Гц. Частота между пиками (1600-1200=400 Гц) может быть вычислена как основная частота.
[0024]
В качестве другого способа вычисления может быть получена разность частот между пиками, и когда разность является той же, что и минимальная пиковая частота, частота может быть вычислена как основная частота. В частности, как показано на фиг. 2В, поскольку разность в частоте между пиками (400 Гц, как описано выше) является той же, что и минимальная пиковая частота (400 Гц), блок 23 вычисления основной частоты может вычислить 400 Гц в качестве основной частоты. Здесь «разность является той же, что и минимальная пиковая частота» не ограничивается только той же. «Разность является той же, что и минимальная пиковая частота» означает по существу та же (может рассматриваться как близкая к той же). В первом варианте осуществления основная частота установлена как 400 Гц. Основная частота составляет единицу на звуковые данные.
[0025]
Затем блок 23 вычисления основной частоты вычисляет гармоники, соответствующие вычисленной основной частоте. Гармоники означают частотную компоненту более высокого порядка, которая включает в себя целые кратные волнового движения, имеющего некоторую частотную компоненту (здесь компоненту основной частоты). Гармоники иногда называют обертонами в области музыки. Как показано на фиг. 2B, большие пики наблюдаются на частотах, которые являются целыми кратными (2x, 3x и т.д.) основной частоты (400 Гц). Блок 23 вычисления основной частоты вычисляет частоты (800 Гц, 1200 Гц и т.д.) целых кратных гармоник, соответствующих основной частоте.
[0026]
Блок 24 генерации изображения звуковых данных генерирует двумерное изображение, такое как так называемая тепловая карта, как показано на фиг. 2А, с использованием основной частоты и гармоник, вычисленных блоком 23 вычисления основной частоты. На фиг. 2А вертикальная ось представляет обертоны, а горизонтальная ось представляет частоты. Более конкретно, горизонтальная ось указывает частоты от 0 до 400 Гц. Обертоны на вертикальной оси означают обертоны основной частоты (400 Гц). Изображение 60 сформировано множеством пикселей, указывающих соответствующие частоты. На изображении 60 под пикселем 60а, указывающим 400 Гц, рядом расположен пиксель 60b, указывающий 800 Гц (в 2 раза больше 400 Гц). То же самое применяется ниже, и под пикселем 60b, указывающим 800 Гц, рядом расположен пиксель, указывающий 1200 Гц (в 3 раза больше 400 Гц). В правом нижнем углу изображения 60 расположен пиксель, указывающий 8400 Гц (в 21 раз больше 400 Гц). По горизонтальной оси и вертикальной оси пиксели располагаются в частотном порядке. Изображение 60 может быть данными изображения, полученными из двумерной матрицы, в которой двумерные заранее заданные области (области, в которых расположены пиксели 60a, 60b) установлены для соответствующих частотных компонент, и эти заранее заданные области расположены рядом в вертикальном и горизонтальном направлениях.
[0027]
Таким образом, блок 24 генерации изображения звуковых данных преобразует компоненту основной частоты и гармоническую компоненту, вычисленные блоком 23 вычисления основной частоты, в данные изображения. Компонента основной частоты, преобразованная в данные изображения, представлена как пиксель 60a (400 Гц). Гармоническая компонента, преобразованная в данные изображения, представлена как пиксель 60b (800 Гц). Как показано на фиг. 2А, сгенерировано изображение 60 (звуковое изображение), в котором компонента основной частоты (пиксель 60а, указывающий 400 Гц) и гармоническая компонента (пиксель 60b, указывающий 800 Гц), преобразованные в данные изображения, расположены рядом. Звуковое изображение получается путем преобразования компоненты основной частоты, включенной в звуковые данные, и гармонической компоненты в изображение посредством заранее заданной обработки.
[0028]
Изображение 60 проиллюстрировано в прямоугольной форме, но оно не ограничено этим. Например, изображение 60 может иметь форму тонкой гребенки для увеличения разрешения. Каждый из пикселей также показан в форме прямоугольника, но он не ограничен этим. Кроме того, соответствующие пиксели дискретно располагаются на расстоянии друг от друга, но не ограничено этим. Соответствующие пиксели могут располагаться непрерывно без какого-либо расстояния друг от друга. Вертикальную ось и горизонтальную ось можно поменять местами. На фиг. 2А компонента основной частоты и гармоническая компонента, соответствующая компоненте основной частоты, расположены рядом по вертикальной оси, но могут быть расположены рядом по горизонтальной оси.
[0029]
На фиг. 2А каждому пикселю задана яркость или цвет, соответствующий амплитуде звуковых данных. Например, пиксели 60a и 60b, имеющие большое звуковое давление, задаются темным цветом (например, красным), таким как на тепловой карте. Другие пиксели (например, пиксель 60c) задаются светлым цветом (например, зеленым), таким как на тепловой карте. Следует отметить, что пиксели 60d и 60e являются примерами указания ненормальности в звуковых данных, а яркости или цвета устанавливаются иначе, чем у других пикселей. Яркости или цвета пикселей устанавливаются таким образом, чтобы оператор мог с первого взгляда определить интенсивность, нормальность, ненормальность и тому подобное звуковых данных.
[0030]
Далее описана модель машинного обучения со ссылкой на фиг. 3. Блок 25 генерации модели машинного обучения генерирует оптимальную модель машинного обучения для определения нормальности и ненормальности в звуковых данных с использованием изображения 60, сгенерированного блоком 24 генерации изображения звуковых данных. Как описано выше, к звуковым данным прикрепляется метка, указывающая нормальные или ненормальные. Таким образом, машинное обучение в первом варианте осуществления является так называемым обучением с учителем.
[0031]
Блок 25 генерации модели машинного обучения генерирует модель машинного обучения с использованием хорошо известного алгоритма машинного обучения. Алгоритмы машинного обучения, которые будут использоваться, включают в себя дерево решений, случайный лес, дерево решений с градиентным усилением (GBT), общую линейную регрессию (GLR), машину опорных векторов (SVM) и глубокое обучение. Однако настоящее изобретение не ограничено этим, и может быть использован любой алгоритм, допускающий обучение с учителем.
[0032]
Эффективность предсказания машинного обучения сравнивается по любому из или по комбинации элементов, указывающих эффективность алгоритма машинного обучения, таких как правильность, точность и отклик. Модель с наивысшей эффективностью предсказания выбирается на основе результата сравнения.
[0033]
Как показано на фиг. 3, блок 25 генерации модели машинного обучения отображает сгенерированную модель машинного обучения и ее эффективность предсказания на дисплее 50. На левой стороне дисплея 50 отображаются сгенерированная модель машинного обучения (Дерево решений и т.д.) и ее эффективность предсказания (70% и т. д.). На правой стороне дисплея 50 отображаются подробности модели (глубокое обучение) с наивысшей эффективностью предсказания. Что касается подробностей глубокого обучения, формы, количества обучения, соотношения нормальных и ненормальных данных, количества промежуточных слоев и матрицы неточностей, полученной путем перекрестной проверки.
[0034]
Далее описан пример работы устройства 1 обработки изображения согласно первому варианту осуществления со ссылкой на блок-схему последовательности операций на фиг. 4.
[0035]
На этапе S101 блок 21 получения звуковых данных получает звуковые данные через микрофон 10. Полученные звуковые данные преобразуются в электрический сигнал и обрабатываются как данные временного ряда. Процесс переходит на этап S103, и блок 22 анализа частотных характеристик анализирует электрический сигнал, полученный на этапе S101, с использованием БПФ. БПФ обеспечивает «частотно-энергетические характеристики» (см. фиг. 2В).
[0036]
Процесс переходит на этап S105, и блок 23 вычисления основной частоты вычисляет основную частоту звуковых данных с использованием «частотно-энергетических характеристик», полученных на этапе S103. Описанный выше способ используется для вычисления основной частоты. Процесс переходит на этап S107, и блок 24 генерации изображения звуковых данных генерирует изображение 60, такое как тепловая карта, с использованием основной частоты, вычисленной на этапе S105 (см. фиг. 2A). На изображении 60 компонента основной частоты и гармоническая компонента, соответствующая компоненте основной частоты, расположены рядом.
[0037]
Процесс переходит на этап S109, и изображение 60, сгенерированное на этапе S107, отображается на дисплее 50. Каждый из пикселей, образующих изображение 60, устанавливается как яркость или цвет, соответствующие амплитуде звуковых данных. Таким образом, оператор, который видит изображение 60, может с первого взгляда определить интенсивность, нормальность, ненормальность и тому подобное звуковых данных.
[0038]
Процесс переходит на этап S111, и блок 25 генерации модели машинного обучения выбирает алгоритм для генерации модели машинного обучения. Выбранный алгоритм включает в себя дерево решений, случайный лес, дерево решений с градиентным усилением (GBT), общую линейную регрессию (GLR), машину опорных векторов (SVM) и глубокое обучение.
[0039]
Процесс переходит на этап S113, и блок 25 генерации модели машинного обучения генерирует модель машинного обучения с использованием алгоритма, выбранного на этапе S111. Процесс переходит на этап S115, и блок 25 генерации модели машинного обучения отображает сгенерированную модель машинного обучения и ее эффективность предсказания на дисплее 50 (см. фиг. 3). Последовательность обработки повторяется до завершения (этап S117).
[0040]
Преимущества изобретения
Как описано выше, устройство 1 обработки изображения согласно первому варианту осуществления обеспечивает следующие преимущества изобретения.
[0041]
Блок 23 вычисления основной частоты вычисляет компоненту основной частоты, включенную в звуковые данные, и гармоническую компоненту, соответствующую компоненте основной частоты. Блок 24 генерации изображения звуковых данных преобразует компоненту основной частоты и гармоническую компоненту, вычисленные блоком 23 вычисления основной частоты, в данные изображения. Блок 24 генерации изображения звуковых данных генерирует изображение 60 (звуковое изображение), в котором компонента основной частоты (пиксель 60a на фиг. 2A) и гармоническая компонента (пиксель 60b на фиг. 2A), преобразованные в данные изображения, расположены рядом. Генерируя звуковое изображение, имеющее такое расположение, возможно эффективно генерировать модель машинного обучения. Таким образом, возможно четко отобразить или обработать величину восприятия, например, тембр, который нельзя оцифровать звуковым сигналом временной последовательности или спектральными характеристиками с помощью БПФ.
[0042]
Компонента основной частоты (пиксель 60a) и гармоническая компонента (пиксель 60b) имеют соотношение обертонов. На монофонические тона, такие как тона автомобильных гудков и струнных инструментов, влияют на их обертоны. Согласно первому варианту осуществления такое соотношение может отображаться в виде звукового изображения.
[0043]
Блок 24 генерации изображения звуковых данных размещает компоненту основной частоты (пиксель 60a) и гармоническую компоненту (пиксель 60b) рядом друг с другом по вертикальной оси или горизонтальной оси звукового изображения. Это позволяет отображать соотношение между основной частотой и гармонической компонентой в виде двумерного звукового изображения.
[0044]
Блок 24 генерации изображения звуковых данных генерирует звуковое изображение путем преобразования компоненты основной частоты и гармонической компоненты в данные изображения, где устанавливаются яркости или цвета, соответствующие амплитудам звуковых данных. Это позволяет ясно отображать интенсивность звука и тому подобное в виде звукового изображения.
[0045]
Блок 24 генерации изображения звуковых данных упорядочивает множественные частотные компоненты звуковых данных в порядке частот по вертикальной оси или горизонтальной оси звукового изображения. Это позволяет отображать звуковые данные в виде двумерного звукового изображения.
[0046]
[Второй вариант осуществления]
Далее описан второй вариант осуществления настоящего изобретения со ссылкой на фиг. 5. Второй вариант осуществления отличается от первого варианта осуществления тем, что контроллер 20 включает в себя блок 26 установки гаммы. Описание конфигурации, которое совпадает с первым вариантом осуществления, опущено со ссылкой на ссылочные позиции. Следующее описание сфокусировано на различии.
[0047]
Блок 26 установки гаммы использует «частотно-энергетические характеристики», полученные блоком 22 анализа частотных характеристик, для установки двенадцатитоновой гаммы «C, C#, D, D#, E, F, G, G#, A, A#, B, B#, (C)», что соответствует «до, ре, ми, фа, соль, ля, си (до)», используемым в музыке, и октав (от 1 до 10 октав), которые являются обертонами. Блок 26 установки гаммы классифицирует звуки соответствующих частот по двенадцатитоновой гамме с использованием двенадцатитоновой гаммы и октав.
[0048]
Далее со ссылкой на фиг. 6 описан пример изображения, сгенерированного блоком 24 генерации изображения звуковых данных.
[0049]
Изображение 61 на фиг. 6 является примером изображения, сгенерированного блоком 24 генерации изображения звуковых данных. Блок 24 генерации изображения звуковых данных генерирует изображение 61 путем размещения пикселей, указывающих частоты, таким образом, чтобы они соответствовали двенадцатитоновой гамме, с использованием двенадцатитоновой гаммы и октав, установленных блоком 26 установки гаммы, и частот, классифицированных блоком 26 установки гаммы. На фиг. 6 горизонтальная ось указывает двенадцатитоновую гамму, а вертикальная ось указывает октавы (обертоны частот). Первая строка изображения 61 указывает гамму от 32 Гц до 65 Гц, а по мере того, как линия идет вниз, она указывает обертоны. Обратите внимание, что в примере на фиг. 2 обертоны были описаны как целые кратные основной частоте, но в примере на фиг. 6 обертон означает, что он в два раза превышает частоту предыдущего.
[0050]
Во втором варианте осуществления основная частота составляет не 400 Гц, а любое значение. Имя основного тона, соответствующее пикселю 60а, указывающему основную частоту, является «А». Имя основного тона, соответствующее пикселю 60b, указывающему гармонику, соответствующую основной частоте, также является «А». Как показано на фиг. 6, пиксель 60а и пиксель 60b расположены рядом друг с другом. Генерация изображения 61 позволяет представить звуковые данные в виде двухмерного изображения, адаптированного к характеристикам человеческого слуха.
[0051]
Изображение 61 также имеет прямоугольную форму, как и изображение 60 (см. фиг. 2А), но не ограничено этим. Изменяемые элементы в изображении 60 также применимы к изображению 61.
[0052]
Блок 25 генерации модели машинного обучения генерирует оптимальную модель машинного обучения для определения нормальности и ненормальности в звуковых данных с использованием изображения 61. Поскольку подробности такие же, как и в первом варианте осуществления, их описание опущено.
[0053]
Далее описан пример работы устройства 1 обработки изображения согласно второму варианту осуществления со ссылкой на блок-схему последовательности операций на фиг. 7. Однако процессы на этапах S201-S205 и S209-S219 являются такими же, как процессы на этапах S101-S105 и S107-S117 на фиг. 4, и поэтому их описание опущено.
[0054]
На этапе S207 блок 26 установки гаммы устанавливает двенадцатитоновую гамму и октавы, которые являются ее обертонами с использованием «частотно-энергетических характеристик», полученных на этапе S203. Блок 26 установки гаммы классифицирует звуки соответствующих частот по двенадцатитоновой гамме с использованием двенадцатитоновой гаммы и октав.
[0055]
(Преимущества изобретения)
Во втором варианте осуществления компонента основной частоты и гармоническая компонента имеют одну и ту же гамму. Второй вариант осуществления позволяет отображать относящиеся к музыке события, такие как гамма и октава, в виде изображения.
[0056]
[Третий вариант осуществления]
Далее описан третий вариант осуществления настоящего изобретения со ссылкой на фиг. 8. Третий вариант осуществления отличается от первого варианта осуществления тем, что контроллер 20 включает в себя блок 27 установки критической полосы частот. Описание конфигурации, которое совпадает с первым вариантом осуществления, опущено со ссылкой на ссылочные позиции. Следующее описание сфокусировано на различии.
[0057]
Блок 27 установки критической полосы частот устанавливает двенадцатитоновую гамму «C, C#, D, D#, E, F, G, G#, A, A#, B, B#, (C)», которая соответствует «до, ре, ми, фа, соль, ля, си (до)», используемые в музыке, и критическую полосу частот (номера полосы частот от 1 до 24), которая представляет собой характеристики человеческого слуха, с использованием «частотно-энергетических характеристик», полученных блоком 22 анализа частотных характеристик. Блок 27 установки критической полосы частот классифицирует звуки соответствующих частот по двенадцатитоновой гамме с использованием двенадцатитоновой гаммы и критической полосы.
[0058]
Критическая полоса частот задается как максимальная полоса частот, когда интенсивность звука полосового шума с постоянным уровнем звукового давления в полосе частот постоянна независимо от ширины полосы частот. В качестве другого определения критическая полоса частот задается как минимальная ширина полосы частот полосового шума, которая становится уровнем звукового давления, при котором чистый звук, равный центральной частоте полосового шума, слышен только при увеличении ширины полосы частот, в то время как уровень спектра полосового шума остается постоянным.
[0059]
Далее со ссылкой на фиг. 9 описан пример изображения, сгенерированного блоком 24 генерации изображения звуковых данных.
[0060]
Изображение 62 на фиг. 9 является примером изображения, сгенерированного блоком 24 генерации изображения звуковых данных. Блок 24 генерации изображения звуковых данных генерирует изображение 62 путем размещения пикселей, указывающих частоты, таким образом, чтобы они соответствовали двенадцатитоновой гамме, с использованием двенадцатитоновой гаммы и критической полосы частот, установленных блоком 27 установки критической полосы частот, и частот, классифицированных блоком 27 установки критической полосы частот.
[0061]
На фиг. 9 горизонтальная ось указывает двенадцатитоновую гамму, а вертикальная ось указывает критическую полосу частот (номера полосы частот от 1 до 24). На фиг. 9 «C, C#, D, D#, E, F, G, G#, A, A#, B, B#, C» на фиг. 6 опущены. На фиг. 9 горизонтальная ось указывает от 32 Гц до 130 Гц, что представляет собой комбинацию первой октавы и второй октавы. Номер критической полосы частот указывает минимальную частоту в этой критической полосе частот. Когда вертикальная ось обозначена частотой, частота увеличивается в следующем порядке: 100 Гц, 200 Гц, 300 Гц, 400 Гц и 510 Гц. Причина, по которой увеличение частоты неравномерно по вертикальной оси, заключается в том, что оно имитирует характеристики человеческого слуха. Штрихпунктирные линии на фиг. 9 показывают характеристики чувствительности по отношению к громкости звука. Полоса частот, охваченная штрихпунктирной линией, указывает на сходную характеристику чувствительности.
[0062]
В третьем варианте осуществления основная частота составляет не 400 Гц, а любое значение. Как показано на фиг. 9, пиксель 60а, указывающий основную частоту, и пиксель 60b, указывающий гармонику, соответствующую основной частоте, расположены рядом. Генерируя изображение 62, в котором компонента основной частоты и гармоническая компонента, имеющие соотношение по отношению к критической полосе частот человеческого слуха, расположены рядом, возможно представить звуковые данные в виде двумерного изображения, соответствующего характеристикам человеческого слуха.
[0063]
Изображение 62 также имеет прямоугольную форму, как и изображение 60 (см. фиг. 2А), но не ограничено этим. Изменяемые элементы в изображении 60 также применимы к изображению 62.
[0064]
Блок 25 генерации модели машинного обучения генерирует оптимальную модель машинного обучения для определения нормальности и ненормальности в звуковых данных с использованием изображения 62. Подробности такие же, как и в первом варианте осуществления, поэтому их описание опущено.
[0065]
Далее описан пример работы устройства 1 обработки изображения согласно третьему варианту осуществления со ссылкой на блок-схему последовательности операций на фиг. 10. Однако процессы на этапах S301-S305 и S309-S319 являются такими же, как процессы на этапах S101-S105 и S107-S117 на фиг. 4, и поэтому их описание опущено.
[0066]
На этапе S307 блок 27 установки критической полосы частот устанавливает двенадцатитоновую гамму и критическую полосу частот с использованием «частотно-энергетических характеристик», полученных на этапе S303. Блок 27 установки критической полосы частот классифицирует звуки соответствующих частот по двенадцатитоновой гамме с использованием двенадцатитоновой гаммы и критической полосы частот.
[0067]
(Преимущества изобретения)
В третьем варианте осуществления компонента основной частоты и гармоническая компонента имеют соотношение по отношению к критической полосе частот человеческого слуха. Третий вариант осуществления позволяет отображать такое соотношение в виде изображения.
[0068]
[Четвертый вариант осуществления]
Далее описан четвертый вариант осуществления настоящего изобретения со ссылкой на фиг. 11-12. Четвертый вариант осуществления отличается от первого варианта осуществления тем, что контроллер 20 включает в себя блок 28 генерации зависящего от времени изображения и блок 29 генерации трехмерного изображения вместо блока 24 генерации изображения звуковых данных (см. фиг. 11). Описание конфигурации, которое совпадает с первым вариантом осуществления, опущено со ссылкой на ссылочные позиции. Следующее описание сфокусировано на различии.
[0069]
Изображение 60 на фиг. 12 такое же, как и изображение на фиг. 2А. Блок 28 генерации зависящего от времени изображения генерирует изображение 60 с использованием основной частоты и гармоник, вычисленных блоком 23 вычисления основной частоты. Кроме того, блок 28 генерации зависящего от времени изображения выполняет ту же обработку каждый заданный момент времени, чтобы генерировать изображения с 63 по 65. Блок 29 генерации трехмерного изображения генерирует трехмерное изображение 70 с использованием изображений 60 и 63-65 в каждый заданный момент времени, сгенерированных блоком 28 генерации зависящего от времени изображения. В частности, блок 29 генерации трехмерного изображения добавляет временную ось к изображениям 60 и 63-65 (двумерным изображениям) для генерации трехмерного изображения 70. Изменяемые элементы в изображении 60 также применимы к трехмерному изображению 70. Из-за расчетных характеристик БПФ данные в каждый заданный момент времени обычно вычисляются путем наложения данных до и после временной оси, а значение в заданный момент времени вычисляется с использованием данных с такой продолжительностью времени, что они имеют заданное разрешение по частоте.
[0070]
Блок 25 генерации модели машинного обучения генерирует оптимальную модель машинного обучения для определения нормальности и ненормальности в звуковых данных с использованием трехмерного изображения 70. Подробности такие же, как и в первом варианте осуществления, поэтому их описание опущено.
[0071]
Далее описан пример работы устройства 1 обработки изображения согласно четвертому варианту осуществления со ссылкой на блок-схему последовательности операций на фиг. 13. Однако процессы на этапах S401-S405 и S413-S419 являются такими же, как процессы на этапах S101-S105 и S111-S117 на фиг. 4, и поэтому их описание опущено.
[0072]
На этапе S407 блок 28 генерации зависящего от времени изображения генерирует изображения 60 и 63-65 через заданные интервалы, используя основную частоту и гармоники, полученные на этапе S405. Процесс переходит на этап S409, и блок 29 генерации трехмерного изображения генерирует трехмерное изображение 70 с использованием изображений 60 и 63-65, сгенерированных в каждый заданный момент времени на этапе S407. Процесс переходит на этап S411, и трехмерное изображение 70, сгенерированное на этапе S409, отображается на дисплее 50. Каждый пиксель, образующий трехмерное изображение 70, устанавливается как яркость или цвет, соответствующие амплитуде звуковых данных. Таким образом, оператор, который видит трехмерное изображение 70, может с первого взгляда определить интенсивность, нормальность, ненормальность и тому подобное звуковых данных.
[0073]
Преимущества изобретения
Четвертый вариант осуществления позволяет отображать звуковые данные в виде трехмерного изображения.
[0074]
[Пятый вариант осуществления]
Далее описан пятый вариант осуществления настоящего изобретения со ссылкой на фиг. 14-15. Пятый вариант осуществления отличается от четвертого варианта осуществления тем, что контроллер 20 дополнительно включает в себя блок 30 установки частоты и блок 31 вырезания изображения (см. фиг. 14). Описание конфигурации, которое совпадает с четвертым вариантом осуществления, опущено со ссылкой на ссылочные позиции. Следующее описание сфокусировано на различии.
[0075]
Блок 30 установки частоты устанавливает частоту, которая должна быть извлечена из трехмерного изображения 70. Частота, устанавливаемая блоком 30 установки частоты, представляет собой любую частоту, и может быть установлена основная частота.
[0076]
Блок 31 вырезания изображения вырезает пиксели, относящиеся к частоте, установленной блоком 30 установки частоты. В частности, как показано на фиг. 15, блок 31 вырезания изображения вырезает данные 80 множества пикселей, соответствующих частоте, установленной блоком 30 установки частоты. Блок 31 вырезания изображения генерирует спектрограмму с использованием данных 80 вырезания. Спектрограмма представляет собой компоновку, в которой спектр частотных характеристик расположен по оси времени, а интенсивность представлена цветами, как на тепловой карте.
[0077]
Блок 25 генерации модели машинного обучения генерирует оптимальную модель машинного обучения для определения нормальности и ненормальности в звуковых данных с использованием спектрограммы. Подробности такие же, как и в первом варианте осуществления, поэтому их описание опущено.
[0078]
Далее описан пример работы устройства 1 обработки изображения согласно пятому варианту осуществления со ссылкой на блок-схему последовательности операций на фиг. 16. Однако процессы на этапах S501-S509 и S515-S521 такие же, как процессы на этапах S401-S409 и S413-S419 на фиг. 13, их описание опущено.
[0079]
На этапе S511 блок 30 установки частоты устанавливает частоту, которая должна быть извлечена из трехмерного изображения 70. Процесс переходит на этап S513, и блок 31 вырезания изображения вырезает пиксели, относящиеся к частоте, установленной на этапе S511. Блок 31 вырезания изображения генерирует спектрограмму с использованием вырезанных пикселей.
[0080]
Преимущества изобретения
Пятый вариант осуществления позволяет проводить анализ с использованием спектрограммы.
[0081]
[Шестой вариант осуществления]
Далее описан шестой вариант осуществления настоящего изобретения со ссылкой на фиг. 17. Шестой вариант осуществления отличается от первого варианта осуществления тем, что контроллер 20 включает в себя блок 32 получения новых звуковых данных, блок 33 обработки изображения и блок 34 определения. Описание конфигурации, которое совпадает с первым вариантом осуществления, опущено со ссылкой на ссылочные позиции. Следующее описание сфокусировано на различии.
[0082]
Блок 32 получения новых звуковых данных получает новые звуковые данные через микрофон 11, отличный от микрофона 10. Микрофоны 10 и 11 закреплены на однотипных машинах. Блок 24 генерации изображения звуковых данных генерирует изображение новых звуковых данных.
[0083]
Блок 33 обработки изображения использует изображение новых звуковых данных в качестве входных данных модели машинного обучения, сгенерированной блоком 25 генерации модели машинного обучения. Блок 33 обработки изображения выводит индекс, такой как степень совпадения изображений, с использованием заданного способа обработки изображения.
[0084]
Блок 34 определения сравнивает выходное значение, выдаваемое блоком 33 обработки изображения, с предварительно установленным пороговым значением. Когда выходное значение превышает пороговое значение, блок 34 определения определяет, что звуковые данные являются нормальными. Напротив, когда выходное значение равно или меньше порогового значения, блок 34 определения определяет, что звуковые данные являются ненормальными. Следует отметить, что способ определения не ограничен способом, использующим пороговое значение, и могут использоваться другие способы.
[0085]
Результат определения блоком 34 определения отображается на дисплее 50. Хотя это не показано, о результате определения блоком 34 определения может быть уведомлено голосом через громкоговоритель. Когда результат определения блоком 34 определения является ненормальным, может быть включена красная вращающаяся лампочка.
[0086]
Далее описан пример работы устройства 1 обработки изображения согласно шестому варианту осуществления со ссылкой на блок-схему последовательности операций на фиг. 18A и 18B. Однако процессы на этапах S601-S613 такие же, как процессы на этапах S101-S113 на фиг. 4, и поэтому их описание опущено.
[0087]
На этапе S615 блок 32 получения новых звуковых данных получает новые звуковые данные через микрофон 11. Полученные новые звуковые данные преобразуются в электрический сигнал и обрабатываются как данные временного ряда. Процесс переходит на этап S617, и блок 22 анализа частотных характеристик анализирует электрический сигнал, полученный на этапе S615, с использованием БПФ. БПФ обеспечивает «частотно-энергетические характеристики».
[0088]
Процесс переходит на этап S619, и блок 23 вычисления основной частоты вычисляет основную частоту новых звуковых данных с использованием «частотно-энергетических характеристик», полученных на этапе S617. Процесс переходит на этап S621, и определяется, совпадает ли основная частота, вычисленная на этапе S619, с основной частотой модели машинного обучения, сгенерированной на этапе S613. Причина такого определения заключается в том, что, когда основные частоты различаются, модель машинного обучения не может выполнять обработку определения нормальные и ненормальные. Следует отметить, что «основные частоты совпадают друг с другом» означает по существу совпадение.
[0089]
Когда основные частоты не совпадают друг с другом (НЕТ на этапе S621), на дисплее 50 отображается «Обработка определения невозможна из-за несовпадения основных частот», и процесс переходит на этап S631. Напротив, когда основные частоты совпадают друг с другом (ДА на этапе S621), процесс переходит на этап S623, и блок 24 генерации изображения звуковых данных генерирует изображение новых звуковых данных с использованием основной частоты, вычисленной на этапе S619.
[0090]
Процесс переходит на этап S625, и блок 33 обработки изображения использует изображение новых звуковых данных, сгенерированных на этапе S623, в качестве входных данных для модели машинного обучения. Блок 33 обработки изображения выводит индекс, такой как степень совпадения изображений, с использованием заданного способа обработки изображения. Блок 34 определения сравнивает выходное значение, выдаваемое блоком 33 обработки изображения, с заданным пороговым значением, чтобы определить, являются ли звуковые данные нормальными или ненормальными.
[0091]
Процесс переходит на этап S627, и результат определения этапа S625 отображается на дисплее 50. Процесс переходит на этап S629, и имя файла новых звуковых данных, имя модели машинного обучения, время выполнения обработки, значение основной частоты, результат определения и т.п. сохраняются в запоминающем устройстве 40. Последовательность обработки повторяется до завершения (этап S631). Следует отметить, что когда обработка завершена, на дисплее 50 может отображаться уведомление «Конец обработки определения нормальные/ненормальные».
[0092]
Преимущества изобретения
Шестой вариант осуществления позволяет определить, являются ли другие звуковые данные нормальными или ненормальными, с использованием модели машинного обучения, полученной посредством формирования изображения звуковых данных.
[0093]
Каждая из функций, описанных в приведенных выше вариантах осуществления, может быть реализована одной или более схемами обработки. Схема обработки включает в себя запрограммированное устройство обработки, такое как устройство обработки, включающее в себя электрическую схему. Схема обработки также включает в себя устройства, такие как специализированная интегральная схема (ASIC), предназначенная для выполнения описанных функций и компонентов схемы.
[0094]
Хотя варианты осуществления настоящего изобретения были описаны выше, формулировки и чертежи, составляющие часть этого раскрытия, не следует понимать как ограничивающие изобретение. Из этого раскрытия специалистам в данной области техники станут очевидны различные альтернативные варианты осуществления, примеры и методы работы.
[0095]
В вышеописанных вариантах осуществления модель машинного обучения используется в качестве способа определения нормальности и ненормальности в других звуковых данных, но способ этим не ограничен. Например, ненормальность в изображении (звуковых данных) может быть определена путем сравнения компоненты основной частоты и гармонической компоненты с другими частотными компонентами. Это позволяет определить, являются ли звуковые данные нормальными или ненормальными в случае, когда нет отношения обертонов, такого как в критической полосе частот.
[0096]
Кроме того, блок 34 определения может определять ненормальность в предварительно определенном звуке, включенном в звуковые данные, с использованием изображения 60 (звукового изображения).
[0097]
Изображение 60 (звуковое изображение) может быть выполнено из двумерной матрицы, включающей в себя компоненту основной частоты и гармоническую компоненту, преобразованные в данные изображения, и другие частотные компоненты, преобразованные в данные изображения, при этом для каждой частотной компоненты установлена предварительно определенная область. Следует отметить, что другие частотные компоненты означают частотные компоненты, отличные от компоненты основной частоты и гармонической компоненты.
СПИСОК ССЫЛОЧНЫХ ПОЗИЦИЙ
[0098]
1 Устройство обработки изображения
20 Контроллер
21 Блок получения звуковых данных
22 Блок анализа частотных характеристик
23 Блок вычисления основной частоты
24 Блок генерации изображения звуковых данных
25 Блок генерации модели машинного обучения
26 Блок установки гаммы
27 Блок установки критической полосы частот
28 Блок генерации зависящего от времени изображения
30 Блок установки частоты
31 Блок вырезания изображения
32 Блок получения новых звуковых данных
33 Блок обработки изображения
34 Блок определения
40 Запоминающее устройство
50 Дисплей

Claims (25)

1. Устройство обработки звуковых данных для генерации изображения, причем упомянутое устройство обработки содержит:
контроллер, содержащий:
блок получения звуковых данных, выполненный с возможностью получения звуковых данных через микрофон;
блок анализа частотных характеристик, выполненный с возможностью анализа частотных характеристик звуковых данных;
блок вычисления основной частоты, выполненный с возможностью вычисления компоненты основной частоты, включенной в звуковые данные, и гармонической компоненты, соответствующей вычисленной компоненте основной частоты;
блок генерации изображения звуковых данных, выполненный с возможностью генерации двумерного изображения с использованием компоненты основной частоты и гармонической компоненты; и
блок генерации модели машинного обучения, выполненный с возможностью генерации модели машинного обучения для определения ненормальности в разных звуковых данных с использованием сгенерированного двумерного изображения, при этом
блок генерации изображения звуковых данных генерирует двумерное изображение, включающее в себя двумерную матрицу заранее заданной области, в котором компонента основной частоты и гармоническая компонента представлены пикселями, которые были расположены в первой заранее заданной области рядом в частотном порядке по одной оси двумерной матрицы, и
в двумерном изображении другие частотные компоненты, включенные в звуковые данные и отличающиеся от компоненты основной частоты и гармонической компоненты, представлены пикселями, расположенными в соответствующей второй заранее заданной области, отличной от первой заранее заданной области.
2. Устройство обработки звуковых данных по п. 1, в котором компонента основной частоты и гармоническая компонента имеют соотношение обертонов, одно и то же имя основного тона или соотношение по отношению к критической полосе частот человеческого слуха.
3. Устройство обработки звуковых данных по п. 1 или 2, в котором блок генерации изображения звуковых данных размещает компоненту основной частоты и гармоническую компоненту рядом друг с другом по вертикальной оси или горизонтальной оси звукового изображения.
4. Устройство обработки звуковых данных по любому из пп. 1-3, в котором блок генерации изображения звуковых данных генерирует звуковое изображение путем преобразования компоненты основной частоты и гармонической компоненты в данные изображения, в которых установлены яркость или цвет, соответствующие амплитуде звуковых данных.
5. Устройство обработки звуковых данных по п. 1, в котором блок генерации изображения звуковых данных размещает множество частотных компонент звуковых данных в частотном порядке по вертикальной оси или горизонтальной оси звукового изображения.
6. Устройство обработки звуковых данных по любому из пп. 1-5, в котором контроллер определяет ненормальность в заданном звуке, включенном в звуковые данные, с использованием звукового изображения.
7. Устройство обработки звуковых данных по любому из пп. 1-5, в котором контроллер определяет ненормальность в звуковом изображении с использованием модели машинного обучения.
8. Устройство обработки звуковых данных по п. 1, в котором звуковое изображение включает в себя двумерную матрицу, включающую в себя компоненту основной частоты и гармоническую компоненту, которые были преобразованы в данные изображения, и другие частотные компоненты, которые были преобразованы в данные изображения, при этом двумерная матрица имеет заданную область, установленную для каждой частотной компоненты, и
контроллер определяет ненормальность в звуковом изображении посредством сравнения компоненты основной частоты и гармонической компоненты с другими частотными компонентами.
9. Способ обработки звуковых данных для генерации изображения, содержащий этапы, на которых:
получают звуковые данные через микрофон;
анализируют частотные характеристики звуковых данных;
вычисляют компоненту основной частоты, включенную в звуковые данные, и гармоническую компоненту, соответствующую вычисленной компоненте основной частоты;
генерируют двумерное изображение с использованием компоненты основной частоты и гармонической компоненты; и
генерируют модель машинного обучения для определения ненормальности в разных звуковых данных с использованием сгенерированного двумерного изображения, при этом
двумерное изображение включает в себя двумерную матрицу заранее заданной области, в котором компонента основной частоты и гармоническая компонента в первой заранее заданной области расположены рядом в частотном порядке по одной оси двумерной матрицы, и
в двумерном изображении другие частотные компоненты, включенные в звуковые данные и отличающиеся от компоненты основной частоты и гармонической компоненты, представлены пикселями, расположенными в соответствующей второй заранее заданной области, отличной от первой заранее заданной области.
RU2022124589A 2020-02-20 Устройство обработки изображения и способ обработки изображения RU2813619C1 (ru)

Publications (1)

Publication Number Publication Date
RU2813619C1 true RU2813619C1 (ru) 2024-02-14

Family

ID=

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013076909A (ja) * 2011-09-30 2013-04-25 Casio Comput Co Ltd 演奏評価装置、プログラム及び演奏評価方法
RU2493618C2 (ru) * 2009-01-28 2013-09-20 Долби Интернешнл Аб Усовершенствованное гармоническое преобразование
US20180061382A1 (en) * 2016-08-31 2018-03-01 Gracenote, Inc. Characterizing audio using transchromagrams
WO2019176029A1 (ja) * 2018-03-14 2019-09-19 ヤマハ株式会社 音検出装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2493618C2 (ru) * 2009-01-28 2013-09-20 Долби Интернешнл Аб Усовершенствованное гармоническое преобразование
JP2013076909A (ja) * 2011-09-30 2013-04-25 Casio Comput Co Ltd 演奏評価装置、プログラム及び演奏評価方法
US20180061382A1 (en) * 2016-08-31 2018-03-01 Gracenote, Inc. Characterizing audio using transchromagrams
WO2019176029A1 (ja) * 2018-03-14 2019-09-19 ヤマハ株式会社 音検出装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
КОЗИНСКИЙ А.А. и др "ПРИМЕНЕНИЕ БЫСТРОГО ПРЕОБРАЗОВАНИЯ ФУРЬЕ ДЛЯ АНАЛИЗА ЗВУКОВЫХ ДАННЫХ" N 1 опубл. 2013, Найдено в сети Интернет [04.09.2023], URL: https://www.brsu.by/sites/default/files/vesnik/4113.pdf#page=66. *

Similar Documents

Publication Publication Date Title
JP6061693B2 (ja) 異常診断装置およびこれを用いた異常診断方法
JP6027087B2 (ja) スペクトル挙動の変換を実行する音響信号処理システム及び方法
Zacharakis et al. An interlanguage unification of musical timbre: Bridging semantic, perceptual, and acoustic dimensions
JP2007183202A (ja) 音源方向判定方法及び装置
Moro-Velázquez et al. Voice pathology detection using modulation spectrum-optimized metrics
US20150201889A1 (en) Sonification of imaging data
JPWO2016002004A1 (ja) 呼吸音解析装置及び呼吸音解析方法、並びにコンピュータプログラム及び記録媒体
JP2019515323A (ja) スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法
RU2813619C1 (ru) Устройство обработки изображения и способ обработки изображения
Bergevin et al. Overtone focusing in biphonic Tuvan throat singing
JP4654621B2 (ja) 音声処理装置およびプログラム
US10341795B2 (en) Log complex color for visual pattern recognition of total sound
Pishdadian et al. Multi-resolution common fate transform
EP4109058A1 (en) Image processing device and image processing method
KR100653915B1 (ko) 조명기기 제어장치 및 제어방법
Aichinger et al. Comparison of an audio-based and a video-based approach for detecting diplophonia
JP3174777B2 (ja) 信号処理方法および装置
KR101517957B1 (ko) 음향 지각 능력 평가 방법 및 평가 장치
Jasonarson Sound and Light Sensor System for a Musical Instrument
JP6298527B2 (ja) 生体音解析装置及び生体音解析方法、並びにコンピュータプログラム及び記録媒体
Becker et al. Effects of fundamental frequency removal and low-pass filtering on pitch comparisons.
CN117423347A (zh) 一种泛音列提取方法及相关装置
Maula et al. Spectrum identification of peking as a part of traditional instrument of gamelan
WO2022224005A1 (ja) 異常部品検出装置、異常部品検出方法、及び異常部品検出システム
JP6759479B1 (ja) 音響分析支援システム、及び音響分析支援方法