PL242373B1

PL242373B1 - Sposób generowania treści muzycznych

Info

Publication number: PL242373B1
Application number: PL434520A
Authority: PL
Inventors: Marek PLUTA; Marek Pluta; Joanna Kwiecień; Colin Lewis; Andrzej Dąbrowski; Marek Włodarczyk
Original assignee: Independent Digital Spolka Z Ograniczona Odpowiedzialnoscia
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-02-13
Also published as: US20230178057A1; PL434520A1; WO2022005312A1; EP4182917A1

Abstract

Generowanie treści muzycznej rozpoczyna się od wprowadzenia wejściowych treści muzycznych (1). Kolejnym krokiem przy inicjacji generowania treści muzycznych jest podjęcie decyzji o tym czy wejściowe treści muzyczne poddać analizie ręcznej czy automatycznej. Niezależnie od formy analizy (3) wejściowych treści muzycznych (1), na podstawie reguł biznesowych oraz zasad kompozycji (4) opracowuje się modele generacji utworów muzycznych (5) i tworzy się generator melodii (10). Równolegle (2) przygotowuje się dźwięki (6) które można zapisać w repozytorium dźwięków (8). Następnie modele w formie kodu źródłowego przekazuje się do generatora (14). W pierwszej kolejności generatorowi zadaje się (12) określone parametry przy pomocy urządzenia sterującego (26) zgodnego ze standardami MIDI i uzupełnia się o cechy utworu odczytane z bazy preferencji użytkownika (13). Następnie treści te przekazuje się do automatycznego generowania (15) na bazie algorytmów sztucznej inteligencji i generuje się cyfrowy zapis nutowy utworu o żądanych cechach (15). Ścieżki dźwiękowe poszczególnych instrumentów renderuje się (16) i ścieżki zrenderowane miksuje się do finalnego nagrania muzycznego (20). Następnie utwór (27) i jego nagranie (20) poddaje się weryfikacji przez moduł krytyka (23) oparty na algorytmach na bazie sieci neuronowych. Po pozytywnej ocenie utwór eksportuje się (23) na dedykowaną platformę (24).

Description

Opis wynalazku

Przedmiotem wynalazku jest sposób generowania treści muzycznych oparty na algorytmach następujących po sobie procesów na zbiorach danych wejściowych.

Pod pojęciem algorytmów rozumieć należy w tym opisie patentowym kolejne czynności na danych w postaci zbioru treści muzycznych powstałych na podstawie reguł kompozycyjnych, stworzonych w oparciu o preferencje użytkowników oraz reguły biznesowe i prawne standaryzujące organizację procesu generowania treści muzycznych i ich nagrań.

Pod pojęciem reguł biznesowych rozumieć należy stwierdzenie, które definiuje aspekt biznesu ukierunkowany na kontrolowanie lub wywieranie wpływu na zachowania biznesowe poprzez informowanie, że istnieją określone wymogi dotyczące postępowania, działań i praktyk albo procedur realizowanych w ramach danej aktywności użytkownika. Na potrzeby przedmiotowego opisu rozwiązania reguły biznesowe zespolono z zasadami kompozycji muzyki.

Pod pojęciem reguł biznesowych z zasadami kompozycji muzyki rozumieć należy zespół zasad kompozycji muzycznych z uwzględnieniem estymacji sprzedażowej form muzycznych oraz norm kompozycji muzycznej.

Pod pojęciem repozytorium dźwięków atomowych rozumieć należy zbiór nagrań pojedynczych nut.

W procesie generowania treści muzycznych, algorytmy przeprowadzają szereg procesów ukierunkowanych w pierwszych etapach na stworzenie generatora, który generuje cyfrowy zapis nutowy modelu, któremu w generatorze zadaje się parametry i cechy utworu zgodne z preferencjami użytkownika. W tym obszarze działania generatora powstają treści muzyczne na poziomie utworu technicznego.

Pod pojęciem treści muzycznych na poziomie technicznym rozumieć należy opracowany model, będący wynikiem wykonania szeregu procesów ukierunkowanych na stworzenie generatora. Tworzenie generatora podzielone jest na dwa etapy gdzie w pierwszym podetapie etapu pierwszego treść powstaje na poziomie abstrakcyjnym jako element formy, w drugim podetapie treść abstrakcyjna konwertowana jest do cyfrowego zapisu nutowego każdej linii danego instrumentu z osobna, zawierającego formę, harmonię i warstwy, ukształtowanie melodii poprzez zadanie generatorowi parametrów i cech utworu zgodnych z preferencjami użytkownika.

W etapie drugim procesu generowania treści muzycznych procesuje się zapis nutowy w taki sposób ze przechodzi on w formę nagrania w sprecyzowanej formie dźwiękowej przy użyciu syntezy samplingowej i próbek jako nagrań pojedynczych dźwięków. Pod pojęciem syntezy samplingowej rozumieć należy proces tworzenia treści muzycznych z użyciem fragmentu wcześniej dokonanego nagrania muzycznego, zwanego samplem, jako elementu nowo tworzonego utworu.

Na etapie renderowania treści muzyczne w formie modelu są zamieniane przez sekwencer i sampler z użyciem sampli na formę nagrania poszczególnych instrumentów osobno. Tak powstałe treści poddawane są w kolejnym etapie procesowi miksowania i dopracowywania nagrania. Otrzymuje się finalne nagranie które weryfikuje się przez moduł krytyka oparty na algorytmach sztucznej inteligencji sieci neuronowych. Na tym etapie otrzymuje się utwór o charakterze artystycznym z walorami kompozycyjnymi zgodnymi ze standardami biznesowymi i regułami kompozycyjnymi. Następnie utwór eksportuje się do modułu dystrybucyjnego platformy.

Znanych jest szereg rozwiązań generowania utworów muzycznych. Znane rozwiązanie przedstawione zostało w dokumencie patentowym KR 20190100543. Ujawniono w nim urządzenie elektroniczne zawierające: wyświetlacz, procesor podłączony elektrycznie do wyświetlacza, pamięć elektrycznie podłączona do procesora, przy czym, gdy obróbka jest wykonywana, procesor sprawdza określone parametry wejściowe i wyjściowe ścieżki dźwiękowe oraz, w oparciu o algorytm sztucznej inteligencji, identyfikuje parametry dźwiękowe. Urządzenie elektroniczne przechowuje instrukcje sprawdzania odpowiednich informacji o kompozycji i wyświetlania informacji pomocniczych dotyczących korekty wejściowej ścieżki dźwiękowej na wyświetlaczu, na podstawie potwierdzonych informacji o kompozycji. Zdefiniowane parametry zawierają sprecyzowane informacje, w szczególności o stylu muzycznym, informacje o instrumencie muzycznym, informacje o rytmie, informacje o metrum i informacje o gatunku muzycznym.

Kolejne znane rozwiązanie przedstawiono w dokumencie patentowym CN 110211556. Przedstawiono w nim sposób i urządzenie do obróbki pliku muzycznego, terminal i nośnik pamięci. Metoda przetwarzania obejmuje następujące etapy: gromadzone są pierwsze dane głosu ludzkiego mające na celu wprowadzenie dźwięków docelowych, uzyskanie parametrów pogłosu przyjęte przez dane ludzkiego głosu docelowego odpowiadające docelowej muzyce. Pierwsze dane ludzkiego głosu są przetwarzane na podstawie parametrów pogłosu, a uzyskiwane są drugie dane ludzkiego głosu. Jako drugie przetwarzane są dane głosu ludzkiego i dane akompaniamentu odpowiadające muzyce docelowej są syntezowane i uzyskiwany jest docelowy plik muzyczny.

Dalsze znane rozwiązanie przedstawiono w opisie patentowym KR 20190105254. Opisano tu rozwiązanie które ma na celu zapewnienie w pełni cyfrowego urządzenia do przetwarzania dźwięku, które bezpośrednio odbiera cyfrowy sygnał źródła dźwięku. Przetwarzanie odbywa się na bazie pliku zawierającego cyfrowe źródło dźwięku, przetwarzanie sygnału audio odbywa się w sposób całkowicie cyfrowy w połączeniu z wejściowym sygnałem cyfrowego źródła dźwięku. Następnie wysyła się sygnał audio do głośnika. Po bezpośrednim wprowadzeniu sygnału cyfrowego z cyfrowego pliku źródłowego dźwięku, całe przetwarzanie sygnału może być wykonane w dalszym ciągu cyfrowo, a sygnał audio może być adaptacyjnie przetwarzany w oparciu o sztuczną inteligencję.

Według wynalazku sposób generowania treści muzycznych na podstawie szeregu następujących po sobie procesów, których działanie i przebieg następuje w oparciu o pracę algorytmów sztucznej inteligencji. Proces generowania treści muzycznych odbywa się z użyciem kontrolera sterującego odpowiadającego standardom MIDI. Stworzono reguły biznesowe, pozwalające na au tomatyczne budowanie ścieżek muzycznych na bazie preferencji użytkownika. Automatyczne wygenerowanie treści muzycznych możliwe jest poprzez funkcjonujące na platformie takie rozwiązania jak baza preferencji użytkownika, zasoby repozytorium, reguły biznesow e, modele generacji utworów muzycznych danego typu oraz generator melodii w którym podaje się parametry i cechy dla modeli dla formy i linii instrumentów. Tworzone są modele na poziomie technicznym które poddawane są dalszej obróbce na bazie algorytmów modyfikacji muzycznych plików wejściowych by w efekcie wygenerować nagranie finalne a po jego weryfikacji utwór zawierający zamierzony ładunek kompozycyjny i artystyczny.

Sposób generowania treści muzycznych według wynalazku charakteryzuje się tym, że wejściowe próbki dźwiękowe poddaje się obróbce na bazie algorytmów modyfikacji muzycznych plików wejściowych, dotyczących w szczególności cech takich jak tempo, nastrój utworu, gatunek muzyczny, czas trwania oraz zakres modulacji treści. W efekcie otrzymuje się kompozycję o zamierzonym wyrazie artystycznym. Proces generowania w pierwszym etapie polega na tym, że buduje się treści muzyczne na poziomie technicznym w formie modeli. Treści techniczne pozyskuje się w efekcie przeprowadzenia szeregu procesów skupionych na stworzenie generatora. Przeprowadzenie szeregu procesów polega na tym, że po wprowadzeniu treści wejściowych, analizuje się wejściowe treści muzyczne pod kątem występowania wzorców. Następnie zapisuje się wzorce w bazie reguł biznesowych i zasad komponowania muzyki na podstawie których opracowuje się modele generacji utworów muzycznych danego typu. Tak tworzy się generator melodii, w którym generuje się cyfrowy zapis nutowy linii danego instrumentu. Równolegle przygotowuje się bazę dźwięków atomowych a następnie przekazuje się je do generatora, w którym przy pomocy urządzenia sterującego zgodnego ze standardami MIDI zadaje się generatorowi parametry. Tak powstałe modele poddaje się automatycznej generacji cyfrowego zapisu nutowego i tworzy się partie dla poszczególnych instrumentów, które następnie renderuje się do ścieżek muzycznych dla każdego instrumentu. Otrzymuje się nagranie na poziomie artystycznym. Następnie nagranie dopracowuje się i miksuje się. Otrzymuje się finalną wersję nagrania, po czym utwór i jego nagranie poddaje się weryfikacji przez moduł krytyka. Po weryfikacji eksportuje się nagranie do modułu dystrybucyjnego dedykowanej platformy.

W korzystnej wersji rozwiązania tworzy się finalne nagranie muzyczne z wykorzystaniem algorytmów sztucznej inteligencji na etapie wykonywania analizy pod kątem występowania istniejących wzorców, opracowywania modeli generacji utworów, stworzenia generatora melodii przygotowania dźwięków.

W innej korzystnej wersji rozwiązania próbki dźwięków tworzy się wraz z zapisywaniem treści w repozytorium.

W kolejnej korzystnej wersji rozwiązania opracowane modele przekazuje się do odczytu i generuje się automatycznie cyfrowy zapis nutowy utworu o żądanych cechach.

W następnej korzystnej wersji rozwiązania ścieżki dźwiękowe instrumentów renderuje się przy użycia zasobów repozytorium.

W kolejnej korzystnej wersji rozwiązania utwór i jego nagranie weryfikuje się z wykorzystaniem sztucznej inteligencji i powtarza się proces generowania treści muzycznych od początku.

Przy wykorzystaniu gotowych wzorców schematów i próbek, użytkownik bez specjalnych zasobów instrumentalnych i sprzętowych oraz bez wiedzy merytorycznej na poziomie programisty czy inżyniera dźwięku, z użyciem kontrolera sterującego dla określenia cech treści dźwiękowych treści dźwiękowych, będzie w stanie stworzyć pełnowymiarowe treści muzyczne o walorach artystycznych, dopracowane według indywidualnie sprecyzowanych preferencji kompozycyjnych.

W procesie tworzenia treści muzycznych wykorzystane są algorytmy sztucznej inteligencji, co daje efekt pracy sztabu specjalistów odpowiedzialnych za generowanie tego typu treści muzycznych w tradycyjny sposób. Praca generatora wsparta i sterowana jest urządzeniem sterującym w standardzie MIDI. W pełni cyfrowa generacja treści muzycznych przy pomocy urządzenia sterującego daje użytkownikowi możliwość sprecyzowania wytycznych dla generatora w postaci zad ania parametrów bazowych, w szczególności dla gatunku, tempa, nastroju, czasu trwania oraz parametrów modulacji treści nadających indywidualną zawartość. Praca użytkownika wspomagana jest dodatkowo poprzez użytkowe repozytorium dźwięków zawierające dźwięki w formie pojedynczych nut. Ścieżki muzyczne dla poszczególnych instrumentów renderowane są do postaci poddanej następnie miksowaniu i doprecyzowaniu do poziomu według zamierzonej kompozycji artystycznej. Algorytm oparty o pracę rozbudowanych sieci przekaźnikowych sprawdza utwór i jego nagranie na zgodność z założeniami kompozycyjnymi, w szczególności zgodność z preferencjami oraz standardami biznesowymi obowiązującymi przy kompozycji. Treści muzyczne mogą być generowane bez ograniczeń. Proces tworzenia generatora jest jednorazowy. Wygenerowane treści muzyczne mogą być dystrybuowane.

Przedmiot wynalazku przedstawiony został w przykładzie wykonania na załączonym rysunku który ilustruje przykładowy schemat blokowy generowania treści muzycznych.

Na schemacie blokowym przedstawiono przebieg kolejnych czynności dla realizacji przedmiotu wynalazku, a także wskazano zbiory i bazy wykorzystywane podczas generowania nowych treści muzycznych sposobem według wynalazku. W niniejszym opisie używa się określeń treści muzyczne, utwór oraz utwór i jego nagranie, na oznaczenie rezultatu postępowania według wynalazku. Elementem niezbędnym do realizacji sposobu według wynalazku jest urządzenie sterujące zgodne ze standardami MIDI.

W schemacie blokowym przedstawionym na rysunku każdy symbol „+” rozumieć należy jako koniunkcję szeregu procesów następujących po sobie w jednym czasie.

Strzałki oznaczone na długości linią przerywaną rozumieć należy jako wskazanie przebiegu czynności czasowo wcześniejszych względem przebiegu czynności strzałek oznaczonych na długości za pomocą linii ciągłych.

Każdą pierwszą strzałkę poprowadzoną do kafelka bazy 25 rozumieć należy jako strzałkę „zapisuje się w”, każdą strzałkę wyprowadzaną od kafelka baz 25 rozumieć należy jako „odczytuje się w”.

Pod pojęciem utworów istniejących rozumieć należy istniejące kompozycje dźwiękowe lub próbki dźwiękowe.

Pod pojęciem „utwór i jego nagranie” na etapie eksportu na moduł dystrybucyjny platformy 23 rozumie się, że weryfikacji poddane zostaje nie tylko samo nagranie ale również m.in. część informacji zadawanych przez użytkownika parametrów i cech utworu 12 obejmujących koncepcję utworu np. jego gatunek.

Pod pojęciem treści na poziomie technicznym 26 rozumieć należy plik MIDI oraz dane dodatkowe przekazywane do generatora w formie algorytmów technicznych i kodu źródłowego.

Pod pojęciem sekwencera 28a rozumieć należy urządzanie elektroniczne lub program komputerowy zapamiętujące sekwencję dźwięków lecz sekwencję instrukcji sterujących syntezatorem wraz z parametrami i umożliwiające wielokrotne jej odtworzenie.

Pod pojęciem samplers 28b rozumieć należy elektroniczny instrument muzyczny lub program komputerowy umożliwiający cyfrowy zapis dowolnego dźwięku, a następnie posługiwanie się nim jak tradycyjnym dźwiękiem muzycznym.

Pod pojęciem obszaru działania samplers i sekwencera rozumieć należy zespolone działanie modułów: 28a oraz 28b na plikach MIDI i danych co do treści muzycznych, stanowiących instrukcje dla procesu renderowania 16.

Pod pojęciem weryfikacji przez moduł krytyka Al 19 rozumieć należy weryfikowanie nagrania i jego utworu poprzez moduł oparty o działanie algorytmów sztucznej inteligencji opartych o rozbudo wane sieci neuronowe. Są to algorytmy uczenia sieci neuronowych posiadające przede wszystkim zdolność uogólniania obserwowanych danych. Pod pojęciem uczenia sieci rozumie się wymuszenie na sieci określonego reagowania na zadane sygnały wejściowe.

Jak pokazano na rysunku fig. 1 proces generowania treści muzycznej rozpoczyna się od tworzenia generatora gdzie na początku analizuje się wejściowe treści muzyczne 1 z utworów istniejących. Dwutorowość procesu polega na tym, że w jednym czasie analizuje się istniejące utwory pod kątem występowania wzorców 3 istniejących utworów i opracowuje się modele generacji utworów muzycznych 5, tworzy się generator melodii 10 oraz przygotowuje się dźwięki 6. Tak powstałe modele na poziomie technicznym 27 w formie kodu źródłowego wprowadza się do generatora 14 któremu zadaje się parametry i cechy. Zadawanie cech i parametrów generatorowi korzystnie odbywa się przy pomocy urządzenia sterującego 26 zgodnego ze standardami MIDI.

Treści z generatora jako modele na poziomie technicznym 27 przekazuje się do generacji gdzie w odbywa się automatyczna generacja cyfrowego zapisu nutowego utworu o żądanych cechach 15 na bazie algorytmów sztucznej inteligencji i następnie uzyskuje się partie dźwiękowe dla poszczególnych instrumentów 17. Powstałe partie dźwiękowe 17 przekazuje się jako informacje które analizuje się w obszarze działania sekwensera oraz samplera 28 i renderuje się 16 te treści osobno dla każdego instrumentu, w taki sposób za pomocą sekwencera i samplera z użyciem sampli zmienia się cyfrowe zapisy nutowe każdej linii danego instrumentu na formę dźwiękową i tworzy się formę nagrania poszczególnych instrumentów osobno. Następnie dopracowuje się i miksuje się 18 nagranie. W ten sposób otrzymuje się finalne nagranie muzyczne 20 które przekazuje się do weryfikacji. Utwór 27 i jego nagranie 20 weryfikuje się za pomocą modułu krytyka 19 opartego na specjalistycznych algorytmach sieci neuronowych. Finalną treść muzyczną eksportuje się 23 i przekazuje się do dystrybucji 24. W przypadku negatywnej weryfikacji utworu i jego nagrania w module krytyka 19, proces na tym etapie zatrzymuje się, a automatyczny generator 16 generuje nowe treści na podstawie zadanych mu parametrów i cech, korzystnie z baz preferencji użytkownika 13.

W tym przykładzie wykonania rozwiązania według wynalazku, na etapie procesu przygotowywania dźwięków 6, przygotowane treści muzyczne zapisuje się w repozytorium dźwięków 8.

W tym przykładzie wykonania, w rozwiązaniu według wynalazku zadaje się generatorowi parametry i cechy utworu z baz preferencji użytkownika 13.

W innym przykładzie wykonania, opracowuje się modele generacji utworów muzycznych danego typu i zapisuje się je w bazie 11 opracowanych modeli z której odczytuje się te modele na etapie automatycznej generacji cyfrowego zapisu nutowego utworu o żądanych cechach 15.

Claims

Zastrzeżenia patentowe

1. Sposób generowania treści muzycznych według wynalazku gdzie wejściowe próbki dźwiękowe poddaje się obróbce na bazie algorytmów modyfikacji muzycznych plików wejściowych, dotyczących w szczególności cech takich jak tempo, nastrój utworu, gatunek muzyczny, czas trwania oraz dobiera się zakres modulacji treści, gdzie w efekcie otrzymuje się kompozycję o zamierzonym wyrazie artystycznym, znamienny tym, że buduje się treści muzyczne na poziomie technicznym (27) i artystycznym (20), gdzie na poziomie tworzenia treści na poziomie technicznym (20) analizuje się wejściowe treści muzyczne (1) pod kątem występowania wzorców (3), zapisuje się wzorce w bazie reguł biznesowych i zasad komponowania muzyki (4) na podstawie których opracowuje się modele generacji utworów muzycznych danego typu (5), następnie tworzy się generator melodii, w którym generuje się cyfrowy zapis nutowy linii danego instrumentu (10), przy czym równolegle przygotowuje się bazę dźwięków atomowych (6), a następnie treści muzyczne przekazuje się do generatora (14) w którym przy pomocy urządzenia sterującego (26) zgodnego ze standardami MIDI zadaje się generatorowi parametry (12) i poddaje się automatycznej generacji cyfrowego zapisu nutowego utworu (15) i tworzy się partie dla poszczególnych instrumentów (17) które następnie renderuje się (16) do ścieżek muzycznych dla każdego instrumentu, a następnie miksuje się poszczególne ścieżki w nagranie (18) i otrzymuje się finalną wersję nagrania (20), po czym utwór (27) i jego nagranie (20) poddaje się poddaje się weryfikacji przez moduł krytyka Al (19).
2. Sposób generowania treści muzycznych według zastrz. 1, znamienny tym, że tworzy się finalne nagranie muzyczne (20) z wykorzystaniem algorytmów sztucznej inteligencji na etapie wykonywania analizy pod kątem występowania istniejących wzorców (3), opracowuje się modele generacji utworów (5) i tworzy się generator (6) przygotowania dźwięków (10).
3. Sposób generowania treści muzycznych według zastrz. 1 oraz 2, znamienny tym, że próbki dźwięków (6) tworzy się i równolegle zapisuje się treści w repozytorium (8).
4. Sposób generowania treści muzycznych według zastrz. 1, znamienny tym, że opracowane (5) modele (11) przekazuje się do odczytu i generuje się automatycznie cyfrowy zapis nutowy utworu o żądanych cechach (15).
5. Sposób generowania treści muzycznych według zastrz. 1, znamienny tym, że ścieżki dźwiękowe instrumentów (17) renderuje się (16) przy użyciu zasobów repozytorium (8).
6. Sposób generowania treści muzycznych według zastrz. 1, znamienny tym, że utwór i jego nagranie weryfikuje się (19) za pomocą algorytmów sztucznej inteligencji i powtarza się proces generowania treści muzycznych od początku.