KR102623446B1

KR102623446B1 - 사용자 보컬 평가 기반 사용자 맞춤 오디션 곡 선정 방법

Info

Publication number: KR102623446B1
Application number: KR1020230114212A
Authority: KR
Inventors: 김민석
Original assignee: 케이팝팩토리 주식회사
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2024-01-10

Abstract

일실시예에 따른 장치는 사용자의 단말로부터 맞춤 오디션 곡의 추천 요청을 수신하고, 사용자의 단말로부터 사용자의 보컬 데이터를 획득하고, 사용자의 보컬 데이터를 기초로, 곡 정보를 획득하고, 사용자의 보컬 데이터 및 곡 정보를 보컬 평가 인공지능 모델에 적용하여 사용자의 평가 결과 데이터를 출력하고, 사용자의 평가 결과 데이터를 기초로, 사용자의 보컬 레벨을 산출하고, 사용자의 평가 결과 데이터를 기초로, 사용자의 발성 속성을 생성하고, 사용자의 보컬 레벨 및 사용자의 발성 속성을 기초로, 사용자 맞춤 오디션 곡을 선정한다.

Description

사용자 보컬 평가 기반 사용자 맞춤 오디션 곡 선정 방법 { A METHOD FOR SELECTING USER-CUSTOMIZED AUDITION SONGS BASED ON USER VOCAL EVALUATION }

아래 실시예들은 사용자 보컬 평가를 기반으로 사용자 맞춤 오디션 곡을 선정하는 기술에 관한 것이다.

최근 들어 방송통신기술의 발전으로 연예인들의 활동폭이 넓어지고 그들의 일상 생활이 방송 프로그램을 통해 많이 노출되면서 연예인 지망자가 늘어나고 있다. 일반인이 연예인이 되기 위해서는 전문 학원을 다니거나 기획사의 오프라인 오디션에 참가하는 등의 노력을 들여야 한다. 기획사들은 연예인 지망생을 선발하기 위해 일반인을 길거리에서 캐스팅하거나 주기적으로 오디션을 하여 연예인 지망생을 선발한다. 연예인 지망자가 스스로 노력을 할 때나, 기획사들이 직접 연예인 지망자를 물색하여 캐스팅할 때 등, 어느 경우에나 많은 시간과 비용 그리고 노력이 필요하다.

한편, 유튜브와 같은 온라인 동영상 서비스 기술이 발전하면서 연예인 지망자들이 자기의 끼와 실력을 발휘할 수 있는 기회가 많아졌다. 연예인 지망자들은 모바일 폰이나 캠코더 등으로 자신이 노래하는 모습이나 춤추는 모습을 동영상으로 촬영한 후 유튜브 등에 올려 대중의 관심을 유도하는 방식으로 연예인이 되기 위해 노력하고 있다. 그러나, 이러한 온라인 오디션은 노래하는 모습 또는 춤추는 모습을 촬영한 동영상을 올려 놓은 후 단순히 클릭 수만으로 대중의 관심을 유도하는 것으로 참가자의 실력을 정확하게 평가하기 어렵다.

또한, 포털 사이트 등에서 제공하는 키워드 검색 등에 의한 인기순위는 오버추어와 같은 광고 기능에 의해 객관적이지 못한 문제점이 있다. 아울러 온라인에서 인기가 있는 사람이라도 기획사에 캐스팅될 경우 여전히 다년간의 전문 트레이닝을 받아야 하고 기획사는 많은 비용과 시간을 투자해야 한다.

이러한 환경에서, 소위 K-POP이라고 불리는 한류 열풍에 따라 한국의 음악 산업은 급속도로 발전하였다. 이에 따라, 가수 또는 아이돌을 지망하는 지망생들이 증가하였고, 이들 가수 지망생들을 대상으로 하는 시장 또한 급상승하고 있다. 그러나, 연예인 지망생의 급증에도 불구하고 연예인 지망생이 연예인으로 데뷔할 수 있는 무대(즉, 오디션 또는 기획사)는 한정되어 있고, 따라서 성공적인 데뷔를 위해서는 자신의 발성과 잘 맞는 기획사를 찾는 것이 중요하게 된다.

하지만, 지망생들 대부분은 연예 기획사들 각각에 대한 정보를 얻기가 어려울 뿐더러, 자신의 발성 또는 목소리에 관한 적절한 지표가 없어 자신에게 적합한 보컬 트레이닝을 선정하는데 어려움이 있었다.

따라서, 사용자의 보컬 데이터를 통해 객관적으로 사용자의 보컬 평가를 수행하는 기술이 요구된다.

한국등록특허 제10-1917216 호 (2018.11.09. 공고) 한국등록특허 제10-2107588 호 (2020.05.07. 공고) 한국등록특허 제10-2139889 호 (2020.07.30. 공고) 한국등록특허 제10-2259612 호 (2021.06.01. 공고)

실시예들은 사용자의 단말로부터 획득한 사용자의 보컬 데이터를 기초로, 사용자의 보컬 평가를 수행하고자 한다.

실시예들은 보컬 평가 인공지능 모델을 통해 사용자의 보컬 레벨 및 사용자의 발성 속성을 생성하고자 한다.

실시예들은 사용자 보컬 평가를 기반으로 사용자 맞춤 오디션 곡을 선정하고자 한다.

일실시예에 따르면, 사용자 보컬 평가 기반 사용자 맞춤 오디션 곡 선정 방법은, 사용자의 단말로부터 맞춤 오디션 곡의 추천 요청 메시지를 수신하는 단계; 상기 사용자의 단말로부터 사용자의 보컬 데이터를 획득하는 단계; 상기 사용자의 보컬 데이터를 기초로, 곡 정보를 획득하는 단계; 상기 사용자의 보컬 데이터 및 상기 곡 정보를 보컬 평가 인공지능 모델에 적용하여 상기 사용자의 평가 결과 데이터를 출력하는 단계; 상기 사용자의 평가 결과 데이터를 기초로, 상기 사용자의 보컬 레벨을 산출하는 단계; 상기 사용자의 평가 결과 데이터를 기초로, 상기 사용자의 발성 속성을 생성하는 단계; 및 상기 사용자의 보컬 레벨 및 상기 사용자의 발성 속성을 기초로, 상기 사용자의 맞춤 오디션 곡을 선정하는 단계를 포함한다.

상기 보컬 평가 인공지능 모델은 항목 평가 모델 및 발성 속성 평가 모델을 포함하고, 상기 항목 평가 모델은 상기 곡 정보를 통해 제1 설정 구간의 음과 음 사이의 거리인 제1 거리 및 음의 높이인 제1 높이를 파악하고, 상기 사용자의 보컬 데이터를 통해 상기 제1 설정 구간에 대응하는 제2 설정 구간의 음과 음 사이의 거리인 제2 거리 및 상기 음의 높이인 제2 높이를 파악하고, 상기 제1 거리와 상기 제2 거리를 비교하고, 상기 제1 높이와 상기 제2 높이를 비교하여 상기 제1 거리와 상기 제2 거리의 차이가 미리 설정된 제1 기준 차이 내에 포함되고, 상기 제1 높이와 상기 제2 높이의 차이가 미리 설정된 제2 기준 차이 내에 포함되었다고 확인되면 O를 출력하고, 상기 제1 거리와 상기 제2 거리의 차이가 상기 제1 기준 차이 내에 포함되어 있지 않거나, 상기 제1 높이와 상기 제2 높이의 차이가 상기 제2 기준 차이 내에 포함되어 있지 않다고 확인되면 X를 출력하는 음감 평가 모델, 상기 곡 정보를 통해 기준 BPM을 확인하고, 상기 사용자의 보컬 데이터를 통해 상기 기준 BPM을 벗어난 구간을 생성하고, 상기 기준 BPM을 벗어난 구간이 미리 설정된 기준 시간보다 짧다고 확인되면 O를 출력하고, 상기 기준 BPM을 벗어난 구간이 상기 기준 시간보다 길거나 동일하다고 확인되면 X를 출력하는 템포감 평가 모델, 상기 사용자의 보컬 데이터를 통해 비브라토가 포함된 횟수를 파악하여, 상기 비브라토가 미리 설정한 제1 기준 횟수를 만족하였다고 확인되면 O를 출력하고, 상기 비브라토가 상기 제1 기준 횟수를 만족하지 못하였다고 확인되면 X를 출력하는 호흡 컨트롤 평가 모델, 상기 곡 정보를 통해 기준 리듬을 확인하고, 상기 사용자의 보컬 데이터를 통해 상기 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수를 파악하여, 상기 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 미리 설정한 제2 기준 횟수를 만족하였다고 포함되었다고 확인되면 O를 출력하고, 상기 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 상기 제2 기준 횟수를 만족하지 못하였다고 확인되면 X를 출력하는 리듬감 평가 모델, 상기 사용자의 보컬 데이터를 통해 상기 사용자의 음역대를 확인하고, 상기 사용자의 음역대를 기초로 기준 고음 높이를 생성하고, 상기 기준 고음 높이에서 음의 변화가 미리 설정된 기준 변화보다 작다고 확인되면 O를 출력하고, 상기 기준 고음 높이에서 음의 변화가 상기 기준 보다 크거나 같다고 확인되면 X를 출력하는 고음 안정감 평가 모델, 상기 사용자의 보컬 데이터를 통해 딕션의 강세 변화 횟수를 생성하고, 상기 사용자의 보컬 데이터를 통해 소리의 질감 변화 횟수를 생성하고, 상기 사용자의 보컬 데이터를 통해 볼륨의 크기 변화 횟수를 생성하여, 상기 딕션의 강세 변화 횟수, 상기 소리의 질감 변화 횟수, 및 상기 볼륨의 크기 변화 횟수를 합산한 횟수인 상기 사용자의 표현 횟수가 미리 설정된 제3 기준 횟수를 만족하였다고 확인되면 O를 출력하고, 상기 사용자의 표현 횟수가 상기 제3 기준 횟수를 만족하지 못하였다고 확인되면 X를 출력하는 표현력 평가 모델, 및 상기 음감 평가 모델, 상기 템포감 평가 모델, 상기 호흡 컨트롤 평가 모델, 상기 리듬감 평가 모델, 상기 고음 안정감 평가 모델, 상기 표현력 평가 모델에서 모두 O가 출력된 경우, 상기 사용자의 보컬 데이터를 통해 임팩트가 있는 부분이 있는지 여부를 파악하여, 상기 임팩트가 있는 부분이 있다고 확인되면 O를 출력하고, 상기 임팩트가 있는 부분이 없다고 확인되면 X를 출력하는 완성도 평가 모델을 포함하고, 상기 발성 속성 평가 모델은 상기 사용자의 보컬 데이터를 통해 상기 사용자의 평균 음성 주파수를 확인하고, 상기 사용자의 평균 음성 주파수가 미리 설정된 기준 주파수보다 높다고 확인되면 H를 출력하고, 상기 사용자의 평균 음성 주파수가 상기 기준 주파수보다 낮거나 동일하다고 확인되면 L을 출력하는 톤 평가 모델, 및 상기 사용자의 보컬 데이터를 통해 상기 사용자의 평균 음성 데시벨을 확인하고, 상기 사용자의 보컬 데이터를 통해 상기 사용자의 성대접지 여부를 확인하여, 상기 사용자의 평균 음성 데시벨이 미리 설정된 기준 데시벨보다 크고 상기 사용자의 성대가 접지되었다고 확인되면 M을 출력하고, 상기 사용자의 평균 음성 데시벨이 상기 기준 데시벨보다 크고 상기 사용자의 성대가 접지되지 않았다고 확인되면 F를 출력하고, 상기 사용자의 평균 음성 데시벨이 상기 기준 데시벨보다 작거나 동일하고 상기 사용자의 성대가 접지되었다고 확인되면 O를 출력하고, 상기 사용자의 평균 음성 데시벨이 상기 기준 데시벨보다 작거나 동일하고 상기 사용자의 성대가 접지되지 않았다고 확인되면 S를 출력하는 속성 평가 모델을 포함한다.

상기 사용자의 평가 결과 데이터를 기초로, 상기 사용자의 보컬 레벨을 산출하는 단계는, 상기 사용자의 종합 보컬 레벨을 산출하는 단계, 및 항목 별 보컬 레벨을 산출하는 단계를 포함하고, 상기 사용자의 종합 보컬 레벨을 산출하는 단계는 상기 항목 평가 모델을 통해 출력된 O의 총 개수를 확인하는 단계, 및 상기 O의 총 개수에 +1을 적용하여 상기 사용자의 종합 보컬 레벨을 생성하는 단계를 포함하고, 항목 별 보컬 레벨을 산출하는 단계는, 상기 사용자의 종합 보컬 레벨이 생성되면, 상기 보컬 레벨을 산출하고자 하는 항목인 확인 항목에 대응하는 항목 평가 모델의 출력 값이 O인지, X인지 여부를 확인하는 단계, 상기 확인 항목에 대응하는 항목 평가 모델의 출력 값이 O인 것으로 확인되면, 상기 확인 항목의 보컬 레벨을 상기 사용자의 종합 보컬 레벨과 동일한 레벨 값의 보컬 레벨로 부여하는 단계, 상기 확인 항목에 대응하는 항목 평가 모델의 출력 값이 X인 것으로 확인되면, 상기 확인 항목이 완성도인지 여부를 판단하는 단계, 상기 확인 항목이 완성도라고 확인되면, 상기 확인 항목의 보컬 레벨을 상기 사용자의 종합 보컬 레벨에서 -3을 적용하여 생성된 레벨 값의 보컬 레벨로 부여하는 단계, 및 상기 확인 항목이 완성도가 아니라고 확인되면, 상기 확인 항목의 보컬 레벨을 상기 사용자의 종합 보컬 레벨에서 -2를 적용하여 생성된 레벨 값의 보컬 레벨로 부여하는 단계를 포함하고, 상기 사용자의 평가 결과 데이터를 기초로, 상기 사용자의 발성 속성을 생성하는 단계는, 상기 톤 평가 모델을 통해 출력된 값과 상기 속성 평가 모델을 통해 출력된 값을 조합하여 HF, LF, HM, LH, HS, LS, HO, LO 중 하나를 상기 사용자의 발성 속성으로 생성하는 단계이다.

사용자의 단말로부터 상기 사용자의 보컬 데이터를 획득하는 단계;는 상기 사용자의 단말을 통해 상기 사용자의 음성이 인식되면, 상기 사용자의 음성이 인식된 시점부터 상기 사용자의 음성이 미리 설정된 설정 시간 동안 인식되지 않는 시점까지의 음성 데이터를 획득하는 단계, 상기 음성 데이터를 기초로, 상기 음성 데이터에 포함된 높낮이 변화 중 높낮이의 차이가 미리 설정된 목표 차이보다 큰 높낮이 변화를 확인하고, 상기 목표 차이보다 큰 높낮이 변화의 횟수를 확인 횟수로 생성하는 단계, 상기 확인 횟수가 미리 설정된 목표 횟수보다 많은 음성 데이터를 후보 음성 데이터로 선정하는 단계, 상기 후보 음성 데이터 중 하나를 추출하여 사용자의 보컬 데이터로 선정하는 단계를 포함하고, 상기 후보 음성 데이터 중 하나를 추출하여 사용자의 보컬 데이터로 선정하는 단계는, 상기 후보 음성 데이터에 대응하는 위치 정보를 확인하는 단계, 상기 위치 정보를 기초로, 미리 설정된 유효 위치와 일치하는 위치 정보가 있는지 여부를 확인하는 단계, 상기 유효 위치와 일치하는 위치 정보가 있다고 확인되면, 상기 유효 위치와 일치하는 위치 정보를 갖는 후보 음성 데이터를 사용자의 보컬 데이터로 선정하는 단계, 및 상기 유효 위치와 일치하는 위치 정보가 없다고 확인되면, 상기 후보 음성 데이터 중 임의로 하나를 추출하여 상기 추출된 후보 음성 데이터를 사용자의 보컬 데이터로 선정하는 단계를 포함한다.

상기 사용자의 평가 결과 데이터를 기초로, 사용자의 보컬 레벨을 산출하는 단계 이후에 평가자로부터 획득한 평가를 기초로, 상기 사용자의 보컬 레벨을 보정하여 상기 사용자의 최종 보컬 레벨을 생성하는 단계를 더 포함하고, 평가자로부터 획득한 평가를 기초로, 상기 사용자의 보컬 레벨을 보정하여 상기 사용자의 최종 보컬 레벨을 생성하는 단계는, 미리 설정된 목표 기간 동안 상기 사용자의 보컬 데이터를 보컬 평가 플랫폼에 업로드하는 단계, 상기 보컬 평가 플랫폼을 통해 상기 사용자의 보컬 데이터를 평가하고자 하는 평가자의 단말로부터 상기 평가자의 정보 및 상기 평가자의 평가 점수를 획득하는 단계, 상기 평가자의 정보 및 상기 곡 정보를 기초로, 상기 평가자가 원곡자인지 여부를 판단하는 단계, 상기 평가자가 원곡자로 확인되면, 상기 평가자의 평가 점수에 제1 가중치를 적용하는 단계, 상기 평가자가 원곡자가 아닌 것으로 확인되면, 상기 평가자가 음악과 관련 있는 직업인지 여부를 판단하는 단계, 상기 평가자가 음악과 관련 있는 직업이라고 확인되면, 상기 평가자의 평가 점수에 상기 제1 가중치보다 작은 제2 가중치를 적용하는 단계, 상기 평가자가 음악과 관련 없는 직업이라고 확인되면, 상기 평가자의 평가 점수에 상기 제2 가중치보다 작은 제3 가중치를 적용하는 단계, 및 가중치가 적용된 상기 평가자의 평가 점수를 기초로, 상기 사용자의 보컬 레벨을 보정하는 단계를 포함한다.

상기 사용자의 보컬 레벨 및 상기 사용자의 발성 속성을 기초로, 상기 사용자의 맞춤 오디션 곡을 선정하는 단계는, 상기 사용자의 단말로부터 적어도 두 가지 이상의 상기 사용자의 선호 음악 장르를 획득하는 단계, 상기 사용자의 선호 음악 장르를 기초로, 사용자 맞춤형 장르를 선정하는 단계, 및 상기 사용자 맞춤형 장르를 기초로, 상기 사용자의 맞춤 오디션 곡을 선정하는 단계를 포함하고, 상기 사용자의 단말로부터 상기 사용자의 선호 음악 장르로 제1 장르, 제2 장르를 획득한 경우, 상기 사용자의 선호 음악 장르를 기초로, 사용자 맞춤형 장르를 선정하는 단계는, 상기 사용자의 단말로부터 획득한 보컬 데이터 중 상기 제1 장르에 대응하는 보컬 데이터를 제1 보컬 데이터로 선정하는 단계, 상기 사용자의 단말로부터 획득한 보컬 데이터 중 상기 제2 장르에 대응하는 보컬 데이터를 제2 보컬 데이터로 선정하는 단계, 상기 제1 보컬 데이터에 대응하는 사용자의 보컬 레벨을 기초로, 제1 평균 레벨을 생성하는 단계, 상기 제2 보컬 데이터에 대응하는 사용자의 보컬 레벨을 기초로, 제2 평균 레벨을 생성하는 단계, 상기 제1 평균 레벨 및 상기 제2 평균 레벨을 비교하는 단계, 상기 제1 평균 레벨이 상기 제2 평균 레벨보다 더 높다고 판단되면, 상기 제1 장르를 사용자 맞춤형 장르로 선정하는 단계, 상기 제2 평균 레벨이 상기 제1 평균 레벨보다 더 높다고 판단되면, 상기 제2 장르를 사용자 맞춤형 장르로 선정하는 단계, 및 상기 제1 평균 레벨과 상기 제2 평균 레벨이 동일하다고 확인되면, 상기 제1 보컬 데이터에 매칭된 상기 사용자의 보컬 레벨 간의 표준편차, 상기 제2 보컬 데이터에 매칭된 상기 사용자의 보컬 레벨 간의 표준편차를 확인하여 보컬 레벨 간의 표준편차가 더 작은 장르를 사용자 맞춤형 장르로 선정하는 단계를 포함하고, 상기 사용자 맞춤형 장르를 기초로, 상기 사용자의 맞춤 오디션 곡을 선정하는 단계는, 상기 사용자 맞춤형 장르와 매칭된 보컬 데이터 중 가장 높은 레벨이 미리 설정된 목표 레벨보다 높은지 확인하는 단계, 상기 사용자 맞춤형 장르와 매칭된 보컬 데이터 중 가장 높은 레벨이 상기 목표 레벨보다 높다고 확인되면, 해당 보컬 데이터에 대응하는 곡을 상기 사용자의 맞춤 오디션 곡을 선정하는 단계, 상기 사용자 맞춤형 장르와 매칭된 보컬 데이터 중 가장 높은 레벨이 상기 목표 레벨보다 높지 않다고 확인되면, 오디션 곡 데이터베이스를 통해 상기 사용자 맞춤형 장르에 매칭된 곡을 후보 오디션 곡으로 확인하는 단계, 상기 후보 오디션 곡에 대응하여 상기 사용자의 연령과 동일한 연령을 갖는 사용자의 인원 수를 확인하여 상기 후보 오디션 곡의 연령 점수를 생성하는 단계, 상기 후보 오디션 곡에 대응하여 상기 사용자의 성별과 동일한 성별을 갖는 사용자의 인원 수를 확인하여 상기 후보 오디션 곡의 성별 점수를 생성하는 단계, 상기 후보 오디션 곡에 대응하여 상기 사용자의 발성 속성과 동일한 발성 속성을 갖는 사용자의 인원 수를 확인하여 상기 후보 오디션 곡의 발성 점수를 생성하는 단계, 상기 연령 점수, 상기 성별 점수, 상기 발성 점수를 모두 합한 값으로 상기 후보 오디션 곡의 합산 점수를 생성하는 단계, 및 합산 점수가 가장 높은 후보 오디션 곡을 상기 사용자의 맞춤 오디션 곡으로 선정하는 단계를 포함하고, 합산 점수가 가장 높은 후보 오디션 곡을 상기 사용자의 맞춤 오디션 곡으로 선정하는 단계에서, 상기 합산 점수가 가장 높은 후보 오디션 곡이 적어도 2개 이상인 것으로 확인되면, 상기 사용자의 단말로부터 상기 합산 점수가 가장 높은 후보 오디션 곡에 대응하는 보컬 데이터인 후보 오디션 곡 보컬 데이터를 획득하는 단계, 상기 오디션 곡 데이터베이스로부터 상기 합산 점수가 가장 높은 후보 오디션 곡의 오디오 파일을 획득하는 단계, 상기 후보 오디션 곡 보컬 데이터의 피치 및 길이를 수정하여 상기 합산 점수가 가장 높은 후보 오디션 곡의 오디오 파일과 합성하여 모니터링 데이터를 생성하는 단계, 및 상기 모니터링 데이터 및 자가 진단 인터페이스를 상기 사용자의 단말로 제공하는 단계를 포함한다.

사용자 보컬 평가 기반 사용자 맞춤 오디션 곡 선정 방법은, 상기 사용자의 보컬 데이터에 대응하는 위치 정보를 확인하고, 위치 정보를 기초로, 오디션 가능 지역을 선정하는 단계; 상기 오디션 가능 지역에서 진행될 제1 오디션을 소개하는 콘텐츠인 제1 콘텐츠가 제작되어 상기 제1 콘텐츠가 오디션 모집 사이트에 업로드 된 것을 확인하는 단계; 상기 사용자의 단말에서 상기 제1 콘텐츠가 재생되어 표시되도록 제어하는 단계; 상기 오디션 가능 지역 내에 위치한 기획사들 중 제1 기획사에서 업로드한 콘텐츠인 제2 콘텐츠가 오디션 모집 사이트에 업로드 된 경우, 상기 사용자의 단말에서 상기 제1 콘텐츠에 이어서 상기 제2 콘텐츠가 재생되어 표시되도록 제어하는 단계; 상기 오디션 가능 지역 내에 위치한 기획사들 중 제2 기획사에서 업로드한 콘텐츠인 제3 콘텐츠가 오디션 모집 사이트에 업로드 된 경우, 상기 사용자의 단말에서 상기 제2 콘텐츠에 이어서 상기 제3 콘텐츠가 재생되어 표시되도록 제어하는 단계; 상기 사용자의 단말에서 상기 제3 콘텐츠에 이어서 상기 제1 콘텐츠가 재생되어 표시되도록 제어하는 단계; 및 상기 사용자의 단말에서 상기 제1 콘텐츠에 이어서 상기 제2 콘텐츠 및 상기 제3 콘텐츠가 함께 재생되어 표시되도록 제어하는 단계를 더 포함한다.

일실시예에 따른 장치는 하드웨어와 결합되어 상술한 방법들 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램에 의해 제어될 수 있다.

실시예들은 사용자의 단말로부터 획득한 사용자의 보컬 데이터를 기초로, 사용자의 보컬 평가를 수행할 수 있다.

실시예들은 보컬 평가 인공지능 모델을 통해 사용자의 보컬 레벨 및 사용자의 발성 속성을 생성할 수 있다.

실시예들은 사용자의 보컬 레벨, 사용자의 발성 속성 및 사용자의 정보를 통해 사용자 맞춤 오디션 곡을 선정할 수 있다.

한편, 실시예들에 따른 효과들은 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 해당 기술 분야의 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.

도 1은 일실시예에 따른 시스템의 구성을 설명하기 위한 도면이다.
도 2는 일실시예에 따른 사용자의 보컬 데이터를 기초로, 사용자의 맞춤 오디션 곡을 선정하는 과정을 설명하기 위한 순서도이다.
도 3은 일실시예에 따른 보컬 평가 인공지능 모델을 설명하기 위한 도면이다.
도 4는 일실시예에 따른 사용자의 평가 결과 데이터를 기초로, 사용자의 보컬 레벨을 산출하는 과정을 설명하기 위한 순서도이다.
도 5는 일실시예에 따른 사용자의 종합 보컬 레벨을 산출하는 과정을 설명하기 위한 순서도이다.
도 6은 일실시예에 따른 항목 별 보컬 레벨을 산출하는 과정을 설명하기 위한 순서도이다.
도 7은 일실시예에 따른 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도를 포함하는 각 항목에 대응하는 평가 모델의 출력 값을 기초로 생성된 보컬 레벨 및 보컬 등급의 예시 도면이다.
도 8은 일실시예에 따른 사용자의 발성 속성을 생성하는 과정을 설명하기 위한 순서도이다.
도 9는 일실시예에 따른 발성 속성에 관한 도면이다.
도 10은 일실시예에 따른 사용자의 보컬 레벨 및 사용자의 발성 속성을 사용자의 단말로 제공하기 위한 사용자의 단말의 출력 인터페이스를 설명하기 위한 도면이다.
도 11은 일실시예에 따른 보컬 데이터를 저장하는 과정을 설명하기 위한 순서도이다.
도 12는 일실시예에 따른 사용자의 맞춤 오디션 곡을 선정하는 과정을 설명하기 위한 순서도이다.
도 13은 일실시예에 따른 사용자 맞춤형 장르를 선정하는 과정을 설명하기 위한 순서도이다.
도 14는 일실시예에 따른 사용자 맞춤형 장르를 기초로, 사용자의 맞춤 오디션 곡을 선정하는 과정을 설명하기 위한 순서도이다.
도 15는 일실시예에 따른 모니터링 데이터를 생성하는 과정을 설명하기 위한 순서도이다.
도 16은 일실시예에 따른 사용자의 보컬 레벨을 보정하는 과정을 설명하기 위한 순서도이다.
도 17은 일실시예에 따른 사용자의 단말에 오디션 가능 지역에서 진행중인 오디션 콘텐츠를 제공하는 과정을 설명하기 위한 순서도이다.
도 18은 일실시예에 따른 장치의 구성의 예시도이다.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다.

인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 규칙(Rule) 기반의 스마트 시스템과 달리 기계가 스스로 학습하고 판단하는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 규칙 기반의 스마트 시스템은 점차 심층 학습(Deep Learning) 기반 인공지능 시스템으로 대체되고 있다.

인공지능 기술은 기계 학습 및 기계 학습을 활용한 요소기술들로 구성된다. 기계 학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 심층 학습 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.

일반적으로 기계 학습 알고리즘을 실생활에 적용하기 위해서는 기계 학습의 기본 방법론의 특성상 Trial and Error 방식으로 학습을 수행하게 된다. 특히, 심층 학습의 경우 수십만 번의 반복 실행을 필요로 한다. 이를 실제 물리적인 외부 환경에서 실행하기는 불가능하여 대신 실제 물리적인 외부 환경을 컴퓨터상에서 가상으로 구현하여 시뮬레이션을 통해 학습을 수행한다.

도 1은 일실시예에 따른 시스템의 구성을 설명하기 위한 도면이다.

도 1을 참조하면, 일실시예에 따른 시스템은 통신망을 통해 서로 통신 가능한 사용자의 단말(100), 및 장치(200)를 포함할 수 있다.

먼저, 통신망은 유선 및 무선 등과 같이 그 통신 양태를 가리지 않고 구성될 수 있으며, 서버와 서버 간의 통신과 서버와 단말 간의 통신이 수행되도록 다양한 형태로 구현될 수 있다.

사용자의 단말(100)은 보컬 데이터를 통해 보컬 평가를 제공받고자 하는 사용자가 사용하는 단말로, 휴대전화기, 데스크톱 PC, 랩탑 PC, 태블릿 PC, 스마트폰 등으로 구현될 수 있으나, 이에 제한되지는 않으며, 외부 서버와 연결될 수 있는 다양한 형태의 통신 장치로 구현될 수도 있다. 예를 들어, 도 1에 도시된 바와 같이, 사용자의 단말(100)은 스마트폰일 수 있으며, 실시예에 따라 달리 채용될 수도 있다.

사용자의 단말(100)은 통상의 컴퓨터가 가지는 연산 기능, 저장/참조 기능, 입출력 기능 및 제어 기능을 전부 또는 일부 수행하도록 구성될 수 있다. 사용자의 단말(100)은 장치(200)와 유무선으로 통신하도록 구성될 수 있다.

사용자의 단말(100)은 장치(200)를 이용하여 서비스를 제공하는 자 내지 단체가 운영하는 웹 사이트에 접속되거나, 장치(200)를 이용하여 서비스를 제공하는 자 내지 단체가 개발·배포한 애플리케이션이 설치될 수 있다 사용자의 단말(100)은 웹 사이트 또는 애플리케이션을 통해 장치(200)와 연동될 수 있다.

도1 및 이하의 설명에서는, 설명의 편의상, 사용자의 단말(100) 하나만을 도시하고 설명하였으나, 단말들의 수는 실시예에 따라 얼마든지 달라질 수 있다. 장치(200)의 처리 용량이 허용하는 한, 단말들의 수는 특별한 제한이 없다.

즉, 청구항에 기재된 단수의 표현은 복수를 포함하는 것으로 이해될 수 있다.

장치(200)는 장치(200)를 이용하여 서비스를 제공하는 자 내지 단체가 보유한 자체 서버일수도 있고, 클라우드 서버일 수도 있고, 분산된 노드(node)들의 p2p(peer-to-peer) 집합일 수도 있다. 장치(200)는 통상의 컴퓨터가 가지는 연산 기능, 저장/참조 기능, 입출력 기능 및 제어 기능을 전부 또는 일부 수행하도록 구성될 수 있다. 장치(200)는 사용자의 단말(100)과 유무선으로 통신하도록 구성될 수 있다.

또한, 장치(200)는 블로그, 카페, 인스타그램, 페이스북, 트위터, 유튜브를 포함하는 SNS 및 기사를 포함하는 웹 페이지를 포함하는 웹사이트와 유무선으로 통신할 수 있으며, 장치(200)는 웹사이트에 접속하여 정보를 획득할 수 있다.

장치(200)는 사용자의 단말(100)로부터 맞춤 오디션 곡의 추천 요청을 수신하고, 사용자의 단말(100)로부터 사용자의 보컬 데이터를 획득하고, 사용자의 보컬 데이터를 기초로, 곡 정보를 획득하고, 사용자의 보컬 데이터 및 곡 정보를 보컬 평가 인공지능 모델에 적용하여 사용자의 평가 결과 데이터를 출력하고, 사용자의 평가 결과 데이터를 기초로, 사용자의 보컬 레벨을 산출하고, 사용자의 평가 결과 데이터를 기초로, 사용자의 발성 속성을 생성하고, 사용자의 보컬 레벨 및 사용자의 발성 속성을 기초로, 사용자 맞춤 오디션 곡을 선정할 수 있다.

본 발명에서, 인공지능(Artificial Intelligence, AI)은 인간의 학습능력, 추론능력, 지각능력 등을 모방하고, 이를 컴퓨터로 구현하는 기술을 의미하고, 기계 학습, 심볼릭 로직(Symbolic Logic) 등의 개념을 포함할 수 있다. 기계 학습(Machine Learning, ML)은 입력 데이터들의 특징을 스스로 분류 또는 학습하는 알고리즘 기술이다. 인공지능의 기술은 기계 학습의 알고리즘으로써 입력 데이터를 분석하고, 그 분석의 결과를 학습하며, 그 학습의 결과에 기초하여 판단이나 예측을 할 수 있다. 또한, 기계 학습의 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술들 역시 인공지능의 범주로 이해될 수 있다. 예를 들어, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야가 포함될 수 있다.

기계 학습은 데이터를 처리한 경험을 이용해 신경망 모델을 훈련시키는 처리를 의미할 수 있다. 기계 학습을 통해 컴퓨터 소프트웨어는 스스로 데이터 처리 능력을 향상시키는 것을 의미할 수 있다. 신경망 모델은 데이터 사이의 상관 관계를 모델링하여 구축된 것으로서, 그 상관 관계는 복수의 파라미터에 의해 표현될 수 있다. 신경망 모델은 주어진 데이터로부터 특징들을 추출하고 분석하여 데이터 간의 상관 관계를 도출하는데, 이러한 과정을 반복하여 신경망 모델의 파라미터를 최적화해 나가는 것이 기계 학습이라고 할 수 있다. 예를 들어, 신경망 모델은 입출력 쌍으로 주어지는 데이터에 대하여, 입력과 출력 사이의 매핑(상관 관계)을 학습할 수 있다. 또는, 신경망 모델은 입력 데이터만 주어지는 경우에도 주어진 데이터 사이의 규칙성을 도출하여 그 관계를 학습할 수도 있다.

인공지능 학습모델 또는 신경망 모델은 인간의 뇌 구조를 컴퓨터 상에서 구현하도록 설계될 수 있으며, 인간의 신경망의 뉴런(neuron)을 모의하며 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고받는 뉴런의 시냅틱(synaptic) 활동을 모의하여, 서로 간의 연결 관계를 가질 수 있다. 인공지능 학습모델에서 복수의 네트워크 노드들은 서로 다른 깊이의 레이어에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고받을 수 있다. 인공지능 학습모델은, 예를 들어, 인공 신경망 모델(Artificial Neural Network), 컨볼루션 신경망 모델(Convolution Neural Network: CNN) 등일 수 있다. 일 실시예로서, 인공지능 학습모델은, 지도학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning) 등의 방식에 따라 기계 학습될 수 있다. 기계 학습을 수행하기 위한 기계 학습 알고리즘에는, 의사결정트리(Decision Tree), 베이지안 망(Bayesian Network), 서포트 벡터 머신(Support Vector Machine), 인공 신경망(Artificial Neural Network), 에이다부스트(Ada-boost), 퍼셉트론(Perceptron), 유전자 프로그래밍(Genetic Programming), 군집화(Clustering) 등이 사용될 수 있다.

이중, CNN은 최소한의 전처리(preprocess)를 사용하도록 설계된 다계층 퍼셉트론(multilayer perceptrons)의 한 종류이다. CNN은 하나 또는 여러 개의 합성곱 계층과 그 위에 올려진 일반적인 인공 신경망 계층들로 이루어져 있으며, 가중치와 통합 계층(pooling layer)들을 추가로 활용한다. 이러한 구조 덕분에 CNN은 2차원 구조의 입력 데이터를 충분히 활용할 수 있다. 다른 딥러닝 구조들과 비교해서, CNN은 영상, 음성 분야 모두에서 좋은 성능을 보여준다. CNN은 또한 표준 역전달을 통해 훈련될 수 있다. CNN은 다른 피드포워드 인공신경망 기법들보다 쉽게 훈련되는 편이고 적은 수의 매개변수를 사용한다는 이점이 있다.

컨볼루션 네트워크는 묶인 파라미터들을 가지는 노드들의 집합들을 포함하는 신경 네트워크들이다. 사용 가능한 트레이닝 데이터의 크기 증가와 연산 능력의 가용성이, 구분적 선형 단위 및 드롭아웃 트레이닝과 같은 알고리즘 발전과 결합되어, 많은 컴퓨터 비전 작업들이 크게 개선되었다. 오늘날 많은 작업에 사용할 수 있는 데이터 세트들과 같은 엄청난 양의 데이터 세트에서는 초과 맞춤(outfitting)이 중요하지 않으며, 네트워크의 크기를 늘리면 테스트 정확도가 향상된다. 컴퓨팅 리소스들의 최적 사용은 제한 요소가 된다. 이를 위해, 심층 신경 네트워크들의 분산된, 확장 가능한 구현예가 사용될 수 있다.

도 2는 일실시예에 따른 사용자의 보컬 데이터를 기초로, 사용자 맞춤 오디션 곡을 선정하는 과정을 설명하기 위한 순서도이다.

도 2를 참조하면, 먼저, S201 단계에서, 장치(200)는 사용자의 단말(100)로부터 맞춤 오디션 곡의 추천 요청을 수신할 수 있다.

구체적으로, 장치(200)는 아이돌 지망생 또는 가창 시험을 볼 예정인 사용자의 단말(100)로부터 오디션 또는 가창 시험에서 어떤 곡을 부르는 것이 좋을지 추천을 요청하는 맞춤 오디션 곡의 추천 요청을 수신할 수 있다.

S202 단계에서, 장치(200)는 사용자의 단말(100)로부터 사용자의 보컬 데이터를 획득할 수 있다.

구체적으로, 장치(200)는 사용자의 단말(100)로부터 맞춤 오디션 곡의 추천 요청을 수신하면, 사용자의 보컬 실력을 확인하여 사용자에게 적합한 맞춤 오디션 곡을 추천하기 위해 사용자의 단말(100)로부터 사용자가 노래를 부른 데이터인 보컬 데이터를 수신할 수 있으며, 이때, 장치(200)는 장치(200)에 구비된 데이터베이스에 사용자와 매칭하여 사용자의 보컬 데이터를 저장할 수 있다.

이를 위해 사용자의 단말(100)은 사용자가 노래를 부른 영상 데이터 또는 음성 데이터를 기록하고, 기록 결과에 따라 사용자의 보컬 데이터를 생성할 수 있다. 이때, 보컬 데이터는 영상 파일 또는 음성 파일일 수 있으나, 이에 한정되는 것은 아니다.

장치(200)는 사용자의 단말(100)로부터 직접 음성, 동영상 등을 수집하거나, 사용자의 단말(100)에서 SNS 서비스 등에 업로드 및 등록한 데이터를 수집 처리하여 보컬 데이터를 획득할 수도 있다.

또한, 장치(200)는 사용자의 단말(100)로부터 사용자의 보컬 데이터를 획득하는 과정에서 사용자의 단말(100)로부터 사용자와 관련된 정보인 사용자의 개인 정보를 추가로 획득할 수 있다. 이때, 사용자의 개인 정보는 사용자의 이름, 사용자의 닉네임을 포함하는 사용자의 식별 정보, 사용자의 성별, 연령 및 신체 특징 정보 등을 포함할 수 있으나, 이에 한정되지는 않는다. 사용자의 개인 정보는 메타버스(metaverse) 세계에서의 가상의 인물 정보도 포함될 수 있다.

장치(200)는 사용자에게 보컬 평가를 제공하기 위한 플랫폼 서비스 또는 웹 사이트를 제공할 수 있으며, 사용자는 해당 플랫폼 서비스 또는 웹 사이트에 보컬 데이터를 업로드할 수도 있다.

또한, 장치(200)는 이 과정에서 사용자의 단말(100)로부터 보컬 데이터를 획득하기 위해 사용자의 단말(100)을 통해 음성을 인식할 수 있고, 인식된 음성을 기초로, 보컬 데이터로 사용 가능한 음성을 분석하여, 보컬 데이터로 사용 가능한 음성을 사용자의 단말(100) 및 장치(200)에 구비된 데이터베이스에 저장할 수도 있다. 이와 관련하여 구체적인 설명은 도 11을 참조하기로 한다.

한편, 이 과정에서, 장치(200)는 사용자의 단말(100)로부터 사용자가 선호하는 음악 장르를 획득할 수도 있다.

S203 단계에서, 장치(200)는 사용자의 보컬 데이터를 기초로, 곡 정보를 획득할 수 있다.

구체적으로, 장치(200)는 곡 인식 인공신경망을 구비하거나, 별개의 곡 인식 인공신경망과 유무선으로 통신할 수 있으며, 곡 인식 인공신경망은 보컬 데이터를 입력하면, 해당 보컬 데이터에 포함된 음성을 분석하여 해당 음성의 멜로디, 해당 음성의 가사를 파악하고, 해당 음성의 멜로디 및 해당 음성의 가사를 기초로 보컬 데이터의 원곡 정보 즉, 보컬 데이터의 곡 정보를 출력하는 인공신경망이다. 또한, 곡 인식 인공신경망과 관련하여 구체적으로 작성하지 않았지만, 곡 인식 인공신경망은 통상적으로 사용되는 노래 찾기 인공신경망 및 음악 검색 인공신경망과 동일한 형태로 구현될 수 있다.

즉, 장치(200)는 사용자의 보컬 데이터를 곡 인식 인공신경망에 적용하여, 사용자의 보컬 데이터에 대응하는 곡 정보를 획득할 수 있다. 이때, 곡 정보는 곡의 명칭, 곡의 가수, 곡의 오디오 파일, 곡의 악보, 곡의 음악 장르 등을 포함할 수 있다.

S204 단계에서, 장치(200)는 사용자의 보컬 데이터 및 곡 정보를 보컬 평가 인공지능 모델에 적용하여 사용자의 평가 결과 데이터를 출력할 수 있다.

여기서, 보컬 평가 인공지능 모델은 장치(200)에 구비될 수 있으며, 보컬 평가 인공지능 모델은 항목 평가 모델 및 발성 속성 평가 모델을 포함할 수 있다.

여기서, 항목 평가 모델은 항목을 평가하는 모델로, 항목에는 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도가 포함될 수 있다. 즉, 항목 평가 모델에는 항목 중 음감을 평가하는 모델인 음감 평가 모델, 항목 중 템포감을 평가하는 모델인 템포감 평가 모델, 항목 중 호흡을 평가하는 모델인 호흡 컨트롤 평가 모델, 항목 중 리듬감을 평가하는 모델인 리듬감 평가 모델, 항목 중 고음을 평가하는 모델인 고음 안정감 평가 모델, 항목 중 표현력을 평가하는 모델인 표현력 평가 모델, 항목 중 완성도를 평가하는 모델인 완성도 평가 모델이 포함될 수 있다.

또한, 발성 속성 평가 모델은 사용자의 톤을 평가하는 톤 평가 모델, 및 사용자의 속성을 평가하는 속성 평가 모델이 포함될 수 있다.

보컬 평가 인공지능 모델과 관련하여 구체적인 설명은 도 3을 참조하기로 한다.

S205 단계에서, 장치(200)는 사용자의 평가 결과 데이터를 기초로, 사용자의 보컬 레벨을 산출할 수 있다.

구체적으로, 장치(200)는 사용자의 보컬 데이터 및 곡 정보를 보컬 평가 인공지능 모델에 적용하여 출력된 사용자의 평가 결과 데이터를 기초로, 사용자의 보컬 레벨을 산출할 수 있다. 이와 관련하여 구체적인 설명은 도 4 내지 도 7을 참조하기로 한다.

S206 단계에서, 장치(200)는 사용자의 평가 결과 데이터를 기초로, 사용자의 발성 속성을 생성할 수 있다.

구체적으로, 장치(200)는 사용자의 보컬 데이터 및 곡 정보를 보컬 평가 인공지능 모델에 적용하여 출력된 사용자의 평가 결과 데이터를 기초로, 사용자의 발성 속성을 생성할 수 있다. 이와 관련하여 구체적인 설명은 도 8 내지 도 9를 참조하기로 한다.

S207 단계에서, 장치(200)는 사용자의 보컬 레벨 및 사용자의 발성 속성을 기초로, 사용자의 맞춤 오디션 곡을 선정할 수 있다.

구체적으로, 장치(200)는 사용자의 단말(100)로부터 획득한 사용자의 보컬 데이터를 기초로, 보컬 평가 인공지능 모델을 통해 사용자의 보컬 레벨 및 사용자의 발성 속성을 생성할 수 있고, 보컬 데이터 별로 생성된 사용자의 보컬 레벨을 기초로, 사용자의 맞춤 오디션 곡을 선정할 수 있다. 이와 관련하여 구체적인 설명은 도 12 내지 도 14를 참조하여 하기로 한다. 또한, 장치(200)는 선정된 사용자의 맞춤 오디션 곡을 사용자의 단말(100)로 제공할 수 있다.

한편, 장치(200)는 사용자의 보컬 데이터 및 곡 정보를 보컬 평가 인공지능 모델에 적용하여 출력된 사용자의 평가 결과 데이터를 기초로, 생성된 사용자의 보컬 레벨 및 사용자의 발성 속성을 사용자의 단말(100)로 제공할 수 있다. 이때, 사용자의 단말(100)에 사용자의 보컬 레벨 및 사용자의 발성 속성이 제공되는 예시는 도 10을 참조하기로 한다.

이로 인해, 장치(200)는 사용자에게 사용자의 보컬 레벨 및 사용자의 발성 속성을 제공함으로써, 사용자는 제공받은 사용자의 보컬 레벨 및 사용자의 발성 속성을 기초로, 현재 사용자의 보컬 실력을 객관적으로 파악할 수 있다.

또한, 사용자는 사용자의 보컬 레벨 및 사용자의 발성 속성을 기초로, 사용자에게 적합한 보컬 트레이닝을 알 수 있어, 효과적으로 보컬 실력을 향상시킬 수 있다.

또한, 장치(200)는 보컬 데이터 별로 생성된 사용자의 보컬 레벨을 기초로, 사용자에게 적합한 오디션 곡을 선정할 수 있어 사용자는 자신에게 유리한 곡으로 오디션 및 가창 시험을 볼 수 있고, 이로 인해 좋은 결과를 획득할 수 있다.

도 3은 일실시예에 따른 보컬 평가 인공지능 모델을 설명하기 위한 도면이다.

구체적으로, 보컬 평가 인공지능 모델은 항목 평가 모델 및 발성 속성 평가 모델을 포함할 수 있다.

또한, 항목 평가 모델에는 항목 중 음감을 평가하는 모델인 음감 평가 모델, 항목 중 템포감을 평가하는 모델인 템포감 평가 모델, 항목 중 호흡을 평가하는 모델인 호흡 컨트롤 평가 모델, 항목 중 리듬감을 평가하는 모델인 리듬감 평가 모델, 항목 중 고음을 평가하는 모델인 고음 안정감 평가 모델, 항목 중 표현력을 평가하는 모델인 표현력 평가 모델, 항목 중 완성도를 평가하는 모델인 완성도 평가 모델이 포함될 수 있다.

음감 평가 모델은 사용자의 보컬 데이터에 포함된 음감과 곡 정보에 포함된 음감을 비교하여 사용자가 음을 정확하게 표현하였는지 여부를 평가하는 모델로, 음감 평가 모델은 곡 정보를 통해 미리 설정된 제1 설정 구간의 음과 음 사이의 거리인 제1 거리 및 음의 높이인 제1 높이를 파악하고, 사용자의 보컬 데이터를 통해 제1 설정 구간에 대응하는 제2 설정 구간의 음과 음 사이의 거리인 제2 거리 및 음의 높이인 제2 높이를 파악하여, 제1 거리와 제2 거리를 비교하여, 제1 높이와 제2 높이를 비교하여 제1 거리와 제2 거리의 차이가 미리 설정된 제1 기준 차이 내에 포함되고, 제1 높이와 제2 높이의 차이가 미리 설정된 제2 기준 차이 내에 포함되었다고 확인되면 출력 값으로 O를 출력하고, 제1 거리와 제2 거리의 차이가 제1 기준 차이 내에 포함되지 않거나 제1 높이와 제2 높이의 차이가 제2 기준 차이 내에 포함되지 않았다고 확인되면 출력 값으로 X를 출력하는 모델일 수 있다. 또한, 음감 평가 모델은 인공지능 모델일 수 있으며, 음감 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다.

구체적으로, 장치(200)는 음감 평가 모델을 통해 사용자의 음감을 평가하기 위해 곡 정보에 포함된 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 곡의 오디오 파일과 보컬 데이터의 길이가 상이할 가능성을 고려하여 일정 길이(5~10초)로 크롭(crop) 처리하는 과정을 통해 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수 있고, 또한, 장치(200)는 곡의 오디오 파일 및 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 곡 정보에 포함된 곡의 오디오 파일 및 사용자의 보컬 데이터를 음감 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 음감 평가 모델은 전처리가 완료된 곡의 오디오 파일을 통해 음과 음 사이의 거리를 생성하고, 전처리가 완료된 사용자의 보컬 데이터를 통해 음과 음 사이의 거리를 생성하여 두 거리 간의 차이를 생성하고, 전처리가 완료된 곡의 오디오 파일을 통해 음 높이를 생성하고, 전처리가 완료된 사용자의 보컬 데이터를 통해 음 높이를 생성하여 두 높이 간의 차이를 생성하고, 두 거리 간의 차이 및 두 높이 간의 차이가 모두 미리 설정된 기준을 만족한다고 확인되면, 출력 값으로 O를 출력하고, 두 거리 간의 차이 및 두 높이 간의 차이 중 적어도 하나가 기준을 만족하지 못한다고 확인되면 출력 값으로 X를 출력할 수 있다.

템포감 평가 모델은 사용자의 보컬 데이터에 포함된 템포와 곡 정보에 포함된 템포를 비교하여 사용자가 BPM을 일정하게 유지하는 감각이 있는지 여부를 평가하는 모델로, 템포감 평가 모델은 곡 정보를 통해 기준 BPM을 파악하고, 사용자의 보컬 데이터를 통해 기준 BPM을 벗어난 구간을 파악하여, 사용자의 보컬 데이터에 포함된 총 구간 중 기준 BPM을 벗어난 구간이 미리 설정된 기준 시간보다 짧다고 확인되면 출력 값으로 O를 출력하고, 사용자의 보컬 데이터에 포함된 총 구간 중 기준 BPM을 벗어난 구간이 기준 시간보다 짧지 않다고 확인되면 출력 값으로 X를 출력하는 모델일 수 있다. 또한, 템포감 평가 모델은 인공지능 모델일 수 있으며, 템포감 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다.

구체적으로, 장치(200)는 템포감 평가 모델을 통해 사용자의 템포감을 평가하기 위해 곡 정보에 포함된 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 곡의 오디오 파일과 보컬 데이터의 길이가 상이할 가능성을 고려하여 일정 길이(5~10초)로 크롭(crop) 처리하는 과정을 통해 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수 있고, 또한, 장치(200)는 곡의 오디오 파일 및 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 곡 정보에 포함된 곡의 오디오 파일 및 사용자의 보컬 데이터를 템포감 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 템포감 평가 모델은 전처리가 완료된 곡 정보를 통해 해당 곡의 BPM인 기준 BPM을 생성하고, 전처리가 완료된 사용자의 보컬 데이터를 통해 기준 BPM을 벗어난 구간을 확인하여 사용자의 보컬 데이터에 포함된 총 구간 중 기준 BPM을 벗어난 구간이 짧다고 확인되면, 출력 값으로 O를 출력하고, 사용자의 보컬 데이터에 포함된 총 구간 중 기준 BPM을 벗어난 구간이 짧지 않다고 확인되면 출력 값으로 X를 출력할 수 있다.

호흡 컨트롤 평가 모델은 사용자의 보컬 데이터에 포함된 비브라토가 포함된 횟수를 확인하여 사용자가 호흡을 컨트롤 할 수 있는지 여부를 평가하는 모델로, 호흡 컨트롤 평가 모델은 사용자의 보컬 데이터를 통해 비브라토가 포함된 횟수를 확인하여, 사용자의 보컬 데이터에 비브라토가 포함된 횟수가 미리 설정된 제1 기준 횟수를 만족한다고 확인되면 출력 값으로 O를 출력하고, 사용자의 보컬 데이터에 비브라토가 포함된 횟수가 제1 기준 횟수를 만족하지 않는다고 확인되면 출력 값으로 X를 출력하는 모델일 수 있다. 또한, 호흡 컨트롤 평가 모델은 인공지능 모델일 수 있으며, 호흡 컨트롤 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다. 여기서, 비브라토는 음의 높낮이를 조금씩 오르내리는 연속적인 진동을 표현하는 기법으로, 음의 주파수를 미리 설정된 범위 내에서 위아래로 변화시킴으로써 실현되는 것일 수 있다. 여기서, 제1 기준 횟수는 미리 설정된 횟수일 수 있으며, 이때, 미리 설정된 횟수는 하나의 횟수일 수도 있고, 횟수의 범위일 수도 있다. 또한, 제1 기준 횟수는 호흡 컨트롤 평가 모델을 통한 실시 예가 증가함에 따라 보정될 수 있다. 즉, 사용자의 보컬 데이터에 비브라토가 포함된 횟수가 제1 기준 횟수 내에 포함될 경우, 제1 기준 횟수를 만족한다고 확인할 수 있고, 사용자의 보컬 데이터에 비브라토가 포함된 횟수가 제1 기준 횟수 내에 포함되지 않을 경우, 제1 기준 횟수를 만족하지 않는다고 확인할 수 있다.

구체적으로, 장치(200)는 호흡 컨트롤 평가 모델을 통해 사용자의 호흡을 평가하기 위해 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 사용자의 보컬 데이터를 호흡 컨트롤 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 호흡 컨트롤 평가 모델은 전처리가 완료된 사용자의 보컬 데이터를 통해 비브라토가 포함된 횟수를 생성하고, 생성된 비브라토가 포함된 횟수가 제1 기준 횟수를 만족한다고 확인되면, 출력 값으로 O를 출력하고, 비브라토가 포함된 횟수가 제1 기준 횟수를 만족하지 않는다고 확인되면 출력 값으로 X를 출력할 수 있다.

리듬감 평가 모델은 곡 정보를 기초로 리듬을 파악하고, 사용자의 보컬 데이터에 리등에 대응하는 벤딩 및 바이브레이션이 포함된 횟수를 확인하여 사용자가 리듬감이 있는지 여부를 평가하는 모델로, 리듬감 평가 모델은 곡 정보를 통해 기준 리듬을 파악하고, 사용자의 보컬 데이터를 통해 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수를 확인하여, 사용자의 보컬 데이터에 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 미리 설정된 제2 기준 횟수 이상 포함되었다고 확인되면 출력 값으로 O를 출력하고, 사용자의 보컬 데이터에 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 제2 기준 횟수보다 적게 포함되었다고 확인되면 출력 값으로 X를 출력하는 모델일 수 있다. 또한, 리듬감 평가 모델은 인공지능 모델일 수 있으며, 리듬감 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다. 여기서, 벤딩은 음의 높낮이를 조절하는 것으로, 기준 리듬에 대응하는 벤딩을 확인하는 방법은 벤딩 시작음과 도달하려는 음의 연결 시간 동안 내게 되는 연결 과정 중의 음성을 확인하여 기준 리듬에 적합한 벤딩인지 여부를 확인할 수 있고, 바이브레이션은 음의 떨림을 나타내는 것으로 비브라토와 유사하지만 음의 높낮이 변화가 균등한 빈도 및 규칙적인 진동을 표현한 것으로, 기준 리듬에 대응하는 바이브레이션을 확인하는 방법은 기준 리듬에 대응하여 규칙적인 음의 높낮이 변화가 있었는지 여부를 확인할 수 있다. 여기서, 제2 기준 횟수는 미리 설정된 횟수일 수 있으며, 이때, 미리 설정된 횟수는 하나의 횟수일 수도 있고, 횟수의 범위일 수도 있다. 또한, 제2 기준 횟수는 리듬감 평가 모델을 통한 실시 예가 증가함에 따라 보정될 수 있다. 즉, 사용자의 보컬 데이터에 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 제2 기준 횟수 내에 포함될 경우, 제2 기준 횟수를 만족한다고 확인할 수 있고, 사용자의 보컬 데이터에 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 제2 기준 횟수 내에 포함되지 않을 경우, 제2 기준 횟수를 만족하지 않는다고 확인할 수 있다.

구체적으로, 장치(200)는 리듬감 평가 모델을 통해 사용자의 리듬감을 평가하기 위해 곡 정보에 포함된 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 곡의 오디오 파일과 보컬 데이터의 길이가 상이할 가능성을 고려하여 일정 길이(5~10초)로 크롭(crop) 처리하는 과정을 통해 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수 있고, 또한, 장치(200)는 곡의 오디오 파일 및 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 곡의 오디오 파일 및 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 사용자의 보컬 데이터를 리듬감 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 리듬감 평가 모델은 전처리가 완료된 사용자의 보컬 데이터를 통해 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수를 생성하고, 생성된 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 제2 기준 횟수를 만족한다고 확인되면, 출력 값으로 O를 출력하고, 기준 리듬에 대응하는 벤딩 및 바이브레이션이 포함된 횟수가 제2 기준 횟수를 만족하지 않는다고 확인되면 출력 값으로 X를 출력할 수 있다.

고음 안정감 평가 모델은 사용자의 보컬 데이터에 포함된 사용자의 음역대를 확인하여 사용자가 사용자의 음역대 안에서 고음이 안정적인지 여부를 평가하는 모델로, 고음 안정감 평가 모델은 사용자의 보컬 데이터를 통해 사용자의 음역대를 확인하고, 사용자의 음역대를 기초로 기준 고음 높이를 생성하고, 사용자의 보컬 데이터를 통해 기준 고음 높이에서 음의 변화를 확인하여, 기준 고음 높이에서 음의 변화가 미리 설정된 기준 변화보다 작다고 확인되면 출력 값으로 O를 출력하고, 기준 고음 높이에서 음의 변화가 기준 변화가 작지 않다고 확인되면 출력 값으로 X를 출력하는 모델일 수 있다. 또한, 고음 안정감 평가 모델은 인공지능 모델일 수 있으며, 고음 안정감 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다.

구체적으로, 장치(200)는 고음 안정감 평가 모델을 통해 사용자의 고음을 평가하기 위해 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 사용자의 보컬 데이터를 고음 안정감 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 고음 안정감 평가 모델은 전처리가 완료된 사용자의 보컬 데이터를 통해 사용자의 음역대를 확인하고, 사용자의 음역대를 기초로 기준 고음 높이를 생성하고, 기준 고음 높이에서 음의 변화를 확인하여, 기준 고음 높이에서 음의 변화가 기준 변화보다 작다고 확인되면, 출력 값으로 O를 출력하고, 기준 고음 높이에서 음의 변화가 기준 변화보다 작지 않다고 확인되면 출력 값으로 X를 출력할 수 있다.

표현력 평가 모델은 사용자의 보컬 데이터에 포함된 딕션의 강세 변화, 소리의 질감 변화, 볼륨의 크기 변화를 확인하여 사용자가 표현력을 할 수 있는지 여부를 평가하는 모델로, 표현력 평가 모델은 사용자의 보컬 데이터를 통해 딕션의 강세가 변화된 횟수를 확인하고, 사용자의 보컬 데이터를 통해 소리의 질감이 변화된 횟수를 확인하고, 사용자의 보컬 데이터를 통해 볼륨의 크기가 변화된 횟수를 확인하여, 딕션의 강세 변화 횟수, 소리의 질감 변화 횟수 및 볼륨의 크기 변화 횟수가 미리 설정된 제3 기준 횟수를 만족한다고 확인되면 출력 값으로 O를 출력하고, 딕션의 강세 변화 횟수, 소리의 질감 변화 횟수 및 볼륨의 크기 변화 횟수가 제3 기준 횟수를 만족하지 않는다고 확인되면 출력 값으로 X를 출력하는 모델일 수 있다. 또한, 표현력 평가 모델은 인공지능 모델일 수 있으며, 표현력 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다. 여기서, 제3 기준 횟수는 미리 설정된 횟수일 수 있으며, 이때, 미리 설정된 횟수는 하나의 횟수일 수도 있고, 횟수의 범위일 수도 있다. 또한, 제3 기준 횟수는 표현력 평가 모델을 통한 실시 예가 증가함에 따라 보정될 수 있다. 즉, 사용자의 보컬 데이터에 포함된 딕션의 강세가 변화된 횟수, 소리의 질감이 변화된 횟수 및 볼륨의 크기가 변화된 횟수가 제3 기준 횟수 내에 포함될 경우, 제3 기준 횟수를 만족한다고 확인할 수 있고, 사용자의 보컬 데이터에 포함된 딕션의 강세가 변화된 횟수, 소리의 질감이 변화된 횟수 및 볼륨의 크기가 변화된 횟수가 제3 기준 횟수 내에 포함되지 않을 경우, 제3 기준 횟수를 만족하지 않는다고 확인할 수 있다.

구체적으로, 장치(200)는 표현력 평가 모델을 통해 사용자의 표현력을 평가하기 위해 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 사용자의 보컬 데이터를 표현력 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 표현력 평가 모델은 전처리가 완료된 사용자의 보컬 데이터를 통해 딕션의 강세가 변화된 횟수를 확인하고, 전처리가 완료된 사용자의 보컬 데이터를 통해 소리의 질감이 변화된 횟수를 확인하고 및 전처리가 완료된 사용자의 보컬 데이터를 통해 볼륨의 크기가 변화된 횟수를 확인하여, 확인된 딕션의 강세가 변화된 횟수, 소리의 질감이 변화된 횟수 및 볼륨의 크기가 변화된 횟수가 제3 기준 횟수를 만족한다고 확인되면, 출력 값으로 O를 출력하고, 딕션의 강세가 변화된 횟수, 소리의 질감이 변화된 횟수 및 볼륨의 크기가 변화된 횟수가 제3 기준 횟수를 만족하지 않는다고 확인되면 출력 값으로 X를 출력할 수 있다.

완성도 평가 모델은 음감 평가 모델, 템포감 평가 모델, 호흡 컨트롤 평가 모델, 리듬감 평가 모델, 고음 안정감 평가 모델, 표현력 평가 모델에서 모두 출력 값으로 O가 출력된 경우, 사용자의 보컬 데이터를 통해 임팩트가 있는 부분이 있는지 여부를 평가하는 모델로, 완성도 평가 모델은 음감 평가 모델, 템포감 평가 모델, 호흡 컨트롤 평가 모델, 리듬감 평가 모델, 고음 안정감 평가 모델, 표현력 평가 모델 중 적어도 하나의 평가 모델에서 출력 값으로 X를 출력한 경우 완성도 평가 모델은 사용자의 보컬 데이터를 분석하지 않고 출력 값으로 X를 출력할 수 있다. 즉, 완성 평가 모델, 템포감 평가 모델, 호흡 컨트롤 평가 모델, 리듬감 평가 모델, 고음 안정감 평가 모델, 표현력 평가 모델과 유무선으로 통신할 수 있다. 완성도 평가 모델은 사용자의 보컬 데이터를 통해 임팩트가 있는 부분이 있는지 여부를 확인하고, 사용자의 보컬 데이터에 임팩트가 있는 부분이 있다고 확인되면 출력 값으로 O를 출력하고, 사용자의 보컬 데이터에 임팩트가 있는 부분이 없다고 확인되면 출력 값으로 X를 출력하는 모델일 수 있다. 또한, 완성도 평가 모델은 인공지능 모델일 수 있으며, 완성도 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다.

구체적으로, 장치(200)는 완성도 평가 모델을 통해 사용자의 완성도를 평가하기 위해 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 사용자의 보컬 데이터를 완성도 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 완성도 평가 모델은 전처리가 완료된 사용자의 보컬 데이터를 통해 임팩트가 있는 부분이 있다고 확인되면, 출력 값으로 O를 출력하고, 전처리가 완료된 사용자의 보컬 데이터를 통해 임팩트가 있는 부분이 없다고 확인되면 출력 값으로 X를 출력할 수 있다.

톤 평가 모델은 사용자의 보컬 데이터를 통해 사용자의 평균 음성 주파수를 확인하고, 사용자의 평균 음성 주파수가 미리 설정된 기준 주파수보다 높다고 확인되면 출력 값으로 H를 출력하고, 사용자의 평균 음성 주파수가 기준 주파수보다 높지 않다고 확인되면 출력 값으로 L을 출력하는 모델일 수 있다. 또한, 톤 평가 모델은 인공지능 모델일 수 있으며, 톤 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다. 여기서, 기준 주파수는 미리 설정된 주파수 값으로 실시 예에 따라 달라질 수 있고, 기준 주파수는 톤 평가 모델을 통한 실시 예가 증가함에 따라 보정될 수 있다

구체적으로, 장치(200)는 톤 평가 모델을 통해 사용자의 톤을 평가하기 위해 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 사용자의 보컬 데이터를 톤 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 톤 평가 모델은 전처리가 완료된 사용자의 보컬 데이터를 통해 사용자의 평균 음성 주파수를 확인하고, 사용자의 평균 음성 주파수가 미리 설정된 기준 주파수보다 높다고 확인되면 출력 값으로 H를 출력하고, 사용자의 평균 음성 주파수가 기준 주파수보다 높지 않다고 확인되면 출력 값으로 L을 출력할 수 있다.

속성 평가 모델은 사용자의 보컬 데이터를 통해 사용자의 평균 음성 데시벨을 확인하고, 사용자의 보컬 데이터를 통해 사용자의 성대접지 여부를 확인하여 사용자의 평균 음성 데시벨이 미리 설정된 기준 데시벨보다 크고 사용자의 성대가 접지되었다고 확인되면 출력 값으로 M을 출력하고, 사용자의 평균 음성 데시벨이 기준 데시벨보다 크고 사용자의 성대가 접지되지 않았다고 확인되면 출력 값으로 F를 출력하고, 사용자의 평균 음성 데시벨이 기준 데시벨보다 크지 않고 사용자의 성대가 접지되었다고 확인되면 출력 값으로 O를 출력하고, 사용자의 평균 음성 데시벨이 기준 데시벨보다 크지 않고 사용자의 성대가 접지되지 않았다고 확인되면 출력 값으로 S를 출력하는 모델일 수 있다. 또한, 속성 평가 모델은 인공지능 모델일 수 있으며, 속성 평가 모델은 합성곱 신경망(Convolutional neural network, CNN) 형태로 구현될 수 있다. 여기서, 기준 데시벨은 미리 설정된 데시벨 값으로 실시 예에 따라 달라질 수 있고, 기준 데시벨은 속성 평가 모델을 통한 실시 예가 증가함에 따라 보정될 수 있다

구체적으로, 장치(200)는 속성 평가 모델을 통해 사용자의 속성을 평가하기 위해 사용자의 보컬 데이터를 전처리할 수 있다. 이때, 장치(200)는 사용자의 보컬 데이터의 노이즈를 제거하는 전처리를 수행할 수도 있다. 더 나아가 장치(200)는 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출을 하여, 사용자의 보컬 데이터를 전처리할 수도 있다. 이때, 전처리를 수행하는 과정은 구체적으로 작성하지 않았지만, 통상적으로 사용되는 방법에 의해 전처리될 수 있다. 또한, 장치(200)는 전처리가 완료된 사용자의 보컬 데이터를 속성 평가 모델에 입력하여 출력 값을 획득할 수 있다. 이때, 속성 평가 모델은 전처리가 완료된 사용자의 보컬 데이터를 통해 사용자의 평균 음성 데시벨을 확인하고, 사용자의 보컬 데이터를 통해 사용자의 성대접지 여부를 확인하여, 사용자의 평균 음성 데시벨이 미리 설정된 기준 데시벨보다 크고 사용자의 성대가 접지되었다고 확인되면 출력 값으로 M을 출력하고, 사용자의 평균 음성 데시벨이 기준 데시벨보다 크고 사용자의 성대가 접지되지 않았다고 확인되면 출력 값으로 F를 출력하고, 사용자의 평균 음성 데시벨이 기준 데시벨보다 크지 않고 사용자의 성대가 접지되었다고 확인되면 출력 값으로 O를 출력하고, 사용자의 평균 음성 데시벨이 기준 데시벨보다 크지 않고 사용자의 성대가 접지되지 않았다고 확인되면 출력 값으로 S를 출력할 수 있다.

한편, 음감 평가 모델, 템포감 평가 모델, 호흡 컨트롤 평가 모델, 리듬감 평가 모델, 고음 안정감 평가 모델, 표현력 평가 모델, 완성도 평가 모델, 톤 평가 모델, 속성 평가 모델은 서로 유무선으로 통신할 수 있다.

한편, 장치(200)는 보컬 평가가 완료된 사용자의 보컬 데이터를 인공지능 학습 기반 평가 모델 데이터베이스에 저장하여, 음감 평가 모델, 템포감 평가 모델, 호흡 컨트롤 평가 모델, 리듬감 평가 모델, 고음 안정감 평가 모델, 표현력 평가 모델, 완성도 평가 모델, 톤 평가 모델, 속성 평가 모델를 학습시키기 위한 데이터인 학습 데이터로 이용되도록 할 수 있다.

장치(200)는 학습 데이터를 전처리할 수 있고, 또한, 장치(200)는 전처리된 학습 데이터를 이용하여, 반주가 있는 데이터와, 반주가 없는 데이터, 노이즈가 있는 데이터와 같이, 다양한 데이터로 확장시키는 증식(AUGMENTATION) 처리 등이 예시될 수 있다. 증식(AUGMENTATION) 처리에는, 딥러닝 기법을 사용할 수 있고, 룸 임펄스 반응(RoomImpulse Response)과 같은 전통적인 방법을 사용할 수 있으며, 더 나아가 스펙트럼(Spectrogram)을 통해 음성에서 효율적인 정보 추출할 수도 있다.

또한, 인공지능 학습 기반 평가 모델 데이터베이스는, 스펙트럼(Spectrogram)으로 변형된 보컬 데이터를, 통상적으로 이미지에 사용되는 합성곱 신경망(Convolutional neural network, CNN)에 적용하여 학습 데이터베이스를 구축할 수 있다. 이를 위해, 인공지능 학습 기반 평가 모델 데이터베이스는, 보컬 데이터에 특화되도록 사전 학습된 가중치(pre-trained weight)를 사용하여 적은 데이터에서도 최고의 효율을 얻을 수 있다.

나아가, 인공지능 학습 기반 평가 모델 데이터베이스는, 보컬 평가를 효과적으로 처리하기 위한 분류 모델로서, softmax와 Cross Entropy Loss를 사용할 수 있으며, 직관 레벨 및 항목 레벨을 결정하는 학습을 위해, Mean Squared Loss를 사용한 역전파(back propagation) 알고리즘을 이용할 수 있다

본 발명의 실시예에 따른 인공지능 학습 기반 평가 모델 데이터베이스는 데이터 흐름 파이프라인을 구축하여 프라이버시를 보존하고 계속적 학습(continual learning)을 통해 모델의 성능을 꾸준히 업데이트 할 수 있으며, 범용적으로 다양한 서비스에 적용할 수 있는 API가 구성될 수 있다. 이에 따라, 휴대폰 어플리케이션 서비스, 메타버스 서비스 등 다양한 서비스를 통해 인공지능 학습 기반 평가 모델 데이터베이스를 이용한 평가 프로세스가 제공될 수 있게 된다.

도 4는 일실시예에 따른 사용자의 평가 결과 데이터를 기초로, 사용자의 보컬 레벨을 산출하는 과정을 설명하기 위한 순서도이다.

도 4를 참조하면, 먼저, S401 단계에서, 장치(200)는 모든 항목 평가 모델에 의해 출력된 출력 값을 기초로, 사용자의 종합 보컬 레벨을 산출할 수 있다.

구체적으로, 장치(200)는 음감 평가 모델을 통해 출력된 출력 값, 템포감 평가 모델을 통해 출력된 출력 값, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값, 리듬감 평가 모델을 통해 출력된 출력 값, 고음 안정감 평가 모델을 통해 출력된 출력 값, 표현력 평가 모델을 통해 출력된 출력 값, 완성도 평가 모델을 통해 출력된 출력 값을 기초로, 사용자의 종합 보컬 레벨을 산출할 수 있다. 사용자의 종합 보컬 레벨을 산출하는 과정과 관련하여 구체적인 설명은 도 5를 참조하기로 한다.

S402 단계에서, 장치(200)는 항목 평가 모델 중 보컬 레벨을 산출하고자 하는 항목에 대응하는 항목 평가 모델에 의해 출력된 출력 값을 기초로, 항목 별 보컬 레벨을 산출할 수 있다.

구체적으로, 장치(200)는 사용자의 종합 보컬 레벨 뿐만 아니라 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도를 포함하는 항목 중 각 항목에 대응하는 레벨을 산출할 수도 있다. 항목 별 보컬 레벨을 산출하는 과정과 관련하여 구체적인 설명은 도 6을 참조하기로 한다.

즉, 장치(200)는 사용자의 종합 보컬 레벨 및 항목 별 보컬 레벨을 산출하여 사용자에게 제공할 수 있다.

도 5는 일실시예에 따른 사용자의 종합 보컬 레벨을 산출하는 과정을 설명하기 위한 순서도이다.

도 5를 참조하면, 먼저, S501 단계에서, 장치(200)는 항목 평가 모델을 통해 출력된 O의 총 개수를 확인할 수 있다.

구체적으로, 장치(200)는 음감 평가 모델을 통해 출력된 출력 값, 템포감 평가 모델을 통해 출력된 출력 값, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값, 리듬감 평가 모델을 통해 출력된 출력 값, 고음 안정감 평가 모델을 통해 출력된 출력 값, 표현력 평가 모델을 통해 출력된 출력 값, 완성도 평가 모델을 통해 출력된 출력 값을 기초로, 항목 평가 모델을 통해 출력된 출력 값 중 O의 총 개수를 확인할 수 있다.

예를 들어, 제1 사용자의 보컬 데이터를 보컬 평가 인공지능 모델에 적용한 결과, 음감 평가 모델을 통해 출력된 출력 값이 O이고, 템포감 평가 모델을 통해 출력된 출력 값이 O 이고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O 이고, 리듬감 평가 모델을 통해 출력된 출력 값이 O 이고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X 이고, 표현력 평가 모델을 통해 출력된 출력 값이 X 이고, 완성도 평가 모델을 통해 출력된 출력 값이 X 인 경우, 장치(200)는 음감 평가 모델을 통해 출력된 출력 값이 O인 것을 확인하고, 템포감 평가 모델을 통해 출력된 출력 값이 O 인 것을 확인하고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O 인 것을 확인하고, 리듬감 평가 모델을 통해 출력된 출력 값이 O 인 것을 확인하고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X 인 것을 확인하고, 표현력 평가 모델을 통해 출력된 출력 값이 X 인 것을 확인하고, 완성도 평가 모델을 통해 출력된 출력 값이 X 인 것을 확인하여 항목 평가 모델을 통해 출력된 O의 총 개수를 4로 확인할 수 있다.

S502 단계에서, 장치(200)는 O의 총 개수에 +1을 적용하여 사용자의 종합 보컬 레벨을 생성할 수 있다.

구체적으로, 장치(200)는 음감 평가 모델을 통해 출력된 출력 값, 템포감 평가 모델을 통해 출력된 출력 값, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값, 리듬감 평가 모델을 통해 출력된 출력 값, 고음 안정감 평가 모델을 통해 출력된 출력 값, 표현력 평가 모델을 통해 출력된 출력 값, 완성도 평가 모델을 통해 출력된 출력 값을 확인하여 항목 평가 모델을 통해 출력된 O의 총 개수를 확인할 수 있고, 확인된 항목 평가 모델을 통해 출력된 O의 총 개수에 +1을 적용하여 사용자의 종합 보컬 레벨을 산출할 수 있다.

예를 들어, 제1 사용자의 보컬 데이터를 보컬 평가 인공지능 모델에 적용한 결과, 음감 평가 모델을 통해 출력된 출력 값이 O이고, 템포감 평가 모델을 통해 출력된 출력 값이 O 이고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O 이고, 리듬감 평가 모델을 통해 출력된 출력 값이 O 이고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X 이고, 표현력 평가 모델을 통해 출력된 출력 값이 X 이고, 완성도 평가 모델을 통해 출력된 출력 값이 X 인 경우, 장치(200)는 음감 평가 모델을 통해 출력된 출력 값이 O인 것을 확인하고, 템포감 평가 모델을 통해 출력된 출력 값이 O 인 것을 확인하고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O 인 것을 확인하고, 리듬감 평가 모델을 통해 출력된 출력 값이 O 인 것을 확인하고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X 인 것을 확인하고, 표현력 평가 모델을 통해 출력된 출력 값이 X 인 것을 확인하고, 완성도 평가 모델을 통해 출력된 출력 값이 X 인 것을 확인하여 항목 평가 모델을 통해 출력된 O의 총 개수를 4로 확인할 수 있고, 항목 평가 모델을 통해 출력된 O의 총 개수인 4에 +1을 적용하여 사용자의 종합 보컬 레벨을 5로 생성할 수 있다.

도 6은 일실시예에 따른 항목 별 보컬 레벨을 산출하는 과정을 설명하기 위한 순서도이다.

도 6을 참조하면, 먼저, S601 단계에서, 장치(200)는 확인 항목에 대응하는 항목 평가 모델의 출력 값이 O인지 여부를 확인할 수 있다.

구체적으로, 장치(200)는 사용자의 종합 보컬 레벨이 생성되면, 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도 중 보컬 레벨을 산출하고자 하는 항목인 확인 항목을 선정하고, 항목 평가 모델에 포함된 평가 모델 중 확인 항목에 대응하는 항목 평가 모델의 출력 값을 확인하여 O인지, X인지 여부를 확인할 수 있다. 이때, 장치(200)는 모든 항목에 대응하는 보컬 레벨을 각각 산출할 수 있다.

예를 들어, 제1 사용자의 보컬 데이터를 보컬 평가 인공지능 모델에 적용한 결과, 음감 평가 모델을 통해 출력된 출력 값이 O이고, 템포감 평가 모델을 통해 출력된 출력 값이 O이고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O이고, 리듬감 평가 모델을 통해 출력된 출력 값이 O이고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X이고, 표현력 평가 모델을 통해 출력된 출력 값이 X이고, 완성도 평가 모델을 통해 출력된 출력 값이 X이고, 보컬 레벨을 산출하고자 하는 확인 항목으로 템포감이 선정된 경우, 장치(200)는 사용자의 종합 레벨을 5로 생성할 수 있고, 보컬 레벨을 산출하고자 하는 템포감에 대응하는 템포감 평가 모델을 통해 출력된 출력 값이 O인 것을 확인할 수 있다.

S601 단계에서 확인 항목에 대응하는 항목 평가 모델의 출력 값이 O인 것으로 확인되면, S602 단계에서, 장치(200)는 확인 항목의 보컬 레벨을 사용자의 종합 보컬 레벨과 동일한 레벨 값의 보컬 레벨로 부여할 수 있다.

구체적으로, 장치(200)는 사용자의 종합 보컬 레벨이 생성되면, 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도 중 보컬 레벨을 산출하고자 하는 항목인 확인 항목을 선정하고, 항목 평가 모델에 포함된 평가 모델 중 확인 항목에 대응하는 항목 평가 모델의 출력 값을 확인하여 확인 항목에 대응하는 항목 평가 모델의 출력 값이 O인 것으로 확인되면, 확인 항목의 보컬 레벨을 사용자의 종합 보컬 레벨과 동일한 레벨 값의 보컬 레벨로 부여할 수 있다.

예를 들어, 제1 사용자의 보컬 데이터를 보컬 평가 인공지능 모델에 적용한 결과, 음감 평가 모델을 통해 출력된 출력 값이 O이고, 템포감 평가 모델을 통해 출력된 출력 값이 O이고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O이고, 리듬감 평가 모델을 통해 출력된 출력 값이 O이고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X이고, 표현력 평가 모델을 통해 출력된 출력 값이 X이고, 완성도 평가 모델을 통해 출력된 출력 값이 X이고, 보컬 레벨을 산출하고자 하는 확인 항목으로 템포감이 선정된 경우, 장치(200)는 사용자의 종합 레벨을 5로 생성할 수 있고, 보컬 레벨을 산출하고자 하는 항목인 템포감에 대응하는 템포감 평가 모델을 통해 출력된 출력 값이 O인 것을 확인할 수 있고, 템포감의 보컬 레벨을 사용자의 종합 보컬 레벨인 5와 동일한 레벨 값의 보컬 레벨인 5로 부여할 수 있다.

S601 단계에서 확인 항목에 대응하는 항목 평가 모델의 출력 값이 X인 것으로 확인되면, S603 단계에서, 장치(200)는 확인 항목이 완성도인지 여부를 판단할 수 있다.

구체적으로, 장치(200)는 사용자의 종합 보컬 레벨이 생성되면, 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도 중 보컬 레벨을 산출하고자 하는 항목인 확인 항목을 선정하고, 항목 평가 모델에 포함된 평가 모델 중 확인 항목에 대응하는 항목 평가 모델의 출력 값을 확인하여 확인 항목에 대응하는 항목 평가 모델의 출력 값이 X인 것으로 확인되면, 확인 항목이 완성도인지 여부를 판단할 수 있다.

S603 단계에서 확인 항목이 완성도라고 확인되면, S604 단계에서, 장치(200)는 확인 항목의 보컬 레벨을 사용자의 종합 보컬 레벨에서 -3을 적용하여 생성된 레벨 값의 보컬 레벨로 부여할 수 있다. 이때, 레벨의 최저 값은 무조건 1로 생성할 수 있다.

구체적으로, 장치(200)는 사용자의 종합 보컬 레벨이 생성되면, 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도 중 보컬 레벨을 산출하고자 하는 항목인 확인 항목을 선정하고, 항목 평가 모델에 포함된 평가 모델 중 확인 항목에 대응하는 항목 평가 모델의 출력 값을 확인하여 확인 항목에 대응하는 항목 평가 모델의 출력 값이 X인 것으로 확인되면, 확인 항목이 완성도인지 여부를 판단하고, 확인 항목이 완성도라고 판단되면, 확인 항목의 보컬 레벨을 사용자의 종합 보컬 레벨에서 -3을 적용하여 생성된 레벨 값의 보컬 레벨로 부여할 수 있다.

예를 들어, 제1 사용자의 보컬 데이터를 보컬 평가 인공지능 모델에 적용한 결과, 음감 평가 모델을 통해 출력된 출력 값이 O이고, 템포감 평가 모델을 통해 출력된 출력 값이 O이고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O이고, 리듬감 평가 모델을 통해 출력된 출력 값이 O이고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X이고, 표현력 평가 모델을 통해 출력된 출력 값이 X이고, 완성도 평가 모델을 통해 출력된 출력 값이 X이고, 보컬 레벨을 산출하고자 하는 확인 항목으로 완성도가 선정된 경우, 장치(200)는 사용자의 종합 레벨을 5로 생성할 수 있고, 보컬 레벨을 산출하고자 하는 항목인 완성도에 대응하는 완성도 평가 모델을 통해 출력된 출력 값이 X인 것을 확인할 수 있고, 확인 항목이 완성도인 것을 확인하여, 완성도의 보컬 레벨을 사용자의 종합 보컬 레벨인 5에서 -3을 적용하여 생성된 레벨 값의 보컬 레벨인 2로 부여할 수 있다.

한편, 확인 항목의 보컬 레벨의 최저 값은 무조건 1로 생성할 수 있다. 예를 들어, 사용자의 종합 보컬 레벨이 2이고, 확인 항목이 완성도이고, 완성도 평가 모델을 통해 출력된 출력 값이 X인 경우, 장치(200)는 완성도의 보컬 레벨을 사용자의 종합 보컬 레벨인 2에서 -3을 적용하여 생성된 레벨 값의 보컬 레벨인 -1로 부여하여야 하지만, 보컬 레벨의 최저 값은 무조건 1이기 때문에 이 경우, 장치(200)는 완성도의 보컬 레벨을 1로 생성할 수 있다.

S603 단계에서 확인 항목이 완성도가 아니라고 확인되면, S605 단계에서, 장치(200)는 확인 항목의 보컬 레벨을 사용자의 종합 보컬 레벨에서 -2를 적용하여 생성된 레벨 값의 보컬 레벨로 부여할 수 있다. 이때, 레벨의 최저 값은 무조건 1로 생성할 수 있다.

구체적으로, 장치(200)는 사용자의 종합 보컬 레벨이 생성되면, 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도 중 보컬 레벨을 산출하고자 하는 항목인 확인 항목을 선정하고, 항목 평가 모델에 포함된 평가 모델 중 확인 항목에 대응하는 항목 평가 모델의 출력 값을 확인하여 확인 항목에 대응하는 항목 평가 모델의 출력 값이 X인 것으로 확인되면, 확인 항목이 완성도인지 여부를 판단하고, 확인 항목이 완성도가 아니라고 판단되면, 확인 항목의 보컬 레벨을 사용자의 종합 보컬 레벨에서 -2를 적용하여 생성된 레벨 값의 보컬 레벨로 부여할 수 있다.

예를 들어, 제1 사용자의 보컬 데이터를 보컬 평가 인공지능 모델에 적용한 결과, 음감 평가 모델을 통해 출력된 출력 값이 O이고, 템포감 평가 모델을 통해 출력된 출력 값이 O이고, 호흡 컨트롤 평가 모델을 통해 출력된 출력 값이 O이고, 리듬감 평가 모델을 통해 출력된 출력 값이 O이고, 고음 안정감 평가 모델을 통해 출력된 출력 값이 X이고, 표현력 평가 모델을 통해 출력된 출력 값이 X이고, 완성도 평가 모델을 통해 출력된 출력 값이 X이고, 보컬 레벨을 산출하고자 하는 확인 항목으로 고음이 선정된 경우, 장치(200)는 사용자의 종합 레벨을 5로 생성할 수 있고, 보컬 레벨을 산출하고자 하는 항목인 고음에 대응하는 고음 안정감 평가 모델을 통해 출력된 출력 값이 X인 것을 확인할 수 있고, 확인 항목이 완성도가 아닌 고음인 것을 확인하여, 고음의 보컬 레벨을 사용자의 종합 보컬 레벨인 5에서 -2를 적용하여 생성된 레벨 값의 보컬 레벨인 3으로 부여할 수 있다.

한편, 확인 항목의 보컬 레벨의 최저 값은 무조건 1로 생성할 수 있다. 예를 들어, 사용자의 종합 보컬 레벨이 2이고, 확인 항목이 표현력이고, 표현력 평가 모델을 통해 출력된 출력 값이 X인 경우, 장치(200)는 표현력의 보컬 레벨을 사용자의 종합 보컬 레벨인 2에서 -2를 적용하여 생성된 레벨 값의 보컬 레벨인 0으로 부여하여야 하지만, 보컬 레벨의 최저 값은 무조건 1이기 때문에 이 경우, 장치(200)는 표현력의 보컬 레벨을 1로 생성할 수 있다.

한편, 장치(200)는 보컬 레벨을 보컬 등급으로 치환하여 사용자에게 제공할 수도 있는데, 이때, 가장 높은 보컬 레벨인 8의 경우, SS 등급으로 치환될 수 있고, 2번째로 높은 보컬 레벨인 7의 경우 S 등급으로, 3번째로 높은 보컬 레벨인 6의 경우 A 등급으로, 4번째로 높은 보컬 레벨인 5의 경우 B 등급으로, 5번째로 높은 보컬 레벨인 4의 경우 C 등급으로, 6번째로 높은 보컬 레벨인 3의 경우 D 등급으로, 7번째로 높은 보컬 레벨인 2의 경우 E 등급으로, 가장 낮은 보컬 레벨인 1의 경우 F 등급으로 치환될 수 있다.

이 과정을 통해, 장치(200)는 동일한 항목에 동일한 출력 결과를 얻었더라도 종합 보컬 레벨이 높은 사용자가 종합 보컬 레벨이 낮은 사용자보다 해당 항목의 능력이 더 뛰어나다고 판단할 수 있다. 예를 들어, 종합 보컬 레벨이 6인 A 사용자와 종합 보컬 레벨이 3인 B 사용자 모두 음감 평가 모델을 통해 O가 출력된 경우, 장치(200)는 A 사용자의 음감의 보컬 레벨을 A 사용자의 종합 보컬 레벨인 6과 동일하게 6으로 생성하고, B 사용자의 음감의 보컬 레벨을 B 사용자의 종합 보컬 레벨인 3과 동일하게 3으로 생성함으로써, A 사용자 및 B 사용자 모두 음감 평가 모델을 통해 동일한 출력 값인 O를 획득하여도 종합 보컬 레벨이 높은 사용자인 A 사용자가 종합 보컬 레벨이 낮은 B 사용자보다 음감 능력이 더 뛰어나다고 판단할 수 있다.

또한, 장치(200)는 모든 항목에 대응하여 해당 과정을 수행함으로써 모든 항목에 대응하는 보컬 레벨을 각각 산출할 수 있다.

도 7은 일실시예에 따른 음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도를 포함하는 각 항목에 대응하는 평가 모델의 출력 값을 기초로 생성된 보컬 레벨 및 보컬 등급의 예시 도면이다.

도 8은 일실시예에 따른 사용자의 발성 속성을 생성하는 과정을 설명하기 위한 순서도이다.

도 8을 참조하면, S801 단계에서, 장치(200)는 톤 평가 모델을 통해 출력된 값과 속성 평가 모델을 통해 출력된 값을 조합하여 HF, LF, HM, LH, HS, LS, HO, LO 중 하나를 사용자의 발성 속성으로 생성할 수 있다.

예를 들어, 제1 사용자의 보컬 데이터를 보컬 평가 인공지능 모델에 적용한 결과, 톤 평가 모델을 통해 출력된 값이 H이고, 속성 평가 모델을 통해 출력된 값이 O일 경우, 장치(200)는 톤 평가 모델을 통해 출력된 값인 H와 속성 평가 모델을 통해 출력된 값인 O를 조합하여 사용자의 발성 속성으로 HO를 생성할 수 있다.

한편, 장치(200)는 사용자의 발성 속성이 생성되면, 발성 특징 데이터베이스를 통해 사용자의 발성 속성에 매칭된 특징을 확인할 수 있고, 사용자의 단말(100)로 사용자의 발성 속성을 제공하는 과정에서 사용자의 발성 속성 및 해당 발성 속성에 매칭된 특징을 같이 제공할 수 있다. 이때, 발성 특징 데이터베이스는 장치(200)에 구비될 수 있으며, 발성 특징 데이터베이스에는 각 발성 속성과 발성 속성에 대응하는 특징이 매칭되어 저장되어 있을 수 있다.

예를 들어 발성 특징 데이터베이스에는 하기의 예시처럼 발성 속성 - 특징이 매칭되어 있을 수 있다.

HF - 가장 강한 힘으로 호흡을 뱉어내는 타입으로, 큰 볼륨의 호흡이 섞여있는 하이톤톤의 허스키한 목소리를 가지고 있다.

LF - 가장 많은 호흡량을 사용하며 큰 볼륨의 묵직 로우톤으로 허스키하고, 강렬한 감정 표현을 할 수 있다.

HM - 아이돌에 있어서 가장 완성도가 높은 발성을 지녔으며 가장 높은 음역을 소화할 수 있는 유형으로 하이톤의 또렷하고 단단한 목소리를 가지고 있다.

LM - 로우톤의 큰 볼륨의 또렷한 목소리로 낮은 음에 강점을 보이며 저음부터 고음까지 넓은 음역의 소화가 가능한 유형이다

HS - 가장 약한 호흡의 힘을 사용하는 타입으로 작은 볼륨에 호흡이 실린 하이톤의 청아한 목소리가 매력적이다.

LS - 가벼운 힘으로 목소리를 만들어내지만 호흡이 가장 많이 실려있는 로우톤의 목소리를 지녔으며 순수하고 아련한 감성적인 톤을 지닌다.

HO - 작은 호흡의 힘으로 명확하며 또렷한 하이톤의 소리를 낼 수 있다. 맑고 청량한 미성을 소유한 경우가 많다.

LO - 나지막한 로우톤의 목소리를 만들어내는 타입으로 가볍게 호흡을 쓰며 성대를 효율적으로 사용하여 명확한 소리가 난다.

도 9는 일실시예에 따른 발성 속성에 관한 도면이다.

도 10은 일실시예에 따른 사용자의 보컬 레벨 및 사용자의 발성 속성을 사용자의 단말로 제공하기 위한 사용자의 단말의 출력 인터페이스를 설명하기 위한 도면이다.

구체적으로, 장치(200)는 사용자의 단말(100)로 사용자의 보컬 레벨을 포함하는 레벨 측정 결과 및 이에 따른 보컬 트레이닝 정보를 제공할 수 있고, 사용자의 단말(100)은 장치(200)로부터 제공된 레벨 측정 결과 및 이에 따른 보컬 트레이닝 정보를 디스플레이를 통해 출력할 수 있다.

본 발명의 실시 예에 따른 항목 레벨 기준표는 가장 왼쪽에 위치한 항목일수록 보다 보컬 기본능력 가중치가 높은 항목으로 배치 구성될 수 있는 바, 보컬 실력 기본기를 갖출 때 필요한 좌측 항목부터 우선적으로 가이드가 제공되도록 처리하면, 보다 효과적 가이드 및 팁을 제공할 수 있는 장점이 있다.

또한, 장치(200)는 장치(200)에 구비된 데이터베이스에 복수의 사용자 각각에 매칭된 발성 속성이 저장되어 있어, 사용자의 발성 속성에 따른 전체 사용자 비율, 사용자의 발성 속성에 따른 사용자와 동일한 성별의 비율, 사용자의 발성 속성에 따른 아이돌의 비율이 표시된 발성 속성 정보를 사용자의 단말(100)의 디스플레이에 출력할 수 있다. 여기서, 장치(200)는 사용자의 발성 속성에 따른 사용자와 동일한 성별의 비율을 산출하기 위해 사용자의 단말(100)로부터 사용자의 성별을 더 획득할 수 있고, 또한, 장치(200)는 사용자의 발성 속성에 따른 아이돌의 비율을 산출하기 위해 별개의 아이돌 데이터베이스와 유무선으로 통신할 수 있다. 이때, 아이돌 데이터베이스에는 아이돌의 이름, 아이돌의 성별, 아이돌의 포지션, 아이돌의 발성 속성 등을 포함하는 아이돌의 정보가 저장될 수 있으며, 아이돌은 모든 음악 장르의 가수일 수 있으며, 또한 솔로 가수, 그룹 가수 등을 모두 포함할 수 있다.

한편, 장치(200)는 사용자의 단말(100)로부터 사용자의 보컬 데이터를 획득하기 위해 사용자의 단말(100)로부터 음성을 인식하고, 인식된 음성을 분석하여 보컬 데이터로 사용 가능한 음성 데이터를 사용자의 단말(100)에 저장할 수 있다.

도 11은 일실시예에 따른 보컬 데이터를 저장하는 과정을 설명하기 위한 순서도이다.

도 11을 참조하면, 먼저, S1101 단계에서, 장치(200)는 사용자의 단말(100)을 통해 사용자의 음성이 인식되면, 사용자의 음성이 인식된 시점부터 사용자의 음성이 설정 시간 동안 인식되지 않는 시점까지의 음성 데이터를 획득할 수 있다. 여기서, 설정 시간은 미리 설정된 시간으로 실시 예에 따라 달라질 수 있다.

구체적으로, 장치(200)는 사용자의 단말(100)을 통해 사용자의 음성을 인식할 수 있고, 사용자의 음성이 인식되면, 인식된 사용자의 음성을 기초로, 생성된 사용자의 음성 데이터를 저장할 수 있다. 이때, 장치(200)는 모든 음성 데이터를 저장하게 되면 저장 공간이 부족하다는 문제가 있기 때문에 이를 해결하기 위해 사용자의 단말(100)을 통해 생성된 사용자의 음성 데이터를 분석하여 해당 음성 데이터가 사용자가 노래를 부르는 데이터인지 아니면 해당 음성 데이터가 사용자가 평상시 말을 하는 음성 데이터인지 구분하여 사용자가 노래를 부른다고 분석된 음성 데이터만 저장할 수 있다.

이를 위해, 장치(200)는 사용자의 단말(100)을 통해 사용자의 음성을 인식할 수 있고, 사용자의 단말(100)을 통해 사용자의 음성이 인식되면, 사용자의 음성이 인식된 시점부터 사용자의 음성이 설정 시간동안 인식되지 않는 시점까지의 음성 데이터를 획득할 수 있다. 즉, 설정 시간은 사용자의 음성이 끝나는 시점을 확인하기 위해 설정된 시간이다. 여기서, 음성 데이터의 파일 형식은 한정되지 않고, 실시 예에 따라 다르게 생성될 수 있다.

예를 들어, 설정 시간이 1분일 경우, 장치(200)는 사용자의 단말(100)을 통해 사용자의 음성을 인식하여, 사용자의 음성이 인식된 시점인 제1 시점을 확인하고, 제1 시점 이후의 제2 시점에서 1분 동안 음성이 인식되지 않는 것으로 확인되면, 제1 시점에서 제2 시점까지의 인식된 음성을 하나의 음성 데이터로 생성할 수 있다.

이때, 장치(200)는 사용자의 단말(100)을 통해 사용자의 음성이 인식되어, 인식된 사용자의 음성을 기초로, 음성 데이터가 생성되면, 사용자의 단말(100)을 통해 현 위치의 위치 정보 즉, 해당 음성 데이터가 생성된 위치 정보를 획득하여, 음성 데이터와 해당 음성 데이터가 생성된 위치 정보를 매칭할 수 있다. 여기서, 위치 정보는 위치의 좌표 값을 포함할 수 있으며, 이에 한정되는 것은 아니다.

S1102 단계에서, 장치(200)는 음성 데이터를 기초로, 음성 데이터에 포함된 음성의 높낮이 변화 중 높낮이의 차이가 목표 차이보다 큰 높낮이 변화를 확인하고, 높낮이의 차이가 목표 차이보다 큰 높낮이 변화를 확인하고, 높낮이의 차이가 목표 차이보다 큰 높낮이 변화의 횟수를 확인 횟수로 생성할 수 있다. 여기서, 목표 차이는 미리 설정된 차이 값으로 실시 예에 따라 달라질 수 있다.

구체적으로, 장치(200)는 사용자의 단말(100)을 통해 인식된 사용자의 음성을 기초로, 생성된 음성 데이터를 기초로, 음성 데이터에 포함된 음성의 주파수 변화를 확인하여 음성 데이터에 포함된 높낮이 변화를 확인할 수 있다. 또한, 장치(200)는 음성 데이터에 포함된 높낮이 변화 중 높낮이의 차이가 미리 설정된 목표 차이보다 큰 높낮이 변화를 확인할 수 있다. 또한, 장치(200)는 음성 데이터에 포함된 높낮이 변화 중 높낮이의 차이가 목표 차이보다 큰 높낮이 변화의 횟수를 확인하여 해당 횟수를 확인 횟수로 생성할 수 있다.

즉, 장치(200)는 음성 데이터에 포함된 높낮이 변화 중 높낮이의 차이가 목표 차이보다 큰 높낮이 변화를 확인하여 확인 횟수를 생성할 수 있고, 이때, 높낮이 변화는 주파수를 통해 확인할 수 있다.

S1103 단계에서, 장치(200)는 확인 횟수가 목표 횟수보다 많은 음성 데이터를 보컬 데이터로 사용 가능한 후보 음성 데이터로 선정할 수 있다. 여기서, 목표 횟수는 미리 설정된 횟수로 실시 예에 따라 달라질 수 있다.

구체적으로, 장치(200)는 사용자의 단말(100)을 통해 인식된 사용자의 음성을 기초로, 음성 데이터를 생성하고, 생성된 음성 데이터의 주파수를 통해 음성 데이터에 포함된 높낮이 변화 중 목표 차이보다 큰 높낮이의 차이를 갖는 높낮이 변화의 횟수를 확인하여 확인 횟수를 생성할 수 있고, 생성된 확인 횟수와 미리 설정된 목표 횟수를 비교하여 확인 횟수가 미리 설정된 목표 횟수보다 많은 음성 데이터를 보컬 데이터로 사용 가능한 후보 음성 데이터로 선정할 수 있다.

즉, 장치(200)는 확인 횟수가 미리 설정된 목표 횟수보다 많은 음성 데이터를 사용자가 노래를 부르는 과정에서 생성된 음성 데이터로 확인하여, 해당 음성 데이터를 보컬 데이터로 사용 가능한 후보 음성 데이터로 선정할 수 있다.

S1104 단계에서, 장치(200)는 후보 음성 데이터를 사용자의 단말(100)에 저장할 수 있다.

구체적으로, 장치(200)는 사용자의 단말(100)을 통해 인식된 음성을 기초로 생성된 후보 음성 데이터를 사용자의 단말(100)에 포함된 메모리에 저장할 수 있으며, 뿐만 아니라 장치(200)에 구비된 데이터베이스에 저장할 수도 있다.

이때, 장치(200)는 후보 음성 데이터를 곡 인식 인공신경망에 적용하여, 후보 음성 데이터에 대응하는 곡 정보를 획득할 수 있으며, 후보 음성 데이터를 사용자의 단말(100)에 포함된 메모리 및 장치(200)에 구비된 데이터베이스에 저장할 때 후보 음성 데이터와 후보 음성 데이터에 대응하는 곡 정보를 매칭하여 저장할 수 있다. 이때, 곡 정보는 곡의 명칭, 곡의 가수, 곡의 오디오 파일, 곡의 악보, 곡의 음악 장르 등을 포함할 수 있다.

또한, 장치(200)는 사용자의 단말(100)로부터 보컬 데이터를 획득하는 과정에서 상기의 과정을 통해 사용자의 단말(100)에 저장된 후보 음성 데이터를 보컬 데이터로 획득할 수 있다. 이때, 장치(200)는 후보 음성 데이터로 선정된 음성 데이터를 저장하는 과정에서 해당 음성 데이터에 매칭된 위치 정보를 함께 저장할 수 있다.

이를 통해, 장치(200)는 사용자의 단말(100)을 통해 사용자의 음성을 인식하고, 인식된 사용자의 음성을 통해 음성 데이터를 생성하고, 음성 데이터를 분석하여 해당 음성 데이터가 사용자가 노래를 부르는 데이터인지 아니면 해당 음성 데이터가 사용자가 평상시 말을 하는 음성 데이터인지 구분하여 사용자가 노래를 부르는 데이터 즉, 후보 음성 데이터만 저장 및 후보 음성 데이터를 보컬 데이터로 사용함으로써 사용자가 보컬 평가를 받기 위해 따로 보컬 데이터를 생성하지 않고도 기존에 저장된 데이터를 통해 보컬 평가를 수행할 수 있다.

도 12는 일실시예에 따른 사용자의 맞춤 오디션 곡을 선정하는 과정을 설명하기 위한 순서도이다.

도 12를 참조하면, 먼저, S1201 단계에서, 장치(200)는 사용자의 단말(100)로부터 적어도 두가지 이상의 사용자의 선호 음악 장르를 획득할 수 있다. 여기서, 사용자의 선호 음악 장르는 사용자가 선호하는 음악 장르이며, 음악 장르는 클래식, 재즈, CCM, 팝, 발라드, 블루스, 리듬 앤 블루스(R&B), 힙합, 컨트리 음악, 포크 음악, 레게, 디스코, 록 음악, 전자 음악, K-POP, 트로트, 댄스, EDM (Electronic Dance Music), 로큰롤을 포함할 수 있으며, 그 외의 음악 장르를 포함할 수 있다.

구체적으로, 장치(200)는 사용자의 단말(100)로부터 클래식, 재즈, CCM, 팝, 발라드, 블루스, 리듬 앤 블루스(R&B), 힙합, 컨트리 음악, 포크 음악, 레게, 디스코, 록 음악, 전자 음악, K-POP, 트로트, 댄스, EDM (Electronic Dance Music), 로큰롤 중 적어도 두 가지 이상의 사용자가 선호하는 음악 장르인 사용자의 선호 음악 장르를 획득할 수 있다.

S1202 단계에서, 장치(200)는 사용자의 선호 음악 장르를 기초로, 사용자 맞춤형 장르를 선정할 수 있다.

구체적으로, 장치(200)는 사용자의 단말(100)로부터 획득한 사용자의 선호 음악 장르를 기초로, 사용자의 선호 음악 장르 중 사용자의 보컬 레벨이 더 높은 장르인 즉, 사용자가 더 잘 부를 수 있는 보컬 장르인 사용자 맞춤형 장르를 선정할 수 있다. 여기서, 사용자 맞춤형 장르를 선정하는 과정은 도 13을 참조하여 설명하기로 한다.

S1203 단계에서, 장치(200)는 사용자 맞춤형 장르를 기초로, 사용자의 맞춤 오디션 곡을 선정할 수 있다.

구체적으로, 장치(200)는 사용자의 단말(100)로부터 획득한 사용자의 선호 음악 장르를 기초로, 사용자의 선호 음악 장르 중 사용자가 더 잘 부를 수 있는 보컬 장르인 사용자 맞춤형 장르를 선정할 수 있고, 사용자 맞춤형 장르를 기초로, 사용자가 오디션에서 불렀을 때 좋은 성적을 낼 수 있는 사용자의 맞춤 오디션 곡을 선정할 수 있다. 여기서, 사용자의 맞춤 오디션 곡을 선정하는 과정은 도 14를 참조하여 설명하기로 한다.

이를 통해, 장치(200)는 사용자의 맞춤 오디션 곡을 선정할 수 있고, 사용자는 선정된 사용자의 맞춤 오디션 곡을 기초로, 오디션을 준비함으로써 효과적으로 좋은 결과를 얻을 수 있다.

도 13은 일실시예에 따른 사용자 맞춤형 장르를 선정하는 과정을 설명하기 위한 순서도이다.

이때, 이하의 설명에서는, 설명의 편의상, 사용자의 단말(100)로부터 획득한 사용자의 선호 음악 장르를 제1 장르 및 제2 장르로 가정하여 설명하였으나, 사용자의 선호 음악 장르의 수는 두 가지 이상의 수로 실시 예에 따라 달라질 수 있다. 즉, 사용자의 단말(100)로부터 획득한 사용자의 선호 음악 장르가 3가지일 경우, 제1 장르, 제2 장르 외에 제3 장르가 더 있을 수 있고, 사용자의 단말(100)로부터 획득한 사용자의 선호 음악 장르가 4가지일 경우, 제1 장르, 제2 장르 외에 제3 장르, 제4 장르가 더 있을 수 있다.

도 13을 참조하면, 먼저, S1301 단계에서, 장치(200)는 사용자의 단말(100)로부터 획득한 보컬 데이터 중 제1 장르의 보컬 데이터를 제1 보컬 데이터로 선정할 수 있다.

구체적으로, 장치(200)는 사용자의 단말(100)로부터 복수의 보컬 데이터를 획득할 수 있으며, 사용자의 단말(100)로부터 획득한 복수의 보컬 데이터 중 제1 장르의 보컬 데이터를 제1 보컬 데이터로 선정할 수 있다. 이때, 장치(200)는 보컬 데이터의 음악 장르를 확인하기 위해 보컬 데이터를 곡 인식 인공신경망에 적용하여, 보컬 데이터에 대응하는 곡 정보를 획득할 수 있으며, 보컬 데이터에 대응하는 곡 정보를 기초로, 보컬 데이터의 음악 장르를 확인할 수 있다. 이때, 곡 정보는 곡의 명칭, 곡의 가수, 곡의 오디오 파일, 곡의 악보, 곡의 음악 장르 등을 포함할 수 있다. 또한, 장치(200)는 확인된 보컬 데이터의 음악 장르를 기초로, 제1 장르의 보컬 데이터를 제1 보컬 데이터로 선정할 수 있다.

S1302 단계에서, 장치(200)는 제1 보컬 데이터에 대응하는 사용자의 보컬 레벨을 기초로, 제1 평균 레벨을 생성할 수 있다.

구체적으로, 장치(200)는 제1 보컬 데이터를 보컬 평가 인공지능 모델에 적용하여 제1 보컬 데이터에 대응하는 사용자의 보컬 레벨을 확인할 수 있으며, 확인된 제1 보컬 데이터에 대응하는 사용자의 보컬 레벨을 기초로, 제1 평균 레벨을 생성할 수 있다.

예를 들어, 사용자의 단말로부터 획득한 보컬 데이터 중 제1 장르의 보컬 데이터가 A 보컬 데이터, B 보컬 데이터, C 보컬 데이터가 있을 경우, 장치(200)는 A 보컬 데이터를 보컬 평가 인공지능 모델에 적용하여 생성된 사용자의 A 보컬 레벨, B 보컬 데이터를 보컬 평가 인공지능 모델에 적용하여 생성된 사용자의 B 보컬 레벨, C 보컬 데이터를 보컬 평가 인공지능 모델에 적용하여 생성된 사용자의 C 보컬 레벨을 확인할 수 있고, 확인된 사용자의 A 보컬 레벨, 사용자의 B 보컬 레벨, 사용자의 C 보컬 레벨을 기초로, 제1 평균 레벨을 생성할 수 있다.

S1303 단계에서, 장치(200)는 사용자의 단말로부터 획득한 보컬 데이터 중 제2 장르의 보컬 데이터를 제2 보컬 데이터로 선정할 수 있다.

구체적으로, 장치(200)는 사용자의 단말(100)로부터 복수의 보컬 데이터를 획득할 수 있으며, 사용자의 단말(100)로부터 획득한 복수의 보컬 데이터 중 제2 장르의 보컬 데이터를 제2 보컬 데이터로 선정할 수 있다. 이때, 장치(200)는 보컬 데이터의 음악 장르를 확인하기 위해 보컬 데이터를 곡 인식 인공신경망에 적용하여, 보컬 데이터에 대응하는 곡 정보를 획득할 수 있으며, 보컬 데이터에 대응하는 곡 정보를 기초로, 보컬 데이터의 음악 장르를 확인할 수 있다. 이때, 곡 정보는 곡의 명칭, 곡의 가수, 곡의 오디오 파일, 곡의 악보, 곡의 음악 장르 등을 포함할 수 있다. 또한, 장치(200)는 확인된 보컬 데이터의 음악 장르를 기초로, 제2 장르의 보컬 데이터를 제2 보컬 데이터로 선정할 수 있다.

S1304 단계에서, 장치(200)는 제2 보컬 데이터에 대응하는 사용자의 보컬 레벨을 기초로, 제2 평균 레벨을 생성할 수 있다.

구체적으로, 장치(200)는 제2 보컬 데이터를 보컬 평가 인공지능 모델에 적용하여 제2 보컬 데이터에 대응하는 사용자의 보컬 레벨을 확인할 수 있으며, 확인된 제2 보컬 데이터에 대응하는 사용자의 보컬 레벨을 기초로, 제2 평균 레벨을 생성할 수 있다.

예를 들어, 사용자의 단말로부터 획득한 보컬 데이터 중 제2 장르의 보컬 데이터가 D 보컬 데이터, E 보컬 데이터가 있을 경우, 장치(200)는 D 보컬 데이터를 보컬 평가 인공지능 모델에 적용하여 생성된 사용자의 D 보컬 레벨, E 보컬 데이터를 보컬 평가 인공지능 모델에 적용하여 생성된 사용자의 E 보컬 레벨을 확인할 수 있고, 확인된 사용자의 D 보컬 레벨, 사용자의 E 보컬 레벨을 기초로, 제2 평균 레벨을 생성할 수 있다.

S1305 단계에서, 장치(200)는 제1 평균 레벨이 제2 평균 레벨보다 큰지 여부를 확인할 수 있다.

구체적으로, 장치(200)는 제1 평균 레벨과 제2 평균 레벨을 비교할 수 있다.

S1305 단계에서 제1 평균 레벨이 제2 평균 레벨보다 크다고 확인되면, S1306 단계에서, 장치(200)는 제1 장르를 사용자 맞춤형 장르로 선정할 수 있다.

구체적으로, 장치(200)는 제1 평균 레벨이 제2 평균 레벨보다 크다고 확인되면, 제1 장르를 사용자 맞춤형 장르로 선정할 수 있다.

S1305 단계에서 제1 평균 레벨이 제2 평균 레벨보다 크지 않다고 확인되면, S1307 단계에서, 장치(200)는 제1 평균 레벨이 제2 평균 레벨보다 작은지 여부를 확인할 수 있다.

구체적으로, 장치(200)는 제1 평균 레벨이 제2 평균 레벨보다 크지 않다고 확인되면, 제2 평균 레벨이 제1 평균 레벨보다 큰지 여부를 확인할 수 있다.

S1307 단계에서 제1 평균 레벨이 제2 평균 레벨보다 작다고 확인되면, S1308 단계에서, 장치(200)는 제2 장르를 사용자 맞춤형 장르로 선정할 수 있다.

구체적으로, 장치(200)는 제2 평균 레벨이 제1 평균 레벨보다 크다고 확인되면, 제2 장르를 사용자 맞춤형 장르로 선정할 수 있다.

S1307 단계에서 제1 평균 레벨이 제2 평균 레벨보다 작지 않다고 확인되면, S1309 단계에서, 장치(200)는 제1 보컬 데이터에 대응하는 보컬 레벨 간의 표준편차, 제2 보컬 데이터에 대응하는 보컬 레벨 간의 표준편차를 확인하여 보컬 레벨 간의 표준편차가 더 작은 장르를 사용자 맞춤형 장르로 선정할 수 있다.

구체적으로, 장치(200)는 제1 평균 레벨과 제2 평균 레벨이 동일하다고 확인되면, 제1 보컬 데이터에 대응하는 보컬 레벨 간의 표준편차를 확인할 수 있고, 제2 보컬 데이터에 대응하는 보컬 레벨 간의 표준편차를 확인할 수 있다. 또한, 장치(200)는 제1 보컬 데이터에 대응하는 보컬 레벨 간의 표준편차와 제2 보컬 데이터에 대응하는 보컬 레벨 간의 표준편차를 비교하여 보컬 레벨 간의 표준편차가 더 작은 장르를 사용자 맞춤형 장르로 선정할 수 있다.

예를 들어, 사용자의 단말로부터 획득한 보컬 데이터 중 제1 장르의 보컬 데이터가 A 보컬 데이터, B 보컬 데이터, C 보컬 데이터이고, 제2 장르의 보컬 데이터가 D 보컬 데이터, E 보컬 데이터인 경우, 장치(200)는 A 보컬 데이터를 보컬 평가 인공지능 모델에 적용하여 생성된 사용자의 A 보컬 레벨이 6인 것을 확인하고, B 보컬 데이터를 보컬 평가 인공지능 모델에 적용하여 생성된 사용자의 B 보컬 레벨이 6인 것을 확인하고, C 보컬 데이터를 보컬 평가 인공지능 모델에 적용하여 생성된 사용자의 C 보컬 레벨이 6인 것을 확인하여, 확인된 사용자의 A 보컬 레벨, 사용자의 B 보컬 레벨, 사용자의 C 보컬 레벨을 기초로, 제1 평균 레벨을 6레벨로 생성할 수 있다. 또한, 장치(200)는 D 보컬 데이터를 보컬 평가 인공지능 모델에 적용하여 생성된 사용자의 D 보컬 레벨이 4인 것을 확인하고, E 보컬 데이터를 보컬 평가 인공지능 모델에 적용하여 생성된 사용자의 E 보컬 레벨이 8인 것을 확인하여, 확인된 사용자의 D 보컬 레벨, 사용자의 E 보컬 레벨을 기초로, 제2 평균 레벨을 6레벨로 생성할 수 있다. 또한, 장치(200)는 제1 평균 레벨과 제2 평균 레벨을 비교하여 제1 평균 레벨과 제2 평균 레벨이 모두 6레벨인 것을 확인할 수 있고, 이 경우, 장치(200)는 제1 보컬 데이터에 대응하는 보컬 레벨 간의 표준편차를 0으로 생성하고, 제2 보컬 데이터에 대응하는 보컬 레벨 간의 표준편차를 2로 생성하여 표준편차가 더 작은 장르인 제1 장르를 사용자 맞춤형 장르로 선정할 수 있다.

이때, 장치(200)는 제1 평균 레벨과 제2 평균 레벨이 동일하고, 제1 보컬 데이터에 대응하는 보컬 레벨 간의 표준편차와 제2 보컬 데이터에 대응하는 보컬 레벨 간의 표준편차도 동일하다고 판단되면, 장치(200)는 제1 보컬 데이터에 포함된 보컬 데이터의 수와 제2 보컬 데이터에 포함된 보컬 데이터의 수를 비교하는 과정을 더 수행할 수도 있고, 이때, 제1 보컬 데이터에 포함된 보컬 데이터의 수와 제2 보컬 데이터에 포함된 보컬 데이터의 수도 동일하다고 판단되면, 장치(200)는 제1 장르 및 제2 장르 중 임의로 하나를 골라 사용자 맞춤형 장르를 선정할 수도 있다.

이를 통해, 장치(200)는 사용자가 선호하는 음악 장르인 사용자의 선호 음악 장르 중 사용자의 보컬 실력이 더 좋은 장르를 사용자 맞춤형 장르를 선정할 수 있다.

도 14는 일실시예에 따른 사용자 맞춤형 장르를 기초로, 사용자의 맞춤 오디션 곡을 선정하는 과정을 설명하기 위한 순서도이다.

도 14를 참조하면, 먼저, S1401 단계에서, 장치(200)는 사용자 맞춤형 장르와 매칭된 보컬 데이터 중 가장 높은 레벨이 목표 레벨보다 높은지 여부를 확인할 수 있다. 이때, 목표 레벨은 미리 설정된 레벨로 실시 예에 따라 달라질 수 있다.

구체적으로, 장치(200)는 사용자의 단말(100)로부터 획득한 보컬 데이터 중 사용자 맞춤형 장르와 매칭된 보컬 데이터를 추출할 수 있고, 장치(200)는 사용자 맞춤형 장르와 매칭된 보컬 데이터를 기초로, 사용자 맞춤형 장르와 매칭된 보컬 데이터에 대응하여 생성된 사용자의 보컬 레벨을 확인할 수 있다. 또한, 장치(200)는 사용자 맞춤형 장르와 매칭된 보컬 데이터에 대응하여 생성된 사용자의 보컬 레벨 중 가장 높은 레벨을 확인하여 해당 레벨이 미리 설정된 목표 레벨보다 높은지 여부를 확인할 수 있다.

예를 들어, 사용자의 단말(100)로부터 제1 장르인 A 보컬 데이터, B 보컬 데이터, C 보컬 데이터 및 제2 장르인 D 보컬 데이터, E 보컬 데이터를 획득하였고, 사용자 맞춤형 장르가 제1 장르인 경우, 장치(200)는 사용자 맞춤형 장르인 제1 장르와 매칭된 보컬 데이터인 A 보컬 데이터, B 보컬 데이터, C 보컬 데이터를 획득할 수 있고, A 보컬 데이터에 대응하는 사용자의 보컬 레벨인 사용자의 A 보컬 레벨, B 보컬 데이터에 대응하는 사용자의 보컬 레벨인 사용자의 B 보컬 레벨, 및 C 보컬 데이터에 대응하는 사용자의 C 보컬 레벨을 확인하여 사용자의 A 보컬 레벨, 사용자의 B 보컬 레벨, 사용자의 C 보컬 레벨 중 가장 높은 보컬 레벨이 미리 설정된 목표 레벨보다 높은지 여부를 확인할 수 있다.

S1401 단계에서 사용자 맞춤형 장르와 매칭된 보컬 데이터 중 가장 높은 레벨이 목표 레벨보다 높다고 확인되면, S1402 단계에서, 장치(200)는 사용자 맞춤형 장르와 매칭된 보컬 데이터 중 가장 높은 레벨에 대응하는 곡을 사용자의 맞춤 오디션 곡으로 선정할 수 있다.

구체적으로, 장치(200)는 사용자 맞춤형 장르와 매칭된 보컬 데이터를 확인할 수 있고, 확인된 사용자 맞춤형 장르와 매칭된 보컬 데이터에 대응하여 생성된 사용자의 보컬 레벨을 확인할 수 있다. 또한, 장치(200)는 확인된 사용자 맞춤형 장르와 매칭된 보컬 데이터에 대응하여 생성된 사용자의 보컬 레벨 중 가장 높은 레벨이 미리 설정된 목표 레벨보다 높은지 여부를 확인하여, 사용자 맞춤형 장르와 매칭된 보컬 데이터에 대응하여 생성된 사용자의 보컬 레벨 중 가장 높은 레벨이 목표 레벨보다 높다고 확인되면, 해당 가장 높은 레벨에 대응하는 곡을 사용자 맞춤 오디션 곡으로 선정할 수 있다.

예를 들어, 사용자의 단말(100)로부터 제1 장르인 A 보컬 데이터, B 보컬 데이터, C 보컬 데이터 및 제2 장르인 D 보컬 데이터, E 보컬 데이터를 획득하였고, 사용자 맞춤형 장르가 제1 장르이고, 목표 레벨이 7레벨인 경우, 장치(200)는 사용자 맞춤형 장르인 제1 장르와 매칭된 보컬 데이터인 A 보컬 데이터, B 보컬 데이터, C 보컬 데이터를 획득할 수 있고, A 장치(200)는 보컬 데이터에 대응하는 사용자의 보컬 레벨인 사용자의 A 보컬 레벨을 8레벨로 확인하고, B 보컬 데이터에 대응하는 사용자의 보컬 레벨인 사용자의 B 보컬 레벨을 7레벨로 확인하고, C 보컬 데이터에 대응하는 사용자의 C 보컬 레벨을 6레벨로 확인할 수 있다. 또한, 장치(200)는 확인된 사용자의 A 보컬 레벨인 8레벨, 사용자의 B 보컬 레벨인 7레벨, 사용자의 C 보컬 레벨인 6레벨 중 가장 높은 보컬 레벨을 사용자의 A 보컬 레벨인 8레벨로 확인하고, 사용자의 A 보컬 레벨인 8레벨이 미리 설정된 목표 레벨인 7레벨보다 높은지 여부를 확인할 수 있다. 또한, 장치(200)는 확인 결과 사용자의 A 보컬 레벨인 8레벨이 목표 레벨인 7레벨보다 높은 것을 확인할 수 있고, 사용자의 A 보컬 레벨에 대응하는 보컬 데이터인 A 보컬 데이터의 곡 정보를 확인하여 A 보컬 데이터의 곡을 사용자의 맞춤 오디션 곡으로 선정할 수 있다.

S1401 단계에서 사용자 맞춤형 장르와 매칭된 보컬 데이터 중 가장 높은 레벨이 목표 레벨보다 높지 않다고 확인되면, S1403 단계에서, 장치(200)는 오디션 곡 데이터베이스를 통해 사용자 맞춤형 장르에 매칭된 곡을 후보 오디션 곡으로 확인할 수 있다.

구체적으로, 장치(200)는 사용자 맞춤형 장르와 매칭된 보컬 데이터를 확인할 수 있고, 확인된 사용자 맞춤형 장르와 매칭된 보컬 데이터에 대응하여 생성된 사용자의 보컬 레벨을 확인할 수 있다. 또한, 장치(200)는 확인된 사용자 맞춤형 장르와 매칭된 보컬 데이터에 대응하여 생성된 사용자의 보컬 레벨 중 가장 높은 레벨이 미리 설정된 목표 레벨보다 높은지 여부를 확인하여, 사용자 맞춤형 장르와 매칭된 보컬 데이터에 대응하여 생성된 사용자의 보컬 레벨 중 가장 높은 레벨이 목표 레벨보다 높지 않다고 확인되면, 오디션 곡 데이터베이스를 통해 사용자 맞춤형 장르에 매칭된 곡을 후보 오디션 곡으로 확인할 수 있다.

여기서, 오디션 곡 데이터베이스는 오디션 곡이 저장된 데이터베이스로, 오디션 곡에 대응한 곡 정보가 매칭되어 저장될 수 있다. 이때, 곡 정보는 곡의 명칭, 곡의 가수, 곡의 오디오 파일, 곡의 악보 등을 포함할 수 있다. 또한, 오디션 곡 데이터베이스는 오디션 곡이 음악 장르에 따라 분류될 수 있다. 또한, 오디션 곡 데이터베이스에는 오디션 곡에 매칭하여 어떤 사용자가 해당 곡을 사용하여 오디션을 보았는지에 대한 이력이 저장되어 있을 수 있으며, 즉, 오디션 곡 데이터베이스에는 오디션 곡과 매칭하여 해당 곡을 사용하여 오디션을 본 사용자의 정보가 매칭되어 있을 수 있다. 이때, 사용자의 정보에는 사용자의 이름, 사용자의 연령, 사용자의 성별, 사용자의 발성 속성, 사용자의 보컬 레벨 및 사용자의 오디션 합격 여부 등이 포함될 수 있다. 오디션 곡 데이터베이스는 장치(200)에 구비되거나, 별개의 데이터베이스로 장치(200)와 유무선으로 통신 가능한 데이터베이스이다. 오디션 곡 데이터베이스는 기획사의 단말과 유무선으로 통신할 수 있으며, 오디션 곡 데이터베이스는 기획사의 단말 및 장치(200)에 의해 업데이트될 수 있다.

예를 들어, 사용자의 단말(100)로부터 제1 장르인 A 보컬 데이터, B 보컬 데이터, C 보컬 데이터 및 제2 장르인 D 보컬 데이터, E 보컬 데이터를 획득하였고, 사용자 맞춤형 장르가 제1 장르이고, 목표 레벨이 7레벨인 경우, 장치(200)는 사용자 맞춤형 장르인 제1 장르와 매칭된 보컬 데이터인 A 보컬 데이터, B 보컬 데이터, C 보컬 데이터를 획득할 수 있고, A 장치(200)는 보컬 데이터에 대응하는 사용자의 보컬 레벨인 사용자의 A 보컬 레벨을 7레벨로 확인하고, B 보컬 데이터에 대응하는 사용자의 보컬 레벨인 사용자의 B 보컬 레벨을 5레벨로 확인하고, C 보컬 데이터에 대응하는 사용자의 C 보컬 레벨을 6레벨로 확인할 수 있다. 또한, 장치(200)는 확인된 사용자의 A 보컬 레벨인 7레벨, 사용자의 B 보컬 레벨인 5레벨, 사용자의 C 보컬 레벨인 6레벨 중 가장 높은 보컬 레벨을 사용자의 A 보컬 레벨인 7레벨로 확인하고, 사용자의 A 보컬 레벨인 7레벨이 미리 설정된 목표 레벨인 7레벨보다 높은지 여부를 확인할 수 있다. 또한, 장치(200)는 확인 결과 사용자의 A 보컬 레벨인 7레벨이 목표 레벨인 7레벨보다 높지 않고 같은 것을 확인할 수 있고, 이에 따라 장치(200)는 오디션 곡 데이터베이스를 통해 사용자 맞춤형 장르에 매칭된 곡을 후보 오디션 곡으로 확인할 수 있다.

S1404 단계에서, 장치(200)는 후보 오디션 곡에 대응하여 후보 오디션 곡의 연령 점수를 생성할 수 있다.

구체적으로, 장치(200)는 오디션 곡 데이터베이스를 통해 사용자 맞춤형 장르에 매칭된 곡을 추출하여 후보 오디션 곡으로 확인할 수 있고, 오디션 곡 데이터베이스를 통해 후보 오디션 곡에 매칭된 후보 오디션 곡을 사용하여 오디션을 본 사용자의 정보를 확인할 수 있다. 또한, 장치(200)는 후보 오디션 곡을 사용하여 오디션을 본 사용자의 정보를 통해 사용자의 맞춤 오디션 곡을 선정하고자 하는 사용자의 연령과 동일한 연령을 갖는 사용자의 인원 수를 확인하여 후보 오디션 곡의 연령 점수를 생성할 수 있다. 이를 위해, 장치(200)는 사용자의 단말(100)로부터 보컬 데이터를 획득하는 과정에서 사용자와 관련된 정보인 사용자의 개인 정보를 추가로 획득할 수 있다. 이때, 사용자의 개인 정보는 사용자의 이름, 사용자의 닉네임을 포함하는 사용자의 식별 정보, 사용자의 성별, 연령 및 신체 특징 정보 등을 포함할 수 있으나, 이에 한정되지는 않는다.

이때, 장치(200)는 후보 오디션 곡에 매칭된 사용자 중 사용자의 맞춤 오디션 곡을 선정하고자 하는 사용자의 연령과 동일한 연령을 갖는 사용자의 인원 수가 많을수록 후보 오디션 곡의 연령 점수를 크게 생성할 수 있고, 후보 오디션 곡에 매칭된 사용자 중 사용자의 맞춤 오디션 곡을 선정하고자 하는 사용자의 연령과 동일한 연령을 갖는 사용자의 인원 수가 적을수록 후보 오디션 곡의 연령 점수를 작게 생성할 수 있다.

또한, 장치(200)는 후보 오디션 곡에 매칭된 사용자 중 사용자의 맞춤 오디션 곡을 선정하고자 하는 사용자의 연령과 동일한 연령을 갖는 사용자의 인원 수가 미리 설정된 제1 기준 인원 수보다 많을 경우, 후보 오디션 곡의 연령 점수로 연령 점수의 최고 점수를 부여할 수 있고, 후보 오디션 곡에 매칭된 사용자 중 사용자의 맞춤 오디션 곡을 선정하고자 하는 사용자의 연령과 동일한 연령을 갖는 사용자의 인원 수가 제1 기준 인원수보다 많지 않을 경우, 인원 수에 비례하여 후보 오디션 곡의 연령 점수를 생성할 수 있다.

S1405 단계에서, 장치(200)는 후보 오디션 곡에 대응하여 후보 오디션 곡의 성별 점수를 생성할 수 있다.

구체적으로, 장치(200)는 오디션 곡 데이터베이스를 통해 사용자 맞춤형 장르에 매칭된 곡을 추출하여 후보 오디션 곡으로 확인할 수 있고, 오디션 곡 데이터베이스를 통해 후보 오디션 곡에 매칭된 후보 오디션 곡을 사용하여 오디션을 본 사용자의 정보를 확인할 수 있다. 또한, 장치(200)는 후보 오디션 곡을 사용하여 오디션을 본 사용자의 정보를 통해 사용자의 맞춤 오디션 곡을 선정하고자 하는 사용자의 성별과 동일한 성별을 갖는 사용자의 인원 수를 확인하여 후보 오디션 곡의 성별 점수를 생성할 수 있다. 이를 위해, 장치(200)는 사용자의 단말(100)로부터 보컬 데이터를 획득하는 과정에서 사용자와 관련된 정보인 사용자의 개인 정보를 추가로 획득할 수 있다. 이때, 사용자의 개인 정보는 사용자의 이름, 사용자의 닉네임을 포함하는 사용자의 식별 정보, 사용자의 성별, 연령 및 신체 특징 정보 등을 포함할 수 있으나, 이에 한정되지는 않는다.

이때, 장치(200)는 후보 오디션 곡에 매칭된 사용자 중 사용자의 맞춤 오디션 곡을 선정하고자 하는 사용자의 성별과 동일한 성별을 갖는 사용자의 인원 수가 많을수록 후보 오디션 곡의 성별 점수를 크게 생성할 수 있고, 후보 오디션 곡에 매칭된 사용자 중 사용자의 맞춤 오디션 곡을 선정하고자 하는 사용자의 성별과 동일한 성별을 갖는 사용자의 인원 수가 적을수록 후보 오디션 곡의 성별 점수를 작게 생성할 수 있다.

또한, 장치(200)는 후보 오디션 곡에 매칭된 사용자 중 사용자의 맞춤 오디션 곡을 선정하고자 하는 사용자의 성별과 동일한 성별을 갖는 사용자의 인원 수가 미리 설정된 제2 기준 인원 수보다 많을 경우, 후보 오디션 곡의 성별 점수로 성별 점수의 최고 점수를 부여할 수 있고, 후보 오디션 곡에 매칭된 사용자 중 사용자의 맞춤 오디션 곡을 선정하고자 하는 사용자의 성별과 동일한 성별을 갖는 사용자의 인원 수가 제2 기준 인원수보다 많지 않을 경우, 인원 수에 비례하여 후보 오디션 곡의 성별 점수를 생성할 수 있다.

S1406 단계에서, 장치(200)는 후보 오디션 곡에 대응하여 후보 오디션 곡의 발성 점수를 생성할 수 있다.

구체적으로, 장치(200)는 오디션 곡 데이터베이스를 통해 사용자 맞춤형 장르에 매칭된 곡을 추출하여 후보 오디션 곡으로 확인할 수 있고, 오디션 곡 데이터베이스를 통해 후보 오디션 곡에 매칭된 후보 오디션 곡을 사용하여 오디션을 본 사용자의 정보를 확인할 수 있다. 또한, 장치(200)는 후보 오디션 곡을 사용하여 오디션을 본 사용자의 정보를 통해 사용자의 맞춤 오디션 곡을 선정하고자 하는 사용자의 발성 속성과 동일한 발성 속성을 갖는 사용자의 인원 수를 확인하여 후보 오디션 곡의 발성 점수를 생성할 수 있다. 이를 위해, 장치(200)는 사용자의 보컬 데이터를 기초로, 생성된 사용자의 발성 속성을 확인할 수 있다.

이때, 장치(200)는 후보 오디션 곡에 매칭된 사용자 중 사용자의 맞춤 오디션 곡을 선정하고자 하는 사용자의 발성 속성과 동일한 발성 속성을 갖는 사용자의 인원 수가 많을수록 후보 오디션 곡의 발성 점수를 크게 생성할 수 있고, 후보 오디션 곡에 매칭된 사용자 중 사용자의 맞춤 오디션 곡을 선정하고자 하는 사용자의 발성 속성과 동일한 발성 속성을 갖는 사용자의 인원 수가 적을수록 후보 오디션 곡의 발성 점수를 작게 생성할 수 있다.

또한, 장치(200)는 후보 오디션 곡에 매칭된 사용자 중 사용자의 맞춤 오디션 곡을 선정하고자 하는 사용자의 발성 속성과 동일한 발성 속성을 갖는 사용자의 인원 수가 미리 설정된 제3 기준 인원 수보다 많을 경우, 후보 오디션 곡의 발성 점수로 발성 점수의 최고 점수를 부여할 수 있고, 후보 오디션 곡에 매칭된 사용자 중 사용자의 맞춤 오디션 곡을 선정하고자 하는 사용자의 발성 속성과 동일한 발성 속성을 갖는 사용자의 인원 수가 제3 기준 인원수보다 많지 않을 경우, 인원 수에 비례하여 후보 오디션 곡의 발성 점수를 생성할 수 있다.

S1407 단계에서, 장치(200)는 연령 점수, 성별 점수, 발성 점수를 모두 합한 값으로 후보 오디션 곡의 합산 점수를 생성할 수 있다.

구체적으로, 장치(200)는 후보 오디션 곡의 연령 점수, 후보 오디션 곡의 성별 점수, 후보 오디션 곡의 발성 점수를 모두 합한 값으로 후보 오디션 곡의 합산 점수를 생성할 수 있다.

일실시예에 따르면, 연령 점수, 성별 점수, 발성 점수 각각의 최고 점수는 모두 동일한 점수로 설정될 수도 있지만, 장치 관리자 설정에 따라 최고 점수가 다르게 설정될 수도 있다. 예를 들어, 연령 점수, 성별 점수, 발성 점수의 최고 점수가 모두 10점으로 동일하게 설정될 수 있고, 연령 점수의 최고 점수는 5점, 성별 점수의 최고 점수는 10점, 발성 점수의 최고 점수는 15점으로 상이하게 설정될 수도 있다.

S1408 단계에서, 장치(200)는 합산 점수가 가장 높은 후보 오디션 곡을 사용자의 맞춤 오디션 곡으로 선정할 수 있다.

구체적으로, 장치(200)는 후보 오디션 곡의 합산 점수를 기초로, 합산 점수가 가장 높은 후보 오디션 곡을 사용자의 맞춤 오디션 곡으로 선정할 수 있다.

한편, 장치(200)는 합산 점수가 가장 높은 후보 오디션 곡이 복수 개일 경우, 후보 오디션 곡과 사용자의 보컬 데이터를 합성하여 모니터링 데이터를 생성하고, 생성된 모니터링 데이터를 사용자에게 제공할 수 있다.

도 15는 일실시예에 따른 모니터링 데이터를 생성하는 과정을 설명하기 위한 순서도이다.

도 15를 참조하면, S1501 단계에서, 장치(200)는 사용자의 단말(100)로부터 후보 오디션 곡에 대응하는 보컬 데이터인 후보 오디션 곡 보컬 데이터를 획득할 수 있다.

구체적으로, 합산 점수가 가장 높은 후보 오디션 곡을 이용하여 사용자의 맞춤 오디션 곡을 선정하고자 하는 과정에서 합산 점수가 가장 높은 후보 오디션 곡이 적어도 2개 이상 즉, 복수 개일 경우, 장치(200)는 사용자의 단말(100)로 합산 점수가 가장 높은 후보 오디션 곡에 대응하는 보컬 데이터를 요청할 수 있고, 장치(200)는 사용자의 단말(100)로부터 요청에 응답하여 후보 오디션 곡에 대응하는 보컬 데이터인 후보 오디션 곡 보컬 데이터를 획득할 수 있다.

S1502 단계에서, 장치(200)는 오디션 곡 데이터베이스로부터 후보 오디션 곡의 오디오 파일을 획득할 수 있다.

구체적으로, 장치(200)는 오디션 곡 데이터베이스로부터 후보 오디션 곡에 대응한 곡 정보를 획득할 수 있고, 후보 오디션 곡에 대응한 곡 정보를 기초로, 후보 오디션 곡의 오디오 파일을 획득할 수 있다. 여기서, 오디션 곡 데이터베이스는 오디션 곡이 저장된 데이터베이스로, 오디션 곡에 대응한 곡 정보가 매칭되어 저장될 수 있다. 이때, 곡 정보는 곡의 명칭, 곡의 가수, 곡의 오디오 파일, 곡의 악보 등을 포함할 수 있다. 또한, 오디션 곡 데이터베이스는 오디션 곡이 음악 장르에 따라 분류될 수 있다. 또한, 오디션 곡 데이터베이스에는 오디션 곡에 매칭하여 어떤 사용자가 해당 곡을 사용하여 오디션을 보았는지에 대한 이력이 저장되어 있을 수 있으며, 즉, 오디션 곡 데이터베이스에는 오디션 곡과 매칭하여 해당 곡을 사용하여 오디션을 본 사용자의 정보가 매칭되어 있을 수 있다. 이때, 사용자의 정보에는 사용자의 이름, 사용자의 연령, 사용자의 성별, 사용자의 발성 속성, 사용자의 보컬 레벨 및 사용자의 오디션 합격 여부 등이 포함될 수 있다. 오디션 곡 데이터베이스는 장치(200)에 구비되거나, 별개의 데이터베이스로 장치(200)와 유무선으로 통신 가능한 데이터베이스이다.

S1503 단계에서, 장치(200)는 후보 오디션 곡 보컬 데이터의 피치 및 길이를 수정하여 후보 오디션 곡의 오디오 파일과 합성하여 모니터링 데이터를 생성할 수 있다.

구체적으로, 장치(200)는 사용자의 단말(100)로부터 획득한 후보 오디션 곡 보컬 데이터를 기초로, 후보 오디션 곡의 오디오 파일과 합성하여 모니터링 데이터를 생성할 수 있는데, 이때, 장치(200)는 후보 오디션 곡 보컬 데이터를 후보 오디션 곡의 오디오 파일과 합성하기 위해 후보 오디션 곡 보컬 데이터의 길이를 후보 오디션 곡의 오디오 파일의 길이와 동일하게 수정할 수 있다. 또한, 장치(200)는 길이가 수정된 후보 오디션 곡 보컬 데이터와 후보 오디션 곡의 오디오 파일을 단순 합성할 경우, 후보 오디션 곡 보컬 데이터가 후보 오디션 곡의 오디오 파일에 묻혀 모니터링이 어려울 것을 대비하여 길이가 수정된 후보 오디션 곡 보컬 데이터의 피치 즉, 옥타브를 수정할 수 있고, 길이 및 피치가 수정된 후보 오디션 곡 보컬 데이터를 후보 오디션 곡의 파일과 합성하여 모니터링 데이터를 생성할 수 있다. 즉, 장치(200)는 길이 및 피치가 수정된 후보 오디션 곡 보컬 데이터를 후보 오디션 곡의 오디오 파일과 합성함으로써 후보 오디션 곡 보컬 데이터와 후보 오디션 곡의 오디오 파일이 화음으로 들리도록 모니터링 데이터를 생성하고, 이로 인해 사용자는 모니터링 데이터를 확인하였을 때 차이를 더 명확하게 확인할 수 있다.

S1504 단계에서, 장치(200)는 모니터링 데이터 및 자가 진단 인터페이스를 후보 트레이너와 매칭하여 리스트에 포함할 수 있다.

구체적으로, 장치(200)는 후보 오디션 곡 보컬 데이터의 피치 및 길이를 수정할 수 있고, 길이 및 피치가 수정된 후보 오디션 곡 보컬 데이터를 후보 오디션 곡의 오디오 파일과 합성하여 모니터링 데이터를 생성할 수 있다. 또한, 장치(200)는 모니터링 데이터와 자가 진단 인터페이스를 함께 사용자의 단말(100)로 제공할 수 있다. 여기서, 자가 진단 인터페이스는 모니터링 데이터를 기초로 구간이 설정되고, 각 구간에 대응하여 사용자가 부족하다고 생각되는 구간의 체크를 선택할 수 있는 인터페이스로, 사용자는 자가 진단 인터페이스를 통해 어떤 구간이 만족스럽지 않은지 자가 진단할 수 있다.

이로 인해, 사용자는 장치(200)로부터 제공된 합산 점수가 가장 높은 후보 오디션 곡에 대응한 모니터링 데이터 및 자가 진단 인터페이스를 통해 어떤 후보 오디션 곡이 자신에게 가장 적합한지 여부를 확인할 수 있으며, 사용자는 편리하게 자신의 오디션 곡을 선정할 수 있는 효과가 있다.

한편, 장치(200)는 사용자의 보컬 데이터를 보컬 평가 플랫폼에 업로드하여 평가자들로부터 사용자의 보컬 데이터에 대한 평가를 획득할 수 있고, 평가자들로부터 획득한 사용자의 보컬 데이터에 대한 평가를 기초로, 보컬 평가 인공지능 모델을 통해 획득한 사용자의 보컬 레벨을 보정할 수도 있다.

도 16은 일실시예에 따른 사용자의 보컬 레벨을 보정하는 과정을 설명하기 위한 순서도이다.

도 16을 참조하면, 먼저, S1601 단계에서, 장치(200)는 목표 기간 동안 사용자의 보컬 데이터를 보컬 평가 플랫폼에 업로드할 수 있다. 여기서, 목표 기간은 미리 설정된 기간으로 실시 예에 따라 달라질 수 있다. 또한, 보컬 평가 플랫폼은 보컬 평가를 위해 운영되는 플랫폼으로 장치(200)를 통해 운영되는 플랫폼일 수 있다.

구체적으로, 장치(200)는 보컬 평가 인공지능 모델을 통해 사용자의 보컬 레벨이 결정되면, 장치(200)는 미리 설정된 목표 기간 동안 사용자의 보컬 데이터를 보컬 평가 플랫폼에 업로드할 수 있다.

S1602 단계에서, 장치(200)는 보컬 평가 플랫폼을 통해 사용자의 보컬 데이터를 평가하고자 하는 평가자의 단말로부터 평가자의 정보 및 평가자의 평가 점수를 획득할 수 있다. 여기서, 장치(200)는 평가자의 단말과 유무선으로 통신할 수 있다.

구체적으로, 평가자의 단말은 보컬 평가 플랫폼에 접속할 수 있으며, 장치(200)는 보컬 평가 플랫폼에 접속한 평가자의 단말로 사용자의 보컬 데이터를 제공할 수 있고, 또한 장치(200)는 평가자의 단말로부터 평가자의 정보 및 사용자의 보컬 데이터에 대한 평가자의 평가 점수를 획득할 수 있다. 여기서, 평가자의 정보는 평가자의 이름, 평가자의 직업, 평가자의 성별, 평가자의 연령을 포함하는 평가자에 대한 정보일 수 있고, 평가자의 평가 점수는 평가자가 사용자의 보컬 데이터를 평가하는 점수일 수 있다. 이때, 평가자의 평가 점수는 1부터 8내지의 숫자로 부여할 수 있으며, 8은 모든 요소를 충족하면서 흠잡을 데 없이 탄탄한 느낌을 줄 때 부여할 수 있고, 7은 부르면 부를수록 노래에 경청하게 되며, 딱 들어도 순간적으로 잘한다는 생각이 들 때 부여할 수 있고, 6은 많은 연습량이 느껴지는 레벨로, 전반적으로 안정적인 가창을 보여줄 때 부여할 수 있고, 5는 가요, 혹은 케이팝 느낌이 능숙하지만 다소 불안한 요소들로 느껴질 때 부여할 수 있고, 4는 가요, 케이팝처럼 느낌이 나타내기 시작할 때 부여할 수 있고, 3은 최소한의 기본기는 갖고 있지만 가요, 케이팝적인 느낌은 어려운 상태일 때 부여할 수 있고, 2는 노래로써 역할은 하지만 기본기가 아직 부족한 상태일 때 부여할 수 있고, 1은 노래보다는 말에 가까운 상태일 때 부여할 수 있다. 그러나 이에 한정되는 것은 아니다.

S1603 단계에서, 장치(200)는 평가자의 정보를 통해 평가자가 원곡자인지 여부를 판단할 수 있다.

구체적으로, 장치(200)는 평가자의 단말로부터 평가자의 정보 및 사용자의 보컬 데이터에 대한 평가자의 평가 점수를 획득하면, 사용자의 보컬 데이터를 기초로 획득한 곡 정보 및 평가자의 정보를 비교하여 평가자가 원곡자인지 여부를 확인할 수 있다.

S1603 단계에서 평가자가 원곡자로 확인되면, S1604 단계에서, 장치(200)는 평가자의 평가 점수에 제1 가중치를 적용할 수 있다.

구체적으로, 장치(200)는 사용자의 보컬 데이터를 평가한 평가자가 사용자의 보컬 데이터를 기초로 획득한 곡의 원곡자라고 확인되면, 해당 평가자가 해당 곡을 잘 알 것으로 판단하여 평가자의 평가 점수에 가장 높은 가중치인 제1 가중치를 적용할 수 있다.

S1603 단계에서 평가자가 원곡자가 아닌 것으로 확인되면, S1605 단계에서, 장치(200)는 평가자의 정보를 통해 평가자가 음악과 관련 있는 직업인지 여부를 판단할 수 있다. 여기서, 음악과 관련 있는 직업은 미리 설정될 수 있으며, 가수, 작사가, 작곡가, 편곡가, 음반기획자, 음악감독, 음악교사, 보컬트레이너 등이 될 수 있다.

구체적으로, 장치(200)는 사용자의 보컬 데이터를 평가한 평가자가 사용자의 보컬 데이터를 기초로 획득한 곡의 원곡자가 아니라고 확인되면, 해당 평가자의 정보를 통해 해당 평가자의 직업을 확인하고, 해당 평가자가 음악과 관련 있는 직업인지 여부를 판단할 수 있다.

S1605 단계에서 평가자가 음악과 관련 있는 직업이라고 확인되면, S1606 단계에서, 장치(200)는 평가자의 평가 점수에 제1 가중치보다 작은 제2 가중치를 적용할 수 있다.

구체적으로, 장치(200)는 사용자의 보컬 데이터를 평가한 평가자가 사용자의 보컬 데이터를 기초로 획득한 곡의 원곡자는 아니지만, 음악과 관련 있는 직업이라고 확인되면, 해당 평가자가 원곡자보다는 해당 곡을 덜 알지만, 그래도 곡에 대해 많이 알 것으로 판단하여 평가자의 평가 점수에 제1 가중치보다 작은 제2 가중치를 적용할 수 있다.

S1605 단계에서 평가자가 음악과 관련 있는 직업이 아니라고 확인되면, S1607 단계에서, 장치(200)는 평가자의 평가 점수에 제2 가중치보다 작은 제3 가중치를 적용할 수 있다.

구체적으로, 장치(200)는 사용자의 보컬 데이터를 평가한 평가자가 사용자의 보컬 데이터를 기초로 획득한 곡의 원곡자가 아니고, 음악과 관련 있는 직업이 아니라고 확인되면, 해당 평가자가 원곡자 및 음악과 관련 있는 직업보다는 해당 곡을 덜 알 것으로 판단하여 평가자의 평가 점수에 제2 가중치보다 작은 제3 가중치를 적용할 수 있다.

S1608 단계에서, 장치(200)는 가중치가 적용된 평가자의 평가 점수를 기초로, 사용자의 보컬 레벨을 보정할 수 있다.

구체적으로, 장치(200)는 목표 기간 동안 보컬 평가 플랫폼을 통해 사용자의 보컬 데이터를 평가하고자 하는 평가자의 단말로부터 평가자의 정보 및 평가자의 평가 점수를 획득할 수 있고, 장치(200)는 평가자의 정보를 통해 평가자의 평가 점수에 가중치를 적용할 수 있고, 또한, 장치(200)는 목표 기간 동안 획득한 가중치가 적용된 평가자의 평가 점수를 기초로, 사용자의 보컬 레벨을 보정할 수 있다.

이를 통해, 장치(200)는 보컬 평가 인공지능 모델을 통해 획득한 사용자의 보컬 레벨에 평가자의 평가 점수를 고려하여 사용자의 보컬 레벨을 보정할 수 있는 효과가 있다.

도 17은 일실시예에 따른 사용자의 단말에 오디션 가능 지역에서 진행중인 오디션 콘텐츠를 제공하는 과정을 설명하기 위한 순서도이다.

도 17을 참조하면, 먼저, S1701 단계에서, 장치(200)는 사용자의 보컬 데이터에 대응하는 위치 정보를 확인하고, 위치 정보를 기초로, 오디션 가능 지역을 선정할 수 있다.

구체적으로, 장치(200)는 사용자의 보컬 데이터에 매칭된 위치 정보를 확인하고, 위치 정보를 기초로, 위치 정보가 포함된 지역을 오디션 가능 지역으로 선정할 수 있다. 여기서, 오디션 가능 지역은 동 단위일 수도 있고, 구 단위일 수도 있고, 시 단위일 수도 있고, 도 단위일 수도 있고, 그 외의 단위일 수도 있다.

또한, 장치(200)는 오디션 모집 사이트와 유무선으로 통신할 수 있는데, 오디션 모집 사이트는 복수의 기획사의 단말과 유무선으로 통신할 수 있다. 즉, 기획사는 오디션을 진행할 지역과 해당 지역에서 진행될 제1 오디션을 소개하는 콘텐츠인 제1 콘텐츠를 제작하여 오디션 모집 사이트에 업로드할 수 있으며, 장치(200)는 오디션 모집 사이트에 업로드 되어 있는 제1 콘텐츠를 확인하여, 어떤 지역에서 어떤 오디션을 진행하는지 확인할 수 있다. 이를 위해, 장치(200)는 오디션 모집 사이트를 운영하는 서버와 연결될 수 있다.

S1702 단계에서, 장치(200)는 사용자의 단말(100)에서 제1 콘텐츠가 재생되어 표시되도록 제어할 수 있다

구체적으로, 장치(200)는 제1 콘텐츠가 오디션 모집 사이트에 업로드 것으로 확인하고, 제1 콘텐츠를 통해 해당 오디션이 오디션 가능 지역에서 진행되는 것을 확인하면 장치(200)는 오디션 모집 사이트를 운영하는 서버로부터 제1 콘텐츠의 정보를 획득하고, 제1 콘텐츠의 정보를 사용자의 단말(100)로 전송할 수 있고, 이를 통해, 사용자의 단말(100)에서 제1 콘텐츠가 재생되어, 사용자의 단말(100)의 화면에 제1 콘텐츠가 표시되도록 제어할 수 있다.

S1703 단계에서, 장치(200)는 오디션 가능 지역 내에 위치한 기획사들 중 제1 기획사에서 업로드한 콘텐츠인 제2 콘텐츠가 오디션 모집 사이트에 업로드 된 경우, 사용자의 단말(100)에서 제1 콘텐츠에 이어서 제2 콘텐츠가 재생되어 표시되도록 제어할 수 있다.

구체적으로, 장치(200)는 오디션 가능 지역 내에 위치한 제1 기획사에서 업로드한 제2 콘텐츠가 오디션 모집 사이트에 업로드 것으로 확인되면, 오디션 모집 사이트를 운영하는 서버로부터 제2 콘텐츠의 정보를 획득하고, 제2 콘텐츠의 정보를 사용자의 단말(100)로 전송할 수 있고, 이를 통해, 사용자의 단말(100)에서 제1 콘텐츠의 재생이 완료되면 이어서 제2 콘텐츠가 재생되어, 사용자의 단말(100)의 화면에 제2 콘텐츠가 표시되도록 제어할 수 있다. 이를 위해, 오디션 모집 사이트에는 오디션 모집 사이트에 업로드 된 콘텐츠와 매칭하여 해당 콘텐츠를 업로드한 기획사의 정보가 더 저장되어 있을 수 있다.

장치(200)는 사용자의 단말(100)에서 제1 콘텐츠를 재생하고, 제2 콘텐츠가 업로드되었다면 제1 콘텐츠 재생 후 제2 콘텐츠가 재생되도록 제어함으로써, 사용자는 오디션 가능 지역에서 진행하는 다양한 오디션 소개를 접할 수 있도록 할 수 있다.

S1704 단계에서, 장치(200)는 오디션 가능 지역 내에 위치한 기획사들 중 제2 기획사에서 업로드한 콘텐츠인 제3 콘텐츠가 오디션 모집 사이트에 업로드 된 경우, 사용자의 단말(100)에서 제2 콘텐츠에 이어서 제3 콘텐츠가 재생되어 표시되도록 제어할 수 있다.

구체적으로, 장치(200)는 오디션 가능 지역 내에 위치한 제2 기획사에서 업로드한 제3 콘텐츠가 오디션 모집 사이트에 업로드 것으로 확인되면, 오디션 모집 사이트를 운영하는 서버로부터 제3 콘텐츠의 정보를 획득하고, 제3 콘텐츠의 정보를 사용자의 단말(100)로 전송할 수 있고, 이를 통해, 사용자의 단말(100)에서 제2 콘텐츠의 재생이 완료되면 이어서 제3 콘텐츠가 재생되어, 사용자의 단말(100)의 화면에 제3 콘텐츠가 표시되도록 제어할 수 있다.

즉, 장치(200)는 오디션 가능 지역 내에 위치한 여러 기획사들이 업로드한 콘텐츠를 제공함으로써 사용자에게 오디션 가능 지역 내에 위치한 다양한 기획사의 정보를 제공할 수 있으며, 제2, 제3 콘텐츠를 재생하는 것으로 기획사들의 다양성과 다양한 기회를 보여줄 수 있다.

S1705 단계에서, 장치(200)는 사용자의 단말(100)에서 제3 콘텐츠에 이어서 제1 콘텐츠가 재생되어 표시되도록 제어할 수 있다.

구체적으로 장치(200)는 사용자의 단말(100)에서 제3 콘텐츠의 재생이 완료되면 이어서 제1 콘텐츠가 재생되어 사용자의 단말(100)의 화면에 제1 콘텐츠가 다시 표시되도록 제어할 수 있다.

장치(200)는 사용자의 단말(100)에서 제1, 제2, 제3 콘텐츠를 순서대로 재생하는 것으로, 사용자에게 오디션 가능 지역에서 진행될 오디션의 정보와 오디션 가능 지역에 위치한 기획사의 소개를 차례로 보여줄 수 있으므로, 제1, 제2, 제3 콘텐츠를 순차적으로 재생함으로써 사용자에게 점진적으로 오디션의 정보와 기획사의 소개를 전달할 수 있고, 이러한 접근 방식은 정보를 순차적으로 전달하면서 사용자의 관심을 유지시키고 정보를 숙지시킬 수 있다.

S1706 단계에서, 장치(200)는 사용자의 단말(100)에서 제1 콘텐츠에 이어서 제2 콘텐츠 및 제3 콘텐츠가 함께 재생되어 표시되도록 제어할 수 있다.

구체적으로 장치(200)는 사용자의 단말(100)에서 제1 콘텐츠의 재생이 완료되면 이어서 제2 콘텐츠 및 제3 콘텐츠가 함께 재생되어, 사용자의 단말(100)의 화면에 제2 콘텐츠 및 제3 콘텐츠가 분할되어 표시되도록 제어할 수 있다.

장치(200)는 사용자의 단말(100)을 통해 제공되는 콘텐츠들이 시각적으로 효과적으로 전달되므로 사용자는 다양한 정보를 놓치지 않고 접할 수 있도록 하고, 사용자는 오디션 가능 지역에서 진행될 오디션의 정보와 오디션 가능 지역에 위치한 기획사의 소개에 대한 흥미를 높이고, 더 많은 오디션 참가 기회를 얻을 수 있다. 또한 기획사들에 대한 정보도 쉽게 접하면서 음악적 활동에 대한 선택과 의사 결정에 도움을 줄 수 있다.

도 18은 일실시예에 따른 장치의 구성의 예시도이다.

일실시예에 따른 장치(200)는 프로세서(210) 및 메모리(220)를 포함한다. 일실시예에 따른 장치(200)는 상술한 서버 또는 단말일 수 있다. 프로세서(210)는 도 1 내지 도 17을 통하여 전술한 적어도 하나의 장치들을 포함하거나, 도 1 내지 도 17을 통하여 전술한 적어도 하나의 방법을 수행할 수 있다. 메모리(220)는 도 1 내지 도 17을 통하여 상술한 방법과 관련된 정보를 저장하거나 상술한 방법이 구현된 프로그램을 저장할 수 있다. 메모리(220)는 휘발성 메모리 또는 비휘발성 메모리일 수 있다.

프로세서(210)는 프로그램을 실행하고, 장치(200)를 제어할 수 있다. 프로세서(210)에 의하여 실행되는 프로그램의 코드는 메모리(220)에 저장될 수 있다. 장치(200)는 입출력 장치(도면 미 표시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims

장치에 의해 수행되는, 사용자 보컬 평가 기반 사용자 맞춤 오디션 곡 선정 방법에 있어서,
사용자의 단말로부터 맞춤 오디션 곡의 추천 요청 메시지를 수신하는 단계;
상기 사용자의 단말로부터 사용자의 보컬 데이터를 획득하는 단계;
상기 사용자의 보컬 데이터를 기초로, 곡 정보를 획득하는 단계;
상기 사용자의 보컬 데이터 및 상기 곡 정보를 보컬 평가 인공지능 모델에 적용하여 상기 사용자의 평가 결과 데이터를 출력하는 단계;
상기 사용자의 평가 결과 데이터를 기초로, 상기 사용자의 보컬 레벨을 산출하는 단계;
상기 사용자의 평가 결과 데이터를 기초로, 상기 사용자의 발성 속성을 생성하는 단계;
상기 사용자의 보컬 레벨 및 상기 사용자의 발성 속성을 기초로, 상기 사용자의 맞춤 오디션 곡을 선정하는 단계를 포함하고,
상기 보컬 평가 인공지능 모델은
상기 곡 정보를 통해 제1 설정 구간의 음과 음 사이의 거리인 제1 거리 및 음의 높이인 제1 높이를 파악하고, 상기 사용자의 보컬 데이터를 통해 상기 제1 설정 구간에 대응하는 제2 설정 구간의 음과 음 사이의 거리인 제2 거리 및 상기 음의 높이인 제2 높이를 파악하고, 상기 제1 거리와 상기 제2 거리를 비교하고, 상기 제1 높이와 상기 제2 높이를 비교하여 상기 제1 거리와 상기 제2 거리의 차이가 미리 설정된 제1 기준 차이 내에 포함되고, 상기 제1 높이와 상기 제2 높이의 차이가 미리 설정된 제2 기준 차이 내에 포함되었다고 확인되면 O를 출력하고, 상기 제1 거리와 상기 제2 거리의 차이가 상기 제1 기준 차이 내에 포함되어 있지 않거나, 상기 제1 높이와 상기 제2 높이의 차이가 상기 제2 기준 차이 내에 포함되어 있지 않다고 확인되면 X를 출력하는 음감 평가 모델,
상기 곡 정보를 통해 기준 BPM을 확인하고, 상기 사용자의 보컬 데이터를 통해 상기 기준 BPM을 벗어난 구간을 생성하고, 상기 기준 BPM을 벗어난 구간이 미리 설정된 기준 시간보다 짧다고 확인되면 O를 출력하고, 상기 기준 BPM을 벗어난 구간이 상기 기준 시간보다 길거나 동일하다고 확인되면 X를 출력하는 템포감 평가 모델,
상기 사용자의 보컬 데이터를 통해 비브라토가 포함된 횟수를 파악하여, 상기 비브라토가 미리 설정한 제1 기준 횟수 이상 포함되었다고 확인되면 O를 출력하고, 상기 비브라토가 상기 제1 기준 횟수보다 적게 포함되었다고 확인되면 X를 출력하는 호흡 컨트롤 평가 모델,
상기 사용자의 보컬 데이터를 통해 벤딩 표현된 횟수 및 바이브레이션이 포함된 횟수를 파악하여, 상기 벤딩 표현된 횟수 및 상기 바이브레이션이 포함된 횟수가 미리 설정한 제2 기준 횟수 이상 포함되었다고 확인되면 O를 출력하고, 상기 벤딩 표현된 횟수 및 상기 바이브레이션이 포함된 횟수가 상기 제2 기준 횟수보다 포함되었다고 확인되면 X를 출력하는 리듬감 평가 모델,
상기 사용자의 보컬 데이터를 통해 상기 사용자의 음역대를 확인하고, 상기 사용자의 음역대를 기초로 기준 고음 높이를 생성하고, 상기 기준 고음 높이에서 음의 변화가 미리 설정된 기준보다 작다고 확인되면 O를 출력하고, 상기 기준 고음 높이에서 음의 변화가 상기 기준 보다 크거나 같다고 확인되면 X를 출력하는 고음 안정감 평가 모델,
상기 사용자의 보컬 데이터를 통해 딕션의 강세 변화 횟수를 생성하고, 상기 사용자의 보컬 데이터를 통해 소리의 질감 변화 횟수를 생성하고, 볼륨의 크기 변화 횟수를 생성하여, 상기 딕션의 강세 변화 횟수, 상기 소리의 질감 변화 횟수, 및 상기 볼륨의 크기 변화 횟수를 합산한 횟수인 상기 사용자의 표현 횟수가 미리 설정된 제3 기준 횟수 이상이라고 확인되면 O를 출력하고, 상기 사용자의 표현 횟수가 상기 제3 기준 횟수보다 적다고 확인되면 X를 출력하는 표현력 평가 모델,
상기 음감 평가 모델, 상기 템포감 평가 모델, 상기 호흡 컨트롤 평가 모델, 상기 리듬감 평가 모델, 상기 고음 안정감 평가 모델, 상기 표현력 평가 모델에서 모두 O가 출력된 경우, 상기 사용자의 보컬 데이터를 통해 임팩트가 있는 부분이 있는지 여부를 파악하여, 상기 임팩트가 있는 부분이 있다고 확인되면 O를 출력하고, 상기 임팩트가 있는 부분이 없다고 확인되면 X를 출력하는 완성도 평가 모델,
상기 사용자의 보컬 데이터를 통해 상기 사용자의 평균 음성 주파수를 확인하고, 상기 사용자의 평균 음성 주파수가 미리 설정된 기준 주파수보다 높다고 확인되면 H를 출력하고, 상기 사용자의 평균 음성 주파수가 상기 기준 주파수보다 낮거나 동일하다고 확인되면 L을 출력하는 톤 평가 모델, 및
상기 사용자의 보컬 데이터를 통해 상기 사용자의 평균 음성 데시벨을 확인하고, 상기 사용자의 보컬 데이터를 통해 상기 사용자의 성대접지 여부를 확인하여, 상기 사용자의 평균 음성 데시벨이 미리 설정된 기준 데시벨보다 크고 상기 사용자의 성대가 접지되었다고 확인되면 M을 출력하고, 상기 사용자의 평균 음성 데시벨이 상기 기준 데시벨보다 크고 상기 사용자의 성대가 접지되지 않았다고 확인되면 F를 출력하고, 상기 사용자의 평균 음성 데시벨이 상기 기준 데시벨보다 작거나 동일하고 상기 사용자의 성대가 접지되었다고 확인되면 O를 출력하고, 상기 사용자의 평균 음성 데시벨이 상기 기준 데시벨보다 작거나 동일하고 상기 사용자의 성대가 접지되지 않았다고 확인되면 S를 출력하는 발성 평가 모델을 포함하고,
상기 사용자의 평가 결과 데이터를 기초로, 상기 사용자의 보컬 레벨을 산출하는 단계는,
상기 사용자의 종합 보컬 레벨을 산출하는 단계, 및
음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도를 포함하는 항목에 각각 매칭된 O 또는 X를 기초로, 항목 별 보컬 레벨을 산출하는 단계를 포함하고,
상기 사용자의 종합 보컬 레벨을 산출하는 단계는
상기 보컬 평가 인공지능 평가 모델을 통해 출력된 O의 개수를 확인하는 단계, 및
상기 O의 개수에 +1을 적용하여 상기 사용자의 종합 보컬 레벨을 생성하는 단계를 포함하고,
음감, 템포감, 호흡, 리듬감, 고음, 표현력, 완성도를 포함하는 항목에 각각 매칭된 O 또는 X를 기초로, 항목 별 보컬 레벨을 산출하는 단계는,
상기 사용자의 종합 보컬 레벨이 생성되면, 상기 보컬 레벨을 산출하고자 하는 항목의 O, X 여부를 확인하는 단계,
상기 O로 평가된 항목일 경우, 상기 사용자의 종합 보컬 레벨과 동일한 레벨 값의 보컬 레벨을 부여하는 단계,
상기 X로 평가된 항목일 경우, 상기 항목이 완성도인지 여부를 판단하는 단계,
상기 항목이 완성도일 경우, 상기 사용자의 종합 보컬 레벨에서 -3을 적용하여 생성된 레벨 값의 보컬 레벨을 부여하는 단계, 및
상기 항목이 완성도가 아닐 경우, 상기 사용자의 종합 보컬 레벨에서 -2를 적용하여 생성된 레벨 값의 보컬 레벨을 부여하는 단계를 포함하고,
상기 사용자의 평가 결과 데이터를 기초로, 상기 사용자의 발성 속성을 생성하는 단계는,
상기 톤 평가 모델을 통해 출력된 값과 상기 발성 평가 모델을 통해 출력된 값을 조합하여 HF, LF, HM, LH, HS, LS, HO, LO 중 하나를 상기 사용자의 발성 속성으로 생성하는 단계인,
사용자 보컬 평가 기반 사용자 맞춤 오디션 곡 선정 방법.
삭제
제1항에 있어서,
상기 사용자의 보컬 레벨 및 상기 사용자의 발성 속성을 기초로, 상기 사용자의 맞춤 오디션 곡을 선정하는 단계는,
상기 사용자의 단말로부터 적어도 두 가지 이상의 상기 사용자의 선호 음악 장르를 획득하는 단계,
상기 사용자의 선호 음악 장르를 기초로, 사용자 맞춤형 장르를 선정하는 단계,
상기 사용자 맞춤형 장르를 기초로, 상기 사용자의 맞춤 오디션 곡을 선정하는 단계를 포함하고,
상기 사용자의 단말로부터 상기 사용자의 선호 음악 장르로 제1 장르, 제2 장르를 획득한 경우, 상기 사용자의 선호 음악 장르를 기초로, 사용자 맞춤형 장르를 선정하는 단계는,
상기 사용자의 단말로부터 획득한 보컬 데이터 중 상기 제1 장르에 대응하는 보컬 데이터를 제1 보컬 데이터로 선정하는 단계,
상기 사용자의 단말로부터 획득한 보컬 데이터 중 상기 제2 장르에 대응하는 보컬 데이터를 제2 보컬 데이터로 선정하는 단계,
상기 제1 보컬 데이터에 대응하는 사용자의 보컬 레벨을 기초로, 제1 평균 레벨을 생성하는 단계,
상기 제2 보컬 데이터에 대응하는 사용자의 보컬 레벨을 기초로, 제2 평균 레벨을 생성하는 단계,
상기 제1 평균 레벨 및 상기 제2 평균 레벨을 비교하는 단계,
상기 제1 평균 레벨이 상기 제2 평균 레벨보다 더 높다고 판단되면, 상기 제1 장르를 사용자 맞춤형 장르로 선정하는 단계,
상기 제2 평균 레벨이 상기 제1 평균 레벨보다 더 높다고 판단되면, 상기 제2 장르를 사용자 맞춤형 장르로 선정하는 단계,
상기 제1 평균 레벨과 상기 제2 평균 레벨이 동일하다고 확인되면, 상기 제1 보컬 데이터에 매칭된 상기 사용자의 보컬 레벨 간의 표준편차, 상기 제2 보컬 데이터에 매칭된 상기 사용자의 보컬 레벨 간의 표준편차를 확인하여 보컬 레벨 간의 표준편차가 더 작은 장르를 사용자 맞춤형 장르로 선정하는 단계를 포함하고,
상기 사용자 맞춤형 장르를 기초로, 상기 사용자의 맞춤 오디션 곡을 선정하는 단계는,
상기 사용자 맞춤형 장르와 매칭된 보컬 데이터 중 가장 높은 레벨이 미리 설정된 목표 레벨보다 높은지 확인하는 단계,
상기 사용자 맞춤형 장르와 매칭된 보컬 데이터 중 가장 높은 레벨이 상기 목표 레벨보다 높다고 확인되면, 해당 보컬 데이터에 대응하는 곡을 상기 사용자의 맞춤 오디션 곡을 선정하는 단계,
상기 사용자 맞춤형 장르와 매칭된 보컬 데이터 중 가장 높은 레벨이 상기 목표 레벨보다 높지 않다고 확인되면, 오디션 곡 데이터베이스를 통해 상기 사용자 맞춤형 장르에 매칭된 곡을 후보 오디션 곡으로 확인하는 단계,
상기 후보 오디션 곡에 대응하여 상기 사용자의 연령과 동일한 연령을 갖는 사용자의 인원 수를 확인하여 상기 후보 오디션 곡의 연령 점수를 생성하는 단계,
상기 후보 오디션 곡에 대응하여 상기 사용자의 성별과 동일한 성별을 갖는 사용자의 인원 수를 확인하여 상기 후보 오디션 곡의 성별 점수를 생성하는 단계,
상기 후보 오디션 곡에 대응하여 상기 사용자의 발성 속성과 동일한 발성 속성을 갖는 사용자의 인원 수를 확인하여 상기 후보 오디션 곡의 발성 점수를 생성하는 단계,
상기 연령 점수, 상기 성별 점수, 상기 발성 점수를 모두 합한 값으로 상기 후보 오디션 곡의 합산 점수를 생성하는 단계, 및
합산 점수가 가장 높은 후보 오디션 곡을 상기 사용자의 맞춤 오디션 곡으로 선정하는 단계를 포함하고,
합산 점수가 가장 높은 후보 오디션 곡을 상기 사용자의 맞춤 오디션 곡으로 선정하는 단계에서,
상기 합산 점수가 가장 높은 후보 오디션 곡이 적어도 2개 이상인 것으로 확인되면,
상기 사용자의 단말로부터 상기 합산 점수가 가장 높은 후보 오디션 곡에 대응하는 보컬 데이터인 후보 오디션 곡 보컬 데이터를 획득하는 단계,
상기 오디션 곡 데이터베이스로부터 상기 합산 점수가 가장 높은 후보 오디션 곡의 오디오 파일을 획득하는 단계,
상기 후보 오디션 곡 보컬 데이터의 피치 및 길이를 수정하여 상기 합산 점수가 가장 높은 후보 오디션 곡의 오디오 파일과 합성하여 모니터링 데이터를 생성하는 단계, 및
상기 모니터링 데이터 및 자가 진단 인터페이스를 상기 사용자의 단말로 제공하는 단계를 포함하는
사용자 보컬 평가 기반 사용자 맞춤 오디션 곡 선정 방법.