KR20090041392A

KR20090041392A - 악곡 연습 지원 장치, 악곡 연습 지원 장치의 제어 방법, 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터로 실행시키는 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체

Info

Publication number: KR20090041392A
Application number: KR1020097002261A
Authority: KR
Inventors: 아까네 노구찌
Original assignee: 야마하 가부시키가이샤
Priority date: 2006-07-05
Filing date: 2007-06-29
Publication date: 2009-04-28
Also published as: WO2008004641A1; JP2008015195A; KR100949872B1; US8027631B2; JP4124247B2; US20090317783A1

Abstract

본 발명은 가창자가 자신의 가창을 어떻게 수정하면 좋은지를 청각적으로 인식할 수 있는 기술을 제공한다. 노래방 장치(1)의 CPU(11)는, 모범 음성 데이터 기억 영역(14a)에 기억된 모범 음성 데이터와, 입력된 연습자 음성 데이터를 시간축 방향으로 대응시킨다. 계속해서, CPU(11)는, 대응 부여 결과에 따라서, 연습자 음성 데이터의 피치를, 당해 피치에 대응하는 모범 음성 데이터의 피치에 일치시키도록 시프트하는 동시에, 연습자 음성 데이터의 구간(음절)의 구간 길이를, 당해 구간에 대응하는 모범 음성 데이터의 구간의 구간 길이에 일치시키도록, 당해 구간을 시간축 방향으로 압축 또는 신장하고, 연습자 음성 데이터를 음성 처리부(18)로 출력한다. 음성 처리부(18)는 CPU(11)로부터 공급되는 연습자 음성 데이터를 아날로그 신호로 변환하고, 스피커(19)로부터 음성을 방출시킨다.

노래방 장치, CPU, 모범 음성 데이터 기억 영역, 음성 처리부, 스피커

Description

악곡 연습 지원 장치 {SONG PRACTICE SUPPORT DEVICE}

본 발명은 악곡 연습 지원 장치에 관한 것이다.

최근 노래방 장치에 있어서, 가창자의 가창 실력을 채점하기 위한 방법이 다양하게 제안되어 있다. 예를 들어, 일본 특허 출원 공개 제2005-128372호 공보에는, 사용자 입력의 음성 신호를 기초로 하는 음성 데이터로부터, 소정의 프레임마다의 피치를 추출하고, 프레임마다 추출된 피치와, 악음 데이터를 기초로 하는 음 높이를 비교하여, 사용자의 음성의 피치의 정확함을 판정하는 방법이 제안되어 있다. 이와 같이 가창 실력을 채점하는 노래방 장치에 있어서는, 채점 결과인 점수를 화면에 표시하는 것이 일반적이다.

그런데, 가창자가 자신의 가창의 어느 부분을 어떻게 수정하면 좋은지를 소리로 인식할 수 있으면 적절하다. 그러나, 종래 채점 방법에 있어서는, 점수가 표시되는 것뿐이기 때문에, 가창자는 자신의 가창을 어떻게 수정하면 좋은지를 소리로 인식할 수는 없었다. 이것은 악곡의 가창에 한정되지 않고, 악기의 연주에 대해서도 마찬가지이다.

본 발명은 상술한 배경하에 이루어진 것으로, 가창자가 자신의 가창을 어떻게 수정하면 좋은지를 청각적으로 인식할 수 있는 기술을 제공하는 것을 목적으로 한다.

상기 목적을 달성하기 위해, 본 발명의 제1 형태에 따르면, 미리 기억된 모범 음성 데이터와 입력된 연습자 음성 데이터를 시간축 방향으로 대응시키는 대응 부여 수단과, 상기 대응 부여 수단의 대응 부여 결과에 따라서, 상기 연습자 음성 데이터의 피치를, 당해 피치에 대응하는 상기 모범 음성 데이터의 피치에 일치시키도록 시프트하는 피치 시프트 수단과, 상기 대응 부여 수단의 대응 부여 결과에 따라서, 상기 연습자 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간의 구간 길이를, 당해 구간에 대응하는 모범 음성 데이터의 구간의 구간 길이에 일치시키도록, 당해 구간을 시간축 방향으로 압축 또는 신장하는 타임 스트래치 수단과, 상기 피치 시프트 수단에 의해 피치를 시프트하는 동시에 상기 타임 스트래치 수단에 의해 시간축 방향으로 압축 또는 신장된 연습자 음성 데이터를 음성 방출 수단으로 출력하는 출력 수단을 구비하는 악곡 연습 지원 장치가 제공된다.

본 발명의 제1 형태에 있어서, 상기 모범 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간마다의 구절 위치를 나타내는 구절 정보를 기억하는 기억 수단과, 상기 기억 수단에 기억된 구절 정보와 상기 대응 부여 수단의 대응 부여 결과에 따라서, 상기 모범 음성 데이터와 상기 연습자 음성 데이터를 상기 구간마다 대응시키고, 각 구간마다, 상기 모범 음성의 구간 길이와 상기 연습자 음성의 구간 길이의 비를 산출하는 구간 길이비 산출 수단과, 상기 구간 길이비 산출 수단에 의해 산출된 비에 따라서, 구간마다의 모범 음성과 연습자 음성의 대응 부위를 소정 시간 길이의 프레임 단위로 특정하는 대응 부위 특정 수단을 구비하고, 상기 피치 시프트 수단은, 상기 대응 부위 특정 수단의 특정 결과에 따라서, 상기 입력된 음성 데이터의 나타내는 연습자 음성의 피치를, 당해 피치에 대응하는 모범 음성의 피치에 일치시키도록 시프트하는 것이 바람직하다.

본 발명의 제1 형태에 있어서, 상기 피치 시프트 수단은, 상기 대응 부위 특정 수단의 특정 결과에 따라서, 상기 모범 음성의 피치에 대응하는 연습자 음성의 피치가 검출된 프레임에 있어서는, 검출된 피치를 당해 피치에 대응하는 모범 음성의 피치에 일치시키도록 시프트하고, 한편, 피치가 검출되지 않은 프레임에 있어서는, 당해 프레임에 근접하는 프레임의 피치에서 당해 프레임의 피치를 보간하는 것이 바람직하다.

상기 목적을 달성하기 위해, 본 발명의 제2 형태에 따르면, 악곡 연습 지원 장치의 제어 방법이며, 미리 기억된 모범 음성 데이터와 입력된 연습자 음성 데이터를 시간축 방향으로 대응시키는 대응 부여 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터의 피치를, 당해 피치에 대응하는 상기 모범 음성 데이터의 피치에 일치시키도록 시프트하는 피치 시프트 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간의 구간 길이를, 당해 구간에 대응하는 모범 음성 데이터의 구간의 구간 길이에 일치시키도록, 당해 구간을 시간축 방향으로 압축 또는 신장하는 타임 스트래치 스텝과, 상기 피치 시프트 스텝에 의해 피치를 시프트하는 동시에 상기 타임 스트래치 스텝에 의해 시간축 방향으로 압축 또는 신장된 연습자 음성 데이터를 음성 방출 수단으로 출력하는 출력 스텝을 구비하는 제어 방법이 제공된다.

본 발명의 제2 형태에 있어서, 상기 모범 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간마다의 구절 위치를 나타내는 구절 정보를 기억하는 기억 스텝과, 상기 기억 스텝에 의해 기억된 구절 정보와 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 모범 음성 데이터와 상기 연습자 음성 데이터를 상기 구간마다 대응시키고, 각 구간마다, 상기 모범 음성의 구간 길이와 상기 연습자 음성의 구간 길이의 비를 산출하는 구간 길이비 산출 스텝과, 상기 구간 길이비 산출 단계에 의해 산출된 비에 따라서, 구간마다의 모범 음성과 연습자 음성의 대응 부위를 소정 시간 길이의 프레임 단위로 특정하는 대응 부위 특정 스텝을 구비하고, 상기 피치 시프트 스텝은, 상기 대응 부위 특정 스텝에 의한 특정 결과에 따라서, 상기 입력된 음성 데이터가 나타내는 연습자 음성의 피치를, 당해 피치에 대응하는 모범 음성의 피치에 일치시키도록 시프트하는 것이 바람직하다.

본 발명의 제2 형태에 있어서, 상기 피치 시프트 스텝은, 상기 대응 부위 특정 스텝에 의한 특정 결과에 따라서, 상기 모범 음성의 피치에 대응하는 연습자 음성의 피치가 검출된 프레임에 있어서는, 검출된 피치를 당해 피치에 대응하는 모범 음성의 피치에 일치시키도록 시프트하고, 한편, 피치가 검출되지 않은 프레임에 있어서는, 당해 프레임에 근접하는 프레임의 피치에서 당해 프레임의 피치를 보간하는 것이 바람직하다.

상기 목적을 달성하기 위해, 본 발명의 제3 형태에 따르면, 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터에 실행시키는 프로그램이며, 상기 제어 방법은, 미리 기억된 모범 음성 데이터와 입력된 연습자 음성 데이터를 시간축 방향으로 대응시키는 대응 부여 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터의 피치를, 당해 피치에 대응하는 상기 모범 음성 데이터의 피치에 일치시키도록 시프트하는 피치 시프트 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간의 구간 길이를, 당해 구간에 대응하는 모범 음성 데이터의 구간의 구간 길이에 일치시키도록, 당해 구간을 시간축 방향으로 압축 또는 신장하는 타임 스트래치 스텝과, 상기 피치 시프트 스텝에 의해 피치를 시프트하는 동시에 상기 타임 스트래치 스텝에 의해 시간축 방향으로 압축 또는 신장된 연습자 음성 데이터를 음성 방출 수단으로 출력하는 출력 스텝을 구비하는 프로그램이 제공된다.

도1은 노래방 장치의 하드웨어 구성의 일례를 나타내는 블록도이다.

도2는 노래방 장치의 소프트웨어 구성의 일례를 나타내는 블록도이다.

도3은 DP 매칭을 나타내는 도면이다.

도4는 모범 음성과 연습자 음성의 대응 관계의 일례를 나타내는 도면이다.

도5는 노래방 장치의 CPU가 행하는 처리의 흐름을 나타내는 흐름도이다.

도6은 노래방 장치의 CPU가 행하는 처리의 흐름을 나타내는 흐름도이다.

도7은 모범 음성과 연습자 음성의 대응 관계의 일례를 나타내는 도면이다.

도8은 모범 음성과 연습자 음성의 대응 관계의 일례를 나타내는 도면이다.

다음에, 본 발명을 실시하기 위한 최량의 형태를 설명한다.

도1은 본 발명의 일 실시 형태인 악곡 연습 지원 장치로서의 노래방 장치(1)의 하드웨어 구성을 예시한 블록도이다. CPU(Central Processing Unit)(11)는 ROM(Read Only Memory)(12) 또는 기억부(14)에 기억되어 있는 컴퓨터 프로그램을 판독하여 RAM(Random Access Memory)(13)에 로드하고, 이것을 실행함으로써, 노래방 장치(1)의 각 부를 제어한다. 기억부(14)는, 예를 들어 하드 디스크 등의 대용량의 기억 수단이고, 반주ㆍ가사 데이터 기억 영역(14a)과, 구절 데이터 기억 영역(14b)과, 모범 음성 데이터 기억 영역(14c)과, 연습자 음성 데이터 기억 영역(14d)을 갖고 있다. 표시부(15)는, 예를 들어 액정 디스플레이 등이고, CPU(11)의 제어하에서, 노래방 장치(1)를 조작하기 위한 메뉴 화면이나, 배경 화상에 가사 텔롭이 겹쳐진 노래방 화면 등의 각종 화면을 표시한다. 조작부(16)는, 각종 키를 구비하고 있고, 눌러진 키에 대응한 신호를 CPU(11)로 출력한다. 마이크로폰(17)은, 연습자가 발성한 음성을 수음하고, 음성 신호(아날로그 데이터)를 출력한다. 음성 처리부(18)는, 마이크로폰(17)이 출력하는 음성 신호(아날로그 데이터)를 디지털 데이터로 변환하여 CPU(11)로 출력한다. 스피커(19)는, 음성 처리부(18)로부터 출력되는 음성을 음성 방출한다.

기억부(14)의 반주ㆍ가사 데이터 기억 영역(14a)에는, 악곡의 반주를 행하는 각종 악기의 연주음이 악곡의 진행에 수반하여 기록된 반주 데이터와, 악곡의 가사를 나타내는 가사 데이터를 관련시켜 기억되어 있다. 반주 데이터는, 예를 들어 MIDI(Musical Instruments Digital Interface) 형식 등의 데이터 형식이고, 연습자가 노래방 가창할 때에 재생된다. 가사 데이터는, 그 노래방 가창시에 가사 텔롭으로서 표시부(15)에 표시된다.

모범 음성 데이터 기억 영역(14c)에는, 예를 들어 WAVE 형식이나 MP3(MPEGl Audio Layer-3) 형식 등의 음성 데이터이며, 반주 데이터에 의해 나타내는 반주에 따라서 가창자가 가창한 음성(이하, 모범 음성)을 나타내는 음성 데이터(이하, 모범 음성 데이터)가 기억되어 있다.

구절 데이터 기억 영역(14b)에는, 모범 음성 데이터 기억 영역(14c)에 기억된 모범 음성 데이터가 나타내는 모범 음성에 포함되는 음절(구간)마다의 구절 위치를 나타내는 구절 데이터가 기억되어 있다. 본 실시 형태에 있어서는, 이 구절 데이터는, 각 구간의 개시 시각을 나타내는 정보이다. 기억부(14)의 연습자 음성 데이터 기억 영역(14d)에는, 마이크로폰(17)으로부터 음성 처리부(18)를 거쳐 A/D 변환된 음성 데이터가, 예를 들어 WAVE 형식이나 MP3 형식으로, 반주 개시로부터의 경과 시간을 나타내는 정보와 함께 시계열로 기억된다. 이 음성 데이터는, 연습자의 음성(이하, 연습자 음성)을 나타내는 음성 데이터이기 때문에, 이하에서는 연습자 음성 데이터라 한다.

다음에, 도2에 나타내는 블록도를 참조하면서, 노래방 장치(1)의 소프트웨어 구성에 대해 설명한다. 도2에 나타낸 기초 분석부(111), 피치 시프트 지시 정보 생성부(112), 타임 스트래치 지시 정보 생성부(113), 가공 처리부(114) 및 출력부(115)는, CPU(11)가 ROM(12) 또는 기억부(14)에 기억된 컴퓨터 프로그램을 실행함으로써 실현된다. 또한, 도면 중의 화살표는, 데이터의 흐름을 개략적으로 나타낸 것이다.

도2에 있어서, 기초 분석부(111)는, 모범 음성 데이터 기억 영역(14c)으로부터 판독된 모범 음성 데이터와, 연습자 음성 데이터 기억 영역(14d)으로부터 판독된 연습자 음성 데이터를, 각각 소정 시간 길이의 프레임 단위로 각 음성 데이터의 피치 및 스펙트럼을 검출한다. 스펙트럼의 검출에는 FFT(Fast Fourier Transform)가 사용된다. 기초 분석부(111)에 의해 검출된 모범 음성 데이터의 피치와 연습자 음성 데이터의 피치는, 피치 시프트 지시 정보 생성부(112)로 출력된다.

또한, 기초 분석부(111)는, 검출한 스펙트럼을 기초로 하여 양자의 대응 관계를 구한다. 모범 음성과 연습자 음성은 시간적으로 전후로 어긋나 있을 가능성이 있다. 예를 들어, 연습자가 발음 타이밍을 잘못하여 가창한 경우나, 또는 모범이 되는 가창자가 노래 시작이나 노래 끝을 의도적으로 어긋나게 하여 가창한 경우 등은, 모범 음성과 연습자 음성은 시간적으로 전후로 어긋나 있다. 이와 같이 모범 음성과 연습자 음성이 시간적으로 전후로 어긋나 있는 경우라도, 양자를 대응되도록 하기 위해, 연습자 음성 데이터의 시간축을 신축시키는 시간 정규화(DTW : Dynamic Time Warping)를 행하고, 양자의 시간축을 맞춘다. 이 DTW를 행하기 위한 방법으로서는, 본 실시 형태에서는 DP(Dynamic Programming : 동적 계획법)를 사용한다. 구체적으로는 이하와 같은 처리로 된다.

기초 분석부(111)는, 도3에 나타낸 바와 같은 좌표 평면(이하, DP 플레인이라 함)을 RAM(13)에 형성한다. 이 DP 플레인의 종축은, 모범 음성 데이터의 각 프레임의 스펙트럼의 절대값의 로그에 역푸리에 변환을 걸 수 있는 파라미터에 대응하고 있고, 횡축은, 연습자 음성 데이터의 각 프레임으로부터 얻은 스펙트럼의 절대값의 로그에 역푸리에 변환을 걸 수 있는 파라미터(캡스트럼)에 대응하고 있다. 도3에 있어서, a1, a2, a3…an은 모범 음성 데이터의 각 프레임을 시간축에 따라서 나열한 것이고, b1, b2, b3…bn은 연습자 음성 데이터의 각 프레임을 시간축에 따라서 나열한 것이다. 종축의 a1, a2, a3…an의 간격과 횡축의 b1, b2, b3…bn의 간격은, 모두 프레임의 시간 길이와 대응하고 있다. 이 DP 플레인에 있어서의 각 격자점의 각각에는, a1, a2, a3…의 각 파라미터와, b1, b2, b3…의 각 파라미터의 유클리드 거리를 각각 나타내는 값인 DP 매칭 스코어가 대응되고 있다. 예를 들어, a1과 b1에 의해 위치 결정되는 격자점에는, 모범 음성 데이터의 일련의 프레임 중 최초의 프레임으로부터 얻은 파라미터와 연습자 음성 데이터의 일련의 프레임 중 최초의 프레임으로부터 얻은 파라미터의 유클리드 거리를 나타내는 값이 대응되게 된다. 기초 분석부(111)는, 이와 같은 구조를 이루는 DP 플레인을 형성한 후, a1과 b1에 의해 위치 결정되는 격자점(시단)으로부터 an과 bn에 의해 위치 결정되는 격자점(종단)에 이르는 전체 경로를 탐색하고, 탐색한 각 경로마다, 그 시단으로부터 종단까지 사이로 더듬어가는 각 격자점의 DP 매칭 스코어를 누산해 가고, 최소의 누산값을 구한다. 이 DP 매칭 스코어의 누산값이 가장 작아지는 경로는, 연습자 음성 데이터의 각 프레임의 시간축을 모범 음성 데이터의 시간축에 맞추어 신축할 때에 있어서의 신축의 척도로서 참작된다.

그리고, 기초 분석부(111)는, DP 매칭 스코어의 누산값이 최소로 되는 경로를 DP 플레인 상으로부터 특정하고, 특정한 경로의 내용에 따라서 연습자 음성 데이터의 시간축을 신축하는 처리인 얼라인먼트 처리를 행한다. 구체적으로는, DP 플레인 상으로부터 특정된 경로 상의 각 격자점의 DP 매칭 스코어가 시간축 상의 위치를 동일하게 하는 프레임으로부터 얻은 파라미터의 유클리드 거리를 나타내는 것으로 되도록, 연습자 음성 데이터의 각 프레임의 타임 스탬프의 내용을 재기록한 후에, 시간축 상의 위치를 동일하게 하는 각 프레임을 세트로서 순차 대응시켜 간다. 예를 들어, 도3에 나타내는 DP 플레인 상에 기록된 경로에 있어서는, a1과 b1에 의해 위치 결정되는 시점으로부터 그 우측 상방의 a2와 b2에 의해 위치 결정되는 격자점으로 진행하고 있는 것을 알 수 있다. 이 경우, a2와 b2의 프레임의 시간축 상의 위치는 당초부터 동일하므로, b2의 프레임의 타임 스탬프의 내용을 재기록할 필요는 없다. 또한, 이 경로에 있어서는, a2와 b2에 의해 위치 결정되는 격자점으로부터 그 우측의 a2와 b3에 의해 위치 결정되는 격자점으로 진행하고 있는 것을 알 수 있다. 이 경우, b2의 프레임뿐만 아니라 b3의 프레임도 a2의 프레임과 시간축 상의 위치를 동일하게 할 필요가 있으므로, b3의 프레임과 쌍을 이루고 있었던 타임 스탬프를 프레임 1개분만큼 빠른 것으로 재기록한다. 이 결과, a2의 프레임과 b2 및 b3의 프레임이 시간축 상의 위치를 동일하게 하는 프레임의 세트로서 대응되게 된다. 이와 같은 타임 스탬프의 치환과 프레임의 대응 부여가 b1로부터 bn에 이르는 전체 프레임 구간에 대해 행해진다. 이에 의해, 연습자 음성의 발음 타이밍과 모범 음성의 발음 타이밍이 어긋나 있었다고 해도, 맞추어진 시간축 상의 위치를 동일하게 하는 프레임(음소)끼리를 대응시킬 수 있다.

이상이 DP 매칭의 구조이다.

도4는 연습자 음성과 모범 음성과의 대응 부여의 일례를 나타내는 도면으로, 도4의 (a) 부분은 연습자 음성의 피치의 시간적 변화를 나타내는 그래프의 일례를 나타내는 것이고, 도4의 (b) 부분은 모범 음성의 피치의 시간적 변화를 나타내는 그래프의 일례를 나타내는 것이다. 도4에 있어서는, 연습자 음성의 발음 타이밍 t11과 모범 음성의 발음 타이밍 t21이 대응되고, 연습자 음성의 발음 타이밍 t12와 모범 음성의 발음 타이밍 t22가 대응된 모습을 나타내고 있다.

기초 분석부(111)에 의해 검출된 대응 부위는, 피치 시프트 지시 정보 생성부(112)로 출력되는 동시에, 타임 스트래치 지시 정보 생성부(113)로 출력된다.

피치 시프트 지시 정보 생성부(112)는, 모범 음성 데이터의 피치, 연습자 음성 데이터의 피치, 모범 음성과 연습자 음성의 대응 부위 및 구절 데이터를 기초로 하여, 연습자 음성 데이터의 피치와 당해 피치에 대응하는 부위에 있어서의 모범 음성 데이터의 피치와의 피치 차를 나타내는 피치 시프트 지시 정보를 생성한다. 피치 시프트 지시 정보 생성부(112)에 의해 생성된 피치 시프트 지시 정보는, 가공 처리부(114)로 출력된다.

타임 스트래치 지시 정보 생성부(113)는, 기초 분석부(111)에 의해 검출된 대응 부위와 구절 데이터를 기초로 하여, 프레임마다의 타임 스트래치를 거는 정도를 나타내는 타임 스트래치 지시 정보를 생성한다. 타임 스트래치 지시 정보 생성 부(113)에 의해 생성된 타임 스트래치 지시 정보는, 가공 처리부(114)로 출력된다.

가공 처리부(114)는, 피치 시프트 지시 정보 생성부(112)에 의해 생성된 피치 시프트 지시 정보를 기초로 하여 연습자 음성 데이터의 피치를 시프트하는 동시에, 타임 스트래치 지시 정보 생성부(113)에 의해 생성된 타임 스트래치 지시 정보를 기초로 하여 연습자 음성 데이터에 대해 타임 스트래치 처리를 실시하고, 연습자 음성 가공 데이터를 생성한다. 가공 처리부(114)에 의해 생성된 연습자 음성 가공 데이터는, 출력부(115)로 출력된다.

출력부(115)는, 가공 처리부(114)에 의해 생성된 연습자 음성 가공 데이터를 음성 처리부(18)로 출력한다.

다음에, 도5에 나타내는 흐름도를 참조하면서, 노래방 장치(1)의 동작을 설명한다.

연습자는, 노래방 장치(1)의 조작부(16)를 조작하여, 가창하고자 하는 악곡을 선택하는 조작을 행하고, 악곡의 재생을 지시한다. 조작부(16)는 조작된 내용에 따른 신호를 CPU(11)로 출력하고, CPU(11)는, 조작부(16)로부터 공급되는 신호에 따라서, 노래방 반주를 개시한다(스텝 S1). 즉, CPU(11)는, 반주ㆍ가사 데이터를 기억 영역(14a)으로부터 반주 데이터를 판독하여 음성 처리부(18)에 공급하고, 음성 처리부(18)는, 반주 데이터를 아날로그 신호로 변환하여, 스피커(19)에 공급하여 음성을 방출시킨다. 또한, CPU(11)는, 반주ㆍ가사 데이터 기억 영역(14a)으로부터 가사 데이터를 판독하여 가사 텔롭을 표시부(15)에 표시시킨다.

연습자는, 스피커(19)로부터 방출되는 반주에 맞추어 가창을 행한다. 이때, 연습자의 음성은 마이크로폰(17)에 의해 수음되어 음성 신호로 변환되고, 음성 처리부(18)로 출력된다. 음성 처리부(18)에 의해 A/D 변환된 연습자 음성 데이터는, 반주 개시로부터의 경과 시간을 나타내는 정보와 함께, 연습자 음성 데이터 기억 영역(14d)에 시계열로 기억(녹음)되어 간다(스텝 S2).

반주 데이터의 재생이 종료되면, CPU(11)는, 연습자 음성 데이터 기억 영역(14d)에 기억된 연습자 음성 데이터와, 모범 음성 데이터 기억 영역(14c)에 미리 기억되어 있는 모범 음성 데이터에 대해, 상술한 기초 분석부(111)의 처리를 행한다. 즉, CPU(11)는, 연습자 음성 데이터를 소정 시간 길이의 프레임 단위로 피치 및 스펙트럼을 산출하는 동시에(스텝 S3), 모범 음성 데이터를 소정 시간 길이의 프레임 단위로 피치 및 스펙트럼을 산출한다(스텝 S4). 이어서, CPU(11)는, 모범 음성의 스펙트럼과 연습자 음성의 스펙트럼을 기초로 하여, 연습자 음성 데이터의 시간축과 모범 음성 데이터의 시간축을 맞추고, 그 시간축 상의 위치를 동일하게 하는 음끼리를 대응시킴으로써 양자의 대응 부위를 검출한다(스텝 S5).

계속해서, CPU(11)는, 상술한 피치 시프트 지시 정보 생성부(112)의 처리를 행한다. 즉, CPU(11)는, 모범 음성 데이터의 피치, 연습자 음성 데이터의 피치, 모범 음성과 연습자 음성의 대응 부위 및 구절 데이터를 기초로 하여 피치 시프트 지시 정보를 생성한다(스텝 S6).

여기서, 스텝 S6에 나타내는 피치 시프트 지시 정보 생성 처리의 상세에 대해, 도6에 나타내는 흐름도를 참조하면서 이하에 설명한다.

도6에 있어서, CPU(11)는, 우선 스텝 S5의 처리에 의해 검출된 모범 음성과 연습자 음성의 대응 관계를 기초로 하여, 구절 데이터 기억 영역(14b)에 기억된 구절 데이터가 나타내는 각 구간의 개시 시각에 대응하는 시각을 산출하고, 모범 음성의 구간의 구간 길이와 그 구간에 대응하는 연습자 음성의 구간의 구간 길이의 비를 산출한다(스텝 S61). 즉, CPU(11)는, 구절 데이터 기억 영역(14b)에 기억된 구절 데이터와 스텝 S5의 처리에 의해 검출된 모범 음성 데이터와 연습자 음성 데이터의 대응 관계에 따라서, 모범 음성과 연습자 음성을 구간마다 대응시키고, 각 구간마다, 모범 음성의 구간 길이와 연습자 음성의 구간 길이의 비를 산출한다.

여기서, 스텝 S61에 나타내는 처리의 구체예에 대해, 도7을 참조하면서 이하에 설명한다. 도7에 있어서, 그래프 G1은 모범 음성의 피치의 시간적인 변화를 나타내는 그래프의 일례이고, 그래프 G2는 연습자 음성의 피치의 시간적인 변화를 나타내는 그래프의 일례이다. 구절 데이터 기억 영역(14b)에 기억된 구절 데이터가 나타내는 구간마다의 구절 위치(구간의 개시 시각)가, 도7의 t1, t2의 위치인 경우에는, CPU(11)는, 스텝 S5에 있어서 검출된 대응 관계를 기초로 하여, 연습자 음성에 있어서 구절 데이터가 나타내는 구절 위치와 대응하는 위치 t21, t22를 산출한다. 이어서, CPU(11)는, t1 내지 t2의 구간 길이 T1과, t21 내지 t22의 구간 길이T2의 비를 산출한다.

이어서, CPU(11)는, 연습자 음성에 포함되는 각 피치 요소에 대해, 그 피치 요소의 구간에 있어서의 위치를 산출한다(스텝 S62). 이어서, CPU(11)는, 스텝 S61에서 산출한 비에 따라서, 구간마다의 모범 음성과 연습자 음성의 대응 부위를 프레임 단위로 특정하고, 스텝 S62에서 산출된 연습자 음성의 각 피치 요소의 위치에 대응하는 위치(시각)에 모범 음성의 피치 요소가 있는지 여부를 판정한다(스텝 S63). 구체적으로는, 예를 들어, CPU(11)는, 스텝 S61에서 산출한 비로 비례 배분함으로써, 스텝 S62에서 산출한 각 피치 요소의 위치에 대응하는 모범 음성의 위치를 특정한다. 구체적으로는, 예를 들어, 도7에 나타내는 예에 있어서, 연습자 음성에 있어서의 피치 요소의 위치 p1에 대응하는 모범 음성의 위치를 p2로 하면,

T1 : T2 ＝ (p1 － t1) : (p2 － t21)

이기 때문에,

p2 ＝ t21 ＋ T2/T1(p1 － t1)

로서 산출된다.

스텝 S63에 있어서, 모범 음성의 구간 중의 대응하는 위치에 피치 요소가 있다고 판정된 경우, 즉, 연습자 음성에 있어서 특정된 위치에 대응하는 모범 음성의 위치에서 피치가 검출된 경우에는(스텝 S63 ; 예), CPU(11)는, 대응하는 모범 음성의 피치 요소의 피치를 산출한다(스텝 S64). 한편, 모범 음성의 구간 중의 대응하는 위치에 피치 요소가 없다고 판정된 경우에는(스텝 S63 ; 아니오), CPU(11)는, 모범 음성에 있어서 스텝 S63에서 특정된 프레임에 근접하는 프레임의 피치에서 당해 프레임의 피치를 보간한다(스텝 S65). 이 보간 처리는, 예를 들어 선형 보간 등에 의해 행한다.

이어서, CPU(11)는, 스텝 S64 또는 스텝 S65에서 산출된 피치와 연습자 음성의 피치 요소와의 차값이 임계값 이상인지 여부를 판정한다(스텝 S66). 임계값 이 상이라고 판정된 경우에는(스텝 S66 ; 예), CPU(11)는, 그 차값을 나타내는 정보를 피치 시프트 지시 정보로서 생성하고, 생성한 피치 시프트 지시 정보를 출력한다(스텝 S67). 한편, 스텝 S66에 있어서, 임계값 미만이라고 판정된 경우에는, CPU(11)는, 피치 시프트 지시 정보를 생성하지 않고, 스텝 S68의 처리로 진행한다. 이어서, CPU(11)는, 다음의 피치 요소가 있는지 여부를 판정하고(스텝 S68), 다음 피치 요소가 있다고 판정된 경우에는(스텝 S68 ; 예), CPU(11)는, 스텝 S62의 처리로 복귀되어, 다음의 피치 요소에 대해 상술한 스텝 S62로부터 스텝 S67의 처리를 실행한다. 한편, 다음의 피치 요소가 없다고 판단된 경우에는(스텝 S68 ; 아니오), CPU(11)는, 그대로 처리를 종료한다.

그런데, 가창 음성의 경우에는, 지속되는 동일한 발음의 부분(예를 들어 프레이즈의 말미 부분 등)이 존재한다. 이 지속 부분에서는 발음 내용이 동일하기 때문에, 모범 음성과 연습자 음성과의 대응 부위의 검출 결과를 그대로 얼라인먼트(대응 부여)하면, 예를 들어 도8의 시각 t221 내지 t222의 구간에 나타내어진 바와 같이, 그래프 G21에 의해 나타내어지는 모범 음성과 그래프 G22에 의해 나타내어지는 연습자 음성과의 얼라인먼트 선단이 변동되는 경우가 있다. 이와 같은 경우에는, 단순히 얼라인먼트 선단의 피치를 참조하여 피치 시프트를 행하면, 가공 후의 피치는, 도8의 그래프 G23에 나타내어지는 바와 같은, 모범 음성의 피치의 매끄러운 변화를 반영할 수 없는 것으로 되어 버리는 경우가 있었다. 이에 반해 본 실시 형태에 있어서는, CPU(11)가 구절 데이터 기억 영역(14b)에 기억된 구절 데이터를 사용하여, 구간 길이의 비에 따라서 대응 부여를 행하기 때문에, 도7의 그래 프 G3으로 나타내는 바와 같은, 모범 음성의 매끄러운 변화를 반영한 피치 시프트 처리를 실시할 수 있다.

또한, 음절의 구절만이 기억되어 있고, 음소의 구절이 기억되어 있지 않은 경우, 음성의 피치의 추출 상황으로, 발음 내용의 대응을 부여해도 좋다. 이것은, 지속되는 모음 부분은 피치가 추출되는 것에 반해, 자음 부분은 피치가 추출되지 않는 경우가 많기 때문이다.

도5의 설명으로 복귀한다. 피치 시프트 지시 정보 생성 처리(스텝 S6)에 이어서, CPU(11)는, 상술한 타임 스트래치 지시 정보 생성부(113)의 처리를 행한다. 즉, CPU(11)는, 대응 부위와 구절 데이터를 기초로 하여 타임 스트래치 지시 정보를 프레임마다 생성한다(스텝 S7).

이어서, CPU(11)는, 상술한 가공 처리부(114)의 처리를 행한다. 즉, CPU(11)는, 연습자 음성 데이터 기억 영역(14d)에 기억된 연습자 음성 데이터의 피치를, 피치 시프트 지시 정보를 기초로 하여, 연습자 음성의 피치를 모범 음성의 피치에 일치시키도록 시프트하는 동시에, 타임 스트래치 지시 정보를 기초로 하여, 연습자 음성의 발음 시간을 모범 음성의 발음 시간에 일치시키도록, 연습자 음성 데이터를 시간축 방향으로 압축 또는 신장하고, 연습자 음성 가공 데이터를 생성한다(스텝 S8).

또한, 스텝 S8에 있어서는, CPU(11)는, 피치 시프트 처리를 행한 후에 타임 스트래치 처리를 행하도록 해도 좋고, 또는 타임 스트래치 처리를 실시한 후에 피치 시프트 처리를 행하도록 해도 좋다. 또는, 연습자 음성 데이터에 대해 시계열 로, 피치 시프트 처리와 타임 스트래치 처리를 병행하여 행하도록 해도 좋다.

CPU(11)는, 생성된 연습자 음성 가공 데이터를 음성 처리부(18)로 출력한다(스텝 S9). 음성 처리부(18)는, 연습자 음성 가공 데이터를 아날로그 신호로 변환하여, 스피커(19)로부터 음성을 방출시킨다.

이와 같이, 연습자 음성 데이터에 대해 피치 시프트 처리를 행함으로써, 음의 높이를 그저 약간 연속적으로 상하시키고, 떨리는 음색을 내는 소위「비브라토」나, 목적의 음보다 낮은 음으로부터 발음하고, 음정을 매끄럽게 목적의 음에 가까이 해 가는 소위「음꺾기(bending)」등, 모범 음성으로 사용되고 있는 다양한 기법을 연습자 음성에 반영시킬 수 있다. 또한, 연습자 음성 데이터에 대해 타임 스트래치 처리를 행함으로써, 연습자의 발음 타이밍의 차이를 보정하거나, 또는 모범 음성에 있어서 노래 시작이나 노래 끝을 의도적으로 어긋나게 하는 소위「추성」이나「퇴성」등의 기법이 사용되고 있는 경우라도, 그들 기법을 연습자 음성에 반영시킬 수 있다. 출력되는 음성의 성질(聲質)은 연습자의 음성의 성질과 마찬가지이기 때문에, 연습자는, 방출되는 음성을 들음으로써, 자신이 정확하게 부른 경우의 이미지를 가질 수 있다.

이상, 본 발명의 실시 형태에 대해 설명했으나, 본 발명은 상술한 실시 형태에 한정되지 않고, 다른 다양한 형태로 실시 가능하다. 이하에 그 일례를 나타낸다.

(1) 상술한 실시 형태에 있어서는, 연습자의 가창 연습을 지원하는 경우를 예로 들어 설명했으나, 이것에 한정되지 않고, 연습자의 악기 연주의 연습을 지원하도록 해도 좋다. 이 경우, 반주ㆍ가사 데이터 기억 영역(14a)에는, 연습하고자 하는 악기(예를 들어 기타) 이외의 악기(예를 들어 베이스나 드럼)의 연주 데이터가 기억되어 있고, 모범 음성 데이터 기억 영역(14c)에는, 모범이 되는 모범 연주 데이터가 기억되어 있고, 연습자 음성 데이터 기억 영역(14d)에는, 연습자의 연주음을 나타내는 연주 데이터가 기억된다. 연습자는 연습하고자 하는 악기를 연주하고, 그 연주음은 마이크로폰(17)에 의해 수음되어 음성 신호로 변환되고, 음성 처리부(18)에서 디지털 신호로 변환되어 연습자 음성 데이터 기억 영역(14d)에 기억된다. 또한, 구절 데이터 기억 영역(14b)에는, 모범 음성 데이터가 나타내는 연주음에 포함되는 각 음의 개시 시각이나 종료 시각 등의 음의 구절 위치를 나타내는 정보가 기억된다. CPU(11)는, 이들 데이터를 기초로 하여, 상기와 같은 처리를 거쳐 연습자 음성 가공 데이터를 생성하여 음성을 방출한다.

(2) 상술한 실시 형태에서는, 연습자 음성 데이터를 기억할 때에는 가사를 표시하고, 또한 반주 데이터를 재생하면서 연습자에게 가창시키는, 소위 노래방 가창을 행하도록 하고 있었으나, 이것은 반드시 필요하지 않다. 즉, 연습자가 가사의 표시나 반주 데이터의 재생이 없었던 상태로 가창하고, 이것을 녹음하여 연습자 가공 데이터를 생성하도록 해도 좋다.

(3) 상술한 실시 형태에 있어서는, 모범 음성 데이터를 모범 음성 데이터 기억 영역(14c)에 기억시켜, 노래방 장치(1)의 CPU(11)가 기억부(14)로부터 모범 음성 데이터를 판독하도록 했으나, 이것 대신에, 통신 네트워크를 통해 모범 음성 데 이터를 수신하도록 해도 좋다.

또는, 모범 음성 데이터 그 자체를 기억해 두도록 하지 않고, 모범 음성의 피치나 스펙트럼을 나타내는 데이터를 기억시켜 두도록 해도 좋다. 이 경우에는, 노래방 장치의 CPU는, 모범 음성의 피치, 스펙트럼의 산출 처리를 행하지 않고, 기억부에 기억된 피치 데이터나 스펙트럼 데이터를 기초로 하여, 대응 부위의 검출이나 피치 시프트 처리, 타임 스트래치 처리를 실시한다.

또한 상술한 실시 형태에서는, 마이크로폰(17)에서 연습자의 음성을 수음하여 음성 처리부(18)가 연습자 음성 데이터를 생성하도록 했으나, 이것 대신에, 통신 네트워크를 통해 연습자 음성 데이터를 수신하도록 해도 좋고, 또는 USB(Universal Serial Bus) 등의 인터페이스를 통해 연습자 음성 데이터를 수신하도록 해도 좋다. 요컨대, 노래방 장치의 CPU에 연습자 음성 데이터를 입력하는 것이면 어떤 것이라도 좋다.

(4) 상술한 실시 형태에 있어서는, 음절마다의 개시 시각을 나타내는 정보를 구절 정보로서 사용했으나, 구절 정보는 음절마다의 개시 시각을 나타내는 정보에 한정되지 않고, 음절마다의 개시 시각과 종료 시각을 나타내는 정보라도 좋고, 또는 예를 들어 미리 정해진 음부 단위의 개시 시각 또는 종료 시각을 나타내는 정보라도 좋다. 요컨대, 음절, 음부, 프레이즈 등의 미리 정해진 구간의 구절 위치를 나타내는 정보이면 어떤 것이라도 좋다.

(5) 또한, 가창을 행하는 경우에 있어서는, 자신의 음역에 맞지 않는 등의 이유에 의해, 키 제어를 행하여 가창을 행하는 경우가 있다. 이 경우, 정확한 음 성의 키가 바뀌기 때문에, 사용자에게 피드백하는 음성도 키 제어 후의 키로 바꿀 필요가 있다. 이 경우에는, CPU는, 조작부를 통해 키 제어의 내용을 나타내는 키 제어 데이터의 입력을 접수하고, 입력된 키 제어 데이터가 나타내는 내용에 따라서 모범 음성 데이터의 피치를 시프트하고, 피치를 시프트한 모범 음성 데이터를 기억부에 기억하고 있어도 좋다.

또는, CPU(11)가 피치 시프트 지시 정보를 생성하는 처리에 있어서, CPU(11)가, 조작부(16)를 통해 키 제어의 내용을 나타내는 키 제어 데이터의 입력을 접수하여(도2에 쇄선으로 도시), 입력된 키 제어 데이터가 나타내는 내용을 피치 시프트 지시 정보에 산입하도록 해도 좋다. 구체적으로는, CPU(11)가, 모범 음성과 연습자 음성의 피치의 차값과 키 제어 데이터가 나타내는 값의 합을, 피치 시프트 지시 정보로서 생성해도 좋다.

또한, 타임 스트래치 처리에 대해서도 마찬가지로, CPU(11)가 타임 스트래치 지시 정보를 생성하는 처리에 있어서, CPU(11)가, 조작부(16)를 통해 템포 제어의 내용을 나타내는 템포 제어 데이터의 입력을 접수하고(도2에 쇄선으로 도시), 입력된 템포 제어 데이터가 나타내는 내용에 따라서, 모범 음성 데이터를 시간축 방향으로 압축 또는 신장하는 타임 스트래치 처리를 행하고, 타임 스트래치 처리가 실시된 모범 음성 데이터와 연습자 음성 데이터에 따라서, 타임 스트래치 지시 정보를 생성해도 좋다.

(6) 상술한 실시 형태에 있어서는, CPU(11)가 피치 시프트 지시 정보를 생성하는지 여부의 판정에 있어서, 도6의 스텝 S66에 나타낸 바와 같이, 미리 정해진 임계값과 비교하여 판정을 행하도록 했으나, 이것에 한정되지 않고, 피치 시프트 지시 정보를 생성하는지 여부의 판정을 행하지 않는 구성으로 해도 좋다.

(7) 상술한 실시 형태에서는, 노래방 장치(1)가, 도2에 나타낸 기능의 모두를 실현하도록 되어 있었다. 이에 반해, 통신 네트워크로 접속된 2 이상의 장치가 상기 기능을 분담하도록 하고, 그들 복수의 장치를 구비하는 시스템이 상기 실시 형태의 노래방 장치(1)를 실현하도록 해도 좋다. 예를 들어, 마이크로폰이나 스피커, 표시 장치 및 입력 장치를 구비하는 컴퓨터 장치와, 기초 분석부(111), 피치 시프트 지시 정보 생성부(112), 타임 스트래치 지시 정보 생성부(113), 가공 처리부(114) 및 출력부(115)를 실현하는 서버 장치가 통신 네트워크로 접속된 시스템으로서 구성되어 있어도 좋다. 이 경우는, 컴퓨터 장치가, 마이크로폰으로부터 입력된 음성을 음성 데이터로 변환하여 서버 장치에 송신하고, 서버 장치가, 수신한 음성 데이터와 모범 음성 데이터 및 구절 데이터를 기초로 하여 연습자 음성 데이터를 가공하고, 생성된 연습자 음성 가공 데이터를 컴퓨터 장치에 송신하도록 하면 좋다.

(8) 상술한 실시 형태에 있어서의 노래방 장치(1)의 CPU(11)에 의해 실행되는 프로그램은, 자기 테이프, 자기 디스크, 플렉시블 디스크, 광기록 매체, 광자기기록 매체, CD(Compact Disk)-ROM, DVD(Digital Versatile Disk), RAM 등의 기록 매체에 기억한 상태에서 제공할 수 있다. 또한, 인터넷과 같은 네트워크 경유로 노래방 장치(1)에 다운로드시키는 것도 가능하다.

또한, 본 발명의 목적은, 이하의 처리를 실행함으로써 달성된다. 즉, 상술 한 실시 형태의 기능을 실현하는 소프트웨어의 프로그램 코드를 기록한 기억 매체를, 시스템 혹은 장치에 공급하고, 그 시스템 혹은 장치의 컴퓨터(또는 CPU나 MPU 등)가 기억 매체에 저장된 프로그램 코드를 판독하는 처리이다.

이 경우, 기억 매체로부터 판독된 프로그램 코드 자체가 전술한 실시 형태의 기능을 실현하게 되고, 그 프로그램 코드 및 상기 프로그램 코드를 기억한 기억 매체는 본 발명을 구성하게 된다.

또한, 컴퓨터가 판독한 프로그램 코드를 실행함으로써, 상기 실시 형태의 기능이 실현되는 경우도 본 발명에 포함된다. 부가하여, 그 프로그램 코드의 지시를 기초로 하여, 컴퓨터상에서 가동하고 있는 OS(오퍼레이팅 시스템) 등이 실제 처리의 일부 또는 전부를 행하고, 그 처리에 의해 전술한 실시 형태의 기능이 실현되는 경우도 포함된다.

또한, 전술한 실시 형태의 기능이 이하의 처리에 의해 실현되는 경우도 본 발명에 포함된다. 즉, 기억 매체로부터 판독된 프로그램 코드가, 컴퓨터에 삽입된 기능 확장 보드나 컴퓨터에 접속된 기능 확장 유닛에 구비되는 메모리에 기록된다. 그 후, 그 프로그램 코드의 지시를 기초로 하여, 그 기능 확장 보드나 기능 확장 유닛에 구비되는 CPU 등이 실제의 처리의 일부 또는 전부를 행하는 경우이다.

본 발명의 악곡 연습 지원 장치에 따르면, 가창자가 자신의 가창을 어떻게 수정하면 좋은지를 청각적으로 인식할 수 있다.

Claims

미리 기억된 모범 음성 데이터와 입력된 연습자 음성 데이터를 시간축 방향으로 대응시키는 대응 부여 수단과, 상기 대응 부여 수단의 대응 부여 결과에 따라서, 상기 연습자 음성 데이터의 피치를, 당해 피치에 대응하는 상기 모범 음성 데이터의 피치에 일치시키도록 시프트하는 피치 시프트 수단과, 상기 대응 부여 수단의 대응 부여 결과에 따라서, 상기 연습자 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간의 구간 길이를, 당해 구간에 대응하는 모범 음성 데이터의 구간의 구간 길이에 일치시키도록, 당해 구간을 시간축 방향으로 압축 또는 신장하는 타임 스트래치 수단과, 상기 피치 시프트 수단에 의해 피치를 시프트하는 동시에 상기 타임 스트래치 수단에 의해 시간축 방향으로 압축 또는 신장된 연습자 음성 데이터를 음성 방출 수단으로 출력하는 출력 수단을 구비하는 악곡 연습 지원 장치.
제1항에 있어서, 상기 모범 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간마다의 구절 위치를 나타내는 구절 정보를 기억하는 기억 수단과, 상기 기억 수단에 기억된 구절 정보와 상기 대응 부여 수단의 대응 부여 결과에 따라서, 상기 모범 음성 데이터와 상기 연습자 음성 데이터를 상기 구간마다 대응시키고, 각 구간마다, 상기 모범 음성의 구간 길이와 상기 연습자 음성의 구간 길이의 비를 산출하는 구간 길이비 산출 수단과, 상기 구간 길이비 산출 수단에 의해 산출된 비 에 따라서, 구간마다의 모범 음성과 연습자 음성의 대응 부위를 소정 시간 길이의 프레임 단위로 특정하는 대응 부위 특정 수단을 구비하고, 상기 피치 시프트 수단은, 상기 대응 부위 특정 수단의 특정 결과에 따라서, 상기 입력된 음성 데이터가 나타내는 연습자 음성의 피치를, 당해 피치에 대응하는 모범 음성의 피치에 일치시키도록 시프트하는 악곡 연습 지원 장치.
제2항에 있어서, 상기 피치 시프트 수단은, 상기 대응 부위 특정 수단의 특정 결과에 따라서, 상기 모범 음성의 피치에 대응하는 연습자 음성의 피치가 검출된 프레임에 있어서는, 검출된 피치를 당해 피치에 대응하는 모범 음성의 피치에 일치시키도록 시프트하고, 한편, 피치가 검출되지 않은 프레임에 있어서는, 당해 프레임에 근접하는 프레임의 피치에서 당해 프레임의 피치를 보간하는 악곡 연습 지원 장치.
악곡 연습 지원 장치의 제어 방법이며, 미리 기억된 모범 음성 데이터와 입력된 연습자 음성 데이터를 시간축 방향으로 대응시키는 대응 부여 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터의 피치를, 당해 피치에 대응하는 상기 모범 음성 데이터의 피치에 일치시키도록 시프트하는 피치 시프트 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간의 구간 길이를, 당해 구간에 대응하는 모범 음성 데이터의 구간의 구간 길이에 일치시키도록, 당해 구간을 시간축 방향으로 압축 또는 신장하는 타임 스트래치 스텝과, 상기 피치 시프트 스텝에 의해 피치를 시프트하는 동시에 상기 타임 스트래치 스텝에 의해 시간축 방향으로 압축 또는 신장된 연습자 음성 데이터를 음성 방출 수단으로 출력하는 출력 스텝을 구비하는 제어 방법.
제4항에 있어서, 상기 모범 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간마다의 구절 위치를 나타내는 구절 정보를 기억하는 기억 스텝과, 상기 기억 스텝에 의해 기억된 구절 정보와 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 모범 음성 데이터와 상기 연습자 음성 데이터를 상기 구간마다 대응시키고, 각 구간마다, 상기 모범 음성의 구간 길이와 상기 연습자 음성의 구간 길이의 비를 산출하는 구간 길이비 산출 스텝과, 상기 구간 길이비 산출 스텝에 의해 산출된 비에 따라서, 구간마다의 모범 음성과 연습자 음성의 대응 부위를 소정 시간 길이의 프레임 단위로 특정하는 대응 부위 특정 스텝을 구비하고, 상기 피치 시프트 스텝은, 상기 대응 부위 특정 스텝에 의한 특정 결과에 따라서, 상기 입력된 음성 데이터가 나타내는 연습자 음성의 피치를, 당해 피치에 대응하는 모범 음성의 피치에 일치시키도록 시프트하는 제어 방법.
제5항에 있어서, 상기 피치 시프트 스텝은, 상기 대응 부위 특정 스텝에 의한 특정 결과에 따라서, 상기 모범 음성의 피치에 대응하는 연습자 음성의 피치가 검출된 프레임에 있어서는, 검출된 피치를 당해 피치에 대응하는 모범 음성의 피치 에 일치시키도록 시프트하고, 한편, 피치가 검출되지 않은 프레임에 있어서는, 당해 프레임에 근접하는 프레임의 피치에서 당해 프레임의 피치를 보간하는 제어 방법.
악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터에 실행시키는 프로그램이며, 상기 제어 방법은, 미리 기억된 모범 음성 데이터와 입력된 연습자 음성 데이터를 시간축 방향으로 대응시키는 대응 부여 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터의 피치를, 당해 피치에 대응하는 상기 모범 음성 데이터의 피치에 일치시키도록 시프트하는 피치 시프트 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간의 구간 길이를, 당해 구간에 대응하는 모범 음성 데이터의 구간의 구간 길이에 일치시키도록, 당해 구간을 시간축 방향으로 압축 또는 신장하는 타임 스트래치 스텝과, 상기 피치 시프트 스텝에 의해 피치를 시프트하는 동시에 상기 타임 스트래치 스텝에 의해 시간축 방향으로 압축 또는 신장된 연습자 음성 데이터를 음성 방출 수단으로 출력하는 출력 스텝을 구비하는 프로그램.