KR20090041392A - 악곡 연습 지원 장치, 악곡 연습 지원 장치의 제어 방법, 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터로 실행시키는 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체 - Google Patents

악곡 연습 지원 장치, 악곡 연습 지원 장치의 제어 방법, 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터로 실행시키는 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체 Download PDF

Info

Publication number
KR20090041392A
KR20090041392A KR1020097002261A KR20097002261A KR20090041392A KR 20090041392 A KR20090041392 A KR 20090041392A KR 1020097002261 A KR1020097002261 A KR 1020097002261A KR 20097002261 A KR20097002261 A KR 20097002261A KR 20090041392 A KR20090041392 A KR 20090041392A
Authority
KR
South Korea
Prior art keywords
pitch
voice
voice data
section
exerciser
Prior art date
Application number
KR1020097002261A
Other languages
English (en)
Other versions
KR100949872B1 (ko
Inventor
아까네 노구찌
Original Assignee
야마하 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 야마하 가부시키가이샤 filed Critical 야마하 가부시키가이샤
Publication of KR20090041392A publication Critical patent/KR20090041392A/ko
Application granted granted Critical
Publication of KR100949872B1 publication Critical patent/KR100949872B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/04Sound-producing devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B15/00Teaching music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/091Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

본 발명은 가창자가 자신의 가창을 어떻게 수정하면 좋은지를 청각적으로 인식할 수 있는 기술을 제공한다. 노래방 장치(1)의 CPU(11)는, 모범 음성 데이터 기억 영역(14a)에 기억된 모범 음성 데이터와, 입력된 연습자 음성 데이터를 시간축 방향으로 대응시킨다. 계속해서, CPU(11)는, 대응 부여 결과에 따라서, 연습자 음성 데이터의 피치를, 당해 피치에 대응하는 모범 음성 데이터의 피치에 일치시키도록 시프트하는 동시에, 연습자 음성 데이터의 구간(음절)의 구간 길이를, 당해 구간에 대응하는 모범 음성 데이터의 구간의 구간 길이에 일치시키도록, 당해 구간을 시간축 방향으로 압축 또는 신장하고, 연습자 음성 데이터를 음성 처리부(18)로 출력한다. 음성 처리부(18)는 CPU(11)로부터 공급되는 연습자 음성 데이터를 아날로그 신호로 변환하고, 스피커(19)로부터 음성을 방출시킨다.
노래방 장치, CPU, 모범 음성 데이터 기억 영역, 음성 처리부, 스피커

Description

악곡 연습 지원 장치 {SONG PRACTICE SUPPORT DEVICE}
본 발명은 악곡 연습 지원 장치에 관한 것이다.
최근 노래방 장치에 있어서, 가창자의 가창 실력을 채점하기 위한 방법이 다양하게 제안되어 있다. 예를 들어, 일본 특허 출원 공개 제2005-128372호 공보에는, 사용자 입력의 음성 신호를 기초로 하는 음성 데이터로부터, 소정의 프레임마다의 피치를 추출하고, 프레임마다 추출된 피치와, 악음 데이터를 기초로 하는 음 높이를 비교하여, 사용자의 음성의 피치의 정확함을 판정하는 방법이 제안되어 있다. 이와 같이 가창 실력을 채점하는 노래방 장치에 있어서는, 채점 결과인 점수를 화면에 표시하는 것이 일반적이다.
그런데, 가창자가 자신의 가창의 어느 부분을 어떻게 수정하면 좋은지를 소리로 인식할 수 있으면 적절하다. 그러나, 종래 채점 방법에 있어서는, 점수가 표시되는 것뿐이기 때문에, 가창자는 자신의 가창을 어떻게 수정하면 좋은지를 소리로 인식할 수는 없었다. 이것은 악곡의 가창에 한정되지 않고, 악기의 연주에 대해서도 마찬가지이다.
본 발명은 상술한 배경하에 이루어진 것으로, 가창자가 자신의 가창을 어떻게 수정하면 좋은지를 청각적으로 인식할 수 있는 기술을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위해, 본 발명의 제1 형태에 따르면, 미리 기억된 모범 음성 데이터와 입력된 연습자 음성 데이터를 시간축 방향으로 대응시키는 대응 부여 수단과, 상기 대응 부여 수단의 대응 부여 결과에 따라서, 상기 연습자 음성 데이터의 피치를, 당해 피치에 대응하는 상기 모범 음성 데이터의 피치에 일치시키도록 시프트하는 피치 시프트 수단과, 상기 대응 부여 수단의 대응 부여 결과에 따라서, 상기 연습자 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간의 구간 길이를, 당해 구간에 대응하는 모범 음성 데이터의 구간의 구간 길이에 일치시키도록, 당해 구간을 시간축 방향으로 압축 또는 신장하는 타임 스트래치 수단과, 상기 피치 시프트 수단에 의해 피치를 시프트하는 동시에 상기 타임 스트래치 수단에 의해 시간축 방향으로 압축 또는 신장된 연습자 음성 데이터를 음성 방출 수단으로 출력하는 출력 수단을 구비하는 악곡 연습 지원 장치가 제공된다.
본 발명의 제1 형태에 있어서, 상기 모범 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간마다의 구절 위치를 나타내는 구절 정보를 기억하는 기억 수단과, 상기 기억 수단에 기억된 구절 정보와 상기 대응 부여 수단의 대응 부여 결과에 따라서, 상기 모범 음성 데이터와 상기 연습자 음성 데이터를 상기 구간마다 대응시키고, 각 구간마다, 상기 모범 음성의 구간 길이와 상기 연습자 음성의 구간 길이의 비를 산출하는 구간 길이비 산출 수단과, 상기 구간 길이비 산출 수단에 의해 산출된 비에 따라서, 구간마다의 모범 음성과 연습자 음성의 대응 부위를 소정 시간 길이의 프레임 단위로 특정하는 대응 부위 특정 수단을 구비하고, 상기 피치 시프트 수단은, 상기 대응 부위 특정 수단의 특정 결과에 따라서, 상기 입력된 음성 데이터의 나타내는 연습자 음성의 피치를, 당해 피치에 대응하는 모범 음성의 피치에 일치시키도록 시프트하는 것이 바람직하다.
본 발명의 제1 형태에 있어서, 상기 피치 시프트 수단은, 상기 대응 부위 특정 수단의 특정 결과에 따라서, 상기 모범 음성의 피치에 대응하는 연습자 음성의 피치가 검출된 프레임에 있어서는, 검출된 피치를 당해 피치에 대응하는 모범 음성의 피치에 일치시키도록 시프트하고, 한편, 피치가 검출되지 않은 프레임에 있어서는, 당해 프레임에 근접하는 프레임의 피치에서 당해 프레임의 피치를 보간하는 것이 바람직하다.
상기 목적을 달성하기 위해, 본 발명의 제2 형태에 따르면, 악곡 연습 지원 장치의 제어 방법이며, 미리 기억된 모범 음성 데이터와 입력된 연습자 음성 데이터를 시간축 방향으로 대응시키는 대응 부여 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터의 피치를, 당해 피치에 대응하는 상기 모범 음성 데이터의 피치에 일치시키도록 시프트하는 피치 시프트 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간의 구간 길이를, 당해 구간에 대응하는 모범 음성 데이터의 구간의 구간 길이에 일치시키도록, 당해 구간을 시간축 방향으로 압축 또는 신장하는 타임 스트래치 스텝과, 상기 피치 시프트 스텝에 의해 피치를 시프트하는 동시에 상기 타임 스트래치 스텝에 의해 시간축 방향으로 압축 또는 신장된 연습자 음성 데이터를 음성 방출 수단으로 출력하는 출력 스텝을 구비하는 제어 방법이 제공된다.
본 발명의 제2 형태에 있어서, 상기 모범 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간마다의 구절 위치를 나타내는 구절 정보를 기억하는 기억 스텝과, 상기 기억 스텝에 의해 기억된 구절 정보와 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 모범 음성 데이터와 상기 연습자 음성 데이터를 상기 구간마다 대응시키고, 각 구간마다, 상기 모범 음성의 구간 길이와 상기 연습자 음성의 구간 길이의 비를 산출하는 구간 길이비 산출 스텝과, 상기 구간 길이비 산출 단계에 의해 산출된 비에 따라서, 구간마다의 모범 음성과 연습자 음성의 대응 부위를 소정 시간 길이의 프레임 단위로 특정하는 대응 부위 특정 스텝을 구비하고, 상기 피치 시프트 스텝은, 상기 대응 부위 특정 스텝에 의한 특정 결과에 따라서, 상기 입력된 음성 데이터가 나타내는 연습자 음성의 피치를, 당해 피치에 대응하는 모범 음성의 피치에 일치시키도록 시프트하는 것이 바람직하다.
본 발명의 제2 형태에 있어서, 상기 피치 시프트 스텝은, 상기 대응 부위 특정 스텝에 의한 특정 결과에 따라서, 상기 모범 음성의 피치에 대응하는 연습자 음성의 피치가 검출된 프레임에 있어서는, 검출된 피치를 당해 피치에 대응하는 모범 음성의 피치에 일치시키도록 시프트하고, 한편, 피치가 검출되지 않은 프레임에 있어서는, 당해 프레임에 근접하는 프레임의 피치에서 당해 프레임의 피치를 보간하는 것이 바람직하다.
상기 목적을 달성하기 위해, 본 발명의 제3 형태에 따르면, 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터에 실행시키는 프로그램이며, 상기 제어 방법은, 미리 기억된 모범 음성 데이터와 입력된 연습자 음성 데이터를 시간축 방향으로 대응시키는 대응 부여 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터의 피치를, 당해 피치에 대응하는 상기 모범 음성 데이터의 피치에 일치시키도록 시프트하는 피치 시프트 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간의 구간 길이를, 당해 구간에 대응하는 모범 음성 데이터의 구간의 구간 길이에 일치시키도록, 당해 구간을 시간축 방향으로 압축 또는 신장하는 타임 스트래치 스텝과, 상기 피치 시프트 스텝에 의해 피치를 시프트하는 동시에 상기 타임 스트래치 스텝에 의해 시간축 방향으로 압축 또는 신장된 연습자 음성 데이터를 음성 방출 수단으로 출력하는 출력 스텝을 구비하는 프로그램이 제공된다.
도1은 노래방 장치의 하드웨어 구성의 일례를 나타내는 블록도이다.
도2는 노래방 장치의 소프트웨어 구성의 일례를 나타내는 블록도이다.
도3은 DP 매칭을 나타내는 도면이다.
도4는 모범 음성과 연습자 음성의 대응 관계의 일례를 나타내는 도면이다.
도5는 노래방 장치의 CPU가 행하는 처리의 흐름을 나타내는 흐름도이다.
도6은 노래방 장치의 CPU가 행하는 처리의 흐름을 나타내는 흐름도이다.
도7은 모범 음성과 연습자 음성의 대응 관계의 일례를 나타내는 도면이다.
도8은 모범 음성과 연습자 음성의 대응 관계의 일례를 나타내는 도면이다.
다음에, 본 발명을 실시하기 위한 최량의 형태를 설명한다.
<A : 구성>
도1은 본 발명의 일 실시 형태인 악곡 연습 지원 장치로서의 노래방 장치(1)의 하드웨어 구성을 예시한 블록도이다. CPU(Central Processing Unit)(11)는 ROM(Read Only Memory)(12) 또는 기억부(14)에 기억되어 있는 컴퓨터 프로그램을 판독하여 RAM(Random Access Memory)(13)에 로드하고, 이것을 실행함으로써, 노래방 장치(1)의 각 부를 제어한다. 기억부(14)는, 예를 들어 하드 디스크 등의 대용량의 기억 수단이고, 반주ㆍ가사 데이터 기억 영역(14a)과, 구절 데이터 기억 영역(14b)과, 모범 음성 데이터 기억 영역(14c)과, 연습자 음성 데이터 기억 영역(14d)을 갖고 있다. 표시부(15)는, 예를 들어 액정 디스플레이 등이고, CPU(11)의 제어하에서, 노래방 장치(1)를 조작하기 위한 메뉴 화면이나, 배경 화상에 가사 텔롭이 겹쳐진 노래방 화면 등의 각종 화면을 표시한다. 조작부(16)는, 각종 키를 구비하고 있고, 눌러진 키에 대응한 신호를 CPU(11)로 출력한다. 마이크로폰(17)은, 연습자가 발성한 음성을 수음하고, 음성 신호(아날로그 데이터)를 출력한다. 음성 처리부(18)는, 마이크로폰(17)이 출력하는 음성 신호(아날로그 데이터)를 디지털 데이터로 변환하여 CPU(11)로 출력한다. 스피커(19)는, 음성 처리부(18)로부터 출력되는 음성을 음성 방출한다.
기억부(14)의 반주ㆍ가사 데이터 기억 영역(14a)에는, 악곡의 반주를 행하는 각종 악기의 연주음이 악곡의 진행에 수반하여 기록된 반주 데이터와, 악곡의 가사를 나타내는 가사 데이터를 관련시켜 기억되어 있다. 반주 데이터는, 예를 들어 MIDI(Musical Instruments Digital Interface) 형식 등의 데이터 형식이고, 연습자가 노래방 가창할 때에 재생된다. 가사 데이터는, 그 노래방 가창시에 가사 텔롭으로서 표시부(15)에 표시된다.
모범 음성 데이터 기억 영역(14c)에는, 예를 들어 WAVE 형식이나 MP3(MPEGl Audio Layer-3) 형식 등의 음성 데이터이며, 반주 데이터에 의해 나타내는 반주에 따라서 가창자가 가창한 음성(이하, 모범 음성)을 나타내는 음성 데이터(이하, 모범 음성 데이터)가 기억되어 있다.
구절 데이터 기억 영역(14b)에는, 모범 음성 데이터 기억 영역(14c)에 기억된 모범 음성 데이터가 나타내는 모범 음성에 포함되는 음절(구간)마다의 구절 위치를 나타내는 구절 데이터가 기억되어 있다. 본 실시 형태에 있어서는, 이 구절 데이터는, 각 구간의 개시 시각을 나타내는 정보이다. 기억부(14)의 연습자 음성 데이터 기억 영역(14d)에는, 마이크로폰(17)으로부터 음성 처리부(18)를 거쳐 A/D 변환된 음성 데이터가, 예를 들어 WAVE 형식이나 MP3 형식으로, 반주 개시로부터의 경과 시간을 나타내는 정보와 함께 시계열로 기억된다. 이 음성 데이터는, 연습자의 음성(이하, 연습자 음성)을 나타내는 음성 데이터이기 때문에, 이하에서는 연습자 음성 데이터라 한다.
다음에, 도2에 나타내는 블록도를 참조하면서, 노래방 장치(1)의 소프트웨어 구성에 대해 설명한다. 도2에 나타낸 기초 분석부(111), 피치 시프트 지시 정보 생성부(112), 타임 스트래치 지시 정보 생성부(113), 가공 처리부(114) 및 출력부(115)는, CPU(11)가 ROM(12) 또는 기억부(14)에 기억된 컴퓨터 프로그램을 실행함으로써 실현된다. 또한, 도면 중의 화살표는, 데이터의 흐름을 개략적으로 나타낸 것이다.
도2에 있어서, 기초 분석부(111)는, 모범 음성 데이터 기억 영역(14c)으로부터 판독된 모범 음성 데이터와, 연습자 음성 데이터 기억 영역(14d)으로부터 판독된 연습자 음성 데이터를, 각각 소정 시간 길이의 프레임 단위로 각 음성 데이터의 피치 및 스펙트럼을 검출한다. 스펙트럼의 검출에는 FFT(Fast Fourier Transform)가 사용된다. 기초 분석부(111)에 의해 검출된 모범 음성 데이터의 피치와 연습자 음성 데이터의 피치는, 피치 시프트 지시 정보 생성부(112)로 출력된다.
또한, 기초 분석부(111)는, 검출한 스펙트럼을 기초로 하여 양자의 대응 관계를 구한다. 모범 음성과 연습자 음성은 시간적으로 전후로 어긋나 있을 가능성이 있다. 예를 들어, 연습자가 발음 타이밍을 잘못하여 가창한 경우나, 또는 모범이 되는 가창자가 노래 시작이나 노래 끝을 의도적으로 어긋나게 하여 가창한 경우 등은, 모범 음성과 연습자 음성은 시간적으로 전후로 어긋나 있다. 이와 같이 모범 음성과 연습자 음성이 시간적으로 전후로 어긋나 있는 경우라도, 양자를 대응되도록 하기 위해, 연습자 음성 데이터의 시간축을 신축시키는 시간 정규화(DTW : Dynamic Time Warping)를 행하고, 양자의 시간축을 맞춘다. 이 DTW를 행하기 위한 방법으로서는, 본 실시 형태에서는 DP(Dynamic Programming : 동적 계획법)를 사용한다. 구체적으로는 이하와 같은 처리로 된다.
기초 분석부(111)는, 도3에 나타낸 바와 같은 좌표 평면(이하, DP 플레인이라 함)을 RAM(13)에 형성한다. 이 DP 플레인의 종축은, 모범 음성 데이터의 각 프레임의 스펙트럼의 절대값의 로그에 역푸리에 변환을 걸 수 있는 파라미터에 대응하고 있고, 횡축은, 연습자 음성 데이터의 각 프레임으로부터 얻은 스펙트럼의 절대값의 로그에 역푸리에 변환을 걸 수 있는 파라미터(캡스트럼)에 대응하고 있다. 도3에 있어서, a1, a2, a3…an은 모범 음성 데이터의 각 프레임을 시간축에 따라서 나열한 것이고, b1, b2, b3…bn은 연습자 음성 데이터의 각 프레임을 시간축에 따라서 나열한 것이다. 종축의 a1, a2, a3…an의 간격과 횡축의 b1, b2, b3…bn의 간격은, 모두 프레임의 시간 길이와 대응하고 있다. 이 DP 플레인에 있어서의 각 격자점의 각각에는, a1, a2, a3…의 각 파라미터와, b1, b2, b3…의 각 파라미터의 유클리드 거리를 각각 나타내는 값인 DP 매칭 스코어가 대응되고 있다. 예를 들어, a1과 b1에 의해 위치 결정되는 격자점에는, 모범 음성 데이터의 일련의 프레임 중 최초의 프레임으로부터 얻은 파라미터와 연습자 음성 데이터의 일련의 프레임 중 최초의 프레임으로부터 얻은 파라미터의 유클리드 거리를 나타내는 값이 대응되게 된다. 기초 분석부(111)는, 이와 같은 구조를 이루는 DP 플레인을 형성한 후, a1과 b1에 의해 위치 결정되는 격자점(시단)으로부터 an과 bn에 의해 위치 결정되는 격자점(종단)에 이르는 전체 경로를 탐색하고, 탐색한 각 경로마다, 그 시단으로부터 종단까지 사이로 더듬어가는 각 격자점의 DP 매칭 스코어를 누산해 가고, 최소의 누산값을 구한다. 이 DP 매칭 스코어의 누산값이 가장 작아지는 경로는, 연습자 음성 데이터의 각 프레임의 시간축을 모범 음성 데이터의 시간축에 맞추어 신축할 때에 있어서의 신축의 척도로서 참작된다.
그리고, 기초 분석부(111)는, DP 매칭 스코어의 누산값이 최소로 되는 경로를 DP 플레인 상으로부터 특정하고, 특정한 경로의 내용에 따라서 연습자 음성 데이터의 시간축을 신축하는 처리인 얼라인먼트 처리를 행한다. 구체적으로는, DP 플레인 상으로부터 특정된 경로 상의 각 격자점의 DP 매칭 스코어가 시간축 상의 위치를 동일하게 하는 프레임으로부터 얻은 파라미터의 유클리드 거리를 나타내는 것으로 되도록, 연습자 음성 데이터의 각 프레임의 타임 스탬프의 내용을 재기록한 후에, 시간축 상의 위치를 동일하게 하는 각 프레임을 세트로서 순차 대응시켜 간다. 예를 들어, 도3에 나타내는 DP 플레인 상에 기록된 경로에 있어서는, a1과 b1에 의해 위치 결정되는 시점으로부터 그 우측 상방의 a2와 b2에 의해 위치 결정되는 격자점으로 진행하고 있는 것을 알 수 있다. 이 경우, a2와 b2의 프레임의 시간축 상의 위치는 당초부터 동일하므로, b2의 프레임의 타임 스탬프의 내용을 재기록할 필요는 없다. 또한, 이 경로에 있어서는, a2와 b2에 의해 위치 결정되는 격자점으로부터 그 우측의 a2와 b3에 의해 위치 결정되는 격자점으로 진행하고 있는 것을 알 수 있다. 이 경우, b2의 프레임뿐만 아니라 b3의 프레임도 a2의 프레임과 시간축 상의 위치를 동일하게 할 필요가 있으므로, b3의 프레임과 쌍을 이루고 있었던 타임 스탬프를 프레임 1개분만큼 빠른 것으로 재기록한다. 이 결과, a2의 프레임과 b2 및 b3의 프레임이 시간축 상의 위치를 동일하게 하는 프레임의 세트로서 대응되게 된다. 이와 같은 타임 스탬프의 치환과 프레임의 대응 부여가 b1로부터 bn에 이르는 전체 프레임 구간에 대해 행해진다. 이에 의해, 연습자 음성의 발음 타이밍과 모범 음성의 발음 타이밍이 어긋나 있었다고 해도, 맞추어진 시간축 상의 위치를 동일하게 하는 프레임(음소)끼리를 대응시킬 수 있다.
이상이 DP 매칭의 구조이다.
도4는 연습자 음성과 모범 음성과의 대응 부여의 일례를 나타내는 도면으로, 도4의 (a) 부분은 연습자 음성의 피치의 시간적 변화를 나타내는 그래프의 일례를 나타내는 것이고, 도4의 (b) 부분은 모범 음성의 피치의 시간적 변화를 나타내는 그래프의 일례를 나타내는 것이다. 도4에 있어서는, 연습자 음성의 발음 타이밍 t11과 모범 음성의 발음 타이밍 t21이 대응되고, 연습자 음성의 발음 타이밍 t12와 모범 음성의 발음 타이밍 t22가 대응된 모습을 나타내고 있다.
기초 분석부(111)에 의해 검출된 대응 부위는, 피치 시프트 지시 정보 생성부(112)로 출력되는 동시에, 타임 스트래치 지시 정보 생성부(113)로 출력된다.
피치 시프트 지시 정보 생성부(112)는, 모범 음성 데이터의 피치, 연습자 음성 데이터의 피치, 모범 음성과 연습자 음성의 대응 부위 및 구절 데이터를 기초로 하여, 연습자 음성 데이터의 피치와 당해 피치에 대응하는 부위에 있어서의 모범 음성 데이터의 피치와의 피치 차를 나타내는 피치 시프트 지시 정보를 생성한다. 피치 시프트 지시 정보 생성부(112)에 의해 생성된 피치 시프트 지시 정보는, 가공 처리부(114)로 출력된다.
타임 스트래치 지시 정보 생성부(113)는, 기초 분석부(111)에 의해 검출된 대응 부위와 구절 데이터를 기초로 하여, 프레임마다의 타임 스트래치를 거는 정도를 나타내는 타임 스트래치 지시 정보를 생성한다. 타임 스트래치 지시 정보 생성 부(113)에 의해 생성된 타임 스트래치 지시 정보는, 가공 처리부(114)로 출력된다.
가공 처리부(114)는, 피치 시프트 지시 정보 생성부(112)에 의해 생성된 피치 시프트 지시 정보를 기초로 하여 연습자 음성 데이터의 피치를 시프트하는 동시에, 타임 스트래치 지시 정보 생성부(113)에 의해 생성된 타임 스트래치 지시 정보를 기초로 하여 연습자 음성 데이터에 대해 타임 스트래치 처리를 실시하고, 연습자 음성 가공 데이터를 생성한다. 가공 처리부(114)에 의해 생성된 연습자 음성 가공 데이터는, 출력부(115)로 출력된다.
출력부(115)는, 가공 처리부(114)에 의해 생성된 연습자 음성 가공 데이터를 음성 처리부(18)로 출력한다.
<B : 동작>
다음에, 도5에 나타내는 흐름도를 참조하면서, 노래방 장치(1)의 동작을 설명한다.
연습자는, 노래방 장치(1)의 조작부(16)를 조작하여, 가창하고자 하는 악곡을 선택하는 조작을 행하고, 악곡의 재생을 지시한다. 조작부(16)는 조작된 내용에 따른 신호를 CPU(11)로 출력하고, CPU(11)는, 조작부(16)로부터 공급되는 신호에 따라서, 노래방 반주를 개시한다(스텝 S1). 즉, CPU(11)는, 반주ㆍ가사 데이터를 기억 영역(14a)으로부터 반주 데이터를 판독하여 음성 처리부(18)에 공급하고, 음성 처리부(18)는, 반주 데이터를 아날로그 신호로 변환하여, 스피커(19)에 공급하여 음성을 방출시킨다. 또한, CPU(11)는, 반주ㆍ가사 데이터 기억 영역(14a)으로부터 가사 데이터를 판독하여 가사 텔롭을 표시부(15)에 표시시킨다.
연습자는, 스피커(19)로부터 방출되는 반주에 맞추어 가창을 행한다. 이때, 연습자의 음성은 마이크로폰(17)에 의해 수음되어 음성 신호로 변환되고, 음성 처리부(18)로 출력된다. 음성 처리부(18)에 의해 A/D 변환된 연습자 음성 데이터는, 반주 개시로부터의 경과 시간을 나타내는 정보와 함께, 연습자 음성 데이터 기억 영역(14d)에 시계열로 기억(녹음)되어 간다(스텝 S2).
반주 데이터의 재생이 종료되면, CPU(11)는, 연습자 음성 데이터 기억 영역(14d)에 기억된 연습자 음성 데이터와, 모범 음성 데이터 기억 영역(14c)에 미리 기억되어 있는 모범 음성 데이터에 대해, 상술한 기초 분석부(111)의 처리를 행한다. 즉, CPU(11)는, 연습자 음성 데이터를 소정 시간 길이의 프레임 단위로 피치 및 스펙트럼을 산출하는 동시에(스텝 S3), 모범 음성 데이터를 소정 시간 길이의 프레임 단위로 피치 및 스펙트럼을 산출한다(스텝 S4). 이어서, CPU(11)는, 모범 음성의 스펙트럼과 연습자 음성의 스펙트럼을 기초로 하여, 연습자 음성 데이터의 시간축과 모범 음성 데이터의 시간축을 맞추고, 그 시간축 상의 위치를 동일하게 하는 음끼리를 대응시킴으로써 양자의 대응 부위를 검출한다(스텝 S5).
계속해서, CPU(11)는, 상술한 피치 시프트 지시 정보 생성부(112)의 처리를 행한다. 즉, CPU(11)는, 모범 음성 데이터의 피치, 연습자 음성 데이터의 피치, 모범 음성과 연습자 음성의 대응 부위 및 구절 데이터를 기초로 하여 피치 시프트 지시 정보를 생성한다(스텝 S6).
여기서, 스텝 S6에 나타내는 피치 시프트 지시 정보 생성 처리의 상세에 대해, 도6에 나타내는 흐름도를 참조하면서 이하에 설명한다.
도6에 있어서, CPU(11)는, 우선 스텝 S5의 처리에 의해 검출된 모범 음성과 연습자 음성의 대응 관계를 기초로 하여, 구절 데이터 기억 영역(14b)에 기억된 구절 데이터가 나타내는 각 구간의 개시 시각에 대응하는 시각을 산출하고, 모범 음성의 구간의 구간 길이와 그 구간에 대응하는 연습자 음성의 구간의 구간 길이의 비를 산출한다(스텝 S61). 즉, CPU(11)는, 구절 데이터 기억 영역(14b)에 기억된 구절 데이터와 스텝 S5의 처리에 의해 검출된 모범 음성 데이터와 연습자 음성 데이터의 대응 관계에 따라서, 모범 음성과 연습자 음성을 구간마다 대응시키고, 각 구간마다, 모범 음성의 구간 길이와 연습자 음성의 구간 길이의 비를 산출한다.
여기서, 스텝 S61에 나타내는 처리의 구체예에 대해, 도7을 참조하면서 이하에 설명한다. 도7에 있어서, 그래프 G1은 모범 음성의 피치의 시간적인 변화를 나타내는 그래프의 일례이고, 그래프 G2는 연습자 음성의 피치의 시간적인 변화를 나타내는 그래프의 일례이다. 구절 데이터 기억 영역(14b)에 기억된 구절 데이터가 나타내는 구간마다의 구절 위치(구간의 개시 시각)가, 도7의 t1, t2의 위치인 경우에는, CPU(11)는, 스텝 S5에 있어서 검출된 대응 관계를 기초로 하여, 연습자 음성에 있어서 구절 데이터가 나타내는 구절 위치와 대응하는 위치 t21, t22를 산출한다. 이어서, CPU(11)는, t1 내지 t2의 구간 길이 T1과, t21 내지 t22의 구간 길이T2의 비를 산출한다.
이어서, CPU(11)는, 연습자 음성에 포함되는 각 피치 요소에 대해, 그 피치 요소의 구간에 있어서의 위치를 산출한다(스텝 S62). 이어서, CPU(11)는, 스텝 S61에서 산출한 비에 따라서, 구간마다의 모범 음성과 연습자 음성의 대응 부위를 프레임 단위로 특정하고, 스텝 S62에서 산출된 연습자 음성의 각 피치 요소의 위치에 대응하는 위치(시각)에 모범 음성의 피치 요소가 있는지 여부를 판정한다(스텝 S63). 구체적으로는, 예를 들어, CPU(11)는, 스텝 S61에서 산출한 비로 비례 배분함으로써, 스텝 S62에서 산출한 각 피치 요소의 위치에 대응하는 모범 음성의 위치를 특정한다. 구체적으로는, 예를 들어, 도7에 나타내는 예에 있어서, 연습자 음성에 있어서의 피치 요소의 위치 p1에 대응하는 모범 음성의 위치를 p2로 하면,
T1 : T2 = (p1 - t1) : (p2 - t21)
이기 때문에,
p2 = t21 + T2/T1(p1 - t1)
로서 산출된다.
스텝 S63에 있어서, 모범 음성의 구간 중의 대응하는 위치에 피치 요소가 있다고 판정된 경우, 즉, 연습자 음성에 있어서 특정된 위치에 대응하는 모범 음성의 위치에서 피치가 검출된 경우에는(스텝 S63 ; 예), CPU(11)는, 대응하는 모범 음성의 피치 요소의 피치를 산출한다(스텝 S64). 한편, 모범 음성의 구간 중의 대응하는 위치에 피치 요소가 없다고 판정된 경우에는(스텝 S63 ; 아니오), CPU(11)는, 모범 음성에 있어서 스텝 S63에서 특정된 프레임에 근접하는 프레임의 피치에서 당해 프레임의 피치를 보간한다(스텝 S65). 이 보간 처리는, 예를 들어 선형 보간 등에 의해 행한다.
이어서, CPU(11)는, 스텝 S64 또는 스텝 S65에서 산출된 피치와 연습자 음성의 피치 요소와의 차값이 임계값 이상인지 여부를 판정한다(스텝 S66). 임계값 이 상이라고 판정된 경우에는(스텝 S66 ; 예), CPU(11)는, 그 차값을 나타내는 정보를 피치 시프트 지시 정보로서 생성하고, 생성한 피치 시프트 지시 정보를 출력한다(스텝 S67). 한편, 스텝 S66에 있어서, 임계값 미만이라고 판정된 경우에는, CPU(11)는, 피치 시프트 지시 정보를 생성하지 않고, 스텝 S68의 처리로 진행한다. 이어서, CPU(11)는, 다음의 피치 요소가 있는지 여부를 판정하고(스텝 S68), 다음 피치 요소가 있다고 판정된 경우에는(스텝 S68 ; 예), CPU(11)는, 스텝 S62의 처리로 복귀되어, 다음의 피치 요소에 대해 상술한 스텝 S62로부터 스텝 S67의 처리를 실행한다. 한편, 다음의 피치 요소가 없다고 판단된 경우에는(스텝 S68 ; 아니오), CPU(11)는, 그대로 처리를 종료한다.
그런데, 가창 음성의 경우에는, 지속되는 동일한 발음의 부분(예를 들어 프레이즈의 말미 부분 등)이 존재한다. 이 지속 부분에서는 발음 내용이 동일하기 때문에, 모범 음성과 연습자 음성과의 대응 부위의 검출 결과를 그대로 얼라인먼트(대응 부여)하면, 예를 들어 도8의 시각 t221 내지 t222의 구간에 나타내어진 바와 같이, 그래프 G21에 의해 나타내어지는 모범 음성과 그래프 G22에 의해 나타내어지는 연습자 음성과의 얼라인먼트 선단이 변동되는 경우가 있다. 이와 같은 경우에는, 단순히 얼라인먼트 선단의 피치를 참조하여 피치 시프트를 행하면, 가공 후의 피치는, 도8의 그래프 G23에 나타내어지는 바와 같은, 모범 음성의 피치의 매끄러운 변화를 반영할 수 없는 것으로 되어 버리는 경우가 있었다. 이에 반해 본 실시 형태에 있어서는, CPU(11)가 구절 데이터 기억 영역(14b)에 기억된 구절 데이터를 사용하여, 구간 길이의 비에 따라서 대응 부여를 행하기 때문에, 도7의 그래 프 G3으로 나타내는 바와 같은, 모범 음성의 매끄러운 변화를 반영한 피치 시프트 처리를 실시할 수 있다.
또한, 음절의 구절만이 기억되어 있고, 음소의 구절이 기억되어 있지 않은 경우, 음성의 피치의 추출 상황으로, 발음 내용의 대응을 부여해도 좋다. 이것은, 지속되는 모음 부분은 피치가 추출되는 것에 반해, 자음 부분은 피치가 추출되지 않는 경우가 많기 때문이다.
도5의 설명으로 복귀한다. 피치 시프트 지시 정보 생성 처리(스텝 S6)에 이어서, CPU(11)는, 상술한 타임 스트래치 지시 정보 생성부(113)의 처리를 행한다. 즉, CPU(11)는, 대응 부위와 구절 데이터를 기초로 하여 타임 스트래치 지시 정보를 프레임마다 생성한다(스텝 S7).
이어서, CPU(11)는, 상술한 가공 처리부(114)의 처리를 행한다. 즉, CPU(11)는, 연습자 음성 데이터 기억 영역(14d)에 기억된 연습자 음성 데이터의 피치를, 피치 시프트 지시 정보를 기초로 하여, 연습자 음성의 피치를 모범 음성의 피치에 일치시키도록 시프트하는 동시에, 타임 스트래치 지시 정보를 기초로 하여, 연습자 음성의 발음 시간을 모범 음성의 발음 시간에 일치시키도록, 연습자 음성 데이터를 시간축 방향으로 압축 또는 신장하고, 연습자 음성 가공 데이터를 생성한다(스텝 S8).
또한, 스텝 S8에 있어서는, CPU(11)는, 피치 시프트 처리를 행한 후에 타임 스트래치 처리를 행하도록 해도 좋고, 또는 타임 스트래치 처리를 실시한 후에 피치 시프트 처리를 행하도록 해도 좋다. 또는, 연습자 음성 데이터에 대해 시계열 로, 피치 시프트 처리와 타임 스트래치 처리를 병행하여 행하도록 해도 좋다.
CPU(11)는, 생성된 연습자 음성 가공 데이터를 음성 처리부(18)로 출력한다(스텝 S9). 음성 처리부(18)는, 연습자 음성 가공 데이터를 아날로그 신호로 변환하여, 스피커(19)로부터 음성을 방출시킨다.
이와 같이, 연습자 음성 데이터에 대해 피치 시프트 처리를 행함으로써, 음의 높이를 그저 약간 연속적으로 상하시키고, 떨리는 음색을 내는 소위「비브라토」나, 목적의 음보다 낮은 음으로부터 발음하고, 음정을 매끄럽게 목적의 음에 가까이 해 가는 소위「음꺾기(bending)」등, 모범 음성으로 사용되고 있는 다양한 기법을 연습자 음성에 반영시킬 수 있다. 또한, 연습자 음성 데이터에 대해 타임 스트래치 처리를 행함으로써, 연습자의 발음 타이밍의 차이를 보정하거나, 또는 모범 음성에 있어서 노래 시작이나 노래 끝을 의도적으로 어긋나게 하는 소위「추성」이나「퇴성」등의 기법이 사용되고 있는 경우라도, 그들 기법을 연습자 음성에 반영시킬 수 있다. 출력되는 음성의 성질(聲質)은 연습자의 음성의 성질과 마찬가지이기 때문에, 연습자는, 방출되는 음성을 들음으로써, 자신이 정확하게 부른 경우의 이미지를 가질 수 있다.
<C : 변형예>
이상, 본 발명의 실시 형태에 대해 설명했으나, 본 발명은 상술한 실시 형태에 한정되지 않고, 다른 다양한 형태로 실시 가능하다. 이하에 그 일례를 나타낸다.
(1) 상술한 실시 형태에 있어서는, 연습자의 가창 연습을 지원하는 경우를 예로 들어 설명했으나, 이것에 한정되지 않고, 연습자의 악기 연주의 연습을 지원하도록 해도 좋다. 이 경우, 반주ㆍ가사 데이터 기억 영역(14a)에는, 연습하고자 하는 악기(예를 들어 기타) 이외의 악기(예를 들어 베이스나 드럼)의 연주 데이터가 기억되어 있고, 모범 음성 데이터 기억 영역(14c)에는, 모범이 되는 모범 연주 데이터가 기억되어 있고, 연습자 음성 데이터 기억 영역(14d)에는, 연습자의 연주음을 나타내는 연주 데이터가 기억된다. 연습자는 연습하고자 하는 악기를 연주하고, 그 연주음은 마이크로폰(17)에 의해 수음되어 음성 신호로 변환되고, 음성 처리부(18)에서 디지털 신호로 변환되어 연습자 음성 데이터 기억 영역(14d)에 기억된다. 또한, 구절 데이터 기억 영역(14b)에는, 모범 음성 데이터가 나타내는 연주음에 포함되는 각 음의 개시 시각이나 종료 시각 등의 음의 구절 위치를 나타내는 정보가 기억된다. CPU(11)는, 이들 데이터를 기초로 하여, 상기와 같은 처리를 거쳐 연습자 음성 가공 데이터를 생성하여 음성을 방출한다.
(2) 상술한 실시 형태에서는, 연습자 음성 데이터를 기억할 때에는 가사를 표시하고, 또한 반주 데이터를 재생하면서 연습자에게 가창시키는, 소위 노래방 가창을 행하도록 하고 있었으나, 이것은 반드시 필요하지 않다. 즉, 연습자가 가사의 표시나 반주 데이터의 재생이 없었던 상태로 가창하고, 이것을 녹음하여 연습자 가공 데이터를 생성하도록 해도 좋다.
(3) 상술한 실시 형태에 있어서는, 모범 음성 데이터를 모범 음성 데이터 기억 영역(14c)에 기억시켜, 노래방 장치(1)의 CPU(11)가 기억부(14)로부터 모범 음성 데이터를 판독하도록 했으나, 이것 대신에, 통신 네트워크를 통해 모범 음성 데 이터를 수신하도록 해도 좋다.
또는, 모범 음성 데이터 그 자체를 기억해 두도록 하지 않고, 모범 음성의 피치나 스펙트럼을 나타내는 데이터를 기억시켜 두도록 해도 좋다. 이 경우에는, 노래방 장치의 CPU는, 모범 음성의 피치, 스펙트럼의 산출 처리를 행하지 않고, 기억부에 기억된 피치 데이터나 스펙트럼 데이터를 기초로 하여, 대응 부위의 검출이나 피치 시프트 처리, 타임 스트래치 처리를 실시한다.
또한 상술한 실시 형태에서는, 마이크로폰(17)에서 연습자의 음성을 수음하여 음성 처리부(18)가 연습자 음성 데이터를 생성하도록 했으나, 이것 대신에, 통신 네트워크를 통해 연습자 음성 데이터를 수신하도록 해도 좋고, 또는 USB(Universal Serial Bus) 등의 인터페이스를 통해 연습자 음성 데이터를 수신하도록 해도 좋다. 요컨대, 노래방 장치의 CPU에 연습자 음성 데이터를 입력하는 것이면 어떤 것이라도 좋다.
(4) 상술한 실시 형태에 있어서는, 음절마다의 개시 시각을 나타내는 정보를 구절 정보로서 사용했으나, 구절 정보는 음절마다의 개시 시각을 나타내는 정보에 한정되지 않고, 음절마다의 개시 시각과 종료 시각을 나타내는 정보라도 좋고, 또는 예를 들어 미리 정해진 음부 단위의 개시 시각 또는 종료 시각을 나타내는 정보라도 좋다. 요컨대, 음절, 음부, 프레이즈 등의 미리 정해진 구간의 구절 위치를 나타내는 정보이면 어떤 것이라도 좋다.
(5) 또한, 가창을 행하는 경우에 있어서는, 자신의 음역에 맞지 않는 등의 이유에 의해, 키 제어를 행하여 가창을 행하는 경우가 있다. 이 경우, 정확한 음 성의 키가 바뀌기 때문에, 사용자에게 피드백하는 음성도 키 제어 후의 키로 바꿀 필요가 있다. 이 경우에는, CPU는, 조작부를 통해 키 제어의 내용을 나타내는 키 제어 데이터의 입력을 접수하고, 입력된 키 제어 데이터가 나타내는 내용에 따라서 모범 음성 데이터의 피치를 시프트하고, 피치를 시프트한 모범 음성 데이터를 기억부에 기억하고 있어도 좋다.
또는, CPU(11)가 피치 시프트 지시 정보를 생성하는 처리에 있어서, CPU(11)가, 조작부(16)를 통해 키 제어의 내용을 나타내는 키 제어 데이터의 입력을 접수하여(도2에 쇄선으로 도시), 입력된 키 제어 데이터가 나타내는 내용을 피치 시프트 지시 정보에 산입하도록 해도 좋다. 구체적으로는, CPU(11)가, 모범 음성과 연습자 음성의 피치의 차값과 키 제어 데이터가 나타내는 값의 합을, 피치 시프트 지시 정보로서 생성해도 좋다.
또한, 타임 스트래치 처리에 대해서도 마찬가지로, CPU(11)가 타임 스트래치 지시 정보를 생성하는 처리에 있어서, CPU(11)가, 조작부(16)를 통해 템포 제어의 내용을 나타내는 템포 제어 데이터의 입력을 접수하고(도2에 쇄선으로 도시), 입력된 템포 제어 데이터가 나타내는 내용에 따라서, 모범 음성 데이터를 시간축 방향으로 압축 또는 신장하는 타임 스트래치 처리를 행하고, 타임 스트래치 처리가 실시된 모범 음성 데이터와 연습자 음성 데이터에 따라서, 타임 스트래치 지시 정보를 생성해도 좋다.
(6) 상술한 실시 형태에 있어서는, CPU(11)가 피치 시프트 지시 정보를 생성하는지 여부의 판정에 있어서, 도6의 스텝 S66에 나타낸 바와 같이, 미리 정해진 임계값과 비교하여 판정을 행하도록 했으나, 이것에 한정되지 않고, 피치 시프트 지시 정보를 생성하는지 여부의 판정을 행하지 않는 구성으로 해도 좋다.
(7) 상술한 실시 형태에서는, 노래방 장치(1)가, 도2에 나타낸 기능의 모두를 실현하도록 되어 있었다. 이에 반해, 통신 네트워크로 접속된 2 이상의 장치가 상기 기능을 분담하도록 하고, 그들 복수의 장치를 구비하는 시스템이 상기 실시 형태의 노래방 장치(1)를 실현하도록 해도 좋다. 예를 들어, 마이크로폰이나 스피커, 표시 장치 및 입력 장치를 구비하는 컴퓨터 장치와, 기초 분석부(111), 피치 시프트 지시 정보 생성부(112), 타임 스트래치 지시 정보 생성부(113), 가공 처리부(114) 및 출력부(115)를 실현하는 서버 장치가 통신 네트워크로 접속된 시스템으로서 구성되어 있어도 좋다. 이 경우는, 컴퓨터 장치가, 마이크로폰으로부터 입력된 음성을 음성 데이터로 변환하여 서버 장치에 송신하고, 서버 장치가, 수신한 음성 데이터와 모범 음성 데이터 및 구절 데이터를 기초로 하여 연습자 음성 데이터를 가공하고, 생성된 연습자 음성 가공 데이터를 컴퓨터 장치에 송신하도록 하면 좋다.
(8) 상술한 실시 형태에 있어서의 노래방 장치(1)의 CPU(11)에 의해 실행되는 프로그램은, 자기 테이프, 자기 디스크, 플렉시블 디스크, 광기록 매체, 광자기기록 매체, CD(Compact Disk)-ROM, DVD(Digital Versatile Disk), RAM 등의 기록 매체에 기억한 상태에서 제공할 수 있다. 또한, 인터넷과 같은 네트워크 경유로 노래방 장치(1)에 다운로드시키는 것도 가능하다.
또한, 본 발명의 목적은, 이하의 처리를 실행함으로써 달성된다. 즉, 상술 한 실시 형태의 기능을 실현하는 소프트웨어의 프로그램 코드를 기록한 기억 매체를, 시스템 혹은 장치에 공급하고, 그 시스템 혹은 장치의 컴퓨터(또는 CPU나 MPU 등)가 기억 매체에 저장된 프로그램 코드를 판독하는 처리이다.
이 경우, 기억 매체로부터 판독된 프로그램 코드 자체가 전술한 실시 형태의 기능을 실현하게 되고, 그 프로그램 코드 및 상기 프로그램 코드를 기억한 기억 매체는 본 발명을 구성하게 된다.
또한, 컴퓨터가 판독한 프로그램 코드를 실행함으로써, 상기 실시 형태의 기능이 실현되는 경우도 본 발명에 포함된다. 부가하여, 그 프로그램 코드의 지시를 기초로 하여, 컴퓨터상에서 가동하고 있는 OS(오퍼레이팅 시스템) 등이 실제 처리의 일부 또는 전부를 행하고, 그 처리에 의해 전술한 실시 형태의 기능이 실현되는 경우도 포함된다.
또한, 전술한 실시 형태의 기능이 이하의 처리에 의해 실현되는 경우도 본 발명에 포함된다. 즉, 기억 매체로부터 판독된 프로그램 코드가, 컴퓨터에 삽입된 기능 확장 보드나 컴퓨터에 접속된 기능 확장 유닛에 구비되는 메모리에 기록된다. 그 후, 그 프로그램 코드의 지시를 기초로 하여, 그 기능 확장 보드나 기능 확장 유닛에 구비되는 CPU 등이 실제의 처리의 일부 또는 전부를 행하는 경우이다.
본 발명의 악곡 연습 지원 장치에 따르면, 가창자가 자신의 가창을 어떻게 수정하면 좋은지를 청각적으로 인식할 수 있다.

Claims (7)

  1. 미리 기억된 모범 음성 데이터와 입력된 연습자 음성 데이터를 시간축 방향으로 대응시키는 대응 부여 수단과, 상기 대응 부여 수단의 대응 부여 결과에 따라서, 상기 연습자 음성 데이터의 피치를, 당해 피치에 대응하는 상기 모범 음성 데이터의 피치에 일치시키도록 시프트하는 피치 시프트 수단과, 상기 대응 부여 수단의 대응 부여 결과에 따라서, 상기 연습자 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간의 구간 길이를, 당해 구간에 대응하는 모범 음성 데이터의 구간의 구간 길이에 일치시키도록, 당해 구간을 시간축 방향으로 압축 또는 신장하는 타임 스트래치 수단과, 상기 피치 시프트 수단에 의해 피치를 시프트하는 동시에 상기 타임 스트래치 수단에 의해 시간축 방향으로 압축 또는 신장된 연습자 음성 데이터를 음성 방출 수단으로 출력하는 출력 수단을 구비하는 악곡 연습 지원 장치.
  2. 제1항에 있어서, 상기 모범 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간마다의 구절 위치를 나타내는 구절 정보를 기억하는 기억 수단과, 상기 기억 수단에 기억된 구절 정보와 상기 대응 부여 수단의 대응 부여 결과에 따라서, 상기 모범 음성 데이터와 상기 연습자 음성 데이터를 상기 구간마다 대응시키고, 각 구간마다, 상기 모범 음성의 구간 길이와 상기 연습자 음성의 구간 길이의 비를 산출하는 구간 길이비 산출 수단과, 상기 구간 길이비 산출 수단에 의해 산출된 비 에 따라서, 구간마다의 모범 음성과 연습자 음성의 대응 부위를 소정 시간 길이의 프레임 단위로 특정하는 대응 부위 특정 수단을 구비하고, 상기 피치 시프트 수단은, 상기 대응 부위 특정 수단의 특정 결과에 따라서, 상기 입력된 음성 데이터가 나타내는 연습자 음성의 피치를, 당해 피치에 대응하는 모범 음성의 피치에 일치시키도록 시프트하는 악곡 연습 지원 장치.
  3. 제2항에 있어서, 상기 피치 시프트 수단은, 상기 대응 부위 특정 수단의 특정 결과에 따라서, 상기 모범 음성의 피치에 대응하는 연습자 음성의 피치가 검출된 프레임에 있어서는, 검출된 피치를 당해 피치에 대응하는 모범 음성의 피치에 일치시키도록 시프트하고, 한편, 피치가 검출되지 않은 프레임에 있어서는, 당해 프레임에 근접하는 프레임의 피치에서 당해 프레임의 피치를 보간하는 악곡 연습 지원 장치.
  4. 악곡 연습 지원 장치의 제어 방법이며, 미리 기억된 모범 음성 데이터와 입력된 연습자 음성 데이터를 시간축 방향으로 대응시키는 대응 부여 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터의 피치를, 당해 피치에 대응하는 상기 모범 음성 데이터의 피치에 일치시키도록 시프트하는 피치 시프트 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간의 구간 길이를, 당해 구간에 대응하는 모범 음성 데이터의 구간의 구간 길이에 일치시키도록, 당해 구간을 시간축 방향으로 압축 또는 신장하는 타임 스트래치 스텝과, 상기 피치 시프트 스텝에 의해 피치를 시프트하는 동시에 상기 타임 스트래치 스텝에 의해 시간축 방향으로 압축 또는 신장된 연습자 음성 데이터를 음성 방출 수단으로 출력하는 출력 스텝을 구비하는 제어 방법.
  5. 제4항에 있어서, 상기 모범 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간마다의 구절 위치를 나타내는 구절 정보를 기억하는 기억 스텝과, 상기 기억 스텝에 의해 기억된 구절 정보와 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 모범 음성 데이터와 상기 연습자 음성 데이터를 상기 구간마다 대응시키고, 각 구간마다, 상기 모범 음성의 구간 길이와 상기 연습자 음성의 구간 길이의 비를 산출하는 구간 길이비 산출 스텝과, 상기 구간 길이비 산출 스텝에 의해 산출된 비에 따라서, 구간마다의 모범 음성과 연습자 음성의 대응 부위를 소정 시간 길이의 프레임 단위로 특정하는 대응 부위 특정 스텝을 구비하고, 상기 피치 시프트 스텝은, 상기 대응 부위 특정 스텝에 의한 특정 결과에 따라서, 상기 입력된 음성 데이터가 나타내는 연습자 음성의 피치를, 당해 피치에 대응하는 모범 음성의 피치에 일치시키도록 시프트하는 제어 방법.
  6. 제5항에 있어서, 상기 피치 시프트 스텝은, 상기 대응 부위 특정 스텝에 의한 특정 결과에 따라서, 상기 모범 음성의 피치에 대응하는 연습자 음성의 피치가 검출된 프레임에 있어서는, 검출된 피치를 당해 피치에 대응하는 모범 음성의 피치 에 일치시키도록 시프트하고, 한편, 피치가 검출되지 않은 프레임에 있어서는, 당해 프레임에 근접하는 프레임의 피치에서 당해 프레임의 피치를 보간하는 제어 방법.
  7. 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터에 실행시키는 프로그램이며, 상기 제어 방법은, 미리 기억된 모범 음성 데이터와 입력된 연습자 음성 데이터를 시간축 방향으로 대응시키는 대응 부여 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터의 피치를, 당해 피치에 대응하는 상기 모범 음성 데이터의 피치에 일치시키도록 시프트하는 피치 시프트 스텝과, 상기 대응 부여 스텝에 의한 대응 부여 결과에 따라서, 상기 연습자 음성 데이터에 있어서 시간축 방향으로 미리 정해진 구간의 구간 길이를, 당해 구간에 대응하는 모범 음성 데이터의 구간의 구간 길이에 일치시키도록, 당해 구간을 시간축 방향으로 압축 또는 신장하는 타임 스트래치 스텝과, 상기 피치 시프트 스텝에 의해 피치를 시프트하는 동시에 상기 타임 스트래치 스텝에 의해 시간축 방향으로 압축 또는 신장된 연습자 음성 데이터를 음성 방출 수단으로 출력하는 출력 스텝을 구비하는 프로그램.
KR1020097002261A 2006-07-05 2007-06-29 악곡 연습 지원 장치, 악곡 연습 지원 장치의 제어 방법, 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터로 실행시키는 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체 KR100949872B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2006-185987 2006-07-05
JP2006185987A JP4124247B2 (ja) 2006-07-05 2006-07-05 楽曲練習支援装置、制御方法及びプログラム

Publications (2)

Publication Number Publication Date
KR20090041392A true KR20090041392A (ko) 2009-04-28
KR100949872B1 KR100949872B1 (ko) 2010-03-25

Family

ID=38894608

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097002261A KR100949872B1 (ko) 2006-07-05 2007-06-29 악곡 연습 지원 장치, 악곡 연습 지원 장치의 제어 방법, 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터로 실행시키는 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체

Country Status (4)

Country Link
US (1) US8027631B2 (ko)
JP (1) JP4124247B2 (ko)
KR (1) KR100949872B1 (ko)
WO (1) WO2008004641A1 (ko)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1025920A (ja) * 1996-07-11 1998-01-27 Fujita Corp 建築構造物の制震装置
JPH1144046A (ja) * 1997-07-28 1999-02-16 Kajima Corp 鉄筋の組立方法およびコンクリート構造物
US7459624B2 (en) 2006-03-29 2008-12-02 Harmonix Music Systems, Inc. Game controller simulating a musical instrument
US8690670B2 (en) 2007-06-14 2014-04-08 Harmonix Music Systems, Inc. Systems and methods for simulating a rock band experience
US8678896B2 (en) 2007-06-14 2014-03-25 Harmonix Music Systems, Inc. Systems and methods for asynchronous band interaction in a rhythm action game
JP5136128B2 (ja) * 2008-03-12 2013-02-06 ヤマハ株式会社 音声合成装置
JP5125958B2 (ja) * 2008-09-30 2013-01-23 ブラザー工業株式会社 音域特定システム、プログラム
US8148621B2 (en) 2009-02-05 2012-04-03 Brian Bright Scoring of free-form vocals for video game
US8076564B2 (en) * 2009-05-29 2011-12-13 Harmonix Music Systems, Inc. Scoring a musical performance after a period of ambiguity
US20100304810A1 (en) * 2009-05-29 2010-12-02 Harmonix Music Systems, Inc. Displaying A Harmonically Relevant Pitch Guide
US7982114B2 (en) * 2009-05-29 2011-07-19 Harmonix Music Systems, Inc. Displaying an input at multiple octaves
US8026435B2 (en) * 2009-05-29 2011-09-27 Harmonix Music Systems, Inc. Selectively displaying song lyrics
US8017854B2 (en) * 2009-05-29 2011-09-13 Harmonix Music Systems, Inc. Dynamic musical part determination
US8465366B2 (en) 2009-05-29 2013-06-18 Harmonix Music Systems, Inc. Biasing a musical performance input to a part
US7923620B2 (en) * 2009-05-29 2011-04-12 Harmonix Music Systems, Inc. Practice mode for multiple musical parts
US8080722B2 (en) * 2009-05-29 2011-12-20 Harmonix Music Systems, Inc. Preventing an unintentional deploy of a bonus in a video game
US7935880B2 (en) 2009-05-29 2011-05-03 Harmonix Music Systems, Inc. Dynamically displaying a pitch range
US20100304811A1 (en) * 2009-05-29 2010-12-02 Harmonix Music Systems, Inc. Scoring a Musical Performance Involving Multiple Parts
US8449360B2 (en) 2009-05-29 2013-05-28 Harmonix Music Systems, Inc. Displaying song lyrics and vocal cues
US8575465B2 (en) 2009-06-02 2013-11-05 Indian Institute Of Technology, Bombay System and method for scoring a singing voice
US10357714B2 (en) 2009-10-27 2019-07-23 Harmonix Music Systems, Inc. Gesture-based user interface for navigating a menu
US9981193B2 (en) 2009-10-27 2018-05-29 Harmonix Music Systems, Inc. Movement based recognition and evaluation
US8983829B2 (en) 2010-04-12 2015-03-17 Smule, Inc. Coordinating and mixing vocals captured from geographically distributed performers
US9147385B2 (en) 2009-12-15 2015-09-29 Smule, Inc. Continuous score-coded pitch correction
US8550908B2 (en) 2010-03-16 2013-10-08 Harmonix Music Systems, Inc. Simulating musical instruments
US8562403B2 (en) 2010-06-11 2013-10-22 Harmonix Music Systems, Inc. Prompting a player of a dance game
US20110306397A1 (en) 2010-06-11 2011-12-15 Harmonix Music Systems, Inc. Audio and animation blending
US9358456B1 (en) 2010-06-11 2016-06-07 Harmonix Music Systems, Inc. Dance competition game
US9024166B2 (en) 2010-09-09 2015-05-05 Harmonix Music Systems, Inc. Preventing subtractive track separation
US8729374B2 (en) * 2011-07-22 2014-05-20 Howling Technology Method and apparatus for converting a spoken voice to a singing voice sung in the manner of a target singer
US8907195B1 (en) * 2012-01-14 2014-12-09 Neset Arda Erol Method and apparatus for musical training
US20140260903A1 (en) * 2013-03-15 2014-09-18 Livetune Ltd. System, platform and method for digital music tutoring
JP6144592B2 (ja) * 2013-09-27 2017-06-07 株式会社第一興商 歌唱採点システム
JP6144593B2 (ja) * 2013-09-27 2017-06-07 株式会社第一興商 歌唱採点システム
JP6144605B2 (ja) * 2013-10-31 2017-06-07 株式会社第一興商 歌唱採点システム
JP6415341B2 (ja) * 2015-01-30 2018-10-31 株式会社第一興商 ハーモニー歌唱のためのピッチシフト機能を備えたカラオケシステム
JP6798253B2 (ja) * 2016-11-02 2020-12-09 ヤマハ株式会社 信号処理方法、および信号処理装置
JP7035697B2 (ja) * 2018-03-27 2022-03-15 カシオ計算機株式会社 歌唱練習装置、歌唱練習方法、及びプログラム
CN110087122A (zh) * 2019-05-06 2019-08-02 北京字节跳动网络技术有限公司 用于处理信息的系统、方法和装置
US11315585B2 (en) 2019-05-22 2022-04-26 Spotify Ab Determining musical style using a variational autoencoder
JP7331588B2 (ja) * 2019-09-26 2023-08-23 ヤマハ株式会社 情報処理方法、推定モデル構築方法、情報処理装置、推定モデル構築装置およびプログラム
US11355137B2 (en) 2019-10-08 2022-06-07 Spotify Ab Systems and methods for jointly estimating sound sources and frequencies from audio
US11366851B2 (en) 2019-12-18 2022-06-21 Spotify Ab Karaoke query processing system
JP6793422B1 (ja) * 2020-02-04 2020-12-02 Jeインターナショナル株式会社 音声補正装置、歌唱システム、音声補正方法、およびプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1204855A (en) * 1982-03-23 1986-05-20 Phillip J. Bloom Method and apparatus for use in processing signals
JPH05165484A (ja) 1991-12-18 1993-07-02 Matsushita Electric Ind Co Ltd カラオケ装置
JP3317181B2 (ja) 1997-03-25 2002-08-26 ヤマハ株式会社 カラオケ装置
US6301992B1 (en) 1999-07-22 2001-10-16 Paolo Paparoni Adjustment and assembly system for mechanical cable remote control
JP4205824B2 (ja) 1999-10-21 2009-01-07 ヤマハ株式会社 歌唱評価装置およびカラオケ装置
US6836761B1 (en) 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
JP4323029B2 (ja) * 1999-10-21 2009-09-02 ヤマハ株式会社 音声処理装置およびカラオケ装置
JP2001117599A (ja) 1999-10-21 2001-04-27 Yamaha Corp 音声処理装置およびカラオケ装置
JP4219652B2 (ja) 2002-10-23 2009-02-04 株式会社第一興商 リピート演奏時に直前に計測したピッチ誤差に基づいて該当箇所の主旋律音量を制御するカラオケ装置の歌唱練習支援システム
JP4135615B2 (ja) 2003-10-27 2008-08-20 カシオ計算機株式会社 楽音比較装置および楽音比較プログラム
US7271329B2 (en) * 2004-05-28 2007-09-18 Electronic Learning Products, Inc. Computer-aided learning system employing a pitch tracking line
US7825321B2 (en) * 2005-01-27 2010-11-02 Synchro Arts Limited Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
US8244546B2 (en) * 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system

Also Published As

Publication number Publication date
WO2008004641A1 (fr) 2008-01-10
JP2008015195A (ja) 2008-01-24
KR100949872B1 (ko) 2010-03-25
US8027631B2 (en) 2011-09-27
JP4124247B2 (ja) 2008-07-23
US20090317783A1 (en) 2009-12-24

Similar Documents

Publication Publication Date Title
KR100949872B1 (ko) 악곡 연습 지원 장치, 악곡 연습 지원 장치의 제어 방법, 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터로 실행시키는 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체
JP2012037722A (ja) 音合成用データ生成装置およびピッチ軌跡生成装置
JP2008026622A (ja) 評価装置
JP2007232750A (ja) カラオケ装置、制御方法およびプログラム
JP2006276693A (ja) 歌唱評価表示装置およびプログラム
JP2007310204A (ja) 楽曲練習支援装置、制御方法及びプログラム
JP4479701B2 (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
JP5136128B2 (ja) 音声合成装置
JP2009169103A (ja) 練習支援装置
JP2007233077A (ja) 評価装置、制御方法及びプログラム
JP4839967B2 (ja) 指導装置及びプログラム
JP4900017B2 (ja) ビブラート検出装置、ビブラート評価装置、ビブラート検出方法、ビブラート評価方法およびプログラム
JP2008039833A (ja) 音声評価装置
JP2005249844A (ja) 演奏指示装置および演奏指示プログラム
JP2008040260A (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
JP3430814B2 (ja) カラオケ装置
JP2022065554A (ja) 音声合成方法およびプログラム
JP4048249B2 (ja) カラオケ装置
JP4501874B2 (ja) 楽曲練習装置
JP2008040258A (ja) 楽曲練習支援装置、動的時間整合モジュールおよびプログラム
JP2022065566A (ja) 音声合成方法およびプログラム
JP5416396B2 (ja) 歌唱評価装置およびプログラム
JP2017173655A (ja) 音評価装置および音評価方法
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP5092311B2 (ja) 音声評価装置

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130219

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140220

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150224

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160218

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee