KR101321446B1

KR101321446B1 - 음성 인식을 이용한 가사 표시 방법

Info

Publication number: KR101321446B1
Application number: KR1020130071011A
Authority: KR
Inventors: 이상문
Original assignee: 주식회사 금영
Priority date: 2013-06-20
Filing date: 2013-06-20
Publication date: 2013-10-28

Abstract

본 발명은 가사와 음성 인식을 통한 음성 신호의 비교를 통해 표시되는 가사 이미지를 동적으로 변경가능하도록 하는, 음성 인식을 이용한 가사 표시 방법에 관한 것이다.
본 발명을 이용함으로써, 사용자의 음성 인식에 연동하여 동적으로 변경되는 가사를 제공하여 사용자에게 흥미를 유발하고 기억력을 고취할 수 있는 등의 효과가 있다.

Description

음성 인식을 이용한 가사 표시 방법{LYRICS DISPLAYING METHOD USING VOICE RECOGNITION}

본 발명은 음성 인식을 이용한 가사 표시 방법에 관한 것으로서, 구체적으로는 표시되는 가사와 음성 인식을 통한 음성 신호의 비교를 통해 표시되는 가사 이미지를 동적으로 변경가능하도록 하는, 음성 인식을 이용한 가사 표시 방법에 관한 것이다.

노래방에 비치되는 노래 반주 장치는 사용자의 선곡에 따라 곡을 재생하고 이 곡에 대응하는 가사를 표시하여 사용자로 하여금 가사를 잘 따라 부를 수 있도록 한다. 이러한 가사는 이미지로 표시되고, 나아가 가사와 재생 중인 곡의 오디오 신호와의 동기 시점을 알 수 있도록 가사 이미지의 색상은 변경된다.

일반적으로 사용자가 부르는 곡들은 발매 된지 얼마 되지 않은 신곡인 경우를 제외하고는 사용자가 자주 부르는 곡(애창곡 등)이다. 이러한 곡의 가사는 사용자가 노래 반주 장치에 표시되는 가사 이미지를 참조하지 않거나 일부 참조하여 부를 수 있는 곡들이다.

이와 같이 사용자가 애창곡을 부를 때에는, 노래 반주 장치의 가사 이미지는 필요가 없거나 또는 단지 오디오 신호(음악)와의 동기화 시점을 알기 위해서 이용되어 질 수 있다.

이와 같이 극히 제한된 범위에서 이용되는 가사 이미지를 다양한 방면에서 활용될 수 있도록 하는 방법이 필요하다.

그 하나의 예로서, 이 가사 이미지의 디스플레이 자체를 게임과 같은 형태로 구성하도록 하여 게임 등에서 느낄 수 있는 재미를 사용자에게 제공할 수 있도록 한다면, 사용자는 노래를 부름과 동시에 이 가사 이미지로부터 즐거움을 얻을 수 있을 것이다.

또 다른 예로서, 애창곡 등은 일반적으로 사용자가 암기를 하고 있기에, 이 가사 이미지 자체가 사용자의 기억력을 자극하도록 구성될 수 있다면, 노인 등과 같은 사용자에게 치매 예방 등과 같은 효과를 제공할 수 있을 것이다.

그리고 이러한 재미와 기억력을 사용자의 음성에 연동하여 음성 인식에 따라서 가사 등이 동적으로 표시될 수 있도록 한다면, 각 사용자별로 특화되는 가사 이미지를 표시할 수 있도록 할 것이다.

이러한 사용자와의 음성 연동에 있어서는 그 음성 인식의 정확성이 요구된다. 하지만 노래방과 같은 환경은 사용자의 음성뿐 아니라 연주되는 곡의 오디오 신호의 신호음이 출력되고 나아가 다른 사용자의 음성 등이 또한 출력되는 환경이다.

따라서 음성 연동에 있어서 다른 오디오 신호를 제거한 후 사용자의 음성 신호만을 추출하도록 하는 것이 필요하고 이 음성 신호의 추출에 따라서 각 사용자별 음성에 특화되는 가사 이미지를 표시할 수 있을 것이다.

이와 같이, 가사 이미지와 사용자의 음성 신호를 동적으로 결합하여 가사 이미지를 변경할 수 있도록 하는, 음성 인식을 이용한 가사 표시 방법이 필요하다.

본 발명은, 상술한 문제점을 해결하기 위해서 안출한 것으로서, 가사 이미지의 표시를 동적으로 변경하여 사용자에게 가사 이미지에서 흥미를 유발할 수 있도록 하는, 음성 인식을 이용한 가사 표시 방법을 제공하는 데 그 목적이 있다.

또한 본 발명은, 가사 이미지의 동적인 변경으로 사용자의 기억력을 자극할 수 있도록 하는, 음성 인식을 이용한 가사 표시 방법을 제공하는 데 그 목적이 있다.

또한 본 발명은, 가사 이미지의 동적인 변경에 의한 이러한 흥미와 기억력 고취 등이 사용자의 음성과 연동하여 이루어질 수 있도록 하는, 음성 인식을 이용한 가사 표시 방법을 제공하는 데 그 목적이 있다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기와 같은 목적을 달성하기 위한, 음성 인식을 이용한 가사 표시 방법은, (a) 마이크를 통해 마이크 신호를 수신하는 단계와 (b) 수신된 마이크 신호의 음성 신호와 재생되는 곡의 지정된 제 1 가사와 비교하는 단계와 (c) 비교의 결과에 기초하여 제 1 가사 이후의 제 2 가사를 변경하여 이미지로 생성하는 단계 및 (d) 변경되어 생성된 이미지를 디스플레이하는 단계를 포함하고, 생성된 이미지에 포함되는 제 2 가사의 이미지는, 제 2 가사의 문자들의 이미지와는 상이하다.

또한 상기와 같은 목적을 달성하기 위한, 음성 인식을 이용한 가사 표시 방법은, 단계 (a)가, (a-1) 제 1 마이크로부터 제 1 마이크 신호를 수신하는 단계와 (a-2) 제 2 마이크로부터 제 2 마이크 신호를 수신하는 단계를 포함하고, 단계 (b)가 제 1 마이크 신호와 제 2 마이크 신호의 비교로 음성 신호를 추출하는 단계를 포함한다.

또한 상기와 같은 목적을 달성하기 위한, 음성 인식을 이용한 가사 표시 방법의 제 2 가사의 이미지는, 공백 이미지이거나 자음만이 표시된 이미지이다.

또한 상기와 같은 목적을 달성하기 위한, 음성 인식을 이용한 가사 표시 방법은, 단계 (b) 이전에, 제 1 가사를 포함하는 가사 이미지를 디스플레이하는 단계를 포함하고, 가사 이미지에 포함되는 제 1 가사의 이미지는, 제 1 가사의 문자들의 이미지와는 상이하다.

또한 상기와 같은 목적을 달성하기 위한, 음성 인식을 이용한 가사 표시 방법은, 단계 (a) 이전에, 제 1 가사를 지정하는 단계; 및 지정된 제 1 가사에 대응하는 특징 벡터를 동적으로 결정하는 단계를 더 포함하고, 단계 (b)는, (b-2) 수신된 마이크 신호의 음성 신호로부터의 특징 벡터와 재생되는 곡의 지정된 제 1 가사의 특징 벡터의 비교로, 제 1 가사와 음성 신호의 유사도를 결정하는 단계 및 (b-3) 결정된 유사도를 나타내는 이미지를 디스플레이하는 단계를 포함한다.

상기와 같은 본 발명에 따른 음성 인식을 이용한 가사 표시 방법은, 가사 이미지의 표시를 동적으로 변경하여 사용자에게 가사 이미지에서 흥미를 유발할 수 있도록 하는 효과가 있다.

또한 상기와 같은 본 발명에 따른 음성 인식을 이용한 가사 표시 방법은, 가사 이미지의 동적인 변경으로 사용자의 기억력을 자극할 수 있도록 하는 효과가 있다.

또한 상기와 같은 본 발명에 따른 음성 인식을 이용한 가사 표시 방법은, 가사 이미지의 동적인 변경에 의한 이러한 흥미와 기억력 고취 등이 사용자의 음성과 연동하여 이루어질 수 있도록 하는 효과가 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은, 음성 인식을 이용하여 가사를 표시하기 위한 시스템의 예시적인 시스템 블록도를 도시한 도면이다.
도 2는 노래 반주 장치의 예시적인 블록도를 도시한 도면이다.
도 3은 음성 인식을 이용하여 가사를 표시하기 위한 제어 흐름의 하나의 실시예를 도시한 도면이다.
도 4는 음성 인식을 이용하여 가사를 표시하기 위한 제어 흐름의 또 다른 실시예를 도시한 도면이다.

상술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술 되어 있는 상세한 설명을 통하여 더욱 명확해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.

도 1은, 음성 인식을 이용하여 가사를 표시하기 위한 시스템의 예시적인 시스템 블록도를 도시한 도면이다.

도 1에 따르면 이 시스템은, 노래 반주 장치(100)와 하나 이상의 마이크(200)와 디스플레이(300)를 포함한다. 이 시스템은 도 1에 도시되지 않은 다른 장치(예를 들어 리모컨이나 스피커 등)를 더 포함할 수 있다.

이 음성 인식을 이용하여 가사를 표시하기 위한 시스템에 포함되는 각 장치들을 살펴보면, 노래 반주 장치(100)는, 노래방 등에 설치되어 있는 장치이다. 이러한 노래 반주 장치(100)는, 사용자로부터 입력된 곡 번호에 따라 곡 번호에 대응하는 미디 파일이나 오디오 파일을 재생하여 스피커(미도시) 등으로 출력할 수 있다.

또한 이 노래 반주 장치(100)는, 디스플레이(300)에 연결되어 현재 재생중인 곡 번호에 대응하는 가사 파일을 이용하여 가사 이미지를 실시간으로 표시할 수 있다.

그리고 이 가사 이미지는, 노래 반주 장치(100)의 제어에 따라, 동적으로 변경가능하다. 예를 들어 이 가사 이미지는, 사용자의 음성 신호의 인식에 따라서 원래 표시되어야 하는 가사 이미지와는 다른 이미지로 표시될 수 있다.

이 가사 이미지의 여러 표시 방법들은 도 3과 도 4의 제어 흐름을 통해서 보다더 상세히 살펴보도록 한다.

마이크(200)는, 노래 반주 장치(100)에 연결되거나 노래 반주 장치(100)의 프런트 패널 등에 내장되어, 재생 중인 곡에 대응하여 노래를 부르는 목소리를 마이크(200) 신호로 노래 반주 장치(100)에 전달하기 위한 장치이다.

이러한 마이크(200)는 복 수개가 존재할 수 있고 노래 반주 장치(100)에 여러 사용자의 목소리와 함께 노래 반주 장치(100)에서 발생하는 다양한 음원의 소리를 마이크 신호로 노래 반주 장치(100)에 전달할 수 있다.

그리고 임의의 하나의 마이크(200)는(예를 들어 노래 반주 장치(100)에 연결되는 유선형의 손잡이형 마이크(200)) 사용자로부터의 마이크 신호를 수신하기 위해서 할당될 수 있고 다른 하나의 마이크(200)(위 임의의 마이크(200)와는 다른 손잡이형 마이크(200)나 내장되어 있는 마이크(200))는 사용자로부터의 마이크 신호에서 잡음을 제거하여 사용자의 음성 신호를 추출하기 위해서 이용되어 질 수 있다.

이와 같은 마이크(200) 간의 상관 관계를 이용하여 노래방과 같은 다양한 음원이 존재하는 환경하에서 사용자의 음성 신호를 추출하여 정확한 음성 인식이 가능하도록 한다.

바람직하게 노래 반주 장치(100)의 프런트 패널이나 혹은 케이스 표면에 설치되어 노래 반주 장치(100) 외부의 소리를 전기 신호로 생성하기 위한 마이크(200)가 사용자로부터의 마이크 신호로부터 잡음을 제거하여 사용자의 음성 신호를 추출하기 위해서 이용되어 질 수 있다.

디스플레이(300)는, 노래 반주 장치(100)에 연결되어 노래 반주 장치(100)에서 출력된 이미지를 디스플레이한다. 이러한 디스플레이(300)는 예를 들어 LCD나 LED나 PDP 패널 등으로 구성될 수 있다.

도 1에서 알 수 있는 바와 같이 이 디스플레이(300)는 현재 재생 중인 곡에 대한 가사 이미지를 디스플레이한다. 이와 같이 디스플레이되는 가사 이미지는 노래 반주 장치(100)에 의해서 생성되고 이 가사 이미지는 사용자의 음성 인식에 따라 동적으로 변경가능한 이미지이다.

이 가사 이미지의 동적인 변경에 대해서는 도 3과 도 4의 예를 통해서 살펴보도록 한다.

도 2는 노래 반주 장치(100)의 예시적인 블록도를 도시한 도면이다.

도 2에 따르면 이 노래 반주 장치(100)는, 마이크 신호 수신부(110)와 저장부(120)와 입력부(130)와 오디오 출력부(140)와 비디오 출력부(150)와 제어부(160)와 연결부(170)를 포함한다. 이 중 일부의 블록은 필요나 기능의 구현에 따라 생략될 수 있고 도 2에 포함되지 않은 다른 블록이 이 노래 반주 장치(100)상에 포함될 수도 있다.

도 2의 각 블록들을 살펴보면, 마이크 신호 수신부(110)는, 연결된 하나 이상의 마이크(200) 각각으로부터 마이크 신호를 수신한다. 이와 같이 수신된 마이크 신호는 이 마이크 신호 수신부(110)에 포함될 수 있는 ADC(Analog Digital Converter)를 이용하여 수신된 아날로그의 마이크 신호를 디지털의 마이크 신호로 변환하여 제어부(160)로 출력할 수 있고 필요에 따라 ADC 이전에 증폭기(Amplifier)를 더 포함할 수도 있다.

저장부(120)는, 비휘발성 메모리나 하드 디스크 등과 같은 대용량 저장 매체를 구비하여 노래 반주 장치(100)에서 재생될 수 있는 곡 DB를 포함한다. 이러한 곡 DB는 각 곡에 대한 미디 파일이나 미디 파일의 재생 시에 이용될 수 있는 압축된 오디오 파일을 포함하고 또한 미디 파일의 재생시에 미디 음에 연동하여 이미지로 출력될 수 있는 가사 파일을 더 포함한다.

또한 이 저장부(120)는, 음성 인식에 이용될 음성 인식 프로그램을 포함하고 이 음성 인식 프로그램은 수신된 사용자의 음성 신호를 대응하는 문자열로 변환하거나 특징 벡터를 추출하고 나아가 수신된 음성 신호와 지정된 문자(들)간의 유사도를 결정할 수 있도록 한다.

이와 같은 유사도 결정에 있어서 음성 인식 프로그램은, 음성 인식에서 이용될 특징 벡터를 추출하거나 이용할 수 있도록 한다.

이러한 특징 벡터는 시간 도메인 상이나 주파수 도메인 상에서 추출되거나 미리 저장되어 있는 정보로서 예를 들어 LPCC(Linear Prediction Cepstral Coefficient) 나 MFCC(Mel Frequency Cepstral Coefficient) 등일 수 있다. 이러한 미리 저장되어 있는 특징 벡터와 수신된 음성 신호로부터 추출된 특징 벡터의 비교로 그 대응관계나 유사 관계(유사도)를 알 수 있도록 한다.

또한 음성 인식 프로그램은, 음성 비교에 이용되는 가사로부터 이 가사에 대응하는 특징 벡터를 또한 동적으로 결정할 수 있다. 이에 따라 이 음성 인식 프로그램은 지정된 가사의 특징 벡터와 음성 인식된 음성 신호의 특징 벡터의 비교로 유사도를 결정할 수 있다.

또한 저장부(120)는, 가사 이미지를 동적으로 변경하기 위한 제어 프로그램을 더 포함할 수 있다. 이러한 제어 프로그램은 음성 인식 프로그램을 구동하거나 제어하여 음성 인식과 비교에 따른 유사도 결과를 수신하고 수신된 유사도에 따라 후속하는 가사의 디스플레이 시에 이 가사의 이미지를 변경하여 출력할 수 있도록 한다.

입력부(130)는, 사용자로부터 입력 키를 수신하고 이를 제어부(160)로 전달한다. 이러한 입력부(130)는 리모컨 수광부나 버튼 등을 포함하여 리모컨으로부터 입력된 입력 키나 버튼의 눌림에 따라 입력된 입력 키를 제어부(160)에 전달할 수 있다.

이와 같이 입력되는 입력 키는, 가사 이미지의 변경 등을 통해 가사와 음성 신호의 비교를 통해 가사 이미지를 변경할 수 있도록 하는 음성 인식 프로그램을 구동하도록 제어 프로그램에 요청하는 입력 키를 포함할 수 있다.

오디오 출력부(140)는, 오디오용 DAC(Digital Analog Converter)나 미디 합성을 위한 미디 칩(chip) 등을 구비하여, 제어부(160) 등을 통해 출력된 디지털의 오디오 스트림을 아날로그의 오디오 스트림으로 변환하거나 미디 포맷에 따른 디지털의 데이터로부터 미디 명령에 따른 아날로그 신호로 변환하여 스피커(도면 미도시) 등으로 출력한다.

이러한 오디오 출력부(140)는 또한 마이크(200) 등으로부터 수신된 아날로그 등의 음성 데이터를 다른 데이터와 합성하여 출력할 수 있다.

비디오 출력부(150)는, 디스플레이(300)의 입력 비디오 포맷에 부합하는 비디오 신호를 생성하는 비디오 인코더를 구비하여, 제어부(160)의 제어하에 생성된 디지털의 이미지를 비디오 신호로 생성하여 출력한다.

이러한 비디오 출력부(150)는, 선곡된 곡의 재생 중에 이용되는 배경 영상 등을 출력하고, 나아가 이 배경 영상에 오브랩되는 가사 이미지를 출력한다.

제어부(160)는, 노래 반주 장치(100)의 각 블록들을 제어한다. 이와 같은 제어부(160)는 입력부(130) 등을 통해 수신된 입력 키에 따라서 구동중인 프로그램을 구동 해제하거나 다른 프로그램을 로딩하여 프로그램을 수행하여 각 블록들을 제어한다.

이러한 제어부(160)는, 프로그램의 명령어를 실행하기 위한 실행 유닛은 포함하는 CPU(Central Processing Unit), MPU(Micro Processor Unit)과 DSP(Digital Signal Processor)의 조합으로 구성될 수 있다.

그리고 이 제어부(160)는, 재생 중인 곡에 대응하는 가사 이미지를 생성하고 생성된 가사 이미지를 비디오 출력부(150)를 통해 디스플레이하고 나아가 사용자로부터의 마이크 신호에서 음성 신호를 추출하고 추출된 음성 신호로부터 특징 벡터를 추출하여 대응하는 가사의 특징 벡터의 유사도에 따라서 사용자가 대응하는 가사를 정확히 발성하였는지 혹은 기억을 하지 못하는 지를 판단할 수 있다.

이러한 판단에 따라 제어부(160)는, 현재 표시되어 있는 가사 이미지의 가사에 후속하는 가사를 예를 들어 전부 표시하지 않고 공백으로 출력하거나 일부를 표시하지 않고 출력하거나 혹은 가사 중 일부 단어에 대해서 표시하지 않고 공백으로 출력하는 등, 가사 이미지를 동적으로 변경 생성하여 출력할 수 있다.

이 제어부(160)에서 수행되는 다양한 제어 흐름은, 도 3과 도 4를 통해서 보다더 상세히 살펴보도록 한다.

연결부(170)는, 데이터를 송신하거나 수신할 수 있도록 한다. 이러한 연결부(170)는 예를 들어 하나의 신호선, 복수의 선으로 구성된 버스(시리얼 혹은 병렬 버스)의 조합으로 구성될 수 있다.

도 3은 음성 인식을 이용하여 가사를 표시하기 위한 제어 흐름의 하나의 실시예를 도시한 도면이다.

이러한 제어 흐름은 노래 반주 장치(100)의 제어부(160)에 의해서 수행될 수 있고 바람직하게는 제어부(160)에 의한 제어에 따라 노래 반주 장치(100)의 다른 블록을 제어함으로써 수행될 수 있고 제어 프로그램과 음성 인식 프로그램을 이용하여 다른 블록들을 제어할 수 있다.

그리고 이 제어 흐름은, 노래 반주 장치(100)에 전원이 공급됨에 따라 자동으로 시작되거나 사용자에 의한 입력 키에 따르는 요청에 따라 시작(S100)되고 전원이 공급 중단되거나 사용자에 의한 중단 요청에 따라 종료(S200)될 수 있다.

먼저 사용자에 의한 선곡에 따라, 제어부(160)는 곡 DB에서 선곡된 곡에 대응하는 미디 파일과 가사 파일 등을 로딩하고, 미디 파일과 가사 파일을 이용하여 곡의 재생을 준비한다.

이에 따라 제어부(160)는, 디스플레이(300) 상에 복수의 소절 가사를 포함하는 가사 이미지를 미디 파일의 재생에 동기화하여 표시할 수 있다. 이 도 3의 제어 흐름은, 미디 파일의 재생에 동기화하여 특정 시점에서의 화면에 표시되는 가사 이미지를 생성하고 이후 음성 신호와 연동하여 다른 가사 이미지를 생성하는 것을 설명하는 제어 흐름이다.

따라서 이 도 3(나아가 도 4)의 제어 흐름은 음성 인식을 이용하여 가사 이미지를 변경할 때마다 반복적으로 수행될 수 있다.

먼저 단계 S101에서 제어부(160)는, 미디 파일의 재생에 동기화하여 표시될 가사 이미지를 생성하기 위해서, 가사 파일로부터 복수의 소절(또는 마디) 가사를 포함하는 가사를 추출한다. 이와 같이 추출되는 가사는, 디스플레이(300) 상에 같이 표시되는 가사 데이터이다.

이후 단계 S103에서 제어부(160)는, 추출된 복수의 소절 가사를 포함하는 가사 중에서 음성 인식의 비교 대상이 될 가사(이하 '제 1 가사'라 한다)를 지정한다.

이러한 제 1 가사는 가사 파일에 미리 지정되어 있거나 혹은 재생 중에 램덤하게 지정되는 가사일 수 있다. 예를 들어 이 제 1 가사는 추출된 가사 전체가 될 수 있거나 추출된 복수의 소절 중에서 임의의 하나의 소절에 대응하는 가사일 수 있다.

이 도 3의 제어 흐름에서는, 바람직하게는 하나의 소절에 대응하는 소절 가사가 제 1 가사로 지정될 수 있다.

이후 단계 S105는, 제어부(160)는 음성 인식 프로그램을 이용하여, 이 제 1 가사에 대응하는 특징 벡터를 추출한다. 추출된 특징 벡터는 제 1 가사의 각 문자에 대해서 추출된 특징 벡터들일 수 있고 이러한 특징 벡터는 음성 인식 프로그램에 의해서 추출될 수 있다.

이와 같이 추출된 특징 벡터는, 한글에 따르는 자음과 모음의 조합으로 음성 인식 프로그램에 의해서 미리 저장되어 있는 각 자음과 모음의 특징 벡터의 결합으로 동적으로 생성되거나 조합형 문자에 대해서 저장부(120)에 미리 저장되어 있는 특징 벡터로부터 결정되는 특징 벡터일 수 있다.

이후 단계 S107에서 제어부(160)는, 지정된 제 1 가사의 이미지를 변경하고 변경된 이 이미지를 포함하는 가사 이미지를 생성하여 비디오 출력부(150)를 통해 가사 이미지를 출력한다.

여기서 이 제 1 가사의 이미지는, 지정된 이 제 1 가사가 이미지의 변경 없이 제 1 가사를 나타내는 문자들의 이미지로 출력될 때의 이미지와는 상이한 이미지이고 예를 들어, 이 제 1 가사를 식별이 불가능한 공백(blank) 문자로 된 이미지이거나 제 1 가사의 자음만(예를 들어 한글의 초성만)이 표시된 이미지이다.

이러한 제 1 가사의 이미지를 보게 되는 사용자는, 해당 가사의 연주 시점에 이 제 1 가사와 일치하도록 자신의 음성으로 마이크(200)를 통해 음성 신호를 입력할 수 있다.

이후 단계 S109에서 제어부(160)는, 마이크 신호 수신부(110)를 통해서 사용자로부터의 마이크 신호를 연속적인 디지털 스트림의 형태로 수신한다. 이 단계에서 제어부(160)는 미디 파일의 연주 시점에 동기화하여 이 제 1 가사에 대응하는 미디 파일의 미디 명령이 출력될 때부터 이 제 1 가사가 종료 연주 시점까지 디지털 스트림의 마이크 신호를 수신하면 충분할 것이다. 이에 따라 음성 인식에 이용되는 제어부(160)의 부하(load)를 줄일 수 있도록 한다.

그리고 잡음을 제외한 사용자의 음성 신호를 추출 가능하도록 하기 위해서 이 단계 S109에서 제어부(160)는, 복수의 마이크(200)로부터 연속적인 디지털 스트림을 수신한다.

예를 들어 제어부(160)의 음성 인식 프로그램은, 지정된 기간(제 1 가사의 연주 기간에 대응하는 기간)에 하나의 마이크(200)(예를 들어 손잡이형 마이크(200))로부터 마이크 신호를 수신하고 또한 동일한 기간에 다른 하나의 마이크(200)(예를 들어 노래 반주 장치(100)에 내장되어 외부의 음원을 수신할 수 있는 마이크(200))로부터 마이크 신호를 수신하여, 이 마이크 신호의 비교로 사용자의 음성 신호를 추출할 수 있도록 한다.

이후 단계 S111에서 제어부(160)는, 연속적인 디지털 스트림으로 수신된 마이크 신호와 현재 재생되고 있는 곡에서 지정된 제 1 가사와 비교한다. 이러한 비교에 따라 지정된 제 1 가사와 사용자의 음성 신호 사이의 유사도가 결정될 수 있다.

단계 S109와 단계 S111를 구체적으로 살펴보면 제어부(160)는, 단계 S109에서, 하나의 마이크(200)로부터 수신된 마이크 신호와 다른 하나의 마이크(200)로부터 같은 시간에(동시에) 수신된 마이크 신호 간의 비교에 따라(예를 들어 차이에 따라) 사용자의 음성 신호를 추출할 수 있다.

예를 들어 제어부(160)는, 손잡이형 마이크(200)로부터의 마이크 신호를 주파수 신호로 변환하고 내장된 마이크(200)로부터의 마이크 신호를 주파수 신호로 변환하고 사용자로부터의 주파수 신호에서 노래 반주 장치(100)의 환경하에서 노래 반주 장치(100)에서 출력되는 음원(미디 신호음이나 그 외 오디오 신호음 등)에 해당하는 잡음에 해당하는 내장된 마이크(200)로부터의 주파수 신호를 차감하여 사용자의 음성 신호를 추출할 수 있다.

이에 따라 비록 노래방과 같은 시끄러운 환경하에서도 잡음 신호를 정확히 제거하고 음성 인식에 이용될 사용자의 음성 신호를 추출할 수 있도록 한다.

이후 제어부(160)는, 이 단계 S111에서, 수신된 마이크 신호로부터 추출된 사용자의 음성 신호로부터 음성 인식에 이용될 특징 벡터를 추출하고, 현재 재생되고 있는 곡에서 지정된 제 1 가사에 대응하여 추출된 특징 벡터를 비교하여, 이 특징 벡터들 사이의 유사 정도에 따라서 제 1 가사와 음성 신호 사이의 유사도를 결정한다.

이와 같이 결정되는 유사도는 예를 들어 256 단계 유사 레벨로 결정될 수 있고 예를 들어 '0' 단계는 유사도가 없는 단계로, '255' 단계는 유사도가 미리 지정되어 있는 가장 높은 범위 내에서의 유사도를 가지는 단계로 결정될 수 있다.

그리고 이 단계 S111은, 또한 이와 같이 결정된 유사도를 나타내는 이미지를 제 1 가사에 대한 지정된 기간의 경과 후에 실시간으로 디스플레이할 수 있다.

이와 같이 디스플레이되는 유사도를 나타내는 이미지는, 256 단계의 유사 레벨에 대응하는 이미지일 수 있고 예를 들어 점수의 형태나 혹은 256 단계를 카테고리화하여(예를 들어 "매우 잘함", "잘함", "보통", "못함", "매우 못함" 등) 이 카테고리를 나타내는 이미지일 수 있다.

이와 같이 실시간으로 그 점수나 카테고리를 표시함으로써 사용자는 자신의 음성으로부터의 가사와 지정된 가사가 일치하는지를 알 수 있도록 하여 흥미를 제공할 수 있고 나아가 기억력 향상에 기여할 수 있다.

그리고 이후의 가사 이미지의 변화에 따라 게임과 유사한 흥미를 더욱더 제공할 수 있도록 한다.

이후 단계 S113에서, 제어부(160)는 지정된 제 1 가사를 포함하는 가사 이미지 이후에 곡의 연주와 동기화되어 재생되는 가사(이하 '제 2 가사'라 한다)를 포함하는 가사 이미지를 생성한다. 이와 같은 가사 이미지는 제 1 가사를 포함하는 가사들에 후속하여 디스플레이될 복수의 소절의 가사들에 대한 이미지로서, 이 중 제 2 가사의 이미지는 원래 표현되어야 할 이미지와는 상이하다.

예를 들어 생성되는 제 2 가사의 이미지는 제 2 가사의 문자들에 의해서 생성되는 이미지와는 상이하고 예를 들어 각 문자를 공백으로 표시한 공백 이미지이거나 각 문자의 자음만(문자의 초성만 또는 문자의 초성과 종성만)이 표시된 이미지일 수 있다.

예를 들어 제어부(160)는, 앞서 단계 S111에서 결정되는 유사도에 따라 이 제 2 가사를 결정할 수 있고, 유사도가 가장 높은 레벨 이상인 경우에는 제 2 가사를 선택하지 않고 모든 후속하는 가사가 문자 이미지로 표시되도록 가사 이미지를 생성할 수 있다.

그리고 제어부(160)는 지정된 유사도 레벨 이하(예를 들어 "보통")인 경우에는 후속하여 한번에 표시될 소절 가사들 중에서 하나의 소절 혹은 연속하는 복수의 소절(예를 들어 연속적인 2개의 소절 가사)을 제 2 가사로 지정하고 이 제 2 가사를 변경하여 이 제 2 가사를 포함하는 가사의 가사 이미지를 생성할 수 있다.

혹은 제어부(160)는 지정된 최하의 유사도 레벨에 속하는 경우(예를 들어 "매우 못함")에는 후속하여 표시될 소절 가사 중에서 대부분의 소절 가사가 정상적인 가사 이미지로 표시되지 않도록, 제 2 가사를 지정하고 이 지정된 제 2 가사에 대한 변경된 이미지를 생성하여 변경된 이미지를 포함하는 가사 이미지를 생성할 수 있다.

이후 제어부(160)는, 단계 S115에서, 이 변경된 제 2 가사를 포함하는 가사 이미지를 비디오 출력부(150)를 통해 출력하여 디스플레이(300)에 디스플레이한다.

그리고 단계 S113은, 단계 S101 내지 단계 S105와 같은 단계를 수행할 수 있고 단계 S115 이후에 단계 S109으로 전이하여 제 2 가사를 제 1 가사로 변경하여 반복적으로 수행될 수 있다.

이와 같은 도 3의 제어 흐름을 통해서 가사 표시가 동적으로 변경가능하도록 하고 나아가 가사 표시가 사용자의 음성 인식과 연동될 수 있도록 한다.

도 4는 음성 인식을 이용하여 가사를 표시하기 위한 제어 흐름의 또 다른 실시예를 도시한 도면이다.

이러한 제어 흐름은 노래 반주 장치(100)의 제어부(160)에 의해서 수행될 수 있고 바람직하게는 제어부(160)에 의한 제어에 따라 노래 반주 장치(100)의 다른 블록을 제어함으로써 수행될 수 있다.

그리고 앞서 도 3의 제어 흐름과 도 4의 제어 흐름은 대응하므로 여기서는 도 3의 차이점을 중심으로 살펴보도록 한다.

먼저 단계 S101에서 제어부(160)는, 곡의 재생에 따라 동기화되어 연주되는 가사 이미지를 표시하기 위해서 복수의 소절 가사를 포함하는 가사를 추출한다.

이후 단계 S103에서 제어부(160)는 추출된 가사 중에서 제 1 가사를 지정한다. 이러한 제 1 가사는 음성 인식에 따른 비교에 이용되기 위한 가사이고 이 예에서는 추출된 모든 소절 가사가 제 1 가사로 지정된다.

이후 단계 S105에서 제어부(160)는 이 제 1 가사에 대응하는 특징 벡터를 추출하고, 단계 S107에서 제어부(160)는 제 1 가사를 포함하는 가사 이미지를 생성하여 디스플레이한다. 여기서 표시되는 가사 이미지의 제 1 가사에 대한 이미지는, 제 1 가사에 대응하는 문자들로 된 이미지일 수 있고, 이에 따라 음성에 의해서 인식될 가사 이미지가 문자의 형태로 표시된 상태에서 디스플레이된다.

이후 단계 S109에서, 제어부(160)는 마이크(200)를 통해 마이크 신호를 수신한다. 이 과정에서 제어부(160)는 다른 마이크(200)의 마이크 신호를 이용하여 사용자의 음성 신호를 추출할 수 있다.

이후 단계 S111에서 제어부(160)는, 마이크 신호의 음성 신호와 지정된 제 1 가사를 비교하여 유사도를 결정한다.

이후 제어부(160)는 단계 S113에서, 유사도에 따라서 제 1 가사를 포함하는 복수의 소절의 가사에 후속하는 복수의 소절의 가사를 곡 DB 등을 이용하여 추출하고 추출된 복수의 소절의 가사 중에서 제 2 가사를 지정하여 지정된 제 2 가사를 변경하여 이 제 2 가사를 포함하는 가사 이미지를 생성한다.

이와 같이 생성된 제 2 가사의 이미지는 제 2 가사의 문자들을 나타내기 위한 이미지와는 다른 이미지로서, 예를 들어 공백 이미지이거나 자음(초성만 또는 초성과 종성만)만이 표시된 이미지일 수 있다.

이후 단계 S115에서 이와 같이 변경된 제 2 가사의 이미지를 포함하는 가사 이미지를 비디오 출력부(150)를 통해 출력하여 디스플레이(300)에 디스플레이한다.

그리고 디스플레이를 완료 후에 곡 재생에 따라 디스플레이된 제 2 가사를 포함하는 가사들이 연주 완료된 후에 다시 단계 S101로 전이하여 반복할 수 있다.

이상 도 3과 도 4를 통해서 음성 인식을 활용하여 가사를 표시하는 방법에 대한 제어 흐름을 살펴보았다. 이러한 음성 인식을 활용하여 가사를 표시하는 방법은 다양한 변형 예가 있을 것이다.

예를 들어 도 3과 도 4의 제어 흐름은, 일정한 주기를 가지고 수행되거나 유사도의 변화에 따라 제어 흐름 수행의 주기를 변경하여 수행되거나 할 수 있을 것이다.

이러한 도 3과 도 4의 제어 흐름에 의해서, 가사의 표시를 동적으로 변경할 수 있도록 하고 사용자와 노래 반주 장치(100)가 음성으로 서로 가사를 표시하도록 연동될 수 있도록 하고, 나아가 흥미를 유발하고 기억력을 향상시킬 수 있도록 한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것이 아니다.

100 : 노래 반주 장치
110 : 마이크 신호 수신부 120 : 저장부
130 : 입력부 140 : 오디오 출력부
150 : 비디오 출력부 160 : 제어부
170 : 연결부
200 : 마이크 300 : 디스플레이

Claims

음성 인식을 이용한 가사 표시 방법으로서,
(a) 마이크를 통해 마이크 신호를 수신하는 단계;
(b) 수신된 마이크 신호의 음성 신호와 재생되는 곡의 지정된 제 1 가사와 비교하는 단계;
(c) 상기 비교의 결과에 기초하여 상기 제 1 가사 이후의 제 2 가사를 변경하여 이미지로 생성하는 단계; 및
(d) 변경되어 생성된 이미지를 디스플레이하는 단계;를 포함하며,
상기 생성된 이미지에 포함되는 상기 제 2 가사의 이미지는, 상기 제 2 가사의 문자들의 이미지와는 상이한,
가사 표시 방법.
제1항에 있어서,
상기 단계 (a)는,
(a-1) 제 1 마이크로부터 제 1 마이크 신호를 수신하는 단계; 및
(a-2) 제 2 마이크로부터 제 2 마이크 신호를 수신하는 단계;를 포함하며,
상기 단계 (b)는,
(b-1) 상기 제 1 마이크 신호와 상기 제 2 마이크 신호의 비교로 상기 음성 신호를 추출하는 단계;를 포함하는,
가사 표시 방법.
제1항에 있어서,
상기 제 2 가사의 이미지는, 공백 이미지이거나 자음만이 표시된 이미지인,
가사 표시 방법.
제1항에 있어서,
상기 단계 (b) 이전에, 상기 제 1 가사를 포함하는 가사 이미지를 디스플레이하는 단계;를 포함하며,
상기 가사 이미지에 포함되는 상기 제 1 가사의 이미지는, 상기 제 1 가사의 문자들의 이미지와는 상이한,
가사 표시 방법.
제1항에 있어서,
상기 단계 (a) 이전에, 상기 제 1 가사를 지정하는 단계; 및 지정된 제 1 가사에 대응하는 특징 벡터를 동적으로 결정하는 단계;를 더 포함하며,
상기 단계 (b)는,
(b-2) 수신된 마이크 신호의 음성 신호로부터의 특징 벡터와 재생되는 곡의 지정된 제 1 가사의 특징 벡터의 비교로, 상기 제 1 가사와 음성 신호의 유사도를 결정하는 단계; 및
(b-3) 결정된 유사도를 나타내는 이미지를 디스플레이하는 단계;를 포함하는,
가사 표시 방법.