KR101133272B1

KR101133272B1 - 입체 캐릭터 영상을 제공하는 가라오케 시스템 및 그 구동방법

Info

Publication number: KR101133272B1
Application number: KR1020110110049A
Authority: KR
Inventors: 박근
Original assignee: 글로엔텍 주식회사
Priority date: 2011-10-26
Filing date: 2011-10-26
Publication date: 2012-04-06

Abstract

입체 캐릭터 영상을 제공하는 가라오케 시스템 및 그 구동방법이 제공된다. 본 발명의 일실시예에 따른 가라오케 시스템의 동작방법은, 사용자로부터의 음성 신호를 수신하는 단계와, 상기 음성 신호로부터 적어도 하나의 정보를 추출하고, 추출된 정보를 기 저장된 분류 기준 데이터와 비교함에 의하여 상기 음성 신호의 음성 모델을 인식하는 단계와, 상기 음성 모델 인식 결과에 따라 배경 화면 및 캐릭터 영상 중 적어도 하나에 대한 매칭 동작을 수행하는 단계 및 상기 매칭 동작 결과에 기반하여 상기 배경 화면 및 캐릭터 영상 중 적어도 하나가 상기 음성 신호에 실시간으로 반응하도록 제어하는 단계를 구비하는 것을 특징으로 한다.

Description

입체 캐릭터 영상을 제공하는 가라오케 시스템 및 그 구동방법{Karaoke system and Operating method capable of providing a 3D character image}

본 발명은 가라오케 시스템 및 그 구동방법에 관한 것으로서, 자세하게는 입체 캐릭터 영상을 제공하는 가라오케 시스템 및 그 구동방법에 관한 것이다.

일반적으로 가라오케(karaoke)로 지칭되는 영상 가요 반주기는, 사용자의 선택에 따른 반주를 위한 다수의 음원 정보와 반주 수행시 화면에 출력할 영상 정보가 저장된 디스크를 재생하는 장치를 구비한다. 가라오케 시스템은 CD나 DVD 와 같은 광 디스크에 저장된 음원 정보를 재생하거나, 근래들어 광 디스크 외에에도 플래쉬 메모리 등 반도체 메모리에 저장된 음원 정보나 인터넷 등 네트워크 수단을 통해 전송되는 음원 정보를 재생할 수 있다.

가라오케 시스템은 일반적으로 상기 음원 정보와 영상 정보를 처리하여 오디오 및 비디오 신호를 생성하고 이를 스피커나 디스플레이 수단을 통해 출력한다. 또한 사용자가 마이크를 통하여 음성 신호를 입력하면 이를 처리하여 디지털화 하고, 오디오 신호와 사용자의 음성 신호를 혼합하여 스피커를 통해 출력한다. 또한, 가라오케 시스템은 사용자에게 노래의 가사를 제공하거나 다양한 영상 인터페이스 효과를 제공하기 위하여 각종 영상 정보를 저장하고, 사용자에 의해 선택된 음원 정보에 따라 영상 처리동작을 수행하여 배경 화면 등이 출력되도록 한다.

그러나, 종래의 경우에는 음원 정보와 영상 정보가 별개로 저장되고 독립적으로 동작하였다. 즉, 음원 정보는 저장 용량의 증가와 코러스, 반주 등 양적 및 질적으로 증가하였고, 영상 정보 또한 사용자에게 최적의 환경을 제공하기 위하여 뮤직 비디오 영상을 이용하는 등의 개선이 이루어졌다. 그러나, 이러한 방식은 단지 다수의 영상 정보들을 기 저장하고 사용자의 음원 정보의 선택에 따라 이에 대응하는 영상 정보를 출력하는 방식에 기반하는 것으로서, 사용자 개인에 관련된 시스템 이용 상태나 사용 환경 등에 맞춤하여 최적의 반주 효과를 제공하는 데는 한계가 발생하는 문제점이 있었다.

본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 가라오케 시스템의 사용자의 이용 상태나 사용 환경 등에 따른 다양한 영상 인터페이스를 제공하고, 사용자의 음성 신호에 실시간으로 반응하는 최적의 반주 효과를 제공하는 것을 목적으로 한다.

상기와 같은 목적을 달성하기 위하여, 본 발명의 일실시예에 따른 가라오케 시스템의 동작방법은, 사용자로부터의 음성 신호를 수신하는 단계와, 상기 음성 신호로부터 적어도 하나의 정보를 추출하고, 추출된 정보를 기 저장된 분류 기준 데이터와 비교함에 의하여 상기 음성 신호의 음성 모델을 인식하는 단계와, 상기 음성 모델 인식 결과에 따라 배경 화면 및 캐릭터 영상 중 적어도 하나에 대한 매칭 동작을 수행하는 단계 및 상기 매칭 동작 결과에 기반하여 상기 배경 화면 및 캐릭터 영상 중 적어도 하나가 상기 음성 신호에 실시간으로 반응하도록 제어하는 단계를 구비하는 것을 특징으로 한다.

바람직하게는, 상기 음성 신호에 실시간으로 반응하도록 제어하는 단계는, 상기 매칭 동작 결과에 기반하여 캐릭터 영상을 다른 캐릭터로 변환하는 동작 및 상기 캐릭터 영상의 움직임을 제어하는 동작 중 적어도 하나를 포함하는 것을 특징으로 한다.

또한, 바람직하게는, 상기 가라오케 시스템의 동작방법은 상기 배경 화면 및 캐릭터 영상을 입체 영상으로 변환하여 출력하는 단계를 더 구비하는 것을 특징으로 한다.

또한, 바람직하게는, 다수의 음성 모델에 대응하는 반주 정보가 데이터베이스화되어 기 저장되며, 상기 가라오케 시스템의 동작방법은 상기 음성 모델 인식 결과에 따라 상기 반주 정보를 매칭시키는 단계 및 상기 매칭 결과에 기반하여 실시간으로 반주 요소를 변환하는 단계를 더 구비하는 것을 특징으로 한다.

또한, 바람직하게는, 상기 음성 모델을 인식하는 단계는, 상기 음성 신호를 디지털 신호로 변환하는 단계와, 상기 디지털 신호를 처리하여 하나 이상의 부정보를 추출하는 단계와, 추출된 부정보를 상기 기 저장된 분류 기준 데이터와 비교하는 단계 및 상기 비교 결과에 따라, 다수 단계로 모델링되는 음성 모델들 중 상기 음성 신호에 대응하는 음성 모델을 인식하는 단계를 구비하는 것을 특징으로 한다.

한편, 본 발명의 일실시예에 따른 가라오케 시스템은, 마이크를 통해 수신되는 사용자의 음성 신호로부터 적어도 하나의 정보를 추출하고, 추출된 정보를 기 저장된 분류 기준 데이터와 비교함에 의하여 상기 음성 신호의 음성 모델을 인식하는 음성 인식부와, 반주 동작시 출력될 배경 화면 및 캐릭터 영상을 데이터베이스화하여 저장하는 데이터베이스부와, 상기 음성 모델의 인식 결과를 수신하고, 상기 사용자의 음성 모델과 상기 데이터베이스부에 저장된 정보에 대한 매칭 동작을 수행하며, 상기 매칭 동작 결과에 기반하여 상기 배경 화면 및 캐릭터 영상 중 적어도 하나가 상기 음성 신호에 실시간으로 반응하도록 제어하는 마이크로 프로세서 및 상기 배경 화면 및 캐릭터 영상을 입체 영상으로 변환하여 출력하는 3D 캐릭터 생성부를 구비하는 것을 특징으로 한다.

상기한 바와 같은 본 발명에 따르면, 사용자의 음성 정보의 각종 요소들을 추출하여 이를 모델링 및 매칭하고, 매칭 결과에 따라 반주를 조정하거나 실시간 반응하는 입체(3D) 배경 화면 및 캐릭터를 제공함으로써 사용자에게 최적의 반주 효과를 제공할 수 있는 효과가 있다.

또한 본 발명에 따르면, 상기 음성 정보 이외에도 가라오케 시스템이 사용되는 지역, 시간 및 날짜 정보 등 각종 정보를 이용하여 3D 배경 화면 및 캐릭터의 선택 및 변경을 제어함으로써 최적의 반주 효과를 제공할 수 있는 효과가 있다.

도 1은 본 발명의 일실시예에 따른 가라오케 시스템을 나타내는 블록도이다.
도 2는 도 1의 음성 인식부의 일 구현예를 나타내는 블록도이다.
도 3은 도 1의 마이크로 프로세서의 일 구현예를 나타내는 블록도이다.
도 4는 도 1의 음성 인식부의 음성 모델 인식을 위한 분류 기준 데이터를 저장하는 일예를 나타내는 플로우차트이다.
도 5는 본 발명의 일실시예에 따른 가라오케 시스템의 동작방법을 나타내는 플로우차트이다.
도 6은 본 발명의 다른 실시예에 따른 가라오케 시스템의 동작방법을 나타내는 플로우차트이다.
* 도면의 주요부분에 대한 부호의 설명 *
1000: 가라오케 시스템
1110: 마이크로 프로세서
1130: 오디오 신호 처리부
1140: 비디오 신호 처리부
1150: 3D 그래픽 생성부
1230: 음성 인식부

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시 예를 예시하는 첨부 도면 및 도면에 기재된 내용을 참조하여야 한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일실시예에 따른 가라오케 시스템을 나타내는 블록도이다. 도 1에 도시된 바와 같이, 상기 가라오케 시스템(1000)은 음원 정보의 처리나 배경화면 및 캐릭터 화면 등의 영상 정보의 처리 등 시스템 전반을 구동하는 시스템 구동부(1100) 및 각종 주변 장치들을 포함할 수 있다. 일예로서, 시스템 구동부(1100)는 시스템 전체의 동작을 제어하는 마이크로 프로세서(1110), 시스템 구동을 위한 각종 시스템 데이터를 저장하는 메모리부(1120), 스피커부(미도시)나 디스플레이 수단(미도시)을 통해 반주 및 영상을 출력하기 위하여 마이크로 프로세서(1110)의 제어하에서 오디오 신호 및 비디오 신호를 처리하는 오디오 신호 처리부(1130) 및 비디오 신호 처리부(1140)를 포함할 수 있다. 또한, 상기 시스템 구동부(1100)는 배경화면이나 캐릭터(일예로서, 애니메이션 캐릭터) 등을 입체(3D) 화면으로 변환하는 3D 그래픽 생성부(1150)를 더 포함할 수 있다.

또한 상기 가라오케 시스템(1000)은 기타 주변 장치들로서, 마이크를 통한 사용자의 음성 신호를 수신하는 마이크 입력부(1210), 수신된 음성 신호를 증폭하는 증폭부(1220), 음성 신호로부터 적어도 하나의 음성 정보를 추출하고 이를 분석하여 사용자의 음성 모델을 인식하는 음성 인식부(1230), 상기 증폭된 음성 신호에 대한 에코(echo) 효과를 부여하는 에코부(1240) 및 사용자의 음성 신호와 반주 신호를 혼합하는 음성 혼합부(1250)를 구비할 수 있다. 또한, 반주를 수행할 음원 정보에 대한 사용자의 선곡 신호 등을 입력받기 위한 키 입력부(1300), 외부의 네트워크 시스템에 연결되어 외부의 장치로부터 각종 가라오케 시스템(1000)과 관련된 환경 정보(일예로서, 지역, 시간 및 날짜 정보 등)를 수신하는 네트워크 인터페이스(1410), 외부로부터 제공된 환경 정보를 처리하는 환경정보 처리부(1420), 반주를 제공하기 위한 각종 음원 정보들을 저장하는 음원정보 저장부(1510)를 구비한다. 또한, 본 발명의 실시예에 따라, 각종 환경 정보 및 사용자의 음성 신호에 응답하여 반주 동작을 제어하거나 배경 화면 및 캐릭터의 선택 및 변경하기 위하여, 사용자에게 제공될 배경 영상이나 캐릭터 등을 데이터베이스화하여 저장하거나 음성 신호에 매칭되는 각종 반주 정보를 저장하는 데이터베이스부(1520)가 가라오케 시스템(1000)에 더 구비될 수 있다.

사용자가 반주를 원하는 음원 정보를 선택하면 키 입력부(1300)는 해당 선택정보를 마이크로 프로세서(1110)로 제공하며, 오디오 신호 처리부(1130)는 음원정보 저장부(1510)에 저장된 음원 정보를 오디오 신호 처리하여 음성 혼합부(1250)로 제공한다. 또한, 환경정보 처리부(1420)에 의해 각종 환경 정보(일예로서, 지역, 시간 및 날짜 정보 등)가 처리되어 마이크로 프로세서(1110)로 제공되며, 비디오 신호 처리부(1140)는 데이터베이스부(1520)에 저장된 배경 영상에 대한 비디오 처리를 수행하여 3D 그래픽 생성부(1150)로 제공한다. 3D 그래픽 생성부(1150)는 비디오 처리된 신호를 입체 영상으로 변환하여 입체 영상이 출력되도록 한다.

이와 함께, 반주 동작이 시작되면 마이크를 통해 사용자의 음성 신호가 마이크 입력부(1210)로 제공되며, 해당 음성 신호는 아날로그 증폭 동작 및 에코 효과를 거쳐 음성 혼합부(1250)로 제공된다. 음성 혼합부(1250)는 반주 신호 및 사용자의 음성 신호를 혼합하고 가라오케 시스템(1000)에 장착된 스피커 또는 가라오케 시스템(1000)에 연결된 스피커(미도시)를 통해 반주 및 음성을 출력한다.

본 발명의 실시예에 따르면, 가라오케 시스템(1000)을 이용하는 사용자에게 최적의 반주 환경을 제공하기 위한 동작을 수행한다. 일예로서, 사용자에 의해 선곡된 음원 정보나 가라오케 시스템(1000)이 사용되는 지역이나 시간 및 날짜 등의 정보를 이용하여 반주 동작시 출력되는 배경 화면이 선택되도록 하거나, 데이터베이스화되어 저장된 다수의 종류의 캐릭터들 중 사용자의 특성(일예로서, 사용자의 연령이나 성별)에 맞는 캐릭터가 선택되도록 한다.

또한, 사용자가 노래를 부르는 동안에 사용자로부터의 음성 신호에 실시간으로 반응하여 영상 출력을 변동하거나 반주 상태를 변동한다. 이를 위하여, 마이크를 통하여 사용자의 음성 신호를 수신하고, 음성 신호에 포함된 하나 이상의 정보들에 대한 분석 동작을 수행하여 사용자의 음성 모델을 인식하며, 인식 결과를 이용하여 데이터베이스부(1520)에 저장된 정보들과 매칭 동작을 수행한다. 상기 매칭 결과에 따라 가라오케 시스템(1000)의 주요 기능인 옥타브, 음량, 박자 등의 반주 동작을 동기화 시키거나, 3D 영상으로 제공되는 배경 화면이나 캐릭터를 동기화시킴으로써 최적의 반주 환경이 제공되도록 한다. 상기 반주 동작을 동기화시킨다는 것은, 옥타브, 음량, 박자 등의 반주 요소를 사용자의 음성 신호에 최적화된 반주로 자동 변환시킴을 나타낼 수 있다. 또한, 상기 3D 배경 화면이나 캐릭터를 동기화시킨다는 것은, 사용자의 음성 신호에 따라 사용자의 연령이나 성별에 맞는 캐릭터로 자동 변환하거나, 사용자의 음성 신호에 맞추어 캐릭터의 율동을 자동 변환시킴을 나타낼 수 있다. 상기와 같은 동기화 동작에 의하여, 실제 사용자가 부르는 노래에 맞추어 영상 및 반주가 사용자에게 최적화될 수 있도록 한다.

데이터베이스부(1520)에는 반주 동작시 출력될 영상에 관련된 각종 정보가 저장된다. 일예로서, 선택된 음원 정보나 가라오케 시스템(1000)이 사용되는 지역이나 시간 등 배경 정보, 그리고 실제 노래를 수행하는 사용자에 따른 적절한 배경 영상과 캐릭터를 제공하기 위한 정보가 데이터베이스화되어 저장된다. 이와 같은 영상 정보는 비디오 신호 처리부(1140)를 거쳐 3D 그래픽 생성부(1150)로 제공되어 입체 영상으로 변환될 수 있으며, 또한 마이크로 프로세서(1110)의 제어하에서 3D 그래픽을 변환 처리하여, 3D 배경이나 캐릭터가 사용자의 음성 신호에 따라 실시간 반응할 수 있도록 한다. 3D 배경이나 캐릭터의 실시간 반응의 예로서, 사용자의 음성 신호에 맞추어 캐릭터의 율동이 변경하는 동작이 대표적인 예가 될 수 있다.

또한, 음성 신호에 포함되는 각종 정보를 검출하여 이를 분류하고, 상기 각종 정보들에 대응하여 최적의 반주 상태를 나타내는 정보를 데이터베이스부(1520)에 저장한다. 반주 동작을 동기화시키기 위하여, 사용자의 음성 신호를 인식한 결과를 이용하여 데이터베이스부(1520)에 저장된 정보와 매칭 동작을 수행하고, 매칭 결과를 이용하여 사용자의 음성 신호에 맞추어 반주를 자동 변환한다.

한편, 사용자의 음성 신호를 이용하여 음성 인식을 수행함에 있어서, 기존의 경우 사전 및 언어 교육 등을 위한 단어 위주의 일반적인 음성 인식을 수행한 반면에, 본 발명의 실시예에 따르면 기존의 음성 인식에서 사용되지 않은 각종 음성 정보, 예컨대 음량, 주파수, 마찰, 성문, 피치(음성 간격) 등 추가의 요소(이하, 부정보로 지칭함)를 사용하여 음성 인식을 수행한다. 상기 음성 신호의 부정보에 대한 분석 결과에 따라 음성 신호에 대한 모델링 동작을 수행하여 상기 음성 신호의 음성 모델을 인식한다. 상기 음성 모델 인식동작은, 사용자의 음성 신호의 부정보를 추출한 결과와 일반 음성 신호의 부정보들을 검출 및 분류한 분류 기준 데이터와 비교함에 의하여 수행될 수 있다. 상기와 같이 발생된 음성 인식 결과에 기반하여, 전술한 바와 같은 반주의 실시간 제어, 그리고 배경 영상이나 캐릭터 영상의 선택 및 캐릭터의 율동 동작 등이 실시간 제어될 수 있으며, 상기 음성 인식과 관련된 구체적인 동작을 도 2를 참조하여 설명한다.

도 2는 도 1의 음성 인식부의 일 구현예를 나타내는 블록도이다. 도 2에 도시된 바와 같이, 상기 음성 인식부(1230)는 아날로그 형태의 음성 신호에 대해 노이즈 필터링 동작을 수행하는 아날로그 노이즈 필터(1231), 아날로그 형태의 음성 신호를 디지털 데이터(일예로서, N 비트 데이터 N-bit data)로 변환하는 A/D 변환부(1232) 및 A/D 변환부(1232)로부터의 디지털 데이터를 일시 저장하는 버퍼(1233)를 구비할 수 있다. 또한, 상기 음성 인식부(1230)는 디지털 데이터를 처리함으로써 상기 음성 신호를 분석하고, 분석 결과를 소정의 분류 기준 데이터와 비교하여 사용자의 음성 모델을 인식하며, 그 인식 결과에 따른 제어 데이터(ctrl data)를 발생하는 디지털 신호 처리부(1234, 이하 DSP 프로세서)와, 상기 DSP 프로세서(1234)로부터의 제어 데이터(ctrl data)를 일시 저장하고 이를 도 1의 마이크로 프로세서(1110)로 제공하는 제어 데이터 버퍼(1237)를 더 포함할 수 있다.

또한, 상기 음성 인식부(1230)는 DSP 프로세서(1234)의 신호 처리 동작에 관계된 각종 정보들을 일시 저장하기 위한 메모리(예컨대 DRAM, 1235)와, 음성 모델을 인식하기 위해 기준이 되는 다수의 분류 기준 데이터를 저장하는 기준 데이터 저장부(1236)를 더 포함할 수 있다. 전술한 바와 같이, 일반적인 음성 신호의 부정보로서 음량, 주파수, 마찰, 성문, 피치 등의 각종 요소들 각각을 다수의 단계로 구분하여 데이터베이스화하여 기준 데이터 저장부(1236)에 저장된다. 이후, 마이크를 통하여 사용자의 음성 신호가 수신되면, 상기 음성 신호에 대한 분석 작업을 통해 사용자의 음성 모델을 인식하고, 그 인식 결과가 제어 데이터(ctrl data)로서 데이터 버퍼(1237)를 통해 DSP 프로세서(1234)로 제공된다.

DSP 프로세서(1234)는 디지털 데이터(N-bit data)를 처리하여 사용자의 음성 신호의 부정보 성분을 추출한다. 하나 이상의 부정보 성분이 사용자의 음성 신호를 모델링하기 위해 이용될 수 있으며, 추출된 부정보 성분은 기준 데이터 저장부(1236)에 저장된 각종 분류 기준 데이터와 비교된다. 상기 부정보 성분 각각에 대한 분류 기준 데이터와의 비교 결과를 조합하여 사용자의 음성 신호의 음성 모델을 인식하고 그 결과를 상기 제어 데이터(ctrl data)로서 발생한다.

상기와 같은 제어 데이터(ctrl data)를 이용하여 사용자의 음성 신호에 최적화된 반주 매칭을 수행하고, 매칭 결과에 따라 실시간으로 옥타브, 음량, 박자 등의 반주 요소를 변동하기 위한 동기화 처리를 수행한다. 또한, 상기 제어 데이터(ctrl data)를 이용하여 배경 화면이나 캐릭터의 선택이 변환될 수 있으며, 또한 배경 화면이나 캐릭터를 음성 신호에 실시간으로 동기화하기 위한 3D 그래픽 제어동작이 수행될 수 있다. 이와 같은 동작들을 도 3을 참조하여 설명하면 다음과 같다.

도 3은 도 1의 마이크로 프로세서(1110)의 일 구현예를 나타내는 블록도이다. 도 3에서는 마이크로 프로세서(1110)가 각종 하드웨어적 구성을 갖는 것으로 도시되었으나, 이는 설명의 편의를 위한 것일 뿐 상기 도 3에 도시된 기능들은 마이크로 프로세서(1110) 내에서 소프트웨어적으로 수행되어도 무방하다.

도 3에 도시된 바와 같이, 상기 마이크로 프로세서(1110)는 반주 매칭 처리부(1111), 반주 동기화 처리부(1112), 배경/캐릭터 매칭 처리부(1113), 배경/캐릭터 선택부(1114) 및 캐릭터 동기화 처리부(1115)를 포함할 수 있다. 음성 모델을 인식한 결과로서, 음성 인식부(1230)로부터의 제어 데이터(ctrl data)가 반주 매칭 처리부(1111) 및 배경/캐릭터 매칭 처리부(1113)로 제공된다. 상기 마이크로 프로세서(1110)의 구체적인 동작을 도 1 및 도 3을 참조하여 설명하면 다음과 같다.

반주 매칭 처리부(1111)는 제어 데이터(ctrl data)를 이용하여 사용자의 음성 모델에 따른 반주 매칭 동작을 수행한다. 음성 모델이 다수의 단계로 분류되고, 각 음성 모델에 최적화된 옥타브 및 박자 시스템 정보를 포함하는 반주 정보가 데이터베이스화되어 데이터베이스부(1520)에 저장된다. 반주 매칭 처리부(1111)는 제어 데이터(ctrl data)에 대응하는 반주 정보를 매칭 처리하고 그 결과를 반주 동기화 처리부(1112)로 제공한다. 반주 동기화 처리부(1112)는 상기 매칭 결과에 응답하여 박자, 옥타브 등을 사용자의 음성 모델에 맞게 실시간 변환하기 위한 반주 동기화 처리를 수행한다. 오디오 신호 처리부(1130)는 반주 동기화 처리 결과를 수신하고, 반주 출력을 위한 오디오 처리를 수행함에 있어서 옥타브 및 박자 등을 변환하여 출력한다.

한편, 상기 배경/캐릭터 매칭 처리부(1113)는 제어 데이터(ctrl data)를 이용하여 사용자의 음성 모델에 따른 배경 및 캐릭터의 매칭 동작을 수행한다. 전술한 바와 같이, 배경이나 캐릭터의 매칭 처리는 지역, 시간 및 날짜 정보 등의 환경 정보나 사용자가 선곡한 음원 정보가 더 이용될 수 있다. 일예로서, 반주를 위한 음원 정보 선택시, 상기 환경 정보 및 음원 정보를 이용하여 배경 화면이 선택되고, 이후 사용자에 의해 음성 신호가 수신되면 상기 음성 신호의 음성 모델을 기반으로 하여 캐릭터가 선택될 수 있다. 또는, 상기 환경 정보 및 음원 정보를 이용하여 배경 화면 및 캐릭터가 선택되고, 이후 사용자의 음성 신호의 음성 모델을 기반으로 하여 배경 화면이나 캐릭터를 동기화 처리할 수 있다. 이와 같은 영상 출력은 다양하게 변형 실시가 가능한 것으로서, 본 발명의 실시예는 상기 기재된 바에 국한되지 않고 다양하게 변형이 가능하다.

음성 신호의 부정보의 분석 결과에 따라 다수 단계의 음성 모델이 분류되고, 각 음성 모델에 최적화된 캐릭터 및 배경 화면에 관계된 영상 정보가 데이터베이스화되어 데이터베이스부(1520)에 저장된다. 또한 상기 환경 정보에 대응하는 배경 화면 및 캐릭터 선택을 위하여, 각각의 환경 정보에 최적화된 캐릭터 및 배경 화면에 관계된 영상 정보가 데이터베이스화되어 데이터베이스부(1520)에 저장된다. 배경/캐릭터 매칭 처리부(1113)는 상기 각종 정보들을 이용한 매칭 결과를 배경/캐릭터 선택부(1114)로 제공하며, 배경/캐릭터 선택부(1114)는 상기 매칭 결과를 이용하여 반주시 출력될 배경 화면 및 캐릭터를 선택한다. 일예로서, 최초 음원 실행시에는 사용자의 음성 신호, 환경 정보 및 음원 정보 중 적어도 하나의 조합에 의하여 배경 화면 및 캐릭터가 선택될 수 있으며, 이후 사용자의 음성 신호에 대한 음성 모델 인식 동작을 수행하고, 그 결과에 따라 배경 화면 및 캐릭터가 실시간으로 변형되도록 할 수 있다.

한편, 사용자의 음성 신호의 음성 모델 인식 결과에 기반하여 배경화면이나 캐릭터를 동기화시킬 수 있다. 일예로서, 사용자의 음성 신호의 각종 부정보를 분석한 결과에 응답하여 캐릭터가 자동 반응하도록 하며(일예로서, 음성 신호에 대응하여 캐릭터의 율동이 변경되도록 함), 또한, 상기 분석 결과에 응답하여 배경 화면이 자동 반응하도록 할 수 있다(일예로서, 배경 화면에 애니메이션 효과를 부여함). 배경/캐릭터 매칭 처리부(1113)는 환경 정보나 음원 정보를 이용하여 영상에 대한 매칭 처리를 수행하거나, 음성 모델 인식 결과를 이용하여 영상에 대한 매칭 처리를 수행한다. 매칭 처리 결과는 배경/캐릭터 선택부(1114)로 제공되며, 배경/캐릭터 선택부(1114)는 선택된 음원, 주변 환경 및 사용자의 음성 신호 등에 최적화된 배경 화면과 캐릭터를 선택한다. 또한, 캐릭터 동기화 처리부(1115)는 음성 모델 인식 결과에 따라 동기화 처리를 수행하고 그 결과를 도 1의 3D 그래픽 생성부(1150)로 제공함으로써, 3D 그래픽 생성부(1150)에 의하여 사용자의 음성 신호에 반응하여 움직이는 배경 화면 및 캐릭터가 출력되도록 한다.

도 3에 도시된 실시예에서는 마이크로 프로세서(1110) 내에 각종 기능블록들이 서로 구분되는 구성으로 구현되는 것으로 도시되었으나, 본 발명의 실시예는 이에 국한될 필요는 없다. 일예로서, 반주의 매칭 처리나 동기화 처리는 동일한 기능 블록에서 함께 수행되어도 무방하며, 또한 배경/캐릭터의 매칭 처리, 선택 및 동기화 처리 또한 동일한 기능 블록에서 함께 수행되어도 무방하다. 또한, 상기와 같은 각종 기능들은 마이크로 프로세서(1110) 내에서 소프트웨어적으로 수행될 수 있으므로, 도 3에 도시된 기능들은 서로 구분됨이 없이 하나의 기능블록에서 상호 관련하여 수행되는 것으로 설명되어도 무방하다.

도 4는 도 1의 음성 인식부의 음성 모델 인식을 위한 분류 기준 데이터를 저장하는 일예를 나타내는 플로우차트이다. 도 4에는 음성 신호의 부정보들 중 일부로서 음성 주파수, 음성 크기 및 피치 정보에 대한 분류 기준 데이터가 데이터베이스화되어 저장되는 예가 도시되었으나, 이와 다른 부정보가 더 데이터베이스화되어 저장되어도 무방하다.

먼저, 아날로그 음성 신호를 디지털 신호로 변환하고(S11), 디지털 변환된 음성 신호에 대한 디지털 샘플링 동작을 수행한다(S12). 샘플링된 디지털 데이터에 대한 주파수 변환 동작(일예로서 Fast Fourire Transform, FFT)을 수행하고(S13), 상기 주파수 변환된 디지털 데이터로부터 음성 주파수 검출동작을 수행한다(S14). 음성 주파수 검출동작은 주파수 변환된 디지털 신호의 음성 주파수 성분을 필터링 기법을 통해 분리함에 의하여 수행될 수 있으며, 상기 검출된 음성 주파수 정보를 분류하고(S15), 그 분류 결과에 따른 정보를 음정 분류 기준 데이터로서 기준 데이터 저장부(1236)에 저장할 수 있다.

또한, 디지털 변환된 음성 신호로부터 음성의 크기 정보가 검출될 수 있으며(S16), 상기 크기 정보는 디지털 변환된 음성 신호의 레벨 수치를 통해 검출될 수 있다. 상기 검출된 음성 크기 정보를 분류하고(S17), 그 분류 결과에 따른 정보를 크기 분류 기준 데이터로서 기준 데이터 저장부(1236)에 저장할 수 있다. 또한, 샘플링된 디지털 데이터로부터 음성 간격 정보를 나타내는 피치 정보를 검출하며(S18), 상기 검출된 피치 정보를 분류하고(S19), 그 분류 결과에 따른 정보를 박자 분류 기준 데이터로서 기준 데이터 저장부(1236)에 저장할 수 있다.

도 5는 본 발명의 일실시예에 따른 가라오케 시스템의 동작방법을 나타내는 플로우차트이다. 도 5에서는 음원 정보, 환경 정보(일예로서, 지역, 시간 및 날짜 정보 등) 및 음성 신호의 분석에 따른 영상 출력방법의 일예가 도시된다.

도 5에 도시된 바와 같이, 가라오케 시스템은 사용자의 키 입력수단을 이용한 곡 선택에 따른 음원 정보를 수신하고, 또한 네트워크 인터페이스를 통하여 외부로부터의 환경 정보를 수신한다(S21). 이에 따라, 음원 정보에 따른 반주를 수행함과 함께, 상기 음원 정보 및 환경 정보를 참조하여 사용자 및 선택된 음원에 적합한 배경 화면을 출력한다.

반주가 시작됨에 따라 사용자로부터 음성 신호가 수신되며(S22), 상기 음성 신호에 대한 아날로그-디지털 변환 동작을 통해 얻어진 디지털 데이터로부터 하나 이상의 부정보를 추출하고, 추출된 정보에 대한 분석 동작을 수행한다(S23). 음성 신호의 하나 이상의 부정보에 대한 분류 기준 데이터가 데이터베이스화되어 기 저장되며, 상기 추출된 정보를 분류 기준 데이터와 비교하며(S24), 상기 비교 결과에 따라 사용자의 음성 신호의 음성 모델을 인식하여 그 인식 결과를 출력한다(S25).

사용자의 음성 신호의 음성 모델 인식 결과에 따라 영상 및 반주의 출력에 대한 제어 동작이 수행된다. 일예로서, 상기 음성 모델 인식 결과와 데이터베이스에 기 저장된 배경 화면 및 캐릭터에 대한 매칭 동작을 수행하고, 매칭 결과에 따라 배경 화면 및 캐릭터를 선택한다(S26). 전술한 바와 같이 음원 정보나 환경 정보 등을 이용하여 배경 화면이 기 선택된 경우에는 상기 음성 모델 인식 결과에 응답하여 배경 화면을 다른 영상으로 변환하는 동작이 수행될 수 있다. 또한, 캐릭터가 기 선택된 경우에는 상기 음성 모델 인식 결과에 응답하여 사용자의 연령이나 성별에 맞는 캐릭터로 변환될 수 있으며, 또는 상기 캐릭터는 사용자의 음성 신호에 대한 음성 모델 인식 결과에 따라 최초 생성되어, 이후 음성 모델의 변동시 캐릭터가 이에 맞추어 변환될 수 있다. 상기와 같은 배경 화면 및 캐릭터에 대한 선택 동작이 수행되면 3D 그래픽 생성부를 통해 상기 영상이 3D 영상으로 변환되어 생성되며(S27), 생성된 3D 영상이 화면을 통해 출력된다.

도 6은 본 발명의 다른 실시예에 따른 가라오케 시스템의 동작방법을 나타내는 플로우차트이다. 도 6의 경우 사용자의 음성 신호의 음성 모델 인식 결과에 따른 실시간 오디오 및 비디오 신호 제어 동작을 나타낸다.

도 6에 도시된 바와 같이, 음원 선택에 따른 반주가 수행됨에 따라 사용자의 음성 신호가 수신된다(S31). 또한, 상기 음성 신호의 하나 이상의 부정보를 추출하고, 추출된 정보에 대한 분석 동작을 수행하여 사용자의 음성 신호의 음성 모델을 인식하고 그 인식 결과를 출력한다(S32).

사용자의 음성 신호의 음성 모델 인식 결과에 따라 반주 및 영상에 대한 실시간 동기화 동작이 수행된다. 일예로서, 다수 단계의 음성 모델에 최적화된 박자, 옥타브 등의 반주 정보가 데이터베이스화되어 기 저장되며, 상기 음성 모델 인식 결과를 이용하여 반주 변환을 위한 매칭 동작 및 동기화 처리를 수행한다(S33). 즉, 음성 모델 인식 결과에 따라 사용자의 음성 신호에 맞추어 이에 최적화된 반주를 매칭시키고, 그 매칭 결과에 따라 박자, 옥타브 등의 요소를 변경하여 반주를 실시간으로 변환한다.

또한, 상기 음성 모델 인식 결과에 따라 배경 화면 및 캐릭터 등의 영상을 선택하거나 변환한다. 일예로서, 전술한 바와 같이 다수 단계의 음성 모델에 최적화된 배경 화면 및 캐릭터 종류, 그리고 캐릭터의 율동 형태 등의 정보가 데이터베이스화되어 기 저장되며, 사용자의 음성 모델에 따라 배경 화면 및 캐릭터를 선택하거나 변환한다(S34). 전술한 바와 같이, 배경 화면이나 캐릭터가 기 선택되어 출력된 경우에는 사용자의 음성 모델에 따라 그 영상을 변환할 수 있으며, 또한 캐릭터의 경우 사용자의 음성 신호의 음성 모델을 인식한 결과를 이용하여 최초 생성될 수 있으며, 이에 따라 음성 모델 인식 결과에 따라 최초 캐릭터를 생성한 후 상기 음성 모델의 변화에 반응하여 실시간으로 캐릭터를 변환할 수 있다. 상기와 같이 선택 또는 변환 동작이 이루어진 배경 화면 및 캐릭터에 대한 동기화를 수행하여, 사용자의 음성 신호에 반응하여 움직이는 배경 화면 및 캐릭터가 출력되도록 한다(S35).

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.

Claims

사용자로부터의 음성 신호를 수신하는 단계;
상기 음성 신호로부터 사용자의 음성에 관계된 적어도 하나의 음성 정보를 추출하고, 추출된 음성 정보를 기 저장된 분류 기준 데이터와 비교함에 의하여 상기 음성 신호의 음성 모델을 인식하는 단계;
상기 음성 모델 인식 결과에 따라 배경 화면 및 캐릭터 영상 중 적어도 하나에 대한 매칭 동작을 수행하는 단계;
다수의 음성 모델에 대응하는 반주 정보가 데이터베이스화되어 기 저장되고, 상기 음성 모델 인식 결과에 따라 상기 반주 정보를 매칭시키는 단계;
상기 매칭 동작 결과에 기반하여, 상기 배경 화면 및 캐릭터 영상 중 적어도 하나가 상기 음성 신호에 실시간으로 반응하도록 제어하는 단계; 및
상기 매칭 동작 결과에 기반하여, 실시간으로 반주 동작에 관계된 반주 요소를 조절하는 단계를 구비하는 것을 특징으로 하는 가라오케 시스템의 동작방법.
제1항에 있어서, 상기 음성 신호에 실시간으로 반응하도록 제어하는 단계는,
상기 매칭 동작 결과에 기반하여 캐릭터 영상을 다른 캐릭터로 변환하는 동작 및 상기 캐릭터 영상의 움직임을 제어하는 동작 중 적어도 하나를 포함하는 것을 특징으로 하는 가라오케 시스템의 동작방법.
제1항에 있어서,
상기 캐릭터 영상을 입체 영상으로 변환하여 출력하는 단계를 더 구비하는 것을 특징으로 하는 가라오케 시스템의 동작방법.
삭제
제1항에 있어서, 상기 음성 모델을 인식하는 단계는,
상기 음성 신호를 디지털 신호로 변환하는 단계;
상기 디지털 신호를 처리하여 하나 이상의 부정보를 상기 음성 정보로서 추출하는 단계;
추출된 부정보를 상기 기 저장된 분류 기준 데이터와 비교하는 단계; 및
상기 비교 결과에 따라, 다수 단계로 모델링되는 음성 모델들 중 상기 음성 신호에 대응하는 음성 모델을 인식하는 단계를 구비하는 것을 특징으로 하는 가라오케 시스템의 동작방법.
마이크를 통해 수신되는 사용자의 음성 신호로부터 사용자의 음성에 관계된 적어도 하나의 음성 정보를 추출하고, 추출된 음성 정보를 기 저장된 분류 기준 데이터와 비교함에 의하여 상기 음성 신호의 음성 모델을 인식하는 음성 인식부;
반주 동작시 출력될 배경 화면 및 캐릭터 영상을 데이터베이스화하여 저장하는 데이터베이스부;
상기 음성 모델의 인식 결과를 수신하고, 상기 사용자의 음성 모델과 상기 데이터베이스부에 저장된 정보에 대한 매칭 동작을 수행하며, 상기 매칭 동작 결과에 기반하여 상기 배경 화면 및 캐릭터 영상 중 적어도 하나가 상기 음성 신호에 실시간으로 반응하도록 제어하는 마이크로 프로세서; 및
상기 캐릭터 영상을 입체 영상으로 변환하여 출력하는 3D 캐릭터 생성부를 구비하며,
상기 마이크로 프로세서는, 상기 음성 모델의 인식 결과에 기반하여, 상기 캐릭터 영상의 움직임을 실시간으로 제어하고,, 상기 반주 동작을 위한 다수의 반주 요소들 중 적어도 하나를 실시간으로 조절하는 것을 특징으로 하는 가라오케 시스템.
삭제
제6항에 있어서, 상기 음성 인식부는,
상기 음성 신호를 디지털 신호로 변환하는 아날로그-디지털 컨버터;
상기 디지털 신호를 처리하여 하나 이상의 부정보를 상기 음성 정보로서 추출하고, 추출된 부정보를 상기 기 저장된 분류 기준 데이터와 비교하며, 상기 비교 결과에 따라, 다수 단계로 모델링되는 음성 모델들 중 상기 음성 신호에 대응하는 음성 모델을 인식하는 디지털 신호 프로세서; 및
상기 분류 기준 데이터를 데이터베이스화하여 저장하는 기준 데이터 저장부를 구비하는 것을 특징으로 하는 가라오케 시스템.
제6항에 있어서,
상기 음성 정보는, 상기 사용자의 음량, 주파수, 마찰, 성문 및 피치 정보 중 적어도 하나를 포함하고,
상기 반주 요소는, 상기 반주 동작을 위한 옥타브, 음량 및 박자 중 적어도 하나를 포함하는 것을 특징으로 하는 가라오케 시스템.