KR101400258B1 - 음성 인식을 이용한 이미지 표시 방법 - Google Patents
음성 인식을 이용한 이미지 표시 방법 Download PDFInfo
- Publication number
- KR101400258B1 KR101400258B1 KR1020130070996A KR20130070996A KR101400258B1 KR 101400258 B1 KR101400258 B1 KR 101400258B1 KR 1020130070996 A KR1020130070996 A KR 1020130070996A KR 20130070996 A KR20130070996 A KR 20130070996A KR 101400258 B1 KR101400258 B1 KR 101400258B1
- Authority
- KR
- South Korea
- Prior art keywords
- microphone
- image
- signal
- character string
- string data
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 25
- 230000008859 change Effects 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 description 19
- 238000006243 chemical reaction Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
본 발명은 마이크를 통해 수신된 음성 신호를 인식하고 인식된 음성 신호를 지정된 문자열과의 비교로 대응하는 이미지를 동적으로 생성하여 디스플레이할 수 있는, 음성 인식을 이용한 이미지 표시 방법에 관한 것이다.
본 발명을 이용함으로써, 노래방 환경하에서 음성 인식률을 높일 수 있고 음성 인식과 연동하여 반응할 수 있고 동적으로 음성 인식을 위한 음성 신호를 선택할 수 있도록 하는 효과가 있다.
본 발명을 이용함으로써, 노래방 환경하에서 음성 인식률을 높일 수 있고 음성 인식과 연동하여 반응할 수 있고 동적으로 음성 인식을 위한 음성 신호를 선택할 수 있도록 하는 효과가 있다.
Description
본 발명은 음성 인식을 이용한 이미지 표시 방법에 관한 것으로서, 구체적으로는 마이크를 통해 수신된 음성 신호를 인식하고 인식된 음성 신호를 지정된 문자열과의 비교로 대응하는 이미지를 동적으로 생성하여 디스플레이할 수 있는, 음성 인식을 이용한 이미지 표시 방법에 관한 것이다.
노래방에 비치되는 노래 반주 장치는 사용자의 선곡에 따라 곡을 재생하고 이 곡에 대응하는 가사를 표시하는 장치이다. 이러한 노래 반주 장치는 마이크를 하나 혹은 둘 이상 구비하여 마이크를 사용자가 이용하여 노래를 부를 수 있는 환경을 제공한다.
이와 같이 이 노래 반주 장치가 구비되는 노래방 환경은, 마이크를 활용하기에서 자연스럽게 음성 인식을 활용할 수 있는 환경을 제공한다.
따라서 자연스러운 음성 인식 환경을 제공하는 노래방 환경하에서, 이 음성 인식을 활용하여 사용자와 호응할 수 있도록 하는 노래 반주 장치를 제공할 수 있다면 보다더 사용자 친화적인 노래방 환경이 될 수 있을 것이다.
이러한 노래방 환경하에서 음성 인식이 가능하도록 하기 위해서는 여러 가지 사항을 고려하여야 한다.
먼저 노래방 환경은 음성 인식이 매우 어려운 환경에 속한다. 예를 들어 노래방 환경은 음성 인식을 위한 사용자의 음성뿐 아니라 노래 반주 장치와 연결된 스피커를 통해 출력되는 사운드와 나아가 다른 사용자의 음성이 서로 섞여 있는 환경이므로, 음성 인식을 위한 특정 사용자의 음성 신호를 추출하는 것이 용이치 않고 이 음성 신호를 용이하게 추출할 수 있도록 하는 방법이 필요하다.
나아가 노래방 환경은 다수의 마이크를 활용하는 환경이다. 그리고 이 다수의 마이크는 음성 인식뿐 아니라 노래를 부르기 위한 용도로 사용되어진다. 따라서 마이크를 통해서 수신된 음성 신호가 노래를 부르기 위한 음성인지 혹은 음성 명령 등과 같이 음성 인식에 제공되는 음성인지를 구별하기가 용이치 않다.
나아가 이 노래방 환경에서 음성 인식을 활용하여 노래를 부르는 사용자에게 보다더 흥미와 즐거움을 제공할 수 있도록 사용자의 음성과 호응가능하도록 하는 노래 반주 장치를 제공할 필요가 있다.
이와 같이, 음성 인식을 이용하기 위해서 노래방 환경에서의 문제점들을 해소할 수 있도록 하는, 음성 인식을 이용한 이미지 표시 방법이 필요하다.
본 발명은, 상술한 문제점을 해결하기 위해서 안출한 것으로서, 노래방 환경하에서 사용자에게 음성 인식에 반응하여 노래 반주 장치가 동작하도록 하여 보다더 흥미롭고 즐거움을 제공할 수 있도록 하는, 음성 인식을 이용한 이미지 표시 방법을 제공하는 데 그 목적이 있다.
또한 본 발명은, 노래 반주 장치에서 출력되는 사운드나 다른 사용자의 잡음을 제거하도록 음성 인식을 위한 음성 신호를 추출하여 음성 인식률을 높일 수 있도록 하는, 음성 인식을 이용한 이미지 표시 방법을 제공하는 데 그 목적이 있다.
또한 본 발명은, 사용자가 부르는 노래에 따르는 음성 신호와 음성 인식을 위한 음성 신호를 동적으로 구별하여 음성 인식을 위한 음성 신호를 용이하게 결정할 수 있도록 하는, 음성 인식을 이용한 이미지 표시 방법을 제공하는 데 그 목적이 있다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한, 음성 인식을 이용한 이미지 표시 방법은, (a) 마이크를 통해 음성 신호를 수신하는 단계와 (b) 수신된 음성 신호와 복수의 문자열 데이터 각각을 비교하는 단계와 (c) 비교의 결과에 기초하여 복수의 문자열 데이터 중 선택된 문자열 데이터에 대응하는 이미지를 결정하는 단계 및 (d) 결정된 이미지를 디스플레이하는 단계를 포함하고, 이 이미지 표시 방법은 노래 반주 장치에서 수행된다.
또한 상기와 같은 목적을 달성하기 위한, 음성 인식을 이용한 이미지 표시 방법의 단계 (a)는, (a-1) 제 1 마이크로부터 제 1 마이크 신호를 수신하는 단계와 (a-2) 제 2 마이크로부터 제 2 마이크 신호를 수신하는 단계와 (a-3) 제 1 마이크 신호와 제 2 마이크 신호의 비교로 음성 신호를 추출하는 단계를 포함한다.
또한 상기와 같은 목적을 달성하기 위한, 음성 인식을 이용한 이미지 표시 방법의 단계 (b)는, (b-1) 음성 신호로부터 추출되는 특징 벡터와 복수의 문자열 데이터 각각의 특징 벡터를 비교하는 단계와 (b-2) 음성 신호로부터 추출되는 특징 벡터와 복수의 문자열 데이터 각각의 특징 벡터의 비교에 따라 복수의 문자열 데이터별 유사도를 결정하는 단계와 (b-3) 복수의 문자열 데이터별 유사도 중 가장 높은 유사도를 가진 문자열 데이터를 결정하는 단계 및 (b-4) 가장 높은 유사도가 지정된 임계 유사도 이상 경우에, 가장 높은 유사도를 가진 문자열 데이터를 이미지로 디스플레이될 대응하는 문자열 데이터로 선택하는 단계를 포함한다.
또한 상기와 같은 목적을 달성하기 위한, 음성 인식을 이용한 이미지 표시 방법은, 이 이미지 표시 방법을 수행하는 노래 반주 장치가 복수의 마이크에 연결되고, 이 이미지 표시 방법은, 단계 (a) 이전에, 복수의 마이크 중 하나의 마이크로부터 마이크 신호의 변화를 모니터링하는 단계와 복수의 마이크 중 다른 하나의 마이크로부터 마이크 신호의 변화를 모니터링하는 단계 및 하나의 마이크와 다른 하나의 마이크의 마이크 신호 변화에 따라 이미지를 생성할 마이크를 선택하는 단계를 포함하고, 단계 (a)는 선택된 마이크를 통해 음성 신호를 수신한다.
또한 상기와 같은 목적을 달성하기 위한, 음성 인식을 이용한 이미지 표시 방법은, 마이크를 선택하는 단계는, 하나의 마이크와 다른 하나의 마이크 중 중 지정된 임계 범위 내에서 변화하는 마이크 신호를 가지는 마이크를 선택한다.
상기와 같은 본 발명에 따른 음성 인식을 이용한 이미지 표시 방법은, 노래방 환경하에서 사용자에게 음성 인식에 반응하여 노래 반주 장치가 동작하도록 하여 보다더 흥미롭고 즐거움을 제공할 수 있도록 하는 효과가 있다.
또한 상기와 같은 본 발명에 따른 음성 인식을 이용한 이미지 표시 방법은, 노래 반주 장치에서 출력되는 사운드나 다른 사용자의 잡음을 제거하도록 음성 인식을 위한 음성 신호를 추출하여 음성 인식률을 높일 수 있도록 하는 효과가 있다.
또한 상기와 같은 본 발명에 따른 음성 인식을 이용한 이미지 표시 방법은, 사용자가 부르는 노래에 따르는 음성 신호와 음성 인식을 위한 음성 신호를 동적으로 구별하여 음성 인식을 위한 음성 신호를 용이하게 결정할 수 있도록 하는 효과가 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은, 음성 인식을 이용하여 이미지를 표시하기 위한 시스템의 예시적인 시스템 블록도를 도시한 도면이다.
도 2는 노래 반주 장치의 예시적인 블록도를 도시한 도면이다.
도 3은 음성 인식을 이용하여 이미지를 표시하기 위한 예시적인 제어 흐름을 도시한 도면이다.
도 4는, 도 3의 단계 S107에 대하여 구체화한 예시적인 제어 흐름을 도시한 도면이다.
도 2는 노래 반주 장치의 예시적인 블록도를 도시한 도면이다.
도 3은 음성 인식을 이용하여 이미지를 표시하기 위한 예시적인 제어 흐름을 도시한 도면이다.
도 4는, 도 3의 단계 S107에 대하여 구체화한 예시적인 제어 흐름을 도시한 도면이다.
상술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술 되어 있는 상세한 설명을 통하여 더욱 명확해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.
도 1은, 음성 인식을 이용하여 이미지를 표시하기 위한 시스템의 예시적인 시스템 블록도를 도시한 도면이다.
도 1에 따르면 이 시스템은, 노래 반주 장치(100)와 하나 이상의 마이크(200)와 디스플레이(300)를 포함한다. 이 시스템은 도 1에 도시되지 않은 다른 장치(예를 들어 리모컨이나 스피커 등)를 더 포함할 수 있다.
이 음성 인식을 이용하여 이미지를 표시하기 위한 시스템에 포함되는 각 장치들을 살펴보면, 노래 반주 장치(100)는, 노래방 등에 설치되어 있는 장치이다. 이러한 노래 반주 장치(100)는, 사용자로부터 입력된 곡 번호에 따라 곡 번호에 대응하는 미디 파일이나 오디오 파일을 재생하여 스피커(미도시) 등으로 출력할 수 있다.
또한 이 노래 반주 장치(100)는, 디스플레이(300)에 연결되어 현재 재생중인 곡 번호에 대응하는 가사 파일을 이용하여 가사 이미지(310)를 실시간으로 표시할 수 있고 나아가 사용자의 음성 신호에 따라 음성 신호에 대응하는 이미지를 생성하여 반응 이미지(320)로서 디스플레이(300)에 표시할 수 있다.
이와 같이 생성되는 반응 이미지(320)는, 수신된 음성 신호와 노래 반주 장치(100)에 미리 저장되어 있는 문자열 데이터 간의 비교에 따라 그 일치나 유사도에 따라서 동적으로 생성되는 이미지일 수 있다.
이러한 반응 이미지(320)를 활용하여 노래 반주 장치(100)는, 음성 신호 수신에 따라서 동적으로 음성 인식에 따라 반응하여 특정 이미지를 출력할 수 있도록 한다. 이 반응 이미지(320)를 생성하기 위한 제어 흐름은 도 3과 도 4를 통해서 보다더 상세히 살펴보도록 한다.
마이크(200)는, 노래 반주 장치(100)에 연결되거나 노래 반주 장치(100)의 프런트 패널 등에 내장되어, 재생 중인 곡에 대응하여 노래를 부르는 목소리를 마이크 신호로 노래 반주 장치(100)에 전달하기 위한 장치이다.
이러한 마이크(200)는 복 수개가 존재할 수 있고 노래 반주 장치(100)에 여러 사용자의 목소리와 함께 노래 반주 장치(100)에서 발생하는 다양한 음원의 소리를 마이크 신호로 노래 반주 장치(100)에 전달할 수 있다.
그리고 임의의 하나의 마이크(200)는(예를 들어 노래 반주 장치(100)에 연결되는 유선형의 손잡이형 마이크(200)) 사용자로부터의 마이크 신호를 수신하기 위해서 할당될 수 있고 다른 하나의 마이크(200)(위 임의의 마이크(200)와는 다른 손잡이형 마이크(200)나 내장되어 있는 마이크(200))는 사용자로부터의 마이크 신호에서 잡음을 제거하여 사용자의 음성 신호를 추출하기 위해서 이용되어 질 수 있다.
이와 같은 마이크(200) 간의 상관 관계를 이용하여 노래방과 같은 다양한 음원이 존재하는 환경하에서 사용자의 음성 신호를 추출하여 정확한 음성 인식이 가능하도록 한다.
바람직하게 노래 반주 장치(100)의 프런트 패널이나 혹은 케이스 표면에 설치되어 노래 반주 장치(100) 외부의 소리를 전기 신호로 생성하기 위한 마이크(200)가 사용자로부터의 마이크 신호로부터 잡음을 제거하여 사용자의 음성 신호를 추출하기 위해서 이용되어 질 수 있다.
그리고 임의의 하나의 손잡이형 마이크(200)는, 곡이 재생중인 경우에 곡의 재생에 따라 노래를 부르기 위해서 이용되어질 수 있고 또 다른 하나의 손잡이형 마이크(200)는 곡 재생 중에 음성 인식에 따른 (반응) 이미지를 생성하기 위해서 이용되어질 수 있다.
이에 따라 노래를 부르는 것과 음성 인식에 따른 이미지를 생성하기 위한 마이크(200)를 식별하여 식별된 마이크(200)로부터의 마이크 신호에 따라 이미지를 생성하는 것이 동적으로 반응 이미지(320)의 생성에 적용될 필요가 있다. 이러한 마이크(200)의 선택은 이하 도 3에서 살펴보도록 한다.
디스플레이(300)는, 노래 반주 장치(100)에 연결되어 노래 반주 장치(100)에서 출력된 이미지를 디스플레이한다. 이러한 디스플레이(300)는 예를 들어 LCD나 LED나 PDP 패널 등으로 구성될 수 있다.
이 디스플레이(300)에 표시되는 이미지에는 곡의 재생에 따라 배경 영상으로 이용되는 동영상의 이미지와 이 동영상의 이미지 위에 표시되는 다른 이미지를 포함할 수 있고, 도 1에서 알 수 있는 바와 같이 재생되는 곡의 연주에 동기화되어 표시되는 가사 이미지(310)와 음성 인식에 따라 반응하여 생성되는 반응 이미지(320)를 포함할 수 있다.
이러한 반응 이미지(320)는, 음성 인식에 따라 동적으로 생성될 수 있고 음성 인식에 따라 식별되는 데이터에 따라 변경될 수 있는 이미지일 수 있다. 이러한 반응 이미지(320)를 생성하기 위한 제어 흐름에 대해서는 도 3 및 도 4의 제어 흐름을 통해서 상세히 살펴보도록 한다.
도 2는 노래 반주 장치(100)의 예시적인 블록도를 도시한 도면이다.
도 2에 따르면 이 노래 반주 장치(100)는, 마이크 신호 수신부(110)와 저장부(120)와 입력부(130)와 오디오 출력부(140)와 비디오 출력부(150)와 제어부(160)와 연결부(170)를 포함한다. 이 중 일부의 블록은 필요나 기능의 구현에 따라 생략될 수 있고 도 2에 포함되지 않은 다른 블록이 이 노래 반주 장치(100)상에 포함될 수도 있다.
도 2의 각 블록들을 살펴보면, 마이크 신호 수신부(110)는, 연결된 하나 이상의 마이크(200) 각각으로부터 마이크 신호를 수신한다. 이와 같이 수신된 마이크 신호는 이 마이크 신호 수신부(110)에 포함될 수 있는 ADC(Analog Digital Converter)를 이용하여 수신된 아날로그의 마이크 신호를 디지털의 마이크 신호로 변환하여 제어부(160)로 출력할 수 있고 필요에 따라 ADC 이전에 증폭기(Amplifier)를 더 포함할 수도 있다.
저장부(120)는, 비휘발성 메모리나 하드 디스크 등과 같은 대용량 저장 매체를 구비하여 노래 반주 장치(100)에서 재생될 수 있는 곡 DB를 포함한다. 이러한 곡 DB는 각 곡에 대한 미디 파일이나 미디 파일의 재생 시에 이용될 수 있는 압축된 오디오 파일을 포함하고 또한 미디 파일의 재생시에 미디 음에 연동하여 이미지로 출력될 수 있는 가사 파일을 더 포함한다.
또한 이 저장부(120)는, 복수의 문자열 데이터와 음성 인식에 이용될 음성 인식 프로그램을 포함하고 이 음성 인식 프로그램은 수신된 사용자의 음성 신호를 복수의 문자열 데이터와 비교하여 그 비교 결과에 따라 문자열 데이터에 대응하는 반응 이미지(320)를 출력하거나 반응 이미지(320)를 전달할 수 있도록 한다.
이와 같은 음성 인식 프로그램은, 음성 인식에서 이용될 특징 벡터를 추출하거나 이용할 수 있도록 한다.
이러한 특징 벡터는 시간 도메인 상이나 주파수 도메인 상에서 추출되거나 미리 저장되어 있는 정보로서 예를 들어 LPCC(Linear Prediction Cepstral Coefficient) 나 MFCC(Mel Frequency Cepstral Coefficient) 등일 수 있다. 이러한 미리 저장되어 있는 특징 벡터와 수신된 음성 신호로부터 추출된 특징 벡터의 비교로 그 대응관계나 유사 관계(유사도)를 알 수 있도록 한다.
그리고 이 유사도에 따라 음성 인식 프로그램은 또는 이 음성 인식 프로그램과 연동하는 제어 프로그램은 대응하는 이미지를 동적으로 결정할 수 있다.
그리고 저장부(120)에 저장되는 복수의 문자열 데이터는, 여러 형태로 구성될 수 있다. 예를 들어 복수의 문자열 데이터 각각은, 제어부(160) 등에서 인식할 수 있는 문자열(예를 들어 ASCII) 및/또는 이 문자열에 대응하는 특징 벡터들을 포함하고, 나아가 이 문자열과 인식된 음성 신호가 유사한 경우에 생성될 이미지에 대한 정보를 포함한다.
이와 같은 이미지에 대한 정보는, 저장부(120)에 저장되어 있는 반응 이미지(320)의 위치를 알 수 있도록 하는 포인터로서 혹은 이미지 자체(예를 들어 JPEG 이미지)를 포함할 수 있다.
그리고 저장부(120)는, 가사 이미지(310)를 생성하여 출력하고 반응 이미지(320)를 동적으로 생성하기 위한 제어 프로그램을 더 포함할 수 있다. 이러한 제어 프로그램은 음성 인식 프로그램을 구동하거나 제어하여 음성 인식과 비교에 따른 유사도 결과나 선택된 문자열 데이터에 대한 정보를 수신하여 수신된 결과나 데이터에 따라 대응하는 반응 이미지(320)를 생성하여 디스플레이(300)로 출력할 수 있도록 한다.
입력부(130)는, 사용자로부터 입력 키를 수신하고 이를 제어부(160)로 전달한다. 이러한 입력부(130)는 리모컨 수광부나 버튼 등을 포함하여 리모컨으로부터 입력된 입력 키나 버튼의 눌림에 따라 입력된 입력 키를 제어부(160)에 전달할 수 있고 특정 입력 키의 수신에 따라 제어 프로그램은 본 발명에 따르는 음성 인식에 따라 이미지 표시하도록 음성 인식 프로그램을 구동하여 반응 이미지(320)를 생성할 수 있다.
오디오 출력부(140)는, 오디오용 DAC(Digital Analog Converter)나 미디 합성을 위한 미디 칩(chip) 등을 구비하여, 제어부(160) 등을 통해 출력된 디지털의 오디오 스트림을 아날로그의 오디오 스트림으로 변환하거나 미디 포맷에 따른 디지털의 데이터로부터 미디 명령에 따른 아날로그 신호로 변환하여 스피커(도면 미도시) 등으로 출력한다.
이러한 오디오 출력부(140)는 또한 마이크(200) 등으로부터 수신된 아날로그 등의 음성 데이터를 다른 데이터와 합성하여 출력할 수 있다.
비디오 출력부(150)는, 디스플레이(300)의 입력 비디오 포맷에 부합하는 비디오 신호를 생성하는 비디오 인코더를 구비하여, 제어부(160)의 제어하에 생성된 디지털의 이미지를 비디오 신호로 생성하여 출력한다.
이러한 비디오 출력부(150)는, 선곡된 곡의 재생 중에 이용되는 배경 영상 등을 출력하고, 나아가 이 배경 영상에 오브랩되는 가사 이미지(310)와 음성 인식에 따른 반응 이미지(320)를 출력한다.
제어부(160)는, 노래 반주 장치(100)의 각 블록들을 제어한다. 이와 같은 제어부(160)는 입력부(130) 등을 통해 수신된 입력 키에 따라서 구동중인 프로그램을 구동 해제하거나 다른 프로그램을 로딩하여 프로그램을 수행하여 각 블록들을 제어한다.
이러한 제어부(160)는, 프로그램의 명령어를 실행하기 위한 실행 유닛은 포함하는 CPU(Central Processing Unit), MPU(Micro Processor Unit)나 DSP(Digital Signal Processor)의 조합으로 구성될 수 있다.
그리고 이 제어부(160)는, 재생 중인 곡에 대응하는 가사 이미지(310)를 생성하고 생성된 가사 이미지(310)를 비디오 출력부(150)를 통해 디스플레이하고 나아가 사용자로부터의 마이크 신호에서 음성 신호를 추출하고 추출된 음성 신호로부터 특징 벡터를 추출하여 미리 저장되어 있는 복수의 문자열 데이터와의 비교로 특정 문자열이 수신되었는 지를 결정하고 그 결정에 따라 특정 문자열에 대응하는 이미지를 반응 이미지(320)로 생성하여 비디오 출력부(150)로 출력할 수 있다.
이에 따라 제어부(160)는, 다양한 문자열의 인식에 따라 각 문자열에 대응하는 반응 이미지(320)를 동적으로 출력하여 이에 따라 사용자의 음성 입력에 따르는 반응을 출력할 수 있도록 한다.
이 제어부(160)에서 수행되는 다양한 제어 흐름은, 도 3과 도 4를 통해서 보다더 상세히 살펴보도록 한다.
연결부(170)는, 데이터를 송신하거나 수신할 수 있도록 한다. 이러한 연결부(170)는 예를 들어 하나의 신호선, 복수의 선으로 구성된 버스(시리얼 혹은 병렬 버스)의 조합으로 구성될 수 있다.
도 3은 음성 인식을 이용하여 이미지를 표시하기 위한 예시적인 제어 흐름을 도시한 도면이다.
이러한 제어 흐름은 노래 반주 장치(100)의 제어부(160)에 의해서 수행될 수 있고 바람직하게는 제어부(160)에 의한 제어에 따라 노래 반주 장치(100)의 다른 블록을 제어함으로써 수행될 수 있고 제어 프로그램과 음성 인식 프로그램을 이용하여 다른 블록들을 제어할 수 있다.
그리고 이 제어 흐름은, 노래 반주 장치(100)에 전원이 공급됨에 따라 자동으로 시작되거나 사용자에 의한 입력 키에 따르는 요청에 따라 시작(S100)되고 전원이 공급 중단되거나 사용자에 의한 중단 요청에 따라 종료(S200)될 수 있다.
먼저 단계 S101에서, 여러 마이크(200) 중에서 어떠한 마이크(200)로부터의 마이크 신호에 대해서 음성 인식을 수행하여 반응 이미지(320)를 생성할 것인지를 결정하기 위해서, 제어부(160)는 마이크(200)로부터의 마이크 신호의 변화를 모니터링한다.
구체적으로 제어부(160)는, 복수의 마이크(200) 중 하나의 마이크(200)(예를 들어 손잡이형 마이크(200))로부터 마이크 신호 수신부(110)를 통해 수신된 디지털 스트림의 마이크 신호의 변화를 모니터링하고 나아가 복수의 마이크(200) 중 다른 하나의 마이크(200)(예를 들어 또 다른 손잡이형 마이크(200))로부터 마이크 신호 수신부(110)를 통해 수신된 디지털 스트림의 마이크 신호의 변화를 모니터링한다.
이러한 변화의 모니터링은, 시간 도메인상의 마이크 신호의 크기 값의 변화를 통해서 이루어지거나 주파수 도메인 상에서 마이크 신호의 주파수의 크기 값의 변화를 모니터링 함으로써 이루어질 수 있다.
이 과정에서, 두 개의 마이크(200)가 모두 음성 인식 대상의 마이크(200)로 선택될 수도 있다. 그러나 곡이 연주되고 있는 상황에서 하나의 마이크(200)는 노래를 부르기 위한 용도로 이용될 수 있기에 노래를 현재 부르고 있는 마이크(200)로부터는 음성 인식을 할 필요가 없을 것이고 만일 노래를 통해서 음성 인식을 제공한다면 사용자에게 혼란을 야기할 수도 있다.
이와 같은 마이크 신호의 변화를 나타내는 값들은 주기적으로 일정한 시간 동안에 저장부(120)에 저장될 수 있다.
이후 단계 S103에서, 제어부(160)는 주기적으로 모니터링된 마이크 신호의 변화로부터 음성 신호에 응답하여 반응 이미지(320)를 생성할 대상이 되는 마이크(200)를 선택한다.
그리고 이 단계에서 마이크(200)를 선택하기 위해서, 제어부(160)는 일정한 시간 동안에 주기적으로 저장되어 있는 각 마이크(200)의 크기 값을 이용하여 마이크(200)를 선택하고, 구체적으로 주기적으로 저장되어 있는 마이크(200)의 크기 값이 지정된 임계 레벨 이하에서, 즉 임계 범위(예를 들어 0에서 지정된 임계 레벨까지) 내에서, 변화하는 마이크 신호를 가지는 마이크(200)를 선택한다.
이와 같이 선택되는 마이크(200)는, 곡에 대해서 사용자가 노래를 부르지 않는 마이크(200)에 해당한다. 그리고 이러한 마이크(200) 선택을 위해서, 각 마이크 신호의 크기 값으로부터 내장된 마이크(200)(예를 들어 프런트 패널이나 케이스 등의 마이크(200))의 마이크 신호의 크기 값을 뺀 크기 값을 주기적으로 저장하여 임계 범위 내의 마이크(200)를 선택하도록 구성할 수도 있다.
이와 같이 내장된 마이크(200)의 차이를 이용함으로써 노래방 환경에서 출력되는 음원의 크고 작음에 상관없이 용이하게 특정 하나의 마이크(200)를 선택할 수 있다.
그리고 이 단계 S101과 S103은, 필요에 따라서 생략될 수 있고, 예를 들어 음성 인식을 위한 마이크(200)가 고정되어 미리 선택되어 있는 경우에는 단계 S101과 단계 S103은 생략될 수도 있다.
이후 단계 S105에서, 제어부(160)는 선택된 마이크(200)로부터의 음성 신호를 수신한다. 이 단계에서 제어부(160)는, 노래방 환경에서 발생하는 잡음을 고려하여 음성 신호를 추출할 수 있다.
구체적으로 제어부(160)는, 선택된 마이크(200)로부터 연속적인 디지털 스트림의 마이크 신호를 수신하고 동시에 다른 마이크(200)(바람직하게는 노래 반주 장치(100)에 내장된 마이크(200))로부터 디지털 스트림의 마이크 신호를 동시에 수신한다. 이 내장된 마이크(200)는 노래방 환경에서 발생하는 잡음 신호를 포함하고 있다.
이후 제어부(160)는, 선택된 마이크(200)로부터의 마이크 신호에서 내장된 마이크(200)의 마이크 신호를 비교하여(예를 들어 차이에 따라) 음성 신호를 추출할 수 있다.
예를 들어 제어부(160)는, 선택된 마이크(200)로부터의 마이크 신호를 주파수 신호로 변환하고 내장된 마이크(200)로부터의 마이크 신호를 주파수 신호로 변환하고 사용자로부터의 주파수 신호에서 노래 반주 장치(100)의 환경하에서 노래 반주 장치(100)에서 출력되는 음원(미디 신호음이나 그 외 오디오 신호음 등)에 해당하는 잡음에 해당하는 내장된 마이크(200)로부터의 주파수 신호를 차감하여 사용자의 음성 신호를 추출할 수 있다.
이에 따라 비록 노래방과 같은 시끄러운 환경하에서도 잡음 신호를 정확히 제거하고 음성 인식에 이용될 사용자의 음성 신호를 추출할 수 있도록 한다.
이후 단계 S107에서, 제어부(160)는 단계 S105에서 수신된 음성 신호(또는 추출된 음성 신호)와 저장부(120)에 저장되어 있는 복수의 문자열 데이터 각각을 비교한다.
여기서 복수의 문자열 데이터는, 노래 반주 장치(100)의 상태에 따라서 상이하게 선택된 문자열 데이터일 수 있다. 예를 들어 제어부(160)는 제어 프로그램의 수행에 따라 노래 반주 장치(100)의 상태를 결정할 수 있다.
이러한 상태는, 예를 들어 곡이 연주 진행하고 있는 상태이거나 곡의 연주 진행이 종료된 상태이거나 곡의 연주 종료 이후에 사용자의 곡 선곡을 대기하고 있는 상태일 수 있다.
이러한 상태에 따라 제어부(160)는, 저장부(120)에 저장되는 문자열 데이터들 중에서 상태에 대응하는 복수의 문자열 데이터를 선택하고 이 선택된 복수의 문자열 데이터 내에서 비교를 수행하고 이에 따라 노래 반주 장치(100)의 내부 상태에 따라 상이하도록 구성된 반응 이미지(320)를 출력할 수 있도록 한다.
여기서 이 단계 S107에서 수행되는 구체적인 제어 흐름을 살펴보면, 도 4는, 도 3의 단계 S107에 대하여 구체화한 예시적인 제어 흐름을 도시한 도면이다.
이러한 도 4의 제어 흐름은 제어부(160)에 의해서 수행될 수 있고, 도 3의 단계 S107에 진입함에 따라서 시작(S300)하고 도 4의 제어 흐름의 수행이 완료되면 종료(S400)된다.
먼저 단계 S301에서, 선택된 마이크(200)로부터의 음성 신호로부터 특징 벡터를 동적으로 추출한다. 이와 같이 추출된 특징 벡터는 상태에 따라 선택된 복수의 문자열 데이터에 포함되는 특징 벡터와 비교 가능하는 인자(Coefficient)이다.
이후 단계 S303에서, 제어부(160)는 음성 신호로부터 추출된 특징 벡터와 선택된 복수의 문자열 데이터 각각의 특징 벡터와 비교한다.
이후 단계 S305에서, 제어부(160)는 단계 S303에서의 비교에 따라 음성 신호로부터 추출된 특징 벡터와 각각의 특징 벡터 사이의 비교에 따라 복수의 문자열 데이터 각각의 유사도를 결정한다.
이와 같은 유사도는, 예를 들어 특징 벡터 사이의 거리 등으로 결정될 수 있고 음성 신호에서 인식되는 문자별 특징 벡터와 문자열 데이터의 문자별 특징 벡터의 비교로 유사도를 결정될 수 있다. 음성 인식에서 특징 벡터를 이용하여 유사도를 결정하는 것은 음성 인식 분야에서 당업자에게 자명하므로 상세한 설명을 생략하도록 한다.
이후 단계 S307에서 제어부(160)는, 선택된 복수의 문자열 데이터 중에서 가장 높은 유사도를 가지는 문자열 데이터를 결정하고, 이후 단계 S309에서, 이 가장 높은 유사도가 (미리) 지정된 임계 유사도 이상인지를 결정한다.
이 결정에 따라, 만일 임계 유사도 이상인 경우에는, 수신된 음성 신호가 노래 반주 장치(100)에서의 선택된 복수의 문자열 데이터 중 하나에 대응하는 것으로 판단하여(일치하는 것으로) 단계 S111로 전이하고, 이후 제어부(160)는 단계 S311에서, 이 가장 높은 유사도를 가진 문자열 데이터를 비디오 출력부(150)를 통해 반응 이미지(320)를 출력할 문자열 데이터로 선택하고 이후 종료(S400)한다.
만일 임계 유사도 미만인 경우에는, 단계 S313으로 전이하여, 반응 이미지(320)의 생성에 이용될 대응하는 문자열 데이터가 음성 신호로부터 추출되지 않은 것인 음성 인식 실패로 결정하고 종료(S400)한다.
이와 같은 도 4의 제어 흐름에 의해서, 동적으로 또는 상태에 따라 부합하는 다양한 반응 이미지(320)를 생성할 수 있도록 한다.
다시 도 4의 설명에 후속하여, 도 3의 제어 흐름을 살펴보면, 제어부(160)는 단계 S109에서, 단계 S107의 비교 결과에 기초하여 복수의 문자열 데이터 중에서 선택된 문자열 데이터에 대응하는 이미지를 결정한다.
좀 더 구체적으로 살펴보면, 제어부(160)는, 도 4의 단계 S311 또는 단계 S313의 수행에 따라 음성 인식의 실패나 대응하는 문자열 데이터가 선택된다.
이에 따라 제어부(160)는, 만일 음성 인식에 실패하는 경우에는 어떠한 이미지도 생성하지 않도록 구성된다.
반면에 음성 인식에 따라서 특정 하나의 문자열 데이터가 복수의 문자열 데이터로부터 선택된 경우에는, 이 선택된 문자열 데이터에 대응하는 이미지를 문자열 데이터에 포함된 이미지에 대한 정보를 이용하여 반응 이미지(320)로 결정한다.
이후 단계 S111에서, 제어부(160)는 결정된 반응 이미지(320)를 디스플레이(300)상의 지정된 영역에 표시되도록 비디오 출력부(150)를 통해 출력되는 이미지 프레임에 추가하여 디스플레이한다.
이와 같은 도 3의 제어 흐름을 통해서, 노래방 환경하에서 음성 인식률을 높일 수 있고 음성 인식과 연동하여 반응하는 반응 이미지(320)를 생성하여 사용자와 호응 가능하고 나아가 음성 인식을 위한 음성 신호를 마이크(200)에서 동적으로 선택할 수 있도록 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것이 아니다.
100 : 노래 반주 장치
110 : 마이크 신호 수신부 120 : 저장부
130 : 입력부 140 : 오디오 출력부
150 : 비디오 출력부 160 : 제어부
170 : 연결부
200 : 마이크 300 : 디스플레이
310 : 가사 이미지 320 : 반응 이미지
110 : 마이크 신호 수신부 120 : 저장부
130 : 입력부 140 : 오디오 출력부
150 : 비디오 출력부 160 : 제어부
170 : 연결부
200 : 마이크 300 : 디스플레이
310 : 가사 이미지 320 : 반응 이미지
Claims (5)
- 음성 인식을 이용한 이미지 표시 방법으로서, 노래 반주 장치에서 수행되는 상기 이미지 표시 방법은,
(a) 마이크를 통해 음성 신호를 수신하는 단계;
(b) 수신된 음성 신호와 복수의 문자열 데이터 각각을 비교하는 단계;
(c) 상기 비교의 결과에 기초하여 복수의 문자열 데이터 중 선택된 문자열 데이터에 대응하는 이미지를 결정하는 단계; 및
(d) 결정된 이미지를 디스플레이하는 단계;를 포함하는,
이미지 표시 방법. - 제1항에 있어서,
상기 단계 (a)는,
(a-1) 제 1 마이크로부터 제 1 마이크 신호를 수신하는 단계;
(a-2) 제 2 마이크로부터 제 2 마이크 신호를 수신하는 단계; 및
(a-3) 상기 제 1 마이크 신호와 상기 제 2 마이크 신호의 비교로 상기 음성 신호를 추출하는 단계;를 포함하는,
이미지 표시 방법. - 제1항에 있어서,
상기 단계 (b)는,
(b-1) 상기 음성 신호로부터 추출되는 특징 벡터와 상기 복수의 문자열 데이터 각각의 특징 벡터를 비교하는 단계;
(b-2) 상기 음성 신호로부터 추출되는 특징 벡터와 상기 복수의 문자열 데이터 각각의 특징 벡터의 비교에 따라 상기 복수의 문자열 데이터별 유사도를 결정하는 단계;
(b-3) 상기 복수의 문자열 데이터별 유사도 중 가장 높은 유사도를 가진 문자열 데이터를 결정하는 단계; 및
(b-4) 상기 가장 높은 유사도가 지정된 임계 유사도 이상 경우에, 상기 가장 높은 유사도를 가진 문자열 데이터를 이미지로 디스플레이될 대응하는 문자열 데이터로 선택하는 단계;를 포함하는,
이미지 표시 방법. - 제1항에 있어서, 상기 노래 반주 장치는 복수의 마이크에 연결되고, 상기 이미지 표시 방법은,
상기 단계 (a) 이전에, 복수의 마이크 중 하나의 마이크로부터 마이크 신호의 변화를 모니터링하는 단계; 복수의 마이크 중 다른 하나의 마이크로부터 마이크 신호의 변화를 모니터링하는 단계; 및 상기 하나의 마이크와 상기 다른 하나의 마이크의 마이크 신호 변화에 따라 이미지를 생성할 마이크를 선택하는 단계;를 포함하며,
상기 단계 (a)는, 선택된 마이크를 통해 음성 신호를 수신하는,
이미지 표시 방법. - 제4항에 있어서,
상기 마이크를 선택하는 단계는, 상기 하나의 마이크와 상기 다른 하나의 마이크 중 중 지정된 임계 범위 내에서 변화하는 마이크 신호를 가지는 마이크를 선택하는,
이미지 표시 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130070996A KR101400258B1 (ko) | 2013-06-20 | 2013-06-20 | 음성 인식을 이용한 이미지 표시 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130070996A KR101400258B1 (ko) | 2013-06-20 | 2013-06-20 | 음성 인식을 이용한 이미지 표시 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101400258B1 true KR101400258B1 (ko) | 2014-05-28 |
Family
ID=50895491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130070996A KR101400258B1 (ko) | 2013-06-20 | 2013-06-20 | 음성 인식을 이용한 이미지 표시 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101400258B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210001434A (ko) * | 2019-06-28 | 2021-01-06 | 주식회사 카카오엔터프라이즈 | 음성 인식 서비스를 제공하는 단말, 방법 및 서버 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19980058355A (ko) * | 1996-12-30 | 1998-09-25 | 구자홍 | 이중 유사도 비교를 통한 음성 인식 방법 |
KR20010112729A (ko) * | 2000-06-12 | 2001-12-21 | 윤재환 | 악보출력기능을 갖는 노래반주 시스템 및 악보출력기능구현방법 |
KR20120088493A (ko) * | 2011-01-31 | 2012-08-08 | (주)티아이스퀘어 | 개인 휴대 단말에서의 음성 인식을 이용한 멀티미디어 콘텐츠 합성 영상 채팅 서비스 제공 방법 및 시스템 |
KR20120135855A (ko) * | 2011-06-07 | 2012-12-17 | 삼성전자주식회사 | 디스플레이 장치 및 이의 하이퍼링크 실행 방법 및 음성 인식 방법 |
-
2013
- 2013-06-20 KR KR1020130070996A patent/KR101400258B1/ko not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19980058355A (ko) * | 1996-12-30 | 1998-09-25 | 구자홍 | 이중 유사도 비교를 통한 음성 인식 방법 |
KR20010112729A (ko) * | 2000-06-12 | 2001-12-21 | 윤재환 | 악보출력기능을 갖는 노래반주 시스템 및 악보출력기능구현방법 |
KR20120088493A (ko) * | 2011-01-31 | 2012-08-08 | (주)티아이스퀘어 | 개인 휴대 단말에서의 음성 인식을 이용한 멀티미디어 콘텐츠 합성 영상 채팅 서비스 제공 방법 및 시스템 |
KR20120135855A (ko) * | 2011-06-07 | 2012-12-17 | 삼성전자주식회사 | 디스플레이 장치 및 이의 하이퍼링크 실행 방법 및 음성 인식 방법 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210001434A (ko) * | 2019-06-28 | 2021-01-06 | 주식회사 카카오엔터프라이즈 | 음성 인식 서비스를 제공하는 단말, 방법 및 서버 |
KR102268245B1 (ko) | 2019-06-28 | 2021-06-23 | 주식회사 카카오엔터프라이즈 | 음성 인식 서비스를 제공하는 단말, 방법 및 서버 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9224375B1 (en) | Musical modification effects | |
CN110211556B (zh) | 音乐文件的处理方法、装置、终端及存储介质 | |
JP7143816B2 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
KR101312451B1 (ko) | 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치 | |
JP2023015302A (ja) | 電子機器、電子楽器、方法及びプログラム | |
JP7355165B2 (ja) | 楽曲再生システム、楽曲再生システムの制御方法およびプログラム | |
JP2009258366A (ja) | 音声制御装置 | |
KR101400258B1 (ko) | 음성 인식을 이용한 이미지 표시 방법 | |
JP6252420B2 (ja) | 音声合成装置、及び音声合成システム | |
JPH11259081A (ja) | 歌唱採点表示カラオケ装置 | |
JP4038836B2 (ja) | カラオケ装置 | |
JP3972619B2 (ja) | 音発生装置 | |
JP4171680B2 (ja) | 音楽再生装置の情報設定装置、情報設定方法、及び情報設定プログラム | |
JP5486941B2 (ja) | 聴衆に唱和をうながす気分を楽しむカラオケ装置 | |
JP2001324987A (ja) | カラオケ装置 | |
JP6141737B2 (ja) | ストレッチチューニングを考慮して歌唱採点を行うカラオケ装置 | |
JP2018091998A (ja) | 情報処理システムおよび情報処理方法 | |
KR101321446B1 (ko) | 음성 인식을 이용한 가사 표시 방법 | |
JP4244338B2 (ja) | 音出力制御装置、楽曲再生装置、音出力制御方法、そのプログラム、および、そのプログラムを記録した記録媒体 | |
JP2021140065A (ja) | 処理システム、音響システム及びプログラム | |
JP4516943B2 (ja) | カラオケ歌唱補助システム | |
JP6582517B2 (ja) | 制御装置およびプログラム | |
JP6186255B2 (ja) | 手話の採点に特徴を有するカラオケ装置 | |
JP5375869B2 (ja) | 楽曲再生装置、楽曲再生方法及びプログラム | |
KR101133272B1 (ko) | 입체 캐릭터 영상을 제공하는 가라오케 시스템 및 그 구동방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |