KR102466985B1

KR102466985B1 - 음성 명령 기반의 음질 제어 방법 및 그를 위한 장치

Info

Publication number: KR102466985B1
Application number: KR1020200086956A
Authority: KR
Inventors: 유승호
Original assignee: (주)드림어스컴퍼니
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2022-11-11
Also published as: KR20220008609A; US20220019405A1

Abstract

음성 명령 기반의 음질 제어 방법 및 그를 위한 장치를 개시한다.
본 발명의 실시예에 따른 음성 명령 기반의 음질 제어 방법은, 미디어 콘텐츠의 재생을 위한 음성 명령을 획득하는 음성 명령 획득 단계; 상기 음성 명령을 분석하여 상기 미디어 콘텐츠를 인식하고, 상기 미디어 콘텐츠에 대한 인식 결과정보를 생성하는 음성 명령 분석 단계; 상기 인식 결과정보를 기반으로 상기 미디어 콘텐츠에 대한 카테고리를 판단하는 카테고리 판단 단계; 및 상기 카테고리의 판단 결과를 기반으로 상기 미디어 콘텐츠의 재생 음질 모드를 결정하는 음질 설정 제어 단계를 포함할 수 있다.

Description

음성 명령 기반의 음질 제어 방법 및 그를 위한 장치{Method and Apparatus for Controlling Sound Quality Based on Voice Command}

본 발명은 음성 명령을 기반으로 콘텐츠 재생을 위한 재생 음질 모드를 제어하는 방법 및 그를 위한 장치에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 발명의 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

음성 인식 기술의 발달로 인해 미디어 콘텐츠를 재생하기 위하여 음성 명령을 사용하는 경우가 많아지고 있다.

일반적으로 미디어 콘텐츠를 재생하는 장치(예: TV, 라디오, MP3 등)에서는 음성 명령을 인식하여 미디어 콘텐츠를 재생하고 있으나, 재생되는 미디어 콘텐츠의 종류에 따른 음질 모드(Equalizer)는 수동으로 설정하고 있다. 예를 들어, 사용자는 음성명령을 통해 영화를 시청하는 경우, 미디어 콘텐츠 재생장치는 음성 명령을 분석하여 영화를 재생할 수는 있으나 영화에 대한 음질 모드는 사용자가 수동으로 조작하여 설정해야만 한다.

다시 말해, 일반적으로 음질 모드는 사용자가 선택한 미디어 콘텐츠에 대해 수동적으로 선택을 해야 하며, 사용자는 미디어 콘텐츠의 종류가 변경될 때마다 이러한 조작을 수동으로 조작해야 하는 문제점이 있다. 또한, 선택된 음질 모드는 스피커 또는 미디어 콘텐츠에 최적화된 상태가 아니며, 단순히 사용자가 선택한 음질 모드일 뿐이다. 이에, 음성 명령에 의한 음질 모드를 자동으로 설정하는 기술이 필요하다.

본 발명은 음성 명령을 기반으로 재생하고자 하는 미디어 콘텐츠에 대응하는 재생 음질 모드를 자동으로 설정하고, 설정된 재생 음질 모드로 미디어 콘텐츠가 재생되도록 하는 음성 명령 기반의 음질 제어 방법 및 그를 위한 장치를 제공하는 데 주된 목적이 있다.

본 발명의 일 측면에 의하면, 상기 목적을 달성하기 위한 음성 명령 기반의 음질 제어 방법은, 미디어 콘텐츠의 재생을 위한 음성 명령을 획득하는 음성 명령 획득 단계; 상기 음성 명령을 분석하여 상기 미디어 콘텐츠를 인식하고, 상기 미디어 콘텐츠에 대한 인식 결과정보를 생성하는 음성 명령 분석 단계; 상기 인식 결과정보를 기반으로 상기 미디어 콘텐츠에 대한 카테고리를 판단하는 카테고리 판단 단계; 및 상기 카테고리의 판단 결과를 기반으로 상기 미디어 콘텐츠의 재생 음질 모드를 결정하는 음질 설정 제어 단계를 포함할 수 있다.

또한, 본 발명의 다른 측면에 의하면, 상기 목적을 달성하기 위한 음성 명령 기반의 음질 제어 장치는, 적어도 하나 이상의 프로세서; 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서, 미디어 콘텐츠의 재생을 위한 음성 명령을 획득하는 음성 명령 획득 단계; 상기 음성 명령을 분석하여 상기 미디어 콘텐츠를 인식하고, 상기 미디어 콘텐츠에 대한 인식 결과정보를 생성하는 음성 명령 분석 단계; 상기 인식 결과정보를 기반으로 상기 미디어 콘텐츠에 대한 카테고리를 판단하는 카테고리 판단 단계; 및 상기 카테고리의 판단 결과를 기반으로 상기 미디어 콘텐츠의 재생 음질 모드를 결정하는 음질 설정 제어 단계를 포함하는 동작들을 수행하게 할 수 있다.

또한, 본 발명의 다른 측면에 의하면, 상기 목적을 달성하기 위한 콘텐츠 재생 장치는 미디어 콘텐츠의 재생을 위한 음성 명령을 획득하고, 상기 음성 명령을 분석하여 상기 미디어 콘텐츠에 대한 인식 결과정보를 생성하며, 상기 인식 결과정보를 기반으로 상기 미디어 콘텐츠에 대한 카테고리를 판단하고, 상기 카테고리의 판단 결과를 기반으로 상기 미디어 콘텐츠의 재생 음질 모드를 결정하는 음질 제어 모듈; 및 상기 재생 음질 모드를 적용하여 상기 미디어 콘텐츠를 재생하는 콘텐츠 재생 모듈을 포함할 수 있다.

이상에서 설명한 바와 같이, 본 발명은 사용자의 조작 없이 음성 명령에 따라 자동으로 음질 모드(Equalizer)를 설정할 수 있는 효과가 있다.

또한, 본 발명은 미디어 콘텐츠의 장르와 연관된 최적의 음질 모드를 설정하여 미디어 콘텐츠를 재생할 수 있는 효과가 있다.

도 1은 본 발명의 실시예에 따른 콘텐츠 재생 장치를 개략적으로 나타낸 블록 구성도이다.
도 2는 본 발명의 실시예에 따른 음질 제어 장치를 설명하기 위한 블록 구성도이다.
도 3은 본 발명의 실시예에 따른 음성 명령 기반의 음질 제어 방법을 설명하기 위한 순서도이다.
도 4는 본 발명의 실시예에 따른 음성 명령 기반의 음질 설정 예시를 나타낸 예시도이다.
도 5는 본 발명의 실시예에 따른 음성 명령을 분석하는 동작을 설명하기 위한 예시도이다.
도 6a 및 도 6b는 본 발명의 실시예에 따른 음성 명령을 기반으로 콘텐츠를 재생을 위하여 음질을 제어하는 동작을 설명하기 위한 예시도이다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다. 이하에서는 도면들을 참조하여 본 발명에서 제안하는 음성 명령 기반의 음질 제어 방법 및 그를 위한 장치에 대해 자세하게 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 콘텐츠 재생 장치를 개략적으로 나타낸 블록 구성도이다.

본 실시예에 따른 콘텐츠 재생 장치(100)는 입력부(110), 출력부(120), 프로세서(130), 메모리(140) 및 데이터 베이스(150)를 포함한다. 도 1의 콘텐츠 재생 장치(100)는 일 실시예에 따른 것으로서, 도 1에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 콘텐츠 재생 장치(100)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 콘텐츠 재생 장치(100)는 컴퓨팅 디바이스로 구현될 수 있고, 콘텐츠 재생 장치(100)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다. 예를 들어, 콘텐츠 재생 장치(100)는 미디어 콘텐츠를 재생하는 콘텐츠 재생 모듈과 미디어 콘텐츠를 재생하기 위한 재생 음질 모드를 제어하는 음질 제어 모듈로 구분되어 구현될 수 있다.

콘텐츠 재생 장치(100)는 음성 명령에 따라 미디어 콘텐츠의 재생 음성 모드를 자동으로 설정하고, 재생 음질 모드가 설정된 상태에서 미디어 콘텐츠를 재생하는 동작을 수행한다.

입력부(110)는 콘텐츠 재생 장치(100)의 미디어 콘텐츠 재생 및 음질 제어 동작을 수행하기 위한 신호 또는 데이터를 입력하거나 획득하는 수단을 의미한다. 입력부(110)는 프로세서(130)와 연동하여 다양한 형태의 신호 또는 데이터를 입력하거나, 외부 장치와 연동하여 직접 데이터를 획득하여 프로세서(130)로 전달할 수도 있다. 여기서, 입력부(110)는 사용자로부터 생성된 음성 명령을 입력하기 위한 마이크로 구현될 수 있으나 반드시 이에 한정되는 것은 아니다.

출력부(120)는 프로세서(130)와 연동하여 미디어 콘텐츠, 음질 제어 결과 등 다양한 정보를 표시할 수 있다. 출력부(120)는 콘텐츠 재생 장치(100)에 구비된 디스플레이(미도시)를 통해 다양한 정보를 표시하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.

프로세서(130)는 메모리(140)에 포함된 적어도 하나의 명령어 또는 프로그램을 실행시키는 기능을 수행한다.

본 실시예에 따른 프로세서(130)는 입력부(110) 또는 데이터 베이스(150)로부터 획득한 음성 명령을 분석하여 미디어 콘텐츠를 인식하고, 인식된 미디어 콘텐츠에 대한 카테고리를 판단하여 재생 음질 모드를 설정하는 동작을 수행한다. 구체적으로, 프로세서(130)는 미디어 콘텐츠의 재생을 위한 음성 명령을 획득하고, 음성 명령을 분석하여 미디어 콘텐츠에 대한 인식 결과정보를 생성하며, 인식 결과정보를 기반으로 미디어 콘텐츠에 대한 카테고리를 판단하고, 카테고리의 판단 결과를 기반으로 미디어 콘텐츠의 재생 음질 모드를 결정할 수 있다.

또한, 프로세서(130)는 설정된 재생 음질 모드를 적용하여 미디어 콘텐츠를 재생하는 동작을 수행한다.

본 실시예에 따른 프로세서(130)는 미디어 콘텐츠를 재생하는 콘텐츠 재생 동작과 미디어 콘텐츠를 재생하기 위한 재생 음질 모드를 제어하는 음질 제어 동작을 동시에 수행할 수 있으나 반드시 이에 한정되는 것은 아니며, 각각의 동작을 수행하는 별도의 소프트웨어 또는 별도의 하드웨어로 구현될 수 있다. 예를 들어, 프로세서(130)는 미디어 재생 장치, 음질 제어 장치 등과 같이 서로 다른 모듈 또는 장치로 구현될 수 있다.

메모리(140)는 프로세서(130)에 의해 실행 가능한 적어도 하나의 명령어 또는 프로그램을 포함한다. 메모리(140)는

음성 명령을 분석하는 동작, 미디어 콘텐츠에 대한 카테고리를 판단하는 동작, 음질 설정을 제어하는 동작 등을 위한 명령어 또는 프로그램을 포함할 수 있다.

데이터 베이스(150)는 데이터베이스 관리 프로그램(DBMS)을 이용하여 컴퓨터 시스템의 저장공간(하드디스크 또는 메모리)에 구현된 일반적인 데이터구조를 의미하는 것으로, 데이터의 검색(추출), 삭제, 편집, 추가 등을 자유롭게 행할 수 있는 데이터 저장형태를 뜻하는 것으로, 오라클(Oracle), 인포믹스(Infomix), 사이베이스(Sybase), DB2와 같은 관계형 데이타베이스 관리 시스템(RDBMS)이나, 겜스톤(Gemston), 오리온(Orion), O2 등과 같은 객체 지향 데이타베이스 관리 시스템(OODBMS) 및 엑셀론(Excelon), 타미노(Tamino), 세카이주(Sekaiju) 등의 XML 전용 데이터베이스(XML Native Database)를 이용하여 본 발명의 일 실시예의 목적에 맞게 구현될 수 있고, 자신의 기능을 달성하기 위하여 적당한 필드(Field) 또는 엘리먼트들을 가지고 있다.

본 실시예에 따른 데이터베이스(400)는 미디어 콘텐츠 재생 및 음질 제어와 관련된 데이터를 저장하고, 미디어 콘텐츠 재생 및 음질 제어 동작과 관련된 데이터를 제공할 수 있다.

데이터베이스(400)에 저장된 데이터는 음성 명령 분석을 위한 학습 관련 데이터, 기 정의된 카테고리 데이터, 기 정의된 재생 음질 모드 및 각각의 재생 음질 모드에 대한 음질 설정값 등에 대한 데이터일 수 있다. 데이터베이스(140)는 콘텐츠 재생 장치(100) 내에 구현되는 것으로 기재하고 있으나 반드시 이에 한정되는 것은 아니며, 별도의 데이터 저장장치로 구현될 수도 있다.

도 2는 본 발명의 실시예에 따른 음질 제어 장치를 설명하기 위한 블록 구성도이다.

본 실시예에 따른 음질 제어 장치(200)는 음성 명령 획득부(210), 음성 명령 분석부(220), 카테고리 판단부(230) 및 음질 설정 제어부(240)를 포함한다. 도 2의 음질 제어 장치(200)는 일 실시예에 따른 것으로서, 도 1에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 음질 제어 장치(200)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 음질 제어 장치(200)는 컴퓨팅 디바이스로 구현될 수 있으며, 음질 제어 장치(200)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.

음성 명령 획득부(210)는 미디어 콘텐츠의 재생을 위한 음성 명령을 획득한다. 여기서, 음성 명령 획득부(210)는 마이크와 같은 음성 수신장치(미도시)를 통해 입력된 음성 명령을 수신하며, 음성 명령은 사용자에 의해 생성된 음성 데이터로 구성된다.

한다. 예를 들어, 음성 명령은 “OOO을 틀어줘”일 수 있으며, 음성 명령의 “OOO”은 미디어 콘텐츠와 관련된 정보(콘텐츠의 제목, 분야, 종류 등 )일 수 있다.

음성 명령 분석부(220)는 획득된 음성 명령을 분석하여 미디어 콘텐츠를 인식하고, 인식된 미디어 콘텐츠에 대한 인식 결과정보를 생성한다. 구체적으로, 음성 명령 분석부(220)는 음성 명령에 대한 특징 벡터를 추출하고, 특징 벡터를 분석하여 미디어 콘텐츠에 대한 인식 결과정보를 생성한다.

음성 명령 분석부(220)는 음성 명령에서 추출된 특징 벡터를 기 학습된 언어 모델 및 음향 모델을 포함하는 인공지능 신경망을 이용하여 분석하여 미디어 콘텐츠에 대한 인식 결과정보를 생성한다. 여기서, 인식 결과정보는, 미디어 콘텐츠에 대한 콘텐츠 명칭, 분야 정보, 장르 정보, 음원 데이터 정보, 속성 정보(길이, 파일형식 등)일 수 있다.

카테고리 판단부(230)는 인식 결과정보를 기반으로 미디어 콘텐츠에 대한 카테고리를 판단하는 동작을 수행한다. 카테고리 판단부(230)는 미디어 콘텐츠의 분야 및 장르에 대한 카테고리를 판단한다. 본 실시예에 따른 카테고리 판단부(230)는 제1 카테고리 판단부(232) 및 제2 카테고리 판단부(234)를 포함한다.

제1 카테고리 판단부(232)는 미디어 콘텐츠의 재생 분야에 대한 메인 카테고리를 판단한다.

제1 카테고리 판단부(232)는 인식 결과정보에 포함된 콘텐츠 명칭 및 분야 정보 등을 이용하여 메인 카테고리를 선정한다. 여기서, 메인 카테고리는 영화, 음악, 스포츠, 뉴스 등일 수 있다.

제2 카테고리 판단부(234)는 복수의 후보 세부 카테고리 중 미디어 콘텐츠의 세부 장르에 대한 세부 카테고리를 판단한다. 복수의 후보 세부 카테고리는 메인 카테고리와 관련된 세부 카테고리를 의미한다.

예를 들어, 메인 카테고리가 '영화'인 경우, 후보 세부 카테고리는 SF, 멜로, 공포, 드라마 등으로 구성되며, 메인 카테고리가 '음악'인 경우, 후보 세부 카테고리는 POP, JAZZ, ROCK, CLASSIC 등으로 구성될 수 있다. 또한, 메인 카테고리가 '스포츠'인 경우, 후보 세부 카테고리는 축구, 농구, 야구, 테니스 등으로 구성되며, 메인 카테고리가 '뉴스'인 경우, 후보 세부 카테고리는 일반, 스포츠, 날씨, 연예 등으로 구성될 수 있다.

본 발명의 일 실시예에 따른 제2 카테고리 판단부(234)는 인식 결과정보에 포함된 장르 정보를 이용하여 복수의 후보 세부 카테고리 중 장르 정보와 대응되는 미디어 콘텐츠의 세부 카테고리를 선정한다.

한편, 본 발명의 다른 실시예에 따른 제2 카테고리 판단부(234)는 적어도 하나의 후보 세부 카테고리 각각에 대한 매칭 스코어를 산출하고, 산출된 매칭 스코어를 기반으로 세부 카테고리로 선정한다. 구체적으로, 제2 카테고리 판단부(234)는 인식 결과정보에 포함된 장르 정보, 음원 데이터 정보 등을 이용하여 미디어 콘텐츠를 후보 세부 카테고리 각각에 매칭시켜 매칭 스코어를 산출하고, 기 설정된 임계치 이상의 매칭 스코어가 산출된 후보 세부 카테고리 중 하나의 후보 세부 카테고리를 세부 카테고리로 선정한다. 여기서, 기 설정된 임계치 이상의 매칭 스코어가 산출된 후보 세부 카테고리가 복수 개인 경우, 제2 카테고리 판단부(234)는 복수의 세부 카테고리를 선정할 수 있으나 반드시 이에 한정되는 것은 아니며, 매칭 스코어가 가장 높은 하나의 후보 세부 카테고리를 세부 카테고리로 선정할 수도 있다.

음질 설정 제어부(240)는 카테고리의 판단 결과를 기반으로 미디어 콘텐츠의 재생 음질 모드를 결정한다.

음질 설정 제어부(240)는 기 저장된 복수의 재생 음질 모드 중 메인 카테고리 및 세부 카테고리에 대응하는 재생 음질 모드를 결정한다.

음질 설정 제어부(240)는 복수의 세부 카테고리가 선정된 경우, 복수의 세부 카테고리 각각에 대응하는 서로 다른 재생 음질 모드 각각에 포함된 음질 설정값의 평균을 계산하고, 계산 결과를 기반으로 재설정된 재생 음질 모드를 미디어 콘텐츠의 재생 음질 모드로 결정한다. 여기서, 음질 설정값은 재생 음질 모드에 대한 대역 값(dB 값), 주파수 값(Hz 값) 등을 의미한다.

한편, 음질 설정 제어부(240)는 사용자에 의해 기 설정된 선호 음질 정보를 획득하고, 선호 음질 정보를 추가로 고려하여 재생 음질 모드를 결정할 수 있다. 구체적으로, 음질 설정 제어부(240)는 기 저장된 복수의 재생 음질 모드 중 결정된 재생 음질 모드에 포함된 음질 설정값에 선호 음질 정보에 포함된 선호 음질 설정값을 적용하여 재설정된 재생 음질 모드를 최종적으로 미디어 콘텐츠의 재생 음질 모드로 결정할 수 있다.

도 3은 본 발명의 실시예에 따른 음성 명령 기반의 음질 제어 방법을 설명하기 위한 순서도이다.

음질 제어 장치(200)는 미디어 콘텐츠의 재생을 위한 음성 명령을 획득한다(S310). 음질 제어 장치(200)는 마이크와 같은 음성 수신장치(미도시)를 통해 입력된 음성 명령을 수신하며, 음성 명령은 사용자에 의해 생성된 음성 데이터로 구성된다.

음질 제어 장치(200)는 획득된 음성 명령을 분석하여 미디어 콘텐츠를 인식한다(S320). 음질 제어 장치(200)는 음성 명령에 대한 특징 벡터를 추출하고, 추출된 특징 벡터를 기 학습된 언어 모델 및 음향 모델을 포함하는 인공지능 신경망을 이용하여 분석하여 미디어 콘텐츠에 대한 인식 결과정보를 생성한다. 여기서, 인식 결과정보는, 미디어 콘텐츠에 대한 콘텐츠 명칭, 분야 정보, 장르 정보, 음원 데이터 정보, 속성 정보(길이, 파일형식 등)일 수 있다.

음질 제어 장치(200)는 음성 명령에 따른 미디어 콘텐츠에 대한 메인 카테고리를 판단한다(S330). 음질 제어 장치(200)는 인식 결과정보에 포함된 콘텐츠 명칭 및 분야 정보 등을 이용하여 미디어 콘텐츠의 재생 분야에 대한 메인 카테고리를 선정한다. 여기서, 메인 카테고리는 영화, 음악, 스포츠, 뉴스 등일 수 있다.

음질 제어 장치(200)는 음성 명령에 따른 미디어 콘텐츠에 대한 세부 카테고리를 판단한다(S340). 음질 제어 장치(200)는 메인 카테고리와 관련된 복수의 후보 세부 카테고리 중 미디어 콘텐츠의 세부 장르에 대한 세부 카테고리를 판단한다. 음질 제어 장치(200)는 인식 결과정보에 포함된 장르 정보를 이용하여 복수의 후보 세부 카테고리 중 장르 정보와 대응되는 미디어 콘텐츠의 세부 카테고리를 선정할 수 있다.

음질 제어 장치(200)는 메인 카테고리 및 세부 카테고리를 기반으로 미디어 콘텐츠의 재생 음질 모드를 결정한다(S350). 음질 제어 장치(200)는 미디어 콘텐츠에 최적화된 재생 음질 모드를 자동으로 설정하여 미디어 콘텐츠가 재생되도록 한다.

도 3에서는 각 단계를 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 3에 기재된 단계를 변경하여 실행하거나 하나 이상의 단계를 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 3은 시계열적인 순서로 한정되는 것은 아니다.

도 3에 기재된 본 실시예에 따른 음질 제어 방법은 애플리케이션(또는 프로그램)으로 구현되고 단말장치(또는 컴퓨터)로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 음질 제어 방법을 구현하기 위한 애플리케이션(또는 프로그램)이 기록되고 단말장치(또는 컴퓨터)가 읽을 수 있는 기록매체는 컴퓨팅 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치 또는 매체를 포함한다.

도 4는 본 발명의 실시예에 따른 음성 명령 기반의 음질 설정 예시를 나타낸 예시도이다.

음질 제어 장치(200)는 음성 명령 획득부(210)를 통해 사용자에 의해 생성된 음성 명령을 획득한다.

음질 제어 장치(200)는 음성 명령 분석부(220)에서 획득된 음성 명령을 분석한다. 예를 들어, 음질 제어 장치(200)는 '노래(음악) 들려줘', '영화 보여줘', '드라마 보여줘', '스포츠 보여줘', '뉴스 보여줘' 등에 대한 음성 명령을 분석한다.

음질 제어 장치(200)는 카테고리 판단부(230) 및 음질 설정 제어부(240)를 통해 음성 명령에 대한 카테고리를 선정하고 선정된 카테고리에 대응하는 재생 음질 모드를 설정한다.

예를 들어, 음질 제어 장치(200)는 음성 명령이 '음악'에 대한 카테고리인 경우 재생되는 '음악'에 최적화된 재생 음질 모드를 설정하고, 음성 명령이 '영화'에 대한 카테고리인 경우 재생되는 '영화'에 최적화된 재생 음질 모드를 설정할 수 있다. 또한, 음질 제어 장치(200)는 음성 명령이 '드라마'에 대한 카테고리인 경우 재생되는 '드라마'에 최적화된 재생 음질 모드를 설정하고, 음성 명령이 '스포츠'에 대한 카테고리인 경우 재생되는 '스포츠 중계'에 최적화된 재생 음질 모드를 설정하며, 음성 명령이 '뉴스'에 대한 카테고리인 경우 재생되는 '뉴스'에 최적화된 재생 음질 모드를 설정할 수 있다.

도 5는 본 발명의 실시예에 따른 음성 명령을 분석하는 동작을 설명하기 위한 예시도이다.

음질 제어 장치(200)의 음성 명령 분석부(220)는 음성 명령(510)에 대한 특징 벡터(520)를 추출한다.

음성 명령 분석부(220)는 음성 명령에서 추출된 특징 벡터(520)를 기 학습된 언어 모델 및 음향 모델을 포함하는 인공지능 신경망(530)을 이용하여 분석(510)하여 미디어 콘텐츠에 대한 인식 결과정보(550)를 생성한다. 여기서, 인식 결과정보는, 미디어 콘텐츠에 대한 콘텐츠 명칭, 분야 정보, 장르 정보, 음원 데이터 정보, 속성 정보(길이, 파일형식 등)일 수 있다.

도 6a 및 도 6b는 본 발명의 실시예에 따른 음성 명령을 기반으로 콘텐츠를 재생을 위하여 음질을 제어하는 동작을 설명하기 위한 예시도이다.

도 6a은 영화 '어벤O스'에 대한 음질 제어 동작을 설명하기 위한 예시도이다.

음질 제어 장치(200)는 '어벤O스 틀어줘'라는 음성 명령을 획득하고(S610), 획득된 음성 명령을 분석하여 '어벤O스' 콘텐츠에 대한 인식 결과정보를 생성한다(S620).

음질 제어 장치(200)는 '어벤O스' 콘텐츠에 대한 인식 결과정보를 기반으로 영화, 음악, 스포츠 및 뉴스 중 '영화'에 대한 메인 카테고리를 판단한다(S630).

음질 제어 장치(200)는 '영화'의 장르를 확인하고(S640), '영화'의 장르인 SF, 멜로, 공포 및 드라마 중 'SF'에 대한 세부 카테고리를 판단한다(S650).

음질 제어 장치(200)는 '영화' 및 'SF'에 대해 최적화된 재생 음질 모드(EQ)를 설정한다(S660).

음질 제어 장치(200)는 재생 음질 모드가 설정된 상태에서 음성 명령에 따른 '어벤O스' 콘텐츠가 재생되도록 한다(S670).

도 6b는 음악 '아이돌 OO 곡'에 대한 음질 제어 동작을 설명하기 위한 예시도이다.

음질 제어 장치(200)는 '아이돌 OO 곡 틀어줘'라는 음성 명령을 획득하고(S612), 획득된 음성 명령을 분석하여 '아이돌 OO 곡' 콘텐츠에 대한 인식 결과정보를 생성한다(S622).

음질 제어 장치(200)는 '아이돌 OO 곡' 콘텐츠에 대한 인식 결과정보를 기반으로 영화, 음악, 스포츠 및 뉴스 중 '음악'에 대한 메인 카테고리를 판단한다(S632).

음질 제어 장치(200)는 '음악'의 장르를 확인하고(S642), '음악'의 장르인 POP, JAZZ, ROCK 및 CLASSIC 중 'POP'에 대한 세부 카테고리를 판단한다(S652).

음질 제어 장치(200)는 '음악' 및 'POP'에 대해 최적화된 재생 음질 모드(EQ)를 설정한다(S662).

음질 제어 장치(200)는 재생 음질 모드가 설정된 상태에서 음성 명령에 따른 '아이돌 OO 곡' 콘텐츠가 재생되도록 한다(S672).

이상의 설명은 본 발명의 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명의 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명의 실시예들은 본 발명의 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 콘텐츠 재생 장치
110: 입력부 120: 출력부
130: 프로세서 140: 메모리
150: 데이터 베이스
200: 음질 제어 장치
210: 음성 명령 획득부 220: 음성 명령 분석부
230: 카테고리 판단부 240: 음질 설정 제어부

Claims

음질 제어 장치에서 음성 명령을 기반으로 음질을 제어하는 방법에 있어서,
미디어 콘텐츠의 재생을 위한 음성 명령을 획득하는 음성 명령 획득 단계;
상기 음성 명령을 분석하여 상기 미디어 콘텐츠를 인식하고, 상기 미디어 콘텐츠에 대한 인식 결과정보를 생성하는 음성 명령 분석 단계;
상기 인식 결과정보를 기반으로 상기 미디어 콘텐츠에 대한 카테고리를 판단하는 카테고리 판단 단계; 및
상기 카테고리의 판단 결과를 기반으로 상기 미디어 콘텐츠의 재생 음질 모드를 결정하는 음질 설정 제어 단계를 포함하되,
상기 카테고리 판단 단계는, 상기 미디어 콘텐츠의 재생 분야에 대한 메인 카테고리를 판단하는 제1 카테고리 판단 단계; 및 상기 메인 카테고리와 관련된 상기 미디어 콘텐츠를 분류 가능한 적어도 하나의 후보 세부 카테고리 각각에 매칭시켜 매칭 스코어를 산출하고, 기 설정된 임계치 이상의 매칭 스코어의 복수 개의 후보 세부 카테고리를 상기 미디어 콘텐츠의 세부 장르에 대한 복수의 세부 카테고리로 판단하는 제2 카테고리 판단 단계를 포함하며,
상기 음질 설정 제어 단계는, 상기 메인 카테고리 및 상기 적어도 하나의 세부 카테고리에 대응하는 상기 재생 음질 모드를 결정하되,
상기 음질 설정 제어 단계는, 복수의 세부 카테고리가 선정된 경우 상기 복수의 세부 카테고리 각각에 대응하는 서로 다른 재생 음질 모드 각각에 포함된 음질 설정값의 평균을 계산하고, 계산 결과를 기반으로 재설정된 재생 음질 모드를 최종 재생 음질 모드로 결정하는 것을 특징으로 하는 음성 명령 기반의 음질 제어 방법.
제1항에 있어서,
상기 음성 명령 분석 단계는,
상기 음성 명령에 대한 특징 벡터를 추출하고, 상기 특징 벡터를 기 학습된 언어 모델 및 음향 모델을 포함하는 인공지능 신경망을 이용하여 분석하여 상기 미디어 콘텐츠에 대한 상기 인식 결과정보를 생성하는 것을 특징으로 하는 음성 명령 기반의 음질 제어 방법.
삭제
제1항에 있어서,
상기 제1 카테고리 판단 단계는,
상기 인식 결과정보에 포함된 콘텐츠 명칭 및 분야 정보 중 적어도 하나의 정보를 이용하여 상기 메인 카테고리를 선정하는 것을 특징으로 하는 음성 명령 기반의 음질 제어 방법.
제1항에 있어서,
상기 음질 설정 제어 단계는,
기 저장된 복수의 재생 음질 모드 중 상기 메인 카테고리 및 상기 세부 카테고리에 대응하는 재생 음질 모드를 결정하여 상기 미디어 콘텐츠의 재생 시 적용하는 것을 특징으로 하는 음성 명령 기반의 음질 제어 방법.
삭제
제5항에 있어서,
상기 음질 설정 제어 단계는,
사용자에 의해 기 설정된 선호 음질 정보를 획득하고, 상기 선호 음질 정보를 추가로 고려하여 상기 재생 음질 모드를 결정하는 것을 특징으로 하는 음성 명령 기반의 음질 제어 방법.
제7항에 있어서,
상기 음질 설정 제어 단계는,
상기 기 저장된 복수의 재생 음질 모드 중 결정된 상기 재생 음질 모드에 포함된 음질 설정값에 상기 선호 음질 정보에 포함된 선호 음질 설정값을 적용하여 재설정된 재생 음질 모드를 최종적으로 상기 미디어 콘텐츠의 재생 음질 모드로 결정하는 것을 특징으로 하는 음성 명령 기반의 음질 제어 방법.
음성 명령을 기반으로 음질을 제어하는 장치로서,
적어도 하나 이상의 프로세서; 및
상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서,
미디어 콘텐츠의 재생을 위한 음성 명령을 획득하는 음성 명령 획득 단계;
상기 음성 명령을 분석하여 상기 미디어 콘텐츠를 인식하고, 상기 미디어 콘텐츠에 대한 인식 결과정보를 생성하는 음성 명령 분석 단계;
상기 인식 결과정보를 기반으로 상기 미디어 콘텐츠에 대한 카테고리를 판단하는 카테고리 판단 단계; 및
상기 카테고리의 판단 결과를 기반으로 상기 미디어 콘텐츠의 재생 음질 모드를 결정하는 음질 설정 제어 단계를 포함하는 동작들을 수행하게 하되,
상기 카테고리 판단 단계는, 상기 미디어 콘텐츠의 재생 분야에 대한 메인 카테고리를 판단하는 제1 카테고리 판단 단계; 및 상기 메인 카테고리와 관련된 상기 미디어 콘텐츠를 분류 가능한 적어도 하나의 후보 세부 카테고리 각각에 매칭시켜 매칭 스코어를 산출하고, 기 설정된 임계치 이상의 매칭 스코어의 복수 개의 후보 세부 카테고리를 상기 미디어 콘텐츠의 세부 장르에 대한 복수의 세부 카테고리로 판단하는 제2 카테고리 판단 단계를 포함하며,
상기 음질 설정 제어 단계는, 상기 메인 카테고리 및 상기 적어도 하나의 세부 카테고리에 대응하는 상기 재생 음질 모드를 결정하되,
상기 음질 설정 제어 단계는, 복수의 세부 카테고리가 선정된 경우 상기 복수의 세부 카테고리 각각에 대응하는 서로 다른 재생 음질 모드 각각에 포함된 음질 설정값의 평균을 계산하고, 계산 결과를 기반으로 재설정된 재생 음질 모드를 최종 재생 음질 모드로 결정하는 것을 특징으로 하는 음성 명령 기반의 음질 제어 장치.
음질을 제어하여 콘텐츠를 재생하는 장치에 있어서,
미디어 콘텐츠의 재생을 위한 음성 명령을 획득하고, 상기 음성 명령을 분석하여 상기 미디어 콘텐츠에 대한 인식 결과정보를 생성하며, 상기 인식 결과정보를 기반으로 상기 미디어 콘텐츠에 대한 카테고리를 판단하고, 상기 카테고리의 판단 결과를 기반으로 상기 미디어 콘텐츠의 재생 음질 모드를 결정하는 음질 제어 모듈; 및
상기 재생 음질 모드를 적용하여 상기 미디어 콘텐츠를 재생하는 콘텐츠 재생 모듈을 포함하되,
상기 음질 제어 모듈은, 상기 미디어 콘텐츠의 재생 분야에 대한 메인 카테고리를 판단하는 제1 카테고리 판단 단계; 및 상기 메인 카테고리와 관련된 상기 미디어 콘텐츠를 분류 가능한 적어도 하나의 후보 세부 카테고리 각각에 매칭시켜 매칭 스코어를 산출하고, 기 설정된 임계치 이상의 매칭 스코어의 복수 개의 후보 세부 카테고리를 상기 미디어 콘텐츠의 세부 장르에 대한 복수의 세부 카테고리로 판단하는 제2 카테고리 판단 단계를 포함하며, 상기 메인 카테고리 및 상기 적어도 하나의 세부 카테고리에 대응하는 상기 재생 음질 모드를 결정하되,
상기 음질 제어 모듈은, 복수의 세부 카테고리가 선정된 경우 상기 복수의 세부 카테고리 각각에 대응하는 서로 다른 재생 음질 모드 각각에 포함된 음질 설정값의 평균을 계산하고, 계산 결과를 기반으로 재설정된 재생 음질 모드를 최종 재생 음질 모드로 결정하는 것을 특징으로 하는 콘텐츠 재생 장치.