KR20240041154A

KR20240041154A - 인공지능 스피커의 음성 피드백 효과음 출력 제어 방법

Info

Publication number: KR20240041154A
Application number: KR1020220120334A
Authority: KR
Inventors: 문경기; 정재훈
Original assignee: 주식회사 케이티
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2024-03-29

Abstract

인공지능 스피커의 동작 방법으로서, 상기 인공지능 스피커에 설정되어 있는 미디어 볼륨 레벨, 및 사용자 음성 인식을 알리기 위한 음성 피드백 효과음의 볼륨 레벨을 확인하는 단계, 상기 음성 피드백 효과음의 볼륨 레벨 대비 미디어 볼륨 레벨의 비율을 계산하는 단계, 상기 비율이 속하는 임계 조건에 따라 상기 음성 피드백 효과음의 볼륨 레벨의 증가율을 가변하는 단계, 그리고 상기 증가율을 적용하여 상기 음성 피드백 효과음의 볼륨 레벨을 증가시키는 단계를 포함한다.

Description

인공지능 스피커의 음성 피드백 효과음 출력 제어 방법{METHOD FOR CONTROLLING THE OUTPUT OF A VOICE FEEDBACK SOUND EFFECT OF ARTIFICIAL SPEAKER}

본 개시는 인공지능 스피커의 음성 피드백 효과음 출력 제어 방법에 관한 것이다.

인공지능 스피커(Artificial Intelligence speaker, AI Speaker)는 가상 비서가 내장된 보이스 커맨드 디바이스로서, 스마트 스피커(smart speaker)라고도 호칭한다.

인공지능 스피커는 음성 인식을 통해 음원 재생, 정보 검색 등의 다양한 기능을 수행하고, 기능 수행 결과를 음성으로 출력하거나 또는 연결된 디바이스에 출력한다.

현재, 인공지능 스피커는 음성 웨이크-업(voice wake-up) 방식에 기반하여 음성 인식 서비스를 시작한다. 즉, 사용자가 호출 음성 명령(예, '지니야' 등)을 발화하면, 인공지능 스피커는 사용자 발화에 대한 음성 인식을 시작한다.

이때, 인공지능 스피커는 음성 피드백 효과음을 송출하여 사용자로 하여금 음성 인식이 시작됨을 알게 한다.

음성 피드백 효과음이 송출되면, 사용자는 필요로 하는 기능 또는 서비스와 관련한 음성 명령을 발화하고, 인공지능 스피커는 사용자 발화에 대한 음성 인식을 통해 필요한 기능 또는 서비스를 파악하여 그에 따른 동작을 수행한다.

음성 피드백 효과음은 인공지능 스피커의 미디어 볼륨을 고려하여 일정한 품질을 유지하도록 요구된다. 이를 위하여 음성 피드백 효과음의 볼륨 크기는 정해진 룰(rule)에 의해 인공지능 스피커의 하드웨어를 제작하는 제조사별로, 그리고 단말별로 정해진 미디어 볼륨 레벨 의해 특정한 소리의 세기로 출력이 된다.

그런데, 안드로이드(Android) 플랫폼 또는 AOSP(Android Open Source Project) 기반의 플랫폼 환경에서, 정해진 룰(rule)에 의해 음성 피드백 효과음의 볼륨 크기를 제어하려면, 각 플랫폼별 특징과 제조사가 정의한 볼륨 테이블, 그리고 음성 피드백 효과음의 출력 시점에 사용자 청취 볼륨 상태 등을 모두 고려하여 음성 피드백 효과음이 출력되어야 한다.

하지만, 현재 사용자 볼륨 상태를 고려한 음성 피드백 효과음 출력 기술은 인공지능 스피커를 개발하는 서비스 제공 업체마다 자체 사양을 결정 및 구현하여 관련 서비스를 제공하고 있는 상황이다.

한편, TV와 같은 사용자 청취 볼륨이 작은 상태에서 음성 피드백 효과음과 같은 짧은 음원이 갑자기 출력이 되는 경우, 어떠한 소리의 세기로 출력되느냐 여부에 따라 AEC(Acoustic Echo Canceler)가 잠시 동안 정상 동작되지 않을 수 있다.

그런데, AEC가 동작되지 않는 경우, 해당 시점 동안 출력되는 TV 소리가 그대로 단말 장치 내로 유입되어 사용자 발화 명령어가 아닌, TV 소리가 명령어로 인식될 수 있다. 이러한 현상은 결과적으로 사용자 발화 명령어에 대한 오인식의 원인이 되어 노이즈에 강인한 음성 서비스를 제공하지 못하는 문제점이 발생한다.

이러한 문제점을 해결하는 가장 쉬운 방법은 단말 장치에서 제공되는 미디어 볼륨 레벨을 확인하고 해당 미디어 볼륨 레벨에 대응하도록 음성 피드백 효과음이 출력될 때 AEC가 정상적으로 동작하는지 확인하는 것이다. 또한, 정상적으로 동작하는 볼륨 레벨에 맞추어 음성 피드백 효과음이 단말 장치에 출력될 때, 출력되어야 할 볼륨 레벨 정보를 사전에 룰 방식으로 코드화 시켜 사용할 수 있다.

하지만, 이러한 방식은 미디어 볼륨 레벨이 서로 다르게 구현되는 단말 장치에서 일관성 있게 적용하기 어렵다는 한계가 있다. 왜냐하면, 각 단말 마다 볼륨 레벨 특징을 고려하여 음성 피드백 효과음 출력에 대한 볼륨 레벨 정보 관련 룰을 적용하는 경우, 명령어 오인식 여부가 있는지 판단을 해야 하고 명령어 오인식 여부가 발생하는지에 대한 사이드 이펙트(side effect) 검토를 충분한 테스트 과정을 통해 검증해야 하며, 이를 통해 선정된 가장 최적의 음성 피드백 효과음의 볼륨 레벨을 실제 제품에 반영해야 하기 때문이다. 이러한 과정은 단말 장치의 AEC의 처리 결과와 명령어의 VAD(Voice Activity Detection)에 대한 음성구간 취득 결과 및 명령어 음성인식 디코더 처리 결과를 함께 검토하는 작업이 요구된다. 따라서, 이 검증 결과를 분석하는데 상당한 개발 기간이 소요된다. 게다가, 이러한 작업은 단말 장치가 늘어날 수록 신규 단말 장치마다 동일한 작업 과정을 수행해야 하는데, 각 데이터 수집의 어려움이 있어 작업 난이도가 높다는 문제가 있다.

또한, 종래의 룰 방식에 따르면, 음성 피드백 효과음이 출력되어야 할 최소 임계값을 정할 때 휴리스틱(heuristics) 하게 대략적으로 볼륨 6~8정도에서 제공되는 미디어 볼륨 레벨 정보를 확인하고, 각 미디어 볼륨 레벨 별로 음성 피드백 효과음이 출력될 때 음성 호출 명령어와 관련된 인식률 문제가 발생하는지 검증하는 업무가 진행될 수 잇다. 그리고 그 과정에 문제가 없는 미디어 볼륨 레벨이 확인되면 운용자가 임의로 하한 임계치를 볼륨 레벨 6으로 해야 할지 혹은 볼륨 레벨 7로 해야할 지 혹은 볼륨 레벨 8로 해야 할지를 선택하여 제품에 룰 방식으로 반영할 수 있다. 따라서, 종래의 룰 방식에 따르면, 볼륨 레벨 6, 볼륨 레벨 7, 볼륨 레벨 8마다 인식률 검증을 일일히 해야만 하므로, 검증 작업이 복잡하고 긴 시간을 필요로 한다.

본 개시는 미디어 볼륨 크기 대비 음성 피드백 효과음의 볼륨 크기 비율을 계산하고, 음성 피드백 효과음의 볼륨 크기를 그 비율만큼 조정하여 출력함으로써, 음성 인식 품질 상태를 최적으로 유지하는 방법을 제공하는 것이다.

한 특징에 따르면, 인공지능 스피커의 동작 방법으로서, 상기 인공지능 스피커에 설정되어 있는 미디어 볼륨 레벨, 및 사용자 음성 인식을 알리기 위한 음성 피드백 효과음의 볼륨 레벨을 확인하는 단계, 상기 음성 피드백 효과음의 볼륨 레벨 대비 미디어 볼륨 레벨의 비율을 계산하는 단계, 상기 비율이 속하는 임계 조건에 따라 상기 음성 피드백 효과음의 볼륨 레벨의 증가율을 가변하는 단계, 그리고 상기 증가율을 적용하여 상기 음성 피드백 효과음의 볼륨 레벨을 증가시키는 단계를 포함한다.

상기 가변하는 단계는, 상기 비율이 하한 임계치보다 크고 상한 임계치보다 작으면, 상기 음성 피드백 효과음의 볼륨 레벨에 상기 비율을 곱한 값을 상기 음성 피드백 효과음의 볼륨 레벨에 대한 증가율로 결정할 수 있다.

상기 가변하는 단계는, 상기 비율이 상기 상한 임계치보다 크면, 상기 음성 피드백 효과음의 볼륨 레벨에 상기 상한 임계치를 곱한 값을 상기 음성 피드백 효과음의 볼륨 레벨에 대한 증가율로 결정할 수 있다.

상기 가변하는 단계는, 상기 비율이 상기 하한 임계치보다 작으면, 상기 음성 피드백 효과음의 볼륨 레벨에 상기 하한 임계치를 곱한 값을 상기 음성 피드백 효과음의 볼륨 레벨에 대한 증가율로 결정할 수 있다.

상기 확인하는 단계와 상기 계산하는 단계 사이에, 상기 음성 피드백 효과음에 대한 평균 RMS(Root Mean Square) 값을 계산하는 단계, 그리고 상기 미디어 볼륨 레벨을 상기 평균 RMS 값의 단위인 진폭 단위의 값으로 변환하는 단계를 더 포함하고, 상기 계산하는 단계는, 상기 진폭 단위의 값으로 변환된 미디어 볼륨 레벨을 상기 평균 RMS값으로 나누어 상기 비율을 계산할 수 있다.

실시예에 따르면, 단말 장치 별로 볼륨 레벨마다의 테스트 진행 방식을 간략화 할 수 있고, 이에 따른 사용자 청취 볼륨을 고려한 음성 피드백 효과음의 하한 임계치와 상한 임계치를 제공할 수 있다.

또한, 종래의 룰(Rule) 방식보다는 미디어 볼륨 별 음성 피드백 효과음 출력에 따른 음성 인식 명령어 인식률을 검증하는 작업 시간을 단순화시키면서 동시에, 일정한 품질로 AEC 성능을 보장하는 인공지능 스피커를 개발할 수 있다.

도 1은 한 실시예에 따른 인공지능 스피커의 구성을 나타낸 블록도이다.
도 2는 실시예에 따른 볼륨 비율에 따른 볼륨 조정값의 가변화를 설명하는 그래프이다.
도 3은 한 실시예에 따른 인공지능 스피커의 음성 피드백 효과음 출력을 제어하는 절차를 나타낸 순서도이다.
도 4는 한 실시예에 따른 인공지능 스피커의 하드웨어 구성을 나타낸 블록도이다.

아래에서는 첨부한 도면을 참고로 하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

또한, 명세서에 기재된 "…부", "…기", "…모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

본 발명에서 설명하는 장치들은 적어도 하나의 프로세서, 메모리 장치, 통신 장치 등을 포함하는 하드웨어로 구성되고, 지정된 장소에 하드웨어와 결합되어 실행되는 프로그램이 저장된다. 하드웨어는 본 발명의 방법을 실행할 수 있는 구성과 성능을 가진다. 프로그램은 도면들을 참고로 설명한 본 발명의 동작 방법을 구현한 명령어(instructions)를 포함하고, 프로세서와 메모리 장치 등의 하드웨어와 결합하여 본 발명을 실행한다.

본 명세서에서 "전송 또는 제공"은 직접적인 전송 또는 제공하는 것뿐만 아니라 다른 장치를 통해 또는 우회 경로를 이용하여 간접적으로 전송 또는 제공도 포함할 수 있다.

본 명세서에서 단수로 기재된 표현은 "하나" 또는 "단일" 등의 명시적인 표현을 사용하지 않은 이상, 단수 또는 복수로 해석될 수 있다.

본 명세서에서 도면에 관계없이 동일한 도면번호는 동일한 구성요소를 지칭하며, "및/또는" 은 언급된 구성 요소들의 각각 및 하나 이상의 모든 조합을 포함한다.

본 명세서에서, 제1, 제2 등과 같이 서수를 포함하는 용어들은 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

본 명세서에서 도면을 참고하여 설명한 흐름도에서, 동작 순서는 변경될 수 있고, 여러 동작들이 병합되거나, 어느 동작이 분할될 수 있고, 특정 동작은 수행되지 않을 수 있다.

도 1은 한 실시예에 따른 인공지능 스피커(Artificial Intelligence speaker, AI Speaker)의 구성을 나타낸 블록도이고, 도 2는 실시예에 따른 볼륨 비율에 따른 볼륨 조정값의 가변화를 설명하는 그래프이다.

도 1을 참조하면, 인공지능 스피커(100)는 독립된 컴퓨터 장치로 구성되거나 또는 셋톱박스, 차량 내장형 미디어 장치 등과 같은 단말 장치에 탑재될 수 있다.

인공지능 스피커(100)는 마이크(101), 스피커(102), 음성 인식 제어부(103), 통신 모듈(104), 사용자 입력부(105), 미디어 볼륨 조절부(106) 및 효과음 출력 제어부(107)를 포함한다.

인공지능 스피커(100)는 적어도 하나의 프로세서 및 메모리를 포함하는 하드웨어 장치로서, 적어도 하나의 프로세서는 음성 인식 제어부(103), 미디어 볼륨 조절부(106), 및 효과음 출력 제어부(107)에 대응하는 동작을 구현하는 명령어들(Instructions)을 실행할 수 있다.

마이크(101)는 사용자가 발화한 음성을 입력 받기 위한 수단이다.

스피커(102)는 음성 피드백 효과음, 미디어 음원 등과 같은 인공지능 스피커(100)의 동작에 따른 다양한 음향 신호를 외부로 출력하기 위한 수단이다.

음성 인식 제어부(103)는 마이크(101)로부터 사전에 정해진 호출 음성 명령이 입력되면, 음성 인식 기능을 활성화(wake-up)한다.

음성 인식 제어부(103)는 호출 음성 명령과 함께 또는 호출 음성 명령 이후에 마이크(101)로부터 입력된 음성 신호에 대한 언어 처리(예, NLU(natural language understanding)), 대화 관리(dialogue management, DM), 음성 합성(text to speech, TTS) 등과 같은 음성 인식(예, ASR(automatic speech recognition))을 수행한다.

통신 모듈(104)은 인터넷망 등과 같은 네트워크를 통해 외부 서버(미도시)에 접속되어 음성 인식 제어부(103)의 음성 인식 결과에 따른 서비스 데이터를 획득하여 음성 인식 제어부(103)로 출력한다. 그러면, 음성 인식 제어부(103)는 서비스 데이터에 대응하는 음향 신호를 생성하여 스피커(102)로 출력한다.

사용자 입력부(105)는 키패드, 터치패드 등과 같은 사용자 입력을 위한 수단이다.

미디어 볼륨 조절부(106)는 사용자 입력부(105)로부터 전달되는 사용자 입력 신호에 따른 미디어 볼륨 레벨을 설정한다.

효과음 출력 제어부(107)는 음성 인식 제어부(103)의 요청에 따라 음성 피드백 효과음을 스피커(102)로 출력한다. 이때, 음성 인식 제어부(103)는 마이크(101)로부터 호출 음성 명령의 입력이 확인되면, 효과음 출력 제어부(107)에게 음성 피드백 효과음의 송출을 요청한다.

효과음 출력 제어부(107)는 미디어 볼륨 조절부(106)로부터 설정되어 있는 미디어 볼륨 레벨을 확인한다. 효과음 출력 제어부(107)는 미디어 볼륨 크기 대비 음성 피드백 효과음의 볼륨 크기 비율을 계산하고, 음성 피드백 효과음의 볼륨 크기를 그 비율만큼 조정하여 출력한다.

이때, 효과음 출력 제어부(107)는 비율이 속하는 임계 조건, 즉, 상한 임계치, 하한 임계치에 따라 음성 피드백 효과음의 볼륨 레벨의 증가율을 가변하고, 가변한 증가율을 적용하여 음성 피드백 효과음의 볼륨 레벨을 증가시킬 수 있다.

도 2를 참조하면, 비율이 하한 임계치(Th 1)보다 작으면, 음성 피드백 효과음의 볼륨 레벨의 증가율, 즉, 볼륨 조정값은 하한 임계치(Th 1)를 이용하여 설정된다. 비율이 하한 임계치(Th 1)와 상한 임계치(Th 2) 사이에 존재하면, 볼륨 조정값은 비율에 비례하여 설정된다. 비율이 상한 임계치(Th 2) 보다 크면, 볼륨 조정값은 상한 임계치(Th 2)를 이용하여 설정된다.

AI 스피커(100)의 설정 초기에는, 효과음 출력 제어부(107)는 제조사/운용자에 의해 설정된 디폴트(Default) 볼륨 레벨로 설정한다.

효과음 출력 제어부(107)는 미디어 볼륨 조절부(106)로부터 현재 설정된 미디어 볼륨 레벨을 확인한 후, 확인한 미디어 볼륨 레벨에 대응하도록 음성 피드백 효과음의 볼륨 레벨을 조정한다.

이후, 미디어 볼륨 조절부(106)는 사용자 입력에 따라 미디어 볼륨 레벨을 변경하면, 효과음 출력 제어부(107)에게 변경된 미디어 볼륨 레벨을 알린다. 그러면, 효과음 출력 제어부(107)는 변경된 미디어 볼륨 레벨에 대응하도록 음성 피드백 효과음의 볼륨 레벨을 조정한다.

효과음 출력 제어부(107)의 동작에 대해 도 2를 참고하여 자세히 설명한다.

도 3은 한 실시예에 따른 인공지능 스피커의 음성 피드백 효과음 출력을 제어하는 절차를 나타낸 순서도이다.

도 3을 참조하면, 효과음 출력 제어부(107)는 다양한 볼륨 레벨의 음성 피드백 효과음들의 평균 RMS(Root Mean Square)값을 계산하여 저장한다(S101).

이하, 본 명세서에서, 볼륨 레벨은 볼륨 크기를 나타낸다.

S101에서, 효과음 출력 제어부(107)는 설정 가능한 복수의 볼륨 레벨 별로 각각의 음성 피드백 효과음들의 RMS값들을 구하고, RMS값들의 평균값, 즉, 평균 RMS를 계산하여 저장한다(S101). 따라서, 평균 RMS는 미디어 볼륨 레벨의 값과 관계없이 동일하게 설정된다.

효과음 출력 제어부(107)는 음성 피드백 효과음 출력이 필요하다고 판단(S102)되면, 미디어 볼륨 조절부(106)로부터 현재 설정된 미디어 볼륨 레벨을 확인하고, 미디어 볼륨 레벨을 진폭 단위로 변경한다(S103).

음성 인식 제어부(103)가 사용자의 호출 음성 명령을 인식하면, 효과음 출력 제어부(107)에게 음성 피드백 효과음 출력 지시를 전송한다. 그러면, 효과음 출력 제어부(107)는 음성 피드백 효과음 출력이 필요하다고 판단(S102)하고, S103을 수행할 수 있다.

이때, 복수의 미디어 볼륨 레벨 별로 각각의 데시벨 값이 정의된 단말기 볼륨 테이블은 표 1과 같이 정의될 수 있다.

미디어 볼륨 레벨	dB
0	Inf
1	-60.0
2	-55.0
3	-50.0
4	-47.0
5	-45.0
6	-42.0
7	-39.5
8	-37.5
9	-36.0
10	-34.5
…	…

효과음 출력 제어부(107)는 표 1을 참조하여, 현재 설정된 미디어 볼륨 레벨을 그에 대응하는 데시벨(dB)로 변환한다.

효과음 출력 제어부(107)는 데시벨(dB)로 변환한 미디어 볼륨 레벨을 진폭 단위로 변경하는데, 수학식 1을 이용하여 변경할 수 있다.

여기서, 'media_amp'는 미디어 볼륨 레벨의 진폭값에 해당한다.

'current_user_media_volume_db'는 미디어 볼륨 레벨의 데시벨 값에 해당한다.

S101에서 계산된 평균 RMS값의 단위가 10진수 진폭 단위로 되어 있기 때문에, 단위를 일치시키기 위해 S103을 통해 미디어 볼륨 레벨을 진폭 단위로 변경한다.

효과음 출력 제어부(107)는 S103에서 변환된 미디어 볼륨 레벨 진폭값 대비 음성 피드백 효과음의 평균 RMS값 간의 비율(ratio)을 계산한다(S104).

S104에서 수학식 2를 통해 비율을 계산할 수 있다.

여기서, 'beep_rms'는 음성 피드백 효과음의 평균 RMS값을 의미한다. 'beep_rms'는 미디어 볼륨 레벨과 관계없이 고정된 값을 가진다.

'media_amp'는 미디어 볼륨 레벨 진폭값을 의미한다. 'media_amp'는 미디어 볼륨 레벨의 설정에 따라 변동되는 값이다. 'media_amp'는 제조사가 제작하는 단말 모델 별로, 그리고 제조사별로 모두 상이한 값을 가지고 있으므로, 단말 모델 별/제조사 별 미디어 볼륨 시스템 특징을 나타내는 지표로 볼 수 있다.

효과음 출력 제어부(107)는 S104에서 계산한 비율이 하한 임계치(low_threshold, Th 1) 보다 작은지 판단한다(S105).

S105에서 비율이 하한 임계치(low_threshold, Th 1) 보다 작다고 판단되면, 효과음 출력 제어부(107)는 음성 피드백 효과음의 볼륨 레벨을 하한 임계치에 비례하여 증가하도록 설정한다(S106). 이를 수식으로 나타내면 수학식 3과 같다.

여기서, beep_samples는 음성 피드백 효과음의 볼륨 레벨로서, 제조사에 의해 사전에 설정된 디폴트 값이다. low_threshold는 하한 임계치이다.

수학식 3에 따르면, beep_samples, low_threshold이 모두 고정된 값이므로, 하한 임계치에 비례하여 증가하도록 설정된 음성 피드백 효과음의 볼륨 레벨값은 고정된 값을 가지게 된다. 따라서, 하한 임계치보다 작은 비율에 해당하는 미디어 볼륨 레벨이 설정된 경우에는, 고정된 볼륨 레벨의 음성 피드백 효과음이 설정된다.

S104에서 계산한 비율은 음성 피드백 효과음의 평균 RMS값 보다 미디어 볼륨 진폭값이 상대적으로 작은 값일수록 작은 값을 가지게 된다. 따라서, S104에서 비율이 하한 임계치(low_threshold, Th 1) 보다도 작은 값이라는 것은 미디어 볼륨 진폭값이 상대적으로 매우 작은 값을 가진다는 것을 의미한다.

사용자가 미디어 볼륨을 매우 작게 설정한 상태에서는 음성 피드백 효과음이 너무 작지 않게 출력되지 않도록 하기 위해 그에 맞는 하한 임계치(low_threshold, Th 1)가 설정되어 있다. 즉, 미디어 볼륨이 기준값 이상의 작은 값으로 설정된 상태에서는 음성 피드백 효과음이 하한 임계치(low_threshold, Th 1)에 해당되는 크기로 출력 될 수 있게 설정할 수 있다. 따라서, S104의 비율이 하한 임계치보다 작은 경우에, 음성 피드백 효과음은 하한 임계치에 비례하는 고정된 값의 볼륨 레벨로 설정되어 출력됨으로써, 음성 피드백 효과음이 너무 작게 출력되는 것을 방지할 수 있다.

S105에서 비율이 하한 임계치(low_threshold, Th 1)보다 작지 않다고 판단되면, 효과음 출력 제어부(107)는 S104에서 계산한 비율이 상한 임계치(high_threshold, Th 2) 보다 큰지 판단한다(S107).

이때, 하한 임계치보다 작다는 것은 하한 임계치 미만이고, 하한 임계치보다 작지 않다는 것은 하한 임계치 이상을 의미할 수 있다. 혹은, 하한 임계치보다 작다는 것은 하한 임계치 이하이고, 하한 임계치보다 작지 않다는 것은 하한 임계치 초과를 의미할 수 있다.

또한, 상한 임계치보다 크다는 것은 상한 임계치 초과이고, 상한 임계치보다 크지 않다는 것은 상한 임계치 이하를 의미할 수 있다. 혹은, 상한 임계치보다 크다는 것은 상한 임계치 이상이고, 상한 임계치보다 크지 않다는 것은 상한 임계치 미만을 의미할 수 있다.

S107에서, 비율이 상한 임계치(high_threshold, Th 2)보다 크지 않다고 판단되면, 효과음 출력 제어부(107)는 음성 피드백 효과음의 볼륨 레벨을 비율에 비례하여 증가하도록 조정한다(S108).

즉, 효과음 출력 제어부(107)는 S107에서 비율이 상한 임계치(high_threshold, Th 2)보다 크지 않다고 판단되면, 이는 비율이 하한 임계치(low_threshold, Th 2)보다 크고 상한 임계치(high_threshold, Th 2) 보다 작음을 의미하므로, 미디어 볼륨 레벨이 적정한 범위 내의 값인 경우로 판단하여, 음성 피드백 효과음을 미디어 볼륨 레벨에 비례하는 값으로 설정한다(S108). 이를 수식으로 나타내면, 수학식 4과 같다.

여기서, 'beep_samples'는 음성 피드백 효과음의 볼륨 레벨을 의미한다. 'ratio'는 S104에서 계산된 비율을 의미한다.

수학식 4에 따르면, S104의 비율이 포함되어 있으므로, 이는 결국 미디어 볼륨 레벨을 고려하여 음성 피드백 효과음이 설정됨을 나타낸다.

반면, S107에서, 비율이 상한 임계치(high_threshold, Th 2) 보다 크다고 판단되면, 효과음 출력 제어부(107)는 음성 피드백 효과음의 볼륨 레벨을 상한 임계치(high_threshold, Th 2)에 비례하여 증가하도록 조정한다(S109).

음성 피드백 효과음의 평균 RMS값 보다 미디어 볼륨 진폭값이 상대적으로 큰 값일수록 S104에서 계산한 비율 역시 큰 값을 가지게 된다. 즉, 비율이 상한 임계치 보다 크다는 것은 미디어 볼륨 진폭값이 상대적으로 큰 값이라는 의미가 된다.

사용자가 미디어 볼륨을 크게 설정한 상태에서 음성 피드백 효과음을 미디어 볼륨 레벨에 비례하여 설정하면 음성 피드백 효과음이 매우 커서 청취자에게 불쾌감을 줄 수 있으므로, 오히려 사용자 청취 볼륨 상태의 품질을 떨어뜨릴 수 있다. 따라서, 효과음 출력 제어부(107)는 음성 피드백 효과음의 소리가 너무 크게 설정되는 것을 방지하기 위해, 미디어 볼륨 레벨과 무관하게 상한 임계치에 비례하여 음성 피드백 효과음 크기를 설정한다. 즉, 효과음 출력 제어부(107)는 음성 피드백 효과음을 상한 임계치라는 특정 값에 비례하여 증가하도록 조정함으로써, 음성 피드백 효과음을 미디어 볼륨 크기에 따라 무조건 소리가 높아지는 현상을 방지할 수 있게 된다. 이러한 설정을 통해, 비율이 상한 임계치 보다 크면, 음성 피드백 효과음은 상한 임계치에 비례하는 고정된 값의 볼륨 레벨로 설정될 수 있다.

효과음 출력 제어부(107)는 수학식 5를 이용하여 상한 임계치에 비례하여 증가한 값으로 음성 피드백 효과음의 볼륨 레벨을 설정할 수 있다.

기본적으로, 사용자가 청취하는 미디어 볼륨 레벨에 맞추어 음성 피드백 효과음이 출력되어야 한다.

그러나, 사용자가 청취하는 볼륨 상태가 너무 작거나 또는 반대로 너무 큰 상태에서 음성 피드백 효과음이 출력되면 음성 피드백 효과음이 잘 들리지 않거나, 또는 음성 피드백 효과음이 너무 커서 사용자에게 불쾌감을 줄 수 있다. 이러한 경우를 방지하기 위해 사용자가 청취하는 볼륨 상태가 너무 작은지 또는 너무 큰지를 판단하기 위해, 비율이 하한 임계치 보다 작은지 판단(S105)하거나 또는 상한 임계치 보다 큰지 판단(S107)하는 것이다.

그리고, S106을 통해 사용자가 청취하는 미디어 볼륨 레벨이 낮은 상태라 할지라도 음성 피드백 효과음을 사용자가 인지할 수 있게 사용자 청취 볼륨보다 크게 소리가 출력이 되도록 한다. 또한, S109를 통해 사용자가 청취하는 미디어 볼륨 레벨이 높은 상태에서라도 음성 피드백 효과음이 너무 높지 않게 출력되도록 함으로써, 사용자 사용 서비스 품질을 높일 수 있다.

이상 설명한 바에 따르면, 종래의 룰(Rule) 방식보다는 미디어 볼륨 별 음성 피드백 효과음 출력에 따른 음성 인식 명령어 인식률을 검증하는 작업 시간을 단순화시키면서 동시에, 일정한 품질로 AEC 성능을 보장할 수 있게 된다. 즉, 본 발명의 실시예에 따르면, 볼륨 레벨에 따라 음성 피드백 효과음을 출력하는 것이 아라 특정 볼륨 레벨 일 때 음성 피드백 효과음의 볼륨 레벨과의 상대적인 크기 비율을 고려하여 음성 피드백 효과음의 볼륨 레벨을 조정하므로, 미디어 볼륨 레벨 별로 명령어 인식률에 따른 오인식 현상에 대한 검토는 최소한의 검증만을 필요로 하게 된다.

한편, 도 4는 한 실시예에 따른 인공지능 스피커의 하드웨어 구성을 나타낸 블록도이다.

도 4를 참조하면, 도 1 ~ 도 3에서 설명한 인공지능 스피커(100)는 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치(200)로서, 적어도 하나의 프로세서(210), 메모리(220), 스토리지(230), 통신 장치(240), 마이크(250), 스피커(260)를 포함할 수 있고, 버스(270)를 통해 연결될 수 있다. 여기서, 마이크(250)는 도 1의 101과 동일하고, 스피커(260)는 도 1의 102와 동일하며 통신 장치(240)는 통신 모듈(104)과 동일할 수 있다.

하드웨어 장치에 의해 제공되는 물리적인 컴퓨팅 자원은 가상화될 수 있다.

프로세서(210)는 컴퓨팅 장치의 동작을 제어하는 장치로서, 컴퓨터 프로그램에 포함된 명령들을 처리하는 다양한 형태의 프로세서일 수 있고, 예를 들면, CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 등 일 수 있다. 프로세서(310)는 메인 프로세서 및 AI 서비스 태스크 처리를 위한 AI 프로세서를 포함할 수 있다. 또한, 프로세서(210)는 도 1 및 도 2에서 설명한 방법을 실행하기 위한 컴퓨터 프로그램에 대한 연산을 수행할 수 있다.

메모리(220)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(220)는 본 개시의 동작을 실행하도록 기술된 명령어들이 프로세서(210)에 의해 처리되도록 해당 컴퓨터 프로그램을 스토리지(230)로부터 로드할 수 있다. 메모리(220)는 예를 들면, ROM(read only memory), RAM(random access memory) 등 일 수 있다.

프로세서(210)는 도 1에서 설명한 음성 인식 제어부(103), 미디어 볼륨 조절부(106) 및 효과음 출력 제어부(107)의 각각의 동작을 실행하도록 기술된 명령어들을 메모리(220)에 로드하여 실행할 수 있다.

스토리지(230)는 본 개시의 동작을 실행하는데 요구되는 각종 데이터, 컴퓨터 프로그램 등을 저장할 수 있다. 스토리지(230)는 컴퓨터 프로그램을 비임시적으로 저장할 수 있다. 스토리지(230)는 비휘발성 메모리로 구현될 수 있다.

통신 장치(250)는 유/무선 통신 모듈일 수 있다.

이상에서 설명한 본 개시의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 개시의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.

이상에서 본 개시의 실시예에 대하여 상세하게 설명하였지만 본 개시의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 개시의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 개시의 권리범위에 속하는 것이다.

Claims

인공지능 스피커의 동작 방법으로서,
상기 인공지능 스피커에 설정되어 있는 미디어 볼륨 레벨, 및 사용자 음성 인식을 알리기 위한 음성 피드백 효과음의 볼륨 레벨을 확인하는 단계,
상기 음성 피드백 효과음의 볼륨 레벨 대비 미디어 볼륨 레벨의 비율을 계산하는 단계,
상기 비율이 속하는 임계 조건에 따라 상기 음성 피드백 효과음의 볼륨 레벨의 증가율을 가변하는 단계, 그리고
상기 증가율을 적용하여 상기 음성 피드백 효과음의 볼륨 레벨을 증가시키는 단계
를 포함하는, 방법.
제1항에서,
상기 가변하는 단계는,
상기 비율이 하한 임계치보다 크고 상한 임계치보다 작으면, 상기 음성 피드백 효과음의 볼륨 레벨에 상기 비율을 곱한 값을 상기 음성 피드백 효과음의 볼륨 레벨에 대한 증가율로 결정하는, 방법.
제2항에서,
상기 가변하는 단계는,
상기 비율이 상기 상한 임계치보다 크면, 상기 음성 피드백 효과음의 볼륨 레벨에 상기 상한 임계치를 곱한 값을 상기 음성 피드백 효과음의 볼륨 레벨에 대한 증가율로 결정하는, 방법.
제2항에서,
상기 가변하는 단계는,
상기 비율이 상기 하한 임계치보다 작으면, 상기 음성 피드백 효과음의 볼륨 레벨에 상기 하한 임계치를 곱한 값을 상기 음성 피드백 효과음의 볼륨 레벨에 대한 증가율로 결정하는, 방법.
제1항에서,
상기 확인하는 단계와 상기 계산하는 단계 사이에,
상기 음성 피드백 효과음에 대한 평균 RMS(Root Mean Square) 값을 계산하는 단계, 그리고
상기 미디어 볼륨 레벨을 상기 평균 RMS 값의 단위인 진폭 단위의 값으로 변환하는 단계를 더 포함하고,
상기 계산하는 단계는,
상기 진폭 단위의 값으로 변환된 미디어 볼륨 레벨을 상기 평균 RMS값으로 나누어 상기 비율을 계산하는, 방법.