KR20170129249A

KR20170129249A - 발음 위치 및 단말 장치 위치를 결정하는 방법

Info

Publication number: KR20170129249A
Application number: KR1020177030167A
Authority: KR
Inventors: 슈치앙 공; 즈둥 타오
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2015-05-20
Filing date: 2015-05-20
Publication date: 2017-11-24
Also published as: EP3264266A4; EP3264266B1; WO2016183825A1; EP3264266A1; JP6615227B2; US10410650B2; JP2018524620A; CN107430524B; KR102098668B1; CN107430524A; US20180108368A1

Abstract

본 발명의 실시예는 발음 위치 및 단말 장치 위치를 결정하는 방법을 제공한다. 상기 방법은, K개의 제1 음향 신호를 수집하는 단계 - 상기 K는 2 이상의 정수임 -; N개의 상이한 위치에 대응하는 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출하는 단계 - 상기 M은 N보다 작거나 같고, N은 2 이상의 정수임 -; 및 각각의 제2 음향 신호에 대응하는 위치를 결정하는 단계를 포함한다. 본 발명의 실시예에서, M개의 제2 음향 신호는 빔포밍 알고리즘을 이용하여 위치 파라미터에 따라 K개의 제1 음향 신호로부터 추출되고, 이로써 각각의 제2 음향 신호에 대응하는 방출 위치가 결정된다. 이 방법에 의해, 상이한 위치로부터 방출된 음향 신호는 효율적으로 추출될 수 있고, 음성 인식의 능력이 발휘되어, 사용자에게 더 나은 사용자 경험을 제공할 수 있다.

Description

발음 위치 및 단말 장치 위치를 결정하는 방법

본 발명의 실시예는 모바일 통신 분야에 관한 것으로, 특히 발음 위치 및 단말 장치 위치를 결정하는 방법에 관한 것이다.

음성 인식은 현재 지능형 정보 시스템의 인간-컴퓨터 상호작용 인터페이스의 핵심 기술이다. 음성 인식의 성공률을 향상시키기 위해, 일반적으로 음향 수집 센서를 이용하여 음향 신호를 수집하는 해결책이 사용되며, 발음 위치에 따라 음향 신호의 수집 및 음성 인식이 수행된다.

현재, 음성 인식의 성공률을 향상시키는 해결책에 있어서, 단 하나의 위치로부터 방출된 음향 신호가 추출될 수 있다. 다른 위치에서 방출된 음향 신호만이 노이즈로 간주되어 필터링될 수 있다. 그 결과, 음향 신호가 정확하게 추출될 수 없고, 발음 위치가 결정될 수 없으며, 음성 인식이 수행될 수 없다. 자동차에 탑재된 차내 시스템이 예로서 사용된다. 현재, 차내 시스템에 설치된 음향 수집 센서를 이용하여 주변 환경의 음향 신호가 수집될 수 있고, 운전실에서 방출된 음향 신호가 추출되며, 음성 인식은 운전실에서 방출된 추출 음향 신호에 대해 수행된다. 차내 시스템은 운전실에서 방출된 음향 신호에 응답할 수 있다. 그러나 차량 내의 앞자리로부터 방출된 음향 신호 또는 차 내의 뒷자리로부터 방출된 음향 신호는 노이즈로 판정되며 차내 시스템에 의해 필터링된다. 그 결과, 음향 신호는 정확하게 추출될 수 없고, 발음 위치를 결정할 수 없으며, 음성 인식을 수행할 수 없다. 예를 들어, 차내 시스템은 운전실에서 방출된 "선루프를 여시오" 라는 음성 명령을 추출하여 수행할 수 있다. 그러나 차량 내의 앞자리 또는 뒷자리와 같은 다른 위치로부터 방출된 "선루프를 여시오" 라는 음성 명령이 추출될 수 없으며, 차내 시스템에서 다른 음향 신호의 방출 위치를 파악할 수 없다. 따라서, 자동차의 차내 시스템의 응용 시나리오에서, 차내 시스템은 차량 내의 다른 음향 신호의 방출 위치를 효율적이고 정확하게 결정할 수 없다. 결과적으로, 음향 신호의 방출 위치를 결정하는 효율이 감소되고, 사용자 경험이 열악해진다.

본 발명의 실시예는 단일 위치에서만 방출되는 음향 신호를 위치시키고 추출시킬 수 있고, 다른 위치로부터 방출된 음향 신호를 위치시키거나 추출시킬 수 없는 문제점을 해결하기 위해, 발음 위치 및 단말 장치의 위치를 결정하는 방법을 제공한다.

본 발명의 제1 측면에 따르면, 발음 위치를 결정하는 방법이 제공되고, 상기 방법은, K개의 제1 음향 신호를 수집하는 단계 - K는 2 이상의 정수임 -; N개의 상이한 위치에 대응하는 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출하는 단계 - 상기 M은 N보다 작거나 같고, N은 2 이상의 정수임 -; 및 각각의 제2 음향 신호에 대응하는 위치를 결정하는 단계를 포함한다.

제1 가능한 구현 방식에서, N개의 상이한 위치에 대응하는 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출하는 단계는 구체적으로, 빔포밍 알고리즘을 이용하여 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 개별적으로 추출하는 단계를 포함한다.

제1 측면을 참조하여, 제2 가능한 구현 방식에서, 각각의 제2 음향 신호에 대응하는 위치를 결정하는 단계는 구체적으로, L번째 제2 음향 신호에 대응하는 위치 파라미터에 따라, L번째 제2 음향 신호에 대응하는 위치 L을 결정하는 단계 - 상기 L번째 제2 음향 신호는 M개의 제2 음향 신호 중 임의의 하나임 -; 를 포함한다.

제1 측면 및 상기 가능한 구현 방식 중 임의의 방식을 참조하여, 제3 가능한 구현 방식에서, K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출한 이후에, 상기 방법은, M개의 추출된 제2 음향 신호에 대해 음성 인식을 수행하는 단계 및 M개의 제2 음향 신호에 대응하는 M개의 음성 명령을 획득하는 단계를 더 포함한다.

제1 측면 및 제3 가능한 구현 방식을 참조하여, 제4 가능한 구현 방식에서, M개의 제2 음향 신호에 대응하는 M개의 음성 명령을 획득한 이후에, 상기 방법은 M개의 음성 명령에 응답하는 단계를 더 포함한다.

제1 측면 및 제4 가능한 구현 방식을 참조하여, 제5 가능한 구현 방식에서, M개의 음성 명령에 응답하는 단계는, M개의 음성 명령에 대응하는 M개의 상이한 위치의 우선순위에 따라 최우선 순위 음성 명령에 우선적으로 응답하는 단계를 포함한다.

본 발명의 제2 측면에 따르면, 단말 장치가 제공되고, 상기 단말 장치는, K개의 제1 음향 신호를 수집하도록 구성된 K개의 음향 수집 센서 - 상기 K는 2 이상의 정수임 -; 및 N개의 상이한 위치에 대응하는 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출하고, 각각의 제2 음향 신호에 대응하는 위치를 결정하도록 구성된 프로세서 - 상기 M은 N보다 작거나 같고, N은 2 이상의 정수임 -; 를 포함한다.

제1 가능한 구현 방식에서, N개의 상이한 위치에 대응하는 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출하도록 구성된 상기 프로세서는 구체적으로, 빔포밍 알고리즘을 이용하여 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 개별적으로 추출하도록 구성되는 프로세서를 포함한다.

제2 측면 및 제1 가능한 구현 방식을 참조하여, 제2 가능한 구현 방식에서, 각각의 제2 음향 신호에 대응하는 위치를 결정하도록 구성된 상기 프로세서는, L번째 제2 음향 신호에 대응하는 위치 파라미터에 따라, L번째 제2 음향 신호에 대응하는 위치 L을 결정하고 - 상기 L번째 제2 음향 신호는 M개의 제2 음향 신호 중 임의의 하나임 -; 을 포함한다.

제2 측면 및 상기 가능한 구현 방식 중 임의의 방식을 참조하여, 제3 가능한 구현 방식에서, 상기 프로세서는 또한, K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출한 이후에, M개의 추출된 제2 음향 신호에 대해 음성 인식을 수행하고, M개의 제2 음향 신호에 대응하는 M개의 음성 명령을 획득하는 것을 포함한다.

제2 측면 및 상기 가능한 구현 방식 중 임의의 방식을 참조하여, 제4 가능한 구현 방식에서, 상기 단말 장치는 또한 출력 장치를 포함하고, 상기 출력 장치는 프로세서가 M개의 제2 음향 신호에 대응하는 M개의 음성 명령을 획득한 이후에 M개의 음성 명령에 응답하도록 구성된다.

제2 측면 및 제4 가능한 구현 방식을 참조하여, 제5 가능한 구현 방식에서, M개의 음성 명령에 응답하도록 구성된 출력 장치는 구체적으로, M개의 음성 명령에 대응하는 M개의 상이한 위치의 우선순위에 따라 최우선 순위에 우선적으로 응답하도록 구성된 출력 장치를 포함한다.

제2 측면 및 상기 가능한 구현 방식 중 임의의 방식을 참조하여, 3차원 공간에서의 K개의 음향 수집 센서의 좌표는 서로 상이하다.

본 발명의 제3 측면에 따르면, 발음 위치를 결정하는 장치가 제공되고, 상기 장치는 수집 모듈, 추출 모듈 및 결정 모듈을 포함한다. 수집 모듈은 K개의 제1 음향 신호를 수집하도록 구성되고, 여기서 K는 2 이상의 정수이다. 추출 모듈은 N개의 상이한 위치에 대응하는 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출하도록 구성되고, 여기서 M은 N보다 작거나 같으며, N은 2 이상의 정수이다. 결정 모듈은 각각의 제2 음향 신호에 대응하는 위치를 결정하도록 구성된다.

제1 가능한 구현 방식에서, N개의 상이한 위치에 대응하는 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출하도록 구성된 추출 모듈은 구체적으로, 빔포밍 알고리즘을 이용하여 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 개별적으로 추출하는 것을 포함한다.

제3 측면 및 제1 가능한 구현 방식을 참조하여, 제2 가능한 구현 방식에서, 각각의 제2 음향 신호에 대응하는 위치를 결정하도록 구성된 결정 모듈은 구체적으로, L번째 제2 음향 신호에 대응하는 위치 파라미터에 따라, L번째 제2 음향 신호에 대응하는 위치 L을 결정하도록 구성되고, 여기서 L번째 제2 음향 신호는 M개의 제2 음향 신호 중 임의의 신호이다.

제3 측면 및 상기 가능한 구현 방식 중 임의의 방식을 참조하여, 제3 가능한 구현 방식에서, 상기 장치는 또한, 음성 인식 모듈 및 획득 모듈을 포함한다. 여기서 음성 인식 모듈은 M개의 제2 음성 명령이 K개의 제1 음향 신호로부터 추출된 이후에, M개의 추출된 제2 음향 신호에 대해 음성 인식을 수행하도록 구성되고, 획득 모듈은 M개의 제2 음향 신호에 대응하는 M개의 음성 명령을 획득하도록 구성된다.

제3 측면 및 제3 가능한 구현 방식을 참조하여, 제4 가능한 구현 방식에서, 상기 장치는 또한 응답 모듈을 포함하고, 여기서 응답 모듈은, 획득 모듈이 M개의 제2 음향 신호에 대응하는 M개의 음성 명령을 획득한 이후에, M개의 음성 명령에 응답하도록 구성된다.

제3 측면 및 제4 가능한 구현 방식을 참조하여, 제5 가능한 구현 방식에서, M개의 음성 명령에 응답하도록 구성된 응답 모듈은, M개의 음성 명령에 대응하는 M개의 상이한 위치의 우선순위에 따라 최우선 순위 음성 명령에 우선적으로 응답하는 것을 포함한다.

상기 기술적 해결책으로부터, 본 발명의 실시예는 이하의 이점을 갖는 것을 알 수 있다: M개의 제2 음향 신호는 빔포밍 알고리즘을 이용하여 위치 파라미터에 따라 K개의 제1 음향 신호로부터 추출되어, 각각의 제2 음향 신호에 대응하는 방출 위치가 결정될 수 있다. 상기 방법에 의하여, 상이한 위치로부터 방출된 음향 신호가 효율적으로 추출될 수 있고, 음성 인식의 능력이 발휘되어, 사용자에게 더 나은 사용자 경험을 제공할 수 있다. 충돌 명령은 우선순위 방식으로 처리됨으로써, 차내 중앙 제어 장치가 다수의 명령에 동시에 응답할 때 야기되는 오류가 감소된다.

본 발명의 실시예에서 기술적 해결책을 보다 명확하게 설명하기 위해, 이하에서는 실시예를 설명하기 위해 필요한 첨부 도면을 간략하게 설명한다. 명확한 것은, 이하 설명에서의 첨부 도면은 단지 본 발명의 일부 실시예를 나타내며, 통상의 기술자는 창의적인 노력 없이도 이들 도면으로부터 다른 도면을 도출할 수 있다는 것이다.
도 1은 본 발명의 실시예에 따른 발음 위치를 결정하는 방법의 흐름도이다.
도 2a는 본 발명의 실시예에 따른, 발음 위치가 위치된 차 내부의 개략도이다.
도 2b는 본 발명의 다른 실시예에 따른, 발음 위치가 위치된 차 내부의 개략도이다.
도 3은 본 발명의 다른 실시예에 따른 발음 위치를 결정하는 방법의 흐름도이다.
도 3a는 본 발명의 다른 실시예에 따른 발음 위치를 결정하는 방법의 흐름도이다.
도 3b는 본 발명의 다른 실시예에 따른 발음 위치를 결정하는 방법의 흐름도이다.
도 4는 본 발명의 실시예에 따른 단말 장치(400)의 개략적인 구조도이다.

이하에서는 본 발명의 실시예에서의 첨부 도면을 참조하여 본 발명의 실시예의 기술적 해결책을 명확하고 완전하게 설명한다. 명확한 것은, 설명된 실시예는 본 발명의 일부 실시예에 불과하며 전부는 아니라는 것이다. 창의적인 노력 없이 본 발명의 실시예에 기초하여 통상의 기술자에 의해 획득된 다른 모든 실시예는 본 발명의 보호 범위 내에 있다.

본 발명의 실시예는 발음 위치를 결정하는 방법을 제공한다. 본 발명의 실시예에 포함된 단말 장치는 차내의 중앙 제어 장치, 스마트폰, 태블릿 컴퓨터 등일 수 있다.

종래 기술에서, 빔포밍 알고리즘 및 음향 수집 센서를 이용하여 음향 신호를 수집하는 해결책이 결합되어 음향 신호의 수집 및 음성 인식에 적용되어, 이 방식을 이용하여 음성 인식 성공률이 크게 향상되었다. 그러나 이 방식을 이용함으로써 단일 발음 위치에서만 방출된 음향 신호가 인식될 수 있다. 음향 신호가 다수의 발음 위치로부터 방출될 때, 음성 인식 시스템은 다수의 음향 신호를 동시에 인식할 수 없다.

본 발명의 실시예에서, 제1 음향 신호 또는 제2 음향 신호는 단지 구별을 위한 것이며, 순서 또는 시퀀스를 나타내지 않는다.

도 1은 본 발명의 실시예에 따른 발음 위치를 결정하는 방법의 흐름도이다. 본 발명의 본 실시예의 응용 시나리오는 음향 수집 및 음성 인식의 임의의 시나리오일 수 있다. 본 발명의 본 실시예에서, 차내 시스템에서의 음향 수집 및 음성 인식은 예로서 사용되며, 이 방법은 이하의 단계를 포함한다:

S101. K가 2 이상의 정수인 K개의 제1 음향 신호를 수집한다.

차내 시스템에서, 차내 시스템 내에 K개의 음향 수집 센서가 있고, 프로세서는 K개의 제1 음향 신호를 수집할 수 있으며, 여기서 K는 2 이상의 정수이다.

예를 들어, 차내 시스템에서, K는 2로 설정될 수 있고, 즉, 제1 음향 수집 센서 및 제2 음향 수집 센서는 운전실과 전방 탑승실에 각각 설치될 수 있다.

제1 음향 수집 센서 및 제2 음향 수집 센서는 제1 음향 신호를 동시에 수집한다. 선택적으로는, 차내 시스템에서, 다른 음향 수집 센서는 자동차의 뒷좌석 또는 자동차의 다른 위치에 추가로 설치될 수 있다.

본 발명의 본 실시예에서, 제1 음향 신호는 차내 시스템 내의 환경 음이며, 차내 상이한 위치로부터 방출된 음향 신호 및 차 외부의 음향 신호를 포함한다. 제1 음향 신호는 운전실의 위치(예를 들어, 도 2a에 나타난 바와 같이, 위치 ①)로부터 방출된 음향 신호, 전방 탑승실의 위치(예를 들어, 도 2a에 나타난 바와 같이, 위치 ②)로부터 방출된 음향 신호, 차내 시스템에서 뒷좌석의 위치로부터 방출된 음향 신호(예를 들어, 도 2a에 나타난 바와 같이, 위치 ③ 및 위치 ④), 또는 차내 시스템 외부의 노이즈 중 적어도 하나를 포함할 수 있다.

S102. N개의 상이한 위치에 대응하는 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출하고, 여기서 M은 N보다 작거나 같으며, N은 2 이상의 정수이다.

유사하게는, 차내 시스템의 경우가 설명의 예로서 사용된다. 제1 음향 수집 센서 및 제2 음향 수집 센서의 좌표는 공간적으로 중첩되지 않으며, 제1 음향 수집 센서 및 제2 음향 수집 센서 사이에는 일정한 거리가 있다. 도 2a에서 나타난 바와 같이, 제1 음향 수집 신호 및 제2 음향 수집 센서는 차내 시스템의 중간 백미러(A)의 좌측 및 우측에 각각 배치된다. 제1 음향 수집 센서는 차내 시스템의 위치 C에 배치되고, 제2 음향 수집 센서는 차내 시스템의 위치 B에 배치된다. 따라서, 제1 음향 수집 센서에 의해 수집된 음향 신호의 시간은 제2 음향 수집 센서에 의해 수집된 음향 신호의 시간과 상이하다. 이 경우, 위상 차가 제1 음향 수집 센서에 의해 수집된 음향 신호 및 제2 음향 수집 센서에 의해 수집된 음향 신호 사이에 형성된다.

본 발명의 다른 실시예에서, 도 2b에서 나타난 바와 같이, 차내 시스템은 4개의 음향 수집 센서를 포함한다. 이 경우, K는 4이다. 4개의 음향 수집 센서는 도 2b에서 나타난 바와 같이, 차내 시스템의 중앙 위치에 배치된다.

K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출하는 단계는 구체적으로 빔포밍 알고리즘을 이용하여 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출할 수 있거나 또는 빔포밍 알고리즘을 이용하여 다른 음향 신호를 필터링함으로써 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출할 수 있다.

예를 들어, 음향 신호의 방출 위치는 운전실의 위치이고, 대응하는 위치 파라미터는 운전실의 위치 파라미터이다. 차내 중앙 제어 장치는 운전실에 대응하는 운전실의 위치 파라미터에 따라 K개의 제1 음향 신호로부터, 운전실로부터 방출된 제2 음향 신호를 추출한다.

S103. 각각의 제2 음향 신호에 대응하는 위치를 결정한다. 차내 중앙 제어 장치는 빔포밍 알고리즘을 이용하여 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 각각 추출한다.

예를 들어, 위치 파라미터가 운전실의 위치 파라미터일 때, 제2 음향 신호는 빔포밍 알고리즘을 이용하여 운전실의 위치 파라미터에 따라 추출되며, 추출된 제2 음향 신호에 대응하는 방출 위치가 운전실인, 제2 음향 신호에 대응하는 위치 파라미터에 따라 결정된다.

본 발명은 발음 위치를 결정하는 방법을 제공하고, 여기서 M개의 제2 음향 신호는 빔포밍 알고리즘을 이용하여 위치 파라미터에 따라 K개의 제1 음향 신호로부터 추출되고, 이로써 각각의 제2 음향 신호에 대응하는 방출 위치가 결정될 수 있다. 이 방법에 의하여, 상이한 위치로부터 방출된 음향 신호가 효율적으로 추출될 수 있으며, 음성 인식 능력이 향상되어, 사용자에게 더 나은 사용자 경험을 제공할 수 있다.

도 3은 본 발명의 다른 실시예에 따른 발음 위치를 결정하는 방법의 흐름도이다. 유사하게, 본 발명의 본 실시예에서, 차내 시스템의 응용이 설명을 위한 예로서 사용된다. 도 3에서 나타난 바와 같이, 이 방법은 이하의 단계를 포함한다:

S301a. N개의 상이한 위치로부터 음성 명령에 응답하는 우선순위를 설정한다.

유사하게, 도 2a의 위치 개략도는 예로서 사용된다. 도 2a에서, 위치 ①는 운전실의 위치이고, 위치 ②는 전방 탑승실의 위치이고, 위치 ③는 차내 시스템에서의 좌측 뒷좌석의 위치이며, 위치 ④는 차내 시스템에서의 우측 뒷좌석의 위치이다.

본 발명의 본 실시예에서, 차내 시스템은 예로서 사용된다. K는 2, N은 4, M은 2라고 가정한다.

차내 시스템의 차내 중앙 제어 장치는 4개의 상이한 위치에 따라, 4개의 상이한 위치로부터 음성 명령에 응답하는 우선순위를 설정한다.

예를 들어, 일반적인 가정용 세단에 설정된 음성 명령의 우선순위가 일례로서 사용된다.

표(1) 일반적인 가정용 세단에 설정된 음성 명령의 우선순위

명령	선루프를 여시오	선루프를 닫으시오	라디오를 켜시오	음악을 재생하시오
위치	1	1	1	1
위치	1	1	2	2
위치	2	2	3	3
위치	2	2	4	4

표(1)로부터, "선 루프를 여시오" , "선 루프를 닫으시오", "라디오를 켜시오" 또는 "음악을 재생하시오" 와 같은 명령이 위치 ①로부터 방출될 때, 위치 ①로부터 방출된 명령의 우선순위는 동일한 의미를 가지며 다른 위치로부터 방출된 명령의 우선순위보다 더 높다.

본 발명의 다른 실시예에서, N개의 상이한 위치로부터 음성 명령에 응답하는 우선순위가 설정될 때, 어린이의 음성 및 성인의 음성에 관한 결정 요소가 추가된다. 어린이 음성인 음성 명령의 우선순위가 낮은 우선순위로 설정되거나, 음성 명령이 어린이 음성일 때, 어린이 음성인 음성 명령은 차단되도록 설정된다. 성인 음성인 음성 명령의 우선순위는 최우선 순위로 설정된다.

본 발명의 본 실시예에서, 위치 ①로부터 방출된 "에어컨을 켜시오" 라는 명령 및 동시에 위치 ④로부터 방출된 "에어컨을 끄시오" 라는 명령은 예로서 사용된다.

S301. K개의 제1 음향 신호를 수집한다.

본 발명의 본 실시예에서, K가 2라는 것은 설명을 위한 예로서 사용된다.

차내 시스템에서, 제1 음향 수집 센서 및 제2 음향 수집 센서는 각각 중간 백미러(A)의 좌측 및 우측에 설치된다.

제1 음향 수집 센서 및 제2 음향 수집 센서는 제1 음향 신호를 동시에 수집한다. 선택적으로, 차내 시스템에서, 다른 음향 수집 센서는 차의 뒷좌석 또는 차의 다른 위치에 추가로 설치될 수 있다.

예를 들어, "에어컨을 켜시오" 라는 명령의 음향 신호가 위치 ①로부터 방출되고, 동시에 "에어컨을 끄시오" 라는 명령의 음향 신호가 위치 ④로부터 방출될 때, 제1 음향 수집 센서 및 제2 음향 수집 센서는 위치 ①로부터 방출된 "에어컨을 켜시오" 라는 명령의 음향 신호를 동시에 수집한다. 유사하게, 제1 음향 수집 센서 및 제2 음향 수집 센서는 위치 ④로부터 방출된 "에어컨을 끄시오" 라는 명령의 음향 신호를 동시에 수집한다.

S302. N개의 상이한 위치에 대응하는 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출하고, 여기서 M은 N보다 작거나 같으며, N은 2 이상의 정수이다.

본 발명의 본 실시예에서, N은 4이고 M은 2라는 것은 설명의 예로서 사용된다.

제1 음향 수집 센서 및 제2 음향 수집 센서의 좌표는 공간적으로 중첩되지 않으며, 제1 음향 수집 센서 및 제2 음향 수집 센서 사이에 일정한 거리가 존재한다. 따라서, 제1 음향 수집 센서에 의해 수집된 음향 신호의 시간은 제2 음향 수집 센서에 의해 수집된 음향 신호의 시간과 상이하다. 이 경우, 위상 차는 제1 음향 수집 센서에 의해 수집된 음향 신호 및 제2 음향 수집 센서에 의해 수집된 음향 신호 사이에 형성된다.

본 발명에서, 제1 음향 수집 센서 및 제2 음향 수집 센서가 각각 중간 백미러의 좌측 및 우측에 배치된 예가 사용된다. 본 발명에서, 음향 수집 센서의 수량은 한정되지 않으며, 음향 수집 센서의 위치 또한 한정되지 않는다. 예를 들어, 또 하나의 음향 수집 센서가 음향이 방출될 수 있는 위치 주위에 추가로 배치될 수 있는데, 예를 들어, 도 2a에서 나타난 위치 ① 또는 위치 ②에 있는 좌석의 뒷면에 설치될 수 있다.

예를 들어, 차내 중앙 제어 장치는 위치 ①의 미리 설정된 위치 파라미터에 따라, 위치 ①로부터 방출된 제2 음향 신호를 추출한다. 차내 중앙 제어 장치는 빔포밍 알고리즘을 이용하여 위치 ①의 미리 설정된 위치 파라미터에 따라 수집된 제1 음향 신호로부터 위치 ①로부터 방출된 제2 음향 신호를 추출한다.

동시에, 차내 중앙 제어 장치는 위치 ④의 미리 설정된 위치 파라미터에 따라, 위치 ④로부터 방출된 제2 음향 신호를 추출한다. 차내 중앙 제어 장치는 빔포밍 알고리즘을 이용하여 위치 ④의 미리 설정된 위치 파라미터에 따라 수집된 제1 음향 신호로부터 위치 ④로부터 방출된 제2 음향 신호를 추출한다.

예를 들어, 차내 중앙 제어 장치는 빔포밍 알고리즘을 이용하여 위치 ①의 위치 파라미터에 따라, 위치 ①의 미리 설정된 위치 파라미터를 충족하는 음향 신호를 추출한다. 예를 들어, 위치 ①로부터 방출된 "에어컨을 켜시오" 라는 음향 신호가 수집된다. 차내 중앙 제어 장치는 빔포밍 알고리즘을 이용하여 위치 ④의 위치 파라미터에 따라, 위치 ②의 미리 설정된 위치 파라미터를 충족하는 음향 신호를 추출한다. 예를 들어, 위치 ④로부터 방출된 "에어컨을 켜시오" 라는 음향 신호가 수집된다.

S303. 각각의 제2 음향 신호에 대응하는 위치를 결정한다.

차내 중앙 제어 장치는 빔포밍 알고리즘을 이용하여 4개의 위치 파라미터에 따라 2개의 제1 음향 신호로부터 2개의 제2 음향 신호를 각각 추출한다.

예를 들어, 위치 파라미터가 위치 ①의 위치 파라미터일 때, 위치 ①로부터 방출된 제2 음향 신호는 빔포밍 알고리즘을 이용하여 위치 ①의 위치 파라미터에 따라 추출되고, 추출된 제2 음향 신호에 대응하는 방출 위치가 위치 ①인, 제2 음향 신호에 대응하는 위치 파라미터에 따라 결정된다.

S304. M개의 추출된 제2 음향 신호에 대해 음성 인식을 수행한다.

차내 중앙 제어 장치는 추출된 음향 신호를 인식하기 위해, 추출된 음향 신호에 대해 음성 인식을 수행한다.

예를 들어, 차내 중앙 제어 장치는 위치 ①로부터 추출된 음향 신호에 대해 음성 인식을 수행하고, 추출된 음향 신호를 "에어컨을 켜시오" 라고 인식한다. 차내 중앙 제어 장치는 위치 ④로부터 추출된 음향 신호에 대해 음성 인식을 수행하고, 추출된 음향 신호를 "에어컨을 끄시오" 라고 인식한다.

S305. M개의 제2 음향 신호에 대응하는 음성 명령을 획득한다.

차내 중앙 제어 장치는 M개의 추출된 제2 음향 신호에 대응하는 음성 명령을 획득한다.

예를 들어, 차내 중앙 제어 장치는 위치 ①로부터 방출된 추출 음향 신호에 대응하는 음성 명령을 획득하고, "에어컨을 켜시오" 라는 음성 명령을 획득한다. 차내 중앙 제어 장치는 위치 ④로부터 방출된 추출 음향 신호에 대응하는 음성 명령을 획득하고, "에어컨을 끄시오" 라는 음성 명령을 획득한다.

S306. M개의 음성 명령에 응답한다.

차내 중앙 제어 장치는 M개의 추출된 제2 음향 신호에 대응하는 획득된 음성 명령에 따라 M개의 음성 명령에 응답한다.

예를 들어, 위치 ①로부터 방출된 "에어컨을 켜시오" 라는 음성 명령을 획득한 이후에, 차내 중앙 제어 장치는 음성 명령에 응답하고, 에어컨을 켠다.

본 발명의 다른 실시예에서, 차내 중앙 제어 장치는 위치 ①로부터 추출된 음향 신호 및 위치 ④로부터 추출된 음향 신호에 대해 음성 명령을 수행하여, 추출된 음향 신호를 인식한다. 차내 중앙 제어 장치는 위치 ①로부터 방출된 추출 음향 신호 및 위치 ④로부터 방출된 추출 음향 신호에 대해 음성 인식을 수행하여, 추출된 음향 신호를 인식한다. 위치 ①로부터 방출된 추출 음향 신호에 대응하는 음성 명령이 획득되고, 위치 ④로부터 방출된 추출 음향 신호에 대응하는 음성 명령이 획득된다. 예를 들어, 위치 ①로부터 방출된 "에어컨을 켜시오" 라는 음성 명령 및 위치 ④로부터 방출된 "에어컨을 끄시오" 라는 음성 명령이 획득된다. 위치 ①로부터 방출된 "에어컨을 켜시오" 라는 획득된 음성 명령 및 위치 ④로부터 방출된 "에어컨을 끄시오" 라는 획득된 음성 명령에 따라, 차내 중앙 제어 장치는 2개의 음성 명령에 응답한다. 선택적으로, 음성 인식에 의해 2개의 위치로부터 음성 명령을 획득할 때, 차내 중앙 제어 장치는 2개의 음성 명령에 대응하는 2개의 상이한 위치의 우선순위에 따라 최우선 순위 음성 명령에 우선적으로 응답할 수 있다. 예를 들어, 위치 ①의 우선순위는 위치 ④의 우선순위보다 더 높다. 차내 중앙 제어 장치는 에어컨을 켜기 위해, 위치 ①로부터 "에어컨을 켜시오" 라는 음성 명령에 우선적으로 응답한다. 그 다음, 차내 중앙 제어 장치는 위치 ④로부터 "에어컨을 끄시오" 라는 음성 명령에 응답한다. 이 경우, 위치 ①로부터 차내 중앙 제어 장치가 응답하는 음성 명령은 "에어컨을 켜시오" 이고, 위치 ④로부터의 음성 명령은 "에어컨을 끄시오" 이다. 따라서, 위치 ①로부터의 음성 명령 및 위치 ④로부터의 음성 명령은 충돌하는 명령이고, 차내 중앙 제어 장치는 위치 ①로부터의 음성 명령 및 위치 ④로부터의 음성 명령 모두에 응답할 수 없다. 따라서, 위치 ④로부터의 음향 신호에 대해 음성 인식을 수행한 이후에, 차내 중앙 제어 장치는 추출된 음향 신호에 대응하는 음성 명령을 획득하고, 위치 ④로부터 음성 명령에 응답하지 않는다. 충돌된 명령은 우선적인 방식으로 처리되고, 차내 중앙 제어 장치가 다수의 충돌된 명령에 응답할 때, 차내 중앙 제어 장치가 명령 충돌로 인해 정확한 응답을 할 가능성이 낮아지게 되고, 이로써 응답 실수로 인한 오류가 감소된다.

충돌된 명령은 구체적으로 이하와 같이 정의된다: 적어도 2개의 명령에 대해 동일한 자원이 사용되고, 상이한 동작이 적어도 2개의 명령의 실행 도중에 동일한 사용된 자원에 대해 수행될 때, 적어도 2개의 명령은 충돌한다.

본 발명의 다른 실시예에서, 2개의 획득된 음성 명령이 서로 충돌할 때, 시간에 관한 결정 요소가 추가된다. 차내 중앙 제어 장치가 우선순위가 높은 명령이 인식되었지만, 인식된 충돌 명령의 우선순위가 상대적으로 낮아진 이후에 미리 설정된 시간(T1) 내에 충돌하는 명령을 인식할 때, 상대적으로 낮은 우선순위를 갖는 명령은 무시된다. 차내 중앙 제어 장치는 최우선 순위 명령이 인식된 이후에 미리 설정된 시간(T1) 이후에 충돌하는 명령을 인식할 때, 차내 중앙 제어 장치는 음성 명령이 인식된 시간 순서에 따라 획득된 음성 명령에 응답한다.

도 3a는 본 발명의 다른 실시예에 따른 발음 위치를 찾는 방법의 흐름도이다. 본 발명의 다른 실시예에서, 단계 S301가 수행되기 이전에, 이하의 단계가 수행될 수 있다:

S401. 차내 시스템에 적어도 하나의 좌석이 점유되어 있는지를 결정한다.

구체적으로, 차내 시스템은 중력 감지에 의해, 차내 시스템의 좌석이 점유되어 있는지를 결정할 수 있다.

예를 들어, 중력 감지에 의해, 도 2a의 차내 시스템의 좌석이 점유되어 있는지가 결정된다. 예를 들어, 도 2a의 위치 ①, 위치 ②, 위치 ③, 또는 위치 ④가 점유되어 있는지가 결정된다.

차내 시스템이 차내 시스템의 좌석이 점유되어 있지 않다고 결정할 때, 단계 S301는 수행되지 않는다.

차내 시스템이 차내 시스템의 적어도 하나의 좌석이 점유되어 있다고 결정할 때, 단계 S301가 수행된다.

음향 신호가 수집되기 이전에, 먼저 차내 시스템의 적어도 하나의 좌석이 점유되어 있는지가 결정된다. 발음 위치는 차내 시스템의 좌석이 점유될 때에만 위치되어, 음향 수집의 효율을 향상시키고 발음 위치를 결정하는 효율을 향상시킨다.

본 발명의 다른 실시예에서, 도 3b에서 나타난 바와 같이, 단계 S305가 수행된 이후에, 단계 S305a가 수행될 수 있다: M개의 추출된 제2 음향 신호의 성문(voice print)을 인식한다.

S305b. 차내 시스템에서 점유된 좌석의 사용자 몸무게를 측정한다.

S305c. 사용자의 측정된 몸무게 및 제2 음향 신호의 인식된 성문에 관하여 사용자의 신원을 결정한다.

S305d. 사용자의 결정된 신원에 따라, 사용자에 의해 방출된 제2 음향 신호에 대응하는 음성 명령의 우선 순위를 결정한다.

S305e. 사용자에 의해 방출된 제2 음향 신호에 대응하는 음성 명령의 우선순위에 따라, 제2 음향 신호에 대응하는 음성 명령에 응답한다.

중력 감지 및 성문 인식을 결합하는 방식으로, 사용자의 신원 및 사용자에 의해 방출된 음향 신호에 대응하는 음성 명령의 우선순위가 결정된다. 사용자에 의해 방출된 음향 신호에 대응하는 음성 명령의 우선순위에 관하여, 다수의 음성 명령에 대한 응답의 우선순위가 결정되어, 차내 중앙 제어 장치가 다수의 음성 명령에 응답할 필요가 있기 때문에 차내 중앙 제어 장치에서 발생하는 에러 및 실수를 감소시킨다.

본 발명은 발음 위치를 찾는 방법을 제공하고, 여기서 M개의 제2 음향 신호는 빔포밍 알고리즘을 이용하여 위치 파라미터에 따라 K개의 제1 음향 신호로부터 추출되고, 이로써 각각의 제2 음향 신호에 대응하는 방출 위치가 결정될 수 있다. 또한, 음성 명령의 우선순위가 설정되고, 최우선 순위 명령을 우선적으로 처리하는 방법이 충돌 명령을 처리하는 데 사용되어, 차내 중앙 제어 장치가 다수의 충돌 명령에 응답할 때 발생된 충돌을 감소시킨다. 이로써, 응답 실수에 의해 발생된 오류가 감소되어, 사용자 경험이 향상된다.

도 4는 본 발명의 실시예에 따른 단말 장치(400)이다. 단말 장치(400)는 본 발명의 실시에서의 상기 방법들을 수행하도록 구성될 수 있다. 도 4에서 나타난 바와 같이, 단말 장치(400)는 모바일 폰, 태블릿 컴퓨터, PDA(Personal Digital Assistant), POS(Point of Sale), 또는 차내 중앙 제어 단말 장치와 같은 단말 장치일 수 있다. 단말 장치(400)는 RF(Radio Frequency), 회로(410), 메모리(420), 입력 장치(430), 디스플레이 장치(440), 센서(450), 오디오 회로(460), WiFi(wireless fidelity) 모듈(470), 프로세서(480), 전원 장치(490)와 같은 구성 요소를 포함한다. 통상의 기술자는 도 4에서 도시된 단말 장치의 구조가 단지 구현 방식의 일례일 뿐이며, 단말 장치를 제한하지 않으며, 도면에 도시된 구성 요소보다 많거나 적은 구성 요소 또는 일부 구성요소의 조합 또는 상이한 구성 요소 배열을 포함할 수 있다.

RF 회로(410)는 정보 수신 및 전송 처리 또는 호출 처리 도중에 신호를 수신하고 전송하도록 구성될 수 있다. 구체적으로, RF 회로(410)는 기지국으로부터 다운 링크 정보를 수신하고, 처리를 위해 프로세서(480)에 다운 링크 정보를 전달하며, 관련된 업 링크 데이터를 기지국에 전송한다. 일반적으로, RF 회로(410)는 안테나, 적어도 하나의 증폭기, 트랜시버, 커플러, LNA(low noise amplifier), 및 송수 전환기(duplexer)를 포함하지만, 이에 한정되는 것은 아니다. 또한, RF 회로(410)는 무선 통신에 의해 네트워크 및 다른 단말 장치와 더 통신할 수 있다. 무선 통신은 임의의 통신 표준 또는 프로토콜을 사용할 수 있고, GSM(Global System of Mobile communication, Global System for Mobile Communications), GPRS(General Packet Radio Service), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), LTE(Long Term Evolution), e-mail 및 SMS(ShortMessaging Service)를 포함하지만, 이에 한정되는 것은 아니다.

메모리(420)는 소프트웨어 프로그램 및 모듈을 저장하도록 구성될 수 있으며, 프로세서(480)는 메모리(420)에 저장된 소프트웨어 프로그램 및 모듈을 실행하여, 단말 장치(400) 및 데이터 처리의 다양한 기능적 응용을 수행한다. 메모리(420)는 주로 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있으며, 여기서 프로그램 저장 영역은 운영 시스템, 적어도 하나의 기능(예를 들어, 음향 재생 기능 및 이미지 디스플레이 기능)에 의해 요구되는 응용 프로그램 등을 저장할 수 있고, 데이터 저장 영역은 단말 장치(400) 등의 사용에 따라 생성되는 데이터(예를 들어, 오디오 데이터 및 전화 번호부)를 저장할 수 있다. 또한, 메모리(420)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 장치, 플래시 저장 장치, 또는 다른 휘발성 고체 상태 저장 장치와 같은 비휘발성 메모리를 더 포함할 수 있다.

디스플레이 장치(440)는 사용자에 의해 입력된 정보 또는 사용자에게 제공되는 정보 및 단말 장치(400)의 다양한 메뉴를 디스플레이하도록 구성될 수 있다. 디스플레이 장치(440)는 디스플레이 패널(441)을 포함할 수 있다. 선택적으로, 디스플레이 패널(441)은 LCD(Liquid Crystal Display), OLED(Organic Light-Emitting Diode) 등과 같은 형태를 사용하여 구성될 수 있다. 또한, 터치 패널(431)은 디스플레이 패널(441)을 커버할 수 있다. 터치 패널(431) 상에서 또는 근처에서 터치 조작을 검출한 이후에, 터치 패널(431)은 터치 조작을 프로세서(480)에 전송하여, 터치 이벤트의 유형을 결정한다. 그 다음, 프로세서(480)는 터치 이벤트의 유형에 따라 디스플레이 패널(441) 상에 대응하는 시각적 출력을 제공한다. 도 4에서, 터치 패널(431) 및 디스플레이 패널(441)은 단말 장치(400)의 입력 기능 및 출력 기능을 구현하기 위해 2개의 독립된 구성요소로 사용된다. 그러나 일부 실시예에서, 터치 패널(431) 및 디스플레이 패널(441)은 단말 장치(400)의 입력 기능 및 출력 기능을 구현하기 위해 통합될 수 있다. 예를 들어, 터치 패널(431) 및 디스플레이 패널(441)은 터치 스크린으로 통합되어, 단말 장치(400)의 입력 기능 및 출력 기능을 구현할 수 있다.

단말 장치(400)는 광 센서, 동작 센서 및 다른 센서와 같은 적어도 하나의 센서(450)를 더 포함할 수 있다. 구체적으로, 광 센서는 주변 광 센서 및 근접 센서를 포함할 수 있으며, 여기서 주변 광 센서는 주변 광의 휘도에 따라 디스플레이 패널(441)의 밝기를 조절할 수 있으며, 근접 센서는 단말 장치(400)가 귀에 접근할 때 디스플레이 패널(441) 또는 백라이트를 스위치 오프할 수 있다. 동작 센서의 한 종류로서, 가속도계 센서는 다양한 방향(일반적으로, 3축 방향)의 가속도 값을 검출할 수 있고, 단말 장치(400)가 정적일 때 중력의 값 및 방향을 검출할 수 있으며, 모바일 폰의 자세(예를 들어, 가로 방향 및 세로 방향의 전환, 관련 게임 및 자력계 자세 교정), 진동 인식에 관련된 기능(예를 들어, 보수계 및 태핑) 등을 인식하는 애플리케이션에 적용될 수 있다. 단말 장치(400) 상에 추가로 구성될 수 있는 자이로스코프(gyroscope), 기압계, 습도계, 온도계 및 적외선 센서와 같은 다른 센서에 관한 상세한 설명은 여기서 설명하지 않는다.

오디오 회로(460), 스피커(461) 및 마이크로폰(462)은 사용자와 단말 장치(400) 사이의 오디오 인터페이스를 제공할 수 있다. 오디오 회로(460)는 수신된 오디오 데이터를 전기 신호로 변환하고 전기 신호를 스피커(461)로 전송할 수 있다. 스피커(461)는 출력을 위해 전기 신호를 음향 신호로 변환한다. 한편, 마이크로폰(462)은 수집된 음향 신호를 전기 신호로 변환한다. 오디오 회로(460)는 전기 신호를 수신하고, 전기 신호를 오디오 데이터로 변환하며, 처리를 위해 오디오 데이터를 프로세서(480)로 출력한다. 그 다음, 프로세서(480)는 RF 회로(410)를 이용하여 예를 들어, 다른 모바일 폰으로 오디오 데이터를 전송하거나, 추가 처리를 위해 메모리(420)에 오디오 데이터를 출력한다.

단말 장치(400)는 WiFi 모듈(470)을 이용하여 사용자가 이메일을 송수신하고, 웹 페이지를 브라우징하고, 스트리밍 미디어에 액세스하는 등을 도울 수 있다. WiFi 모듈(470)은 사용자에게 무선 광대역 인터넷 액세스를 제공한다. 도 4가 WiFi 모듈(470)을 도시하지만, WiFi 모듈(470)이 단말 장치(400)의 필수 구성 요소가 아니며, 필요에 따라 WiFi 모듈(470)은 본 발명의 요지의 범위 내에서 변경되지 않는 한 생략될 수 있다는 것을 이해해야 한다.

프로세서(480)는 단말 장치(400)의 제어 센터이고, 다양한 인터페이스 및 회선을 이용하여 모바일 폰 전체의 모든 부분을 연결하고, 단말 장치(400)의 다양한 기능을 수행하며, 메모리(402)에 저장된 소프트웨어 프로그램 또는 모듈, 또는 이들 모두를 실행하거나 수행함으로써 데이터를 처리하여, 메모리(402)에 저장된 데이터를 호출하고, 이로써 단말 장치에 대한 전반적인 모니터링을 수행한다. 선택적으로, 프로세서(480)는 하나 이상의 처리 유닛을 포함할 수 있다. 우선적으로, 프로세서(480)는 애플리케이션 프로세서 및 모뎀 프로세서를 통합할 수 있다. 애플리케이션 프로세서는 주로 운영 체제, 사용자 인터페이스, 애플리케이션 프로그램 등을 처리한다. 모뎀 프로세서는 주로 무선 통신을 처리한다. 상기 모뎀 프로세서는 프로세서(480)에 통합되지 않을 수 있음을 이해해야 한다. 프로세서(480)는 구체적으로 중앙 처리 유닛(CPU: Central Processing Unit)일 수 있다.

단말 장치(400)는 또한 다양한 구성 요소에 전력을 공급하는 전원 장치(490)(예를 들어, 배터리)를 포함한다. 우선적으로, 전원 장치는 전원 관리 시스템을 이용하여 프로세서(480)에 논리적으로 연결되고, 이로써 전원 관리 시스템을 이용하여 충전, 방전 및 소비 전력 관리 등의 기능을 구현할 수 있다.

본 발명의 본 실시예에서, 단말 장치(400)는 K개의 음향 수집 센서(450) 및 프로세서(480)를 포함하고, 이하 기능들을 갖는다.

음향 수집 센서(450)는 K개의 제1 음향 신호를 수집하도록 구성되고, K는 2 이상의 정수이다.

구체적으로, 3차원 공간의 K개의 음향 수집 센서의 좌표는 상이하다.

프로세서(480)는 N개의 상이한 위치에 대응하는 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출하고, 각각의 제2 음향 신호에 대응하는 위치를 결정하도록 구성되며, M은 N보다 작거나 같고, N은 2 이상의 정수이다.

본 발명의 다른 실시예에서, 각각의 제2 음향 신호에 대응하는 위치를 결정하도록 구성되는 프로세서(480)는 구체적으로, L번째 제2 음향 신호에 대응하는 위치 파라미터에 따라, L번째 제2 음향 신호에 대응하는 위치 L을 결정하는 것을 포함하며, 상기 L번째 제2 음향 신호는 M개의 제2 음향 신호 중 임의의 하나이다.

본 발명의 다른 실시예에서, 프로세서(480)는 또한, K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출한 이후에, M개의 추출된 제2 음향 신호에 대해 음성 인식을 수행하고, M개의 제2 음향 신호에 대응하는 M개의 음성 명령을 획득하도록 구성된다.

본 발명의 다른 실시예에서, 단말 장치(400)는 또한, 출력 장치(510)를 포함하고, 상기 출력 장치(510)는 프로세서가 M개의 제2 음향 신호에 대응하는 M개의 음성 명령을 획득한 이후에 M개의 음성 명령에 응답하도록 구성된다.

M개의 음성 명령에 응답하도록 구성되는 출력 장치(510)는 구체적으로, M개의 음성 명령에 대응하는 M개의 상이한 위치의 우선순위에 따라 최우선 순위 명령에 우선적으로 응답하도록 구성된 출력 장치를 포함한다.

본 발명의 본 실시예에서, 출력 장치(510)는 구체적으로 오디오 회로(460) 또는 디스플레이 장치(440)일 수 있다.

본 발명의 본 실시예에서, 발음 위치 및 단말 장치의 위치를 찾는 방법이 제공된다. M개의 제2 음향 신호는 빔포밍 알고리즘을 이용하여 위치 파라미터에 따라 K개의 제1 음향 신호로부터 추출되어, 각각의 제2 음향 신호에 대응하는 방출 위치가 결정될 수 있다. 상기 방법에 의하여, 상이한 위치로부터 방출된 음향 신호가 효율적으로 추출될 수 있으며, 음성 인식의 능력이 발휘되어, 사용자에게 보다 더 나은 사용자 경험을 제공할 수 있게 된다.

통상의 기술자는, 본 명세서에 개시된 실시예에 도시된 예들과 결합하여, 유닛, 알고리즘 및 방법 단계들이 컴퓨터 소프트웨어 및 전자 하드웨어의 조합에 의해 구현될 수 있다는 것을 인식할 수 있다. 기능이 하드웨어 또는 소프트웨어에 의해 수행되는지의 여부는 기술적 해결책의 특정 애플리케이션 및 설계 제약 조건에 따라 달라진다. 통상의 기술자는 각각의 특정 애플리케이션에 대해 기술된 기능을 구현하기 위해 상이한 방법을 사용할 수 있지만, 구현이 본 발명의 범위를 벗어나는 것으로 간주되어서는 안된다.

편리하고 간편한 설명을 위해, 상기 모바일 단말 및 액세스 단말은 본 발명의 설명된 방법 실시예에서 별도로 작업 프로세스를 수행하고, 특정 작업을 위해, 상기 방법 실시예에서 대응하는 프로세스가 참조될 수 있으며, 상세한 설명은 여기서 다시 설명하지 않는다는 것을 통상의 기술자에 의해 명확하게 이해될 수 있다.

본 발명에서 제공된 일부 실시예에서, 개시된 서버 및 방법은 다른 방식으로 구현될 수 있다. 예를 들어, 설명된 서버 실시예는 단지 예일 뿐이다. 예를 들어, 유닛 구분은 단지 논리적 기능 구분일 뿐이며 실제 구현에서는 다른 구분일 수 있다. 예를 들어, 복수의 유닛 또는 구성 요소가 결합되거나 다른 시스템에 통합되거나, 또는 일부 특징이 무시되거나 수행되지 않을 수 있다. 또한, 디스플레이되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 일부 인터페이스를 사용하여 구현될 수 있다. 장치 또는 유닛 간의 간접 결합 또는 통신 연결은 전자적, 기계적 또는 다른 형태로 구현될 수 있다.

분리된 부분으로서 설명된 유닛은 물리적으로 분리될 수도 있고 분리되지 않을 수도 있고, 유닛으로서 디스플레이된 부분은 물리적 유닛이 될 수도 있고 아닐 수도 있으며, 한 위치에 위치될 수 있거나, 또는 복수의 네트워크 유닛 상에 분배될 수 있다. 유닛의 일부 또는 전부는 본 발명의 실시예의 해결책의 목적을 달성하기 위해 실제 필요에 따라 선택될 수 있다.

또한, 본 발명의 실시예에서의 기능적 유닛은 하나의 처리 유닛에 통합될 수 있거나, 또는 각각의 유닛은 물리적으로 단독으로 존재할 수 있거나, 또는 2개 이상의 유닛은 하나의 유닛에 통합된다.

통상의 기술자는, 방법의 실시예의 단계들의 전부 또는 일부가 관련 하드웨어를 지시하는 프로그램에 의해 구현될 수 있다는 것을 이해할 수 있다. 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 프로그램이 실행될 때, 방법 실시예의 단계들이 수행된다. 상기 저장 매체는, ROM, RAM, 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.

상기 설명은 단지 본 발명의 특정 구현 방식일 뿐이며, 본 발명의 보호 범위를 제한하는 것은 아니다. 본 발명에 개시된 기술적 범위 내에서 통상의 기술자에 의해 용이하게 이해되는 임의의 변형 또는 치환은 본 발명의 보호 범위 내에 속한다. 따라서, 본 발명의 보호 범위는 청구항의 보호 범위를 따라야 한다.

Claims

발음 위치를 찾는 방법으로서,
K개의 제1 음향 신호를 수집하는 단계 - 상기 K는 2 이상의 정수임 -;
N개의 상이한 위치에 대응하는 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출하는 단계 - 상기 M은 N보다 작거나 같고, N은 2 이상의 정수임 -; 및
각각의 제2 음향 신호에 대응하는 위치를 결정하는 단계
를 포함하는
발음 위치를 찾는 방법.
제1항에 있어서,
상기 N개의 상이한 위치에 대응하는 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출하는 단계는 구체적으로,
빔포밍 알고리즘을 이용하여 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 개별적으로 추출하는 단계를 포함하는,
발음 위치를 찾는 방법.
제1항 또는 제2항에 있어서,
각각의 상기 제2 음향 신호에 대응하는 위치를 결정하는 단계는,
L번째 제2 음향 신호에 대응하는 위치 파라미터에 따라, L번째 제2 음향 신호에 대응하는 위치 L을 결정하는 단계를 포함하고,
상기 L번째 제2 음향 신호는 M개의 제2 음향 신호 중 임의의 하나임 -를 포함하는,
발음 위치를 찾는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출한 이후에, 상기 방법은,
상기 M개의 추출된 제2 음향 신호에 대해 음성 인식을 수행하는 단계; 및
상기 M개의 제2 음향 신호에 대응하는 M개의 음성 명령을 획득하는 단계
를 더 포함하는, 발음 위치를 찾는 방법.
제4항에 있어서,
상기 M개의 제2 음향 신호에 대응하는 M개의 음성 명령을 획득한 이후에, 상기 방법은,
상기 M개의 음성 명령에 응답하는 단계를 더 포함하는,
발음 위치를 찾는 방법.
제5항에 있어서,
상기 M개의 음성 명령에 응답하는 단계는,
상기 M개의 음성 명령에 대응하는 M개의 상이한 위치의 우선순위에 따라 최우선 순위 음성 명령에 우선적으로 응답하는 단계를 포함하는,
발음 위치를 찾는 방법.
단말 장치로서,
K개의 제1 음향 신호를 수집하도록 구성된 K개의 음향 수집 센서 - 상기 K는 2 이상의 정수임 -; 및
N개의 상이한 위치에 대응하는 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출하고, 각각의 제2 음향 신호에 대응하는 위치를 결정하도록 구성된 프로세서 - 상기 M은 N보다 작거나 같고, N은 2 이상의 정수임 -;
를 포함하는
단말 장치.
제7항에 있어서,
상기 프로세서가, N개의 상이한 위치에 대응하는 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출하도록 구성된 것은, 구체적으로,
상기 프로세서가 빔포밍 알고리즘을 이용하여 N개의 위치 파라미터에 따라 K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 개별적으로 추출하도록 구성된 것을 포함하는, 단말 장치.
제7항 또는 제8항에 있어서,
상기 프로세서가 각각의 제2 음향 신호에 대응하는 위치를 결정하도록 구성된 것은,
L번째 제2 음향 신호에 대응하는 위치 파라미터에 따라, L번째 제2 음향 신호에 대응하는 위치 L을 결정하는 것을 포함하고,
상기 L번째 제2 음향 신호는 M개의 제2 음향 신호 중 임의의 하나인,
단말 장치.
제7항 내지 제9항 중 어느 한 항에 있어서,
상기 프로세서는 또한,
K개의 제1 음향 신호로부터 M개의 제2 음향 신호를 추출한 이후에, M개의 추출된 제2 음향 신호에 대해 음성 인식을 수행하고, M개의 제2 음향 신호에 대응하는 M개의 음성 명령을 획득하도록 구성된,
단말 장치.
제7항 내지 제10항 중 어느 한 항에 있어서,
상기 단말 장치는 출력 장치를 더 포함하고, 상기 출력 장치는 상기 프로세서가 M개의 제2 음향 신호에 대응하는 M개의 음성 명령을 획득한 이후에 상기 M개의 음성 명령에 응답하도록 구성되는, 단말 장치.
제11항에 있어서,
상기 출력 장치가 상기 M개의 음성 명령에 응답하도록 구성된 것은, 구체적으로,
상기 출력 장치가, 상기 M개의 음성 명령에 대응하는 M개의 상이한 위치의 우선순위에 따라 최우선 순위에 우선적으로 응답하도록 구성된 것을 포함하는,
단말 장치.
제7항 내지 제12항에 있어서,
3차원 공간에서의 K개의 음향 수집 센서의 좌표는 서로 상이한, 단말 장치.