KR20170103925A

KR20170103925A - 일종의 로봇 시스템의 음성 식별 시스템 및 식별 방법

Info

Publication number: KR20170103925A
Application number: KR1020177022361A
Authority: KR
Inventors: 펭 카이; 펭 가오; 타오 지앙; 이탕 쳉; 웬지에 시앙
Original assignee: 위토우 테크놀로지 (항저우) 씨오., 엘티디.
Priority date: 2015-01-12
Filing date: 2015-06-12
Publication date: 2017-09-13
Also published as: HK1222254A1; US20160343376A1; SG11201705705SA; EP3246915A4; TW201626363A; CN105845135A; CA2973512A1; JP6572314B2; ZA201705424B; NZ734339A; TWI576825B; EP3246915A1; WO2016112634A1; JP2018507434A

Abstract

본 발명은 일종의 로봇 시스템의 음성 식별 시스템에 관한 것으로 음성 명령 수신에 사용되는 마이크; 음성 명령에 대해 검측 및 출력을 진행하는 로컬 음성 검측기; 음성 검측기가 출력하는 음성 신호를 수신하며 식별하고 출력하는 로컬 음성 식별 모듈; 음성 신호에 대해 코딩을 진행 한 후 출력하는 로컬 음성 코딩 모듈; 로컬 음성 코딩 모듈이 출력하는 코딩을 진행한 음성 신호에 대해 해독하고 출력하는 원격 음성 해독 모듈; 원격 음성 식별 모듈, 원격 언어 처리 모듈, 원격 음성 식별 모듈은 원격 음성 해독 모듈이 출력한 해독이 완료된 음성 신호를 수신하며 전환 후 원격 언어 처리 모듈에 출력하며 원격 언어 처리 모듈은 전환 후의 음성 신호에 의거 상응한 작업 명령을 생성; 원격 언어 처리 모듈의 작업 명령을 실행하는 실행 모듈을 포함한다.

Description

일종의 로봇 시스템의 음성 식별 시스템 및 식별 방법

본 발명은 스마트 음성 영역의 일종의 로봇 시스템의 음성 식별 시스템과 식별 방법에 관한 것이다.

로봇 시스템의 음성 식별 시스템은 주로 음성 식별 기술과 자연 언어 처리 기술에 관련된다.

음성 식별 기술이란 자동 음성 식별（Automatic Speech Recognition，ASR）기술로 인류의 음성중의 단어를 컴퓨터 판독이 가능한 내용으로 전환하여 입력하는것을 목적으로 한다. 예를 들면 버튼, 이진법 코딩 혹은 문자 서열이다.

자연 언어 처리 기술（Natural Language Processing，NLP로 약칭）이란 인공지능과 어학의 분과 과학으로 인간과 컴퓨터사이의 자연 언어로 효과적인 통신을 진행하는 것을 목적으로 한다.

현존하는 주류의 로봇 시스템의 음성 식별은 대부분 상기 두가지 기술을 운용하고 있다.

로봇 시스템의 음성 식별 과정은 음성 수신, 음성 식별, 자연 언어 처리와 동작 실행 등 네개 단계로 분류한다.

현존하는 로봇 시스템은 음성 수신 방식도 부동하며 주로 이하 세가지로 나뉜다.

1. 비실시간 입력: 로봇은 추가로 동작 실행을 유발하였을 경우에만 확인을 거쳐 음성 입력에 대한 수신을 개시한다.

2. 실시간 입력: 로봇은 지속적으로 외부의 음성 입력을 수신하며 모든 목소리로 판단된 음성 입력 내용을 수신한다.

3. 실시간 입력: 로봇은 지속적으로 외부의 음성 입력을 수신하며 매회의 음성 입력은 고정된 문구로 유발시켜야 한다.

그 어떠한 음성 수신 방식이든 로봇이 음성 신호를 수신한 뒤 우선 음성 식별 기술을 통하여 음성을 컴퓨터 판독이 가능한 내용으로 전환하여 입력하여야 하며 일반적으로 문자 서열 즉 문자이다. 다음으로 자연 언어 처리 기술을 통하여 음성 식별의 결과에 대해 자연 언어 분석 및 처리를 진행하며 해당 음성 신호의 진정한 의미를 얻은뒤 마지막으로 자연 언어 처리 결과에 의거하여 상응한 반응을 보이며 명령 및 동작을 실행한다.

현존하는 로봇 시스템의 음성 식별 시스템의 주요 문제는 이하 세가지 이다.

1. 추가 동작 유발이 필요하며 유발이 되여야만 음성 교류를 시작 할 수 있다. 제일 자연스러운 교류 방식 중에 여분의 교류를 추가하여 사용자 체험의 만족도를 저하시킨다.

2. 진정한 로봇과 자연스럽게 대화 할 수 없으며 대다수가 고정적인 문구을 통한 교류로 관련되는 사용범위가 제한되며 고정적인 문구를 모를 경우 로봇과의 교류가 중단된다.

3. 실시간 피드백을 받을수 없거나 에네르기 소모가 높아 대량의 유발 트러블이 발생되며 인간과 로봇과의 교류가 원할하지 못하고 조심스러워지게 된다.

상기 현존하는 기술중의 과제를 해결하고자 본 발명은 일종의 로봇 시스템의 음성 식별 시스템을 제공하며 상기 음성 식별 시스템은

실시간 음성 명령 수신에 사용되는 마이크;

음성 명령에 대해 검측하고 현재의 음성 신호에 사람의 목소리가 들어 있는지를 판단하며 목소리를 포함할 경우 출력하는 로컬 음성 검측기;

음성 검측기가 출력하는 음성 신호를 수신하여 식별하고 현재의 음성 신호가 각성 명령 인지를 판단하며 각성 명령 일 경우 출력하는 로컬 음성 식별 모듈;

음성 신호에 대해 코딩을 진행 한 후 출력하는 로컬 음성 코딩 모듈;

로컬 음성 코딩 모듈이 출력하는 코딩을 진행한 음성 신호에 대해 해독하고 출력하는 원격 음성 해독 모듈;

원격 음성 식별 모듈, 원격 언어 처리 모듈, 원격 음성 식별 모듈은 원격 음성 해독 모듈이 출력한 해독이 완료된 음성 신호를 수신하며 전환 후 원격 언어 처리 모듈에 출력하며 원격 언어 처리 모듈은 전환 후의 음성 신호에 의거 상응한 작업 명령을 생성;

원격 언어 처리 모듈의 작업 명령을 실행하는 실행 모듈;을 포함한다.

상기 음성 식별 시스템에서 상기 마이크가 항상 오픈 상태이며 끊임없이 실시간으로 외부의 음성 신호를 수신한다.

상기 음성 식별 시스템에는 미디어 모듈을 포함하며 상기 미디어 모듈을 통하여 상기 작업 명령을 실행한다.

상기 음성 식별 시스템에서 상기 로컬 음성 식별 모듈이 데이터 스트림의 방식으로 음성 신호를 상기 원격 음성 식별 모듈에 출력한다.

상기 음성 식별 시스템에는 각성 명령 편집 모듈이 포함되며 상기 각성 명령을 편집한다.

상기 음성 식별 시스템에서 상기 로컬 음성 검측기는 신경 네트워크 연산 방법을 기초로 한다.

상기 음성 식별 시스템에서 상기 원격 언어 처리 모듈이 전환한 음성 식별 신호에 의거하여 상응한 작업 명령을 생성하는 처리시간은10~20ms사이로 된다.

이와 동시에 본 발명은 일종의 상기 식별 시스템을 적용한 식별 방법에 대해 공개하였다.

상기 식별 시스템의 식별 방법은

마이크를 이용하여 실시간으로 외부의 음성 신호를 수신하는 단계;

상기 로컬 음성 검측기를 이용하여 현재의 음성 신호가 목소리를 포함하였는지를 판단하며 목소리를 포함할 경우 상기 로컬 음성 식별 모듈로 출력하는 단계;

상기 로컬 음성 식별 모듈을 이용하여 음성 신호를 식별하고 현재의 음성 신호에 각성 명령을 포함하는지를 판단하며 각성 명령을 포함 할 경우 상기 음성 신호를 상기 로컬 음성 코딩 모듈에 출력하는 단계;

상기 로컬 음성 코딩 모듈에서 음성 신호의 코딩을 진행 한 뒤 상기 원격 음성 코딩 모듈에 전송하는 단계;

상기 원격 음성 코딩 모듈에서 수신한 음성 신호에 대해 해독한 뒤 상기 원격 음성 식별 모듈에 전송하는 단계;

상기 원격 음성 식별 모듈을 이용하여 상기 원격 음성 해독 모듈에 출력한 음성 신호를 전환하여 상기 원격 언어 처리 모듈에 전송하는 단계;

상기 원격 언어 처리 모듈이 전환한 음성 신호에 의거하여 상응한 작업 명령을 생성하는 단계;

상기 실행 모듈이 상기 미디어 모듈에 대한 컨트롤을 통하여 상기 작업 명령을 실행 하는 단계;를 포함한다.

상기 로컬 음성 식별 모듈에서 식별한 현재의 음성 신호에 각성 명령이 포함될 때 로컬 음성 식별 모듈은 닫히게 되며 음성 신호는 상기 로컬 음성 코딩 모듈에서 코딩을 진행 한 뒤 직접 상기 원격 음성 코딩 모듈에 전송하여 해독하며 상기 원격 음성 식별 모듈에 전송한다.

이하 첨부 도면과 결합하여 본 발명의 실시 예에 대해 상세히 설명하나 이는 본 발명에 제한되지 아니하며 도면중의 동일한 표기는 동일한 부분을 명시하며 실제 비율로 제작된 것이 아니며 목적은 본 발명의 요지를 표시하는데 있다.
도1은 본 발명의 음성 식별 시스템의 구조와 운행 실시예 이다.

이하 설명 내용은 본 발명에 대한 이해도를 높히기 위하여 대량의 구체적인 내용으로 설명을 하나 해당 영역의 기술인원이면 쉽게 알수 있는 부분 및 기타 실시 예 중의 본 발명과 혼동하기 쉬운 부분과 본 영역의 공개된 기술 특징에 대해서는 생략한다.

이하 본 발명의 구체적인 실시 예에 대해 자세히 설명하면 다음과 같다.

본 발명은 로봇 시스템의 청각 역할을 하는 부분으로 로봇이 인간의 언어 및 제일 자연스러운 인간과 로봇의 교류 체험의 중요한 부분이며 해결해야 하는 과제는 다음 세가지 방면이다.

1. 완전한 언어 교류를 진행하며 추가 유발 동작이 필요없다.

2. 자연스러운 언어로 인간과 로봇이 교류를 진행하며 고정 문구가 없이도 직장, 생활의 각 영역에서 교류를 진행한다.

3. 실시간 피드백을 진행하며 유발 트러블을 최소로 줄이고 에너시 소비로 줄이다.

상기 기술적 문제를 해결하기 위하여 본 발명은 일종의 로봇 시스템의 음성 식별 시스템을 제공하며 상기 음성 식별 시스템은 이하 내용을 포함한다.

음성 명령 수신에 사용되는 마이크; 본 발명의 마이크가 항상 오픈 상태이며 끊임없이 실시간으로 외부의 음성 신호를 수신한다. 이외 외부의 음성 데이터를 수집하며 로봇 시스템의 청각 역할을 한다.

음성 명령에 대해 검측하고 현재의 음성 신호에 사람의 목소리가 들어 있는지를 판단하며 목소리를 포함할 경우 출력하는 로컬 음성 검측기; 본 발명중의 로봇 시스템의 마이크는 항상 오픈 상태이며 환경중에는 여러가지 음성이 존재하며 그중 대부분은 소음이기 때문에 로봇 시스템의 음성 식별에는 무의미한 음성이다. 이러한 무의미한 기능적 손실 및 대량의 유발 트러블을 감소시키기 위하여 사람의 목소리로 판단되는 음성이 포착될 때에만 해당 음성 데이터를 식별 시스템에 전송한다.

본 발명의 실시 예 중에서 로컬 음성 검측기는 신경 네트워크 연산 방법을 기초로 하며 정확하고 신속하게 입력된 음성 데이터에 대해 목소리 판단을 진행하여 소음으로 인한 유발 트러블을 방지하며 네트워크 및 서비스 청구에 대한 소비를 절감하는 관건적인 부분이다.

음성 검측기가 출력하는 음성 신호를 수신하여 식별하고 현재의 음성 신호가 각성 명령 인지를 판단하며 각성 명령 일 경우 출력하는 로컬 음성 식별 모듈; 본 발명의 로봇 시스템에서 음성 검측기를 통하여 수집한 음성이 사람의 목소리인지를 판단하나 이러한 목소리는 무조건 의미를 갖는 것은 아니다. 통속적으로 말하자면 해당 음성은 로봇을 상대로 한 음성이 아닐수 있으며 이러한 내용도 서비스 단말에 업데이트 시켜서 분석을 하게 되면 대량의 시간과 성능에 대한 낭비이다. 그러기에 우선 로컬에서 해당 음성이 로봇을 상대로한 음성인지를 신속하게 판단한다. 즉 사람과의 대화와 마찬가지로 우선 자기와의 대화인지를 판단한 뒤 응답한다.

본 발명중에서 특별히 우수하게 조정한 로컬 음성 식별 모듈의 적용은 신속하게 입력된 자연 언어가 로봇을 상대로 한것인지를 식별하며 수시로 임의의 활성화 문구(본 발명의 로봇 시스템중에서는 로봇의 이름으로 정의한다 예를 들면 사람이나 애완동물의 이름과 같다.)에 대해 업데이트 혹은 수정을 할 수 있으며 판단정확도는 90%이상이다.

본 발명의 실시 예 중에서 로봇의 이름, 즉 각성 명령은 각성 명령 편집 모듈을 통하여 편집할 있으며 본인의 기호에 따라 임의로 로봇의 이름을 설정할 수있다.

원격 음성 식별 모듈은 비교적 완정한 언어 모델과 음향학 모델을 갖고 있으며 일상 생활의 90%이상의 상용 언어를 커버할 수 있으며 다국어 지원이 가능하다. 예를 들면 영어 중국어 및 일본어 등 이다. 이외 중국어의 다양한 방언 지원도 가능하다. 예를 들면 광동 방언, 사천 방언, 하남 방언 등 이다. 본 발명중의 로봇 시스템이 관련되는 특정 영역 또한 보다 더 최적화로 되여 있으며 음성 식별 정확도는 95%이상이다. 이외 본 발명의 실시 예 중의 로컬 음성 식별 모듈은 데이터 스트림의 방식으로 음성 신호를 원격 음성 식별 모듈에 출력하며 음성 식별 모듈은 첫 프레임 데이터부터 실시간 식별이 시작되며 음성이 끝난뒤 해당 문구에 대한 식별 결과가 생성되며 음성 데이터의 발송 종료부터 최종 식별 결과 형성까지 소모되는 시간은100ms미만이다. 원격 자연 언어 처리 서비스는 일상 생활의 80%이상의 사용 장면을 커버 할 수 있으며 신속하게 입력되는 자연 언어와 관련되는 모든 영역을 명중하며 처리시간은 일반적으로10-20ms사이이다. 종합적으로 네트워크가 안정된 상황에서 본 발명의 전체 음성 식별 과정은 500ms을 초과하지 않는다.

원격 언어 처리 모듈의 작업 명령을 실행하는 실행 모듈; 본 발명의 실시 예 중에서 해당 실행 모듈은 미디어 모듈에 대한 컨트롤을 통하여 원격 언어 처리 모듈이 발송하는 작업 명령을 실행한다.예를 들면 음악 재생, 네비게이션 실행, 메세지 발송, 조명 컨트롤 등 작업이다.

사용자는 인간의 교류에 가장 적합한 교류방식 즉 음성, 자연 언어를 사용하여 교류한다. 이상의 모듈은 공통적으로 본 발명의 로봇 시스템이 자연 언어를 통하여 실시간 입력과 실시간 피드백을 진행하는 것을 보증하며 시스템의 성능의 동력 소비량의 평형 및 전체시스템의 온정성을 보증한다.

이와 동시에 본 발명은 일종의 상기 식별 시스템의 식별 방법을 제공하며 해당 식별 방법은,

로컬 음성 검측기를 이용하여 현재의 음성 신호가 목소리를 포함하였는지를 판단하며 목소리를 포함할 경우 로컬 음성 식별 모듈로 출력하는 단계;

로컬 음성 식별 모듈을 이용하여 음성 신호를 식별하고 현재의 음성 신호에 각성 명령을 포함하는지를 판단하며 각성 명령을 포함 할 경우 음성 신호를 로컬 음성 코딩 모듈에 출력하는 단계;

로컬 음성 코딩 모듈에서 음성 신호의 코딩을 진행 한 뒤 원격 음성 코딩 모듈에 전송하는 단계;

원격 음성 코딩 모듈에서 수신한 음성 신호에 대해 해독한 뒤 원격 음성 식별 모듈에 전송하는 단계;

원격 음성 식별 모듈을 이용하여 원격 음성 해독 모듈에 출력한 음성 신호를 전환하여 원격 언어 처리 모듈에 전송하는 단계;

원격 언어 처리 모듈이 전환한 음성 신호에 의거하여 상응한 작업 명령을 생성하는 단계;

실행 모듈이 미디어 모듈에 대한 컨트롤을 통하여 작업 명령을 실행 하는 단계;를 포함한다.

로컬 음성 식별 모듈에서 식별한 현재의 음성 신호에 각성 명령이 포함될 때 로컬 음성 식별 모듈은 닫히게 되며 음성 신호는 로컬 음성 코딩 모듈에서 코딩을 진행 한 뒤 직접 원격 음성 코딩 모듈에 전송하여 해독하며 원격 음성 식별 모듈에 전송한다.

도1을 참조하면 로봇의 이름을 “R2”로 가정하고 주인이 로봇에게 "R2, 기분이 좋지 않아, 음악을 재생해줘"라고 말하면 지속적으로 오픈 상태에 있던 마이크가 수신한 데이터는 로컬 음성 검측기를 통과하며 이 단계에서 로컬 음성 검측기가 검측한 음성은 환경 소음이 아닌 목소리로 판정이 되나 로봇은 자신을 상대로 한 대화인지를 확인할 필요가 있다. 이때 해당 음성은 로컬 음성 검측기에서 식별을 진행하며 로컬 음성 식별 서비스는 자신과의 대화를 확인하며(로봇의 이름 "R2"를 불렀기 때문이다.) 이후의 대화는 자신과의 대화로 인식하며 해당 음성은 원격 음성 해독 모듈에 전송되여 해독 한 뒤 원격 음성 식별 서비스에 출력되여 식별을 진행하며 자연 언어의 분석이 진행되고 분석후 주인이 표현하는 내용은"기분이 좋지 않아, 음악이 필요"로 받아들여지며 로봇은 주인을 위해 "힐링음악을 재생" 하며 상기 결정을 로컬 시스템에 발송하여 최종적으로 로컬 시스템은 해당 결과로 "힐링음악"을 검색하여 재생을 시작한다.

상기 내용을 종합하면 본발명은 상기 기술방안을 적용하여 완전히 음성으로 교류를 진행 할 수 있으며 별도의 유발 동작이 필요하지 않으며 진정한 인간과 로봇의 자연 언어로의 교류가 가능하며 고정적인 문구가 없어도 직장, 생황의 각종영역에 대해 교류를 할수 있으며 실시간 피드백으로 유발 트러블을 최소화하는 상황에서 에너지의 소모를 일정하게 유지할 수 있다.

본 발명은 상술한 특정의 바람직한 실시 예에 한정되지 아니하며 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양하게 변형실시가 가능한 것은 물론이고 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

Claims

일종의 로봇 시스템의 음성 식별 시스템으로
음성 명령 수신에 사용되는 마이크;
음성 명령에 대해 검측하고 현재의 음성 신호에 사람의 목소리가 들어 있는지를 판단하며 목소리를 포함할 경우 출력하는 로컬 음성 검측기;
음성 검측기가 출력하는 음성 신호를 수신하여 식별하고 현재의 음성 신호가 각성 명령 인지를 판단하며 각성 명령 일 경우 출력하는 로컬 음성 식별 모듈;
음성 신호에 대해 코딩을 진행한 후 출력하는 로컬 음성 코딩 모듈;
로컬 음성 코딩 모듈이 출력하는 코딩을 진행한 음성 신호에 대해 해독하고 출력하는 원격 음성 해독 모듈;
원격 음성 식별 모듈, 원격 언어 처리 모듈, 원격 음성 식별 모듈은 원격 음성 해독 모듈이 출력한 해독이 완료된 음성 신호를 수신하며 전환 후 원격 언어 처리 모듈에 출력하며 원격 언어 처리 모듈은 전환 후의 음성 신호에 의거 상응한 작업 명령을 생성;
원격 언어 처리 모듈의 작업 명령을 실행하는 실행 모듈;을 포함하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 음성 식별 시스템은 상기 마이크가 항상 오픈 상태이며 끊임없이 실시간으로 외부의 음성 신호를 수신하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 음성 식별 시스템은 미디어 모듈을 포함하며 상기 미디어 모듈을 통하여 상기 작업 명령을 실행하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 음성 식별 시스템은 상기 로컬 음성 식별 모듈이 데이터 스트림의 방식으로 음성 신호를 상기 원격 음성 식별 모듈에 출력하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 음성 식별 시스템은 각성 명령 편집 모듈이 포함되며 상기 각성 명령을 편집하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 음성 식별 시스템은 상기 로컬 음성 검측기는 신경 네트워크 연산 방법을 기초로 하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 음성 식별 시스템은 상기 원격 언어 처리 모듈이 전환한 음성 식별 신호에 의거하여 상응한 작업 명령을 생성하는 처리시간은 10~20ms사이 인것을 특징으로 하는 시스템.
일종의 제1항 내지 제7항의 임의 항을 적용한 상기 식별 시스템의 식별 방법은
마이크를 이용하여 실시간으로 외부의 음성 신호를 수신하는 단계;
상기 로컬 음성 검측기를 이용하여 현재의 음성 신호가 목소리를 포함하였는지를 판단하며 목소리를 포함할 경우 상기 로컬 음성 식별 모듈로 출력하는 단계;
상기 로컬 음성 식별 모듈을 이용하여 음성 신호를 식별하고 현재의 음성 신호에 각성 명령을 포함하는지를 판단하며 각성 명령을 포함 할 경우 상기 음성 신호를 상기 로컬 음성 코딩 모듈에 출력하는 단계;
상기 로컬 음성 코딩 모듈에서 음성 신호의 코딩을 진행한 뒤 상기 원격 음성 코딩 모듈에 전송하는 단계;
상기 원격 음성 코딩 모듈에서 수신한 음성 신호에 대해 해독한 뒤 상기 원격 음성 식별 모듈에 전송하는 단계;
상기 원격 음성 식별 모듈을 이용하여 상기 원격 음성 해독 모듈에 출력한 음성 신호를 전환하여 상기 원격 언어 처리 모듈에 전송하는 단계;
상기 원격 언어 처리 모듈이 전환한 음성 신호에 의거하여 상응한 작업 명령을 생성하는 단계;
상기 실행 모듈이 상기 미디어 모듈에 대한 컨트롤을 통하여 상기 작업 명령을 실행하는 단계;를 포함하는 것을 특징으로 하는 식별 방법.
제8항에 있어서,
상기 로컬 음성 식별 모듈에서 식별한 현재의 음성 신호에 각성 명령이 포함될 때 로컬 음성 식별 모듈은 닫히게 되며 음성 신호는 상기 로컬 음성 코딩 모듈에서 코딩을 진행한 뒤 직접 상기 원격 음성 코딩 모듈에 전송하여 해독하며 상기 원격 음성 식별 모듈에 전송하는 것을 특징으로 하는 식별 방법.