KR20170103925A - 일종의 로봇 시스템의 음성 식별 시스템 및 식별 방법 - Google Patents

일종의 로봇 시스템의 음성 식별 시스템 및 식별 방법 Download PDF

Info

Publication number
KR20170103925A
KR20170103925A KR1020177022361A KR20177022361A KR20170103925A KR 20170103925 A KR20170103925 A KR 20170103925A KR 1020177022361 A KR1020177022361 A KR 1020177022361A KR 20177022361 A KR20177022361 A KR 20177022361A KR 20170103925 A KR20170103925 A KR 20170103925A
Authority
KR
South Korea
Prior art keywords
voice
module
remote
signal
local
Prior art date
Application number
KR1020177022361A
Other languages
English (en)
Inventor
펭 카이
펭 가오
타오 지앙
이탕 쳉
웬지에 시앙
Original Assignee
위토우 테크놀로지 (항저우) 씨오., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 위토우 테크놀로지 (항저우) 씨오., 엘티디. filed Critical 위토우 테크놀로지 (항저우) 씨오., 엘티디.
Publication of KR20170103925A publication Critical patent/KR20170103925A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Manipulator (AREA)

Abstract

본 발명은 일종의 로봇 시스템의 음성 식별 시스템에 관한 것으로 음성 명령 수신에 사용되는 마이크; 음성 명령에 대해 검측 및 출력을 진행하는 로컬 음성 검측기; 음성 검측기가 출력하는 음성 신호를 수신하며 식별하고 출력하는 로컬 음성 식별 모듈; 음성 신호에 대해 코딩을 진행 한 후 출력하는 로컬 음성 코딩 모듈; 로컬 음성 코딩 모듈이 출력하는 코딩을 진행한 음성 신호에 대해 해독하고 출력하는 원격 음성 해독 모듈; 원격 음성 식별 모듈, 원격 언어 처리 모듈, 원격 음성 식별 모듈은 원격 음성 해독 모듈이 출력한 해독이 완료된 음성 신호를 수신하며 전환 후 원격 언어 처리 모듈에 출력하며 원격 언어 처리 모듈은 전환 후의 음성 신호에 의거 상응한 작업 명령을 생성; 원격 언어 처리 모듈의 작업 명령을 실행하는 실행 모듈을 포함한다.

Description

일종의 로봇 시스템의 음성 식별 시스템 및 식별 방법
본 발명은 스마트 음성 영역의 일종의 로봇 시스템의 음성 식별 시스템과 식별 방법에 관한 것이다.
로봇 시스템의 음성 식별 시스템은 주로 음성 식별 기술과 자연 언어 처리 기술에 관련된다.
음성 식별 기술이란 자동 음성 식별(Automatic Speech Recognition,ASR)기술로 인류의 음성중의 단어를 컴퓨터 판독이 가능한 내용으로 전환하여 입력하는것을 목적으로 한다. 예를 들면 버튼, 이진법 코딩 혹은 문자 서열이다.
자연 언어 처리 기술(Natural Language Processing,NLP로 약칭)이란 인공지능과 어학의 분과 과학으로 인간과 컴퓨터사이의 자연 언어로 효과적인 통신을 진행하는 것을 목적으로 한다.
현존하는 주류의 로봇 시스템의 음성 식별은 대부분 상기 두가지 기술을 운용하고 있다.
로봇 시스템의 음성 식별 과정은 음성 수신, 음성 식별, 자연 언어 처리와 동작 실행 등 네개 단계로 분류한다.
현존하는 로봇 시스템은 음성 수신 방식도 부동하며 주로 이하 세가지로 나뉜다.
1. 비실시간 입력: 로봇은 추가로 동작 실행을 유발하였을 경우에만 확인을 거쳐 음성 입력에 대한 수신을 개시한다.
2. 실시간 입력: 로봇은 지속적으로 외부의 음성 입력을 수신하며 모든 목소리로 판단된 음성 입력 내용을 수신한다.
3. 실시간 입력: 로봇은 지속적으로 외부의 음성 입력을 수신하며 매회의 음성 입력은 고정된 문구로 유발시켜야 한다.
그 어떠한 음성 수신 방식이든 로봇이 음성 신호를 수신한 뒤 우선 음성 식별 기술을 통하여 음성을 컴퓨터 판독이 가능한 내용으로 전환하여 입력하여야 하며 일반적으로 문자 서열 즉 문자이다. 다음으로 자연 언어 처리 기술을 통하여 음성 식별의 결과에 대해 자연 언어 분석 및 처리를 진행하며 해당 음성 신호의 진정한 의미를 얻은뒤 마지막으로 자연 언어 처리 결과에 의거하여 상응한 반응을 보이며 명령 및 동작을 실행한다.
현존하는 로봇 시스템의 음성 식별 시스템의 주요 문제는 이하 세가지 이다.
1. 추가 동작 유발이 필요하며 유발이 되여야만 음성 교류를 시작 할 수 있다. 제일 자연스러운 교류 방식 중에 여분의 교류를 추가하여 사용자 체험의 만족도를 저하시킨다.
2. 진정한 로봇과 자연스럽게 대화 할 수 없으며 대다수가 고정적인 문구을 통한 교류로 관련되는 사용범위가 제한되며 고정적인 문구를 모를 경우 로봇과의 교류가 중단된다.
3. 실시간 피드백을 받을수 없거나 에네르기 소모가 높아 대량의 유발 트러블이 발생되며 인간과 로봇과의 교류가 원할하지 못하고 조심스러워지게 된다.
상기 현존하는 기술중의 과제를 해결하고자 본 발명은 일종의 로봇 시스템의 음성 식별 시스템을 제공하며 상기 음성 식별 시스템은
실시간 음성 명령 수신에 사용되는 마이크;
음성 명령에 대해 검측하고 현재의 음성 신호에 사람의 목소리가 들어 있는지를 판단하며 목소리를 포함할 경우 출력하는 로컬 음성 검측기;
음성 검측기가 출력하는 음성 신호를 수신하여 식별하고 현재의 음성 신호가 각성 명령 인지를 판단하며 각성 명령 일 경우 출력하는 로컬 음성 식별 모듈;
음성 신호에 대해 코딩을 진행 한 후 출력하는 로컬 음성 코딩 모듈;
로컬 음성 코딩 모듈이 출력하는 코딩을 진행한 음성 신호에 대해 해독하고 출력하는 원격 음성 해독 모듈;
원격 음성 식별 모듈, 원격 언어 처리 모듈, 원격 음성 식별 모듈은 원격 음성 해독 모듈이 출력한 해독이 완료된 음성 신호를 수신하며 전환 후 원격 언어 처리 모듈에 출력하며 원격 언어 처리 모듈은 전환 후의 음성 신호에 의거 상응한 작업 명령을 생성;
원격 언어 처리 모듈의 작업 명령을 실행하는 실행 모듈;을 포함한다.
상기 음성 식별 시스템에서 상기 마이크가 항상 오픈 상태이며 끊임없이 실시간으로 외부의 음성 신호를 수신한다.
상기 음성 식별 시스템에는 미디어 모듈을 포함하며 상기 미디어 모듈을 통하여 상기 작업 명령을 실행한다.
상기 음성 식별 시스템에서 상기 로컬 음성 식별 모듈이 데이터 스트림의 방식으로 음성 신호를 상기 원격 음성 식별 모듈에 출력한다.
상기 음성 식별 시스템에는 각성 명령 편집 모듈이 포함되며 상기 각성 명령을 편집한다.
상기 음성 식별 시스템에서 상기 로컬 음성 검측기는 신경 네트워크 연산 방법을 기초로 한다.
상기 음성 식별 시스템에서 상기 원격 언어 처리 모듈이 전환한 음성 식별 신호에 의거하여 상응한 작업 명령을 생성하는 처리시간은10~20ms사이로 된다.
이와 동시에 본 발명은 일종의 상기 식별 시스템을 적용한 식별 방법에 대해 공개하였다.
상기 식별 시스템의 식별 방법은
마이크를 이용하여 실시간으로 외부의 음성 신호를 수신하는 단계;
상기 로컬 음성 검측기를 이용하여 현재의 음성 신호가 목소리를 포함하였는지를 판단하며 목소리를 포함할 경우 상기 로컬 음성 식별 모듈로 출력하는 단계;
상기 로컬 음성 식별 모듈을 이용하여 음성 신호를 식별하고 현재의 음성 신호에 각성 명령을 포함하는지를 판단하며 각성 명령을 포함 할 경우 상기 음성 신호를 상기 로컬 음성 코딩 모듈에 출력하는 단계;
상기 로컬 음성 코딩 모듈에서 음성 신호의 코딩을 진행 한 뒤 상기 원격 음성 코딩 모듈에 전송하는 단계;
상기 원격 음성 코딩 모듈에서 수신한 음성 신호에 대해 해독한 뒤 상기 원격 음성 식별 모듈에 전송하는 단계;
상기 원격 음성 식별 모듈을 이용하여 상기 원격 음성 해독 모듈에 출력한 음성 신호를 전환하여 상기 원격 언어 처리 모듈에 전송하는 단계;
상기 원격 언어 처리 모듈이 전환한 음성 신호에 의거하여 상응한 작업 명령을 생성하는 단계;
상기 실행 모듈이 상기 미디어 모듈에 대한 컨트롤을 통하여 상기 작업 명령을 실행 하는 단계;를 포함한다.
상기 로컬 음성 식별 모듈에서 식별한 현재의 음성 신호에 각성 명령이 포함될 때 로컬 음성 식별 모듈은 닫히게 되며 음성 신호는 상기 로컬 음성 코딩 모듈에서 코딩을 진행 한 뒤 직접 상기 원격 음성 코딩 모듈에 전송하여 해독하며 상기 원격 음성 식별 모듈에 전송한다.
이하 첨부 도면과 결합하여 본 발명의 실시 예에 대해 상세히 설명하나 이는 본 발명에 제한되지 아니하며 도면중의 동일한 표기는 동일한 부분을 명시하며 실제 비율로 제작된 것이 아니며 목적은 본 발명의 요지를 표시하는데 있다.
도1은 본 발명의 음성 식별 시스템의 구조와 운행 실시예 이다.
이하 설명 내용은 본 발명에 대한 이해도를 높히기 위하여 대량의 구체적인 내용으로 설명을 하나 해당 영역의 기술인원이면 쉽게 알수 있는 부분 및 기타 실시 예 중의 본 발명과 혼동하기 쉬운 부분과 본 영역의 공개된 기술 특징에 대해서는 생략한다.
이하 본 발명의 구체적인 실시 예에 대해 자세히 설명하면 다음과 같다.
본 발명은 로봇 시스템의 청각 역할을 하는 부분으로 로봇이 인간의 언어 및 제일 자연스러운 인간과 로봇의 교류 체험의 중요한 부분이며 해결해야 하는 과제는 다음 세가지 방면이다.
1. 완전한 언어 교류를 진행하며 추가 유발 동작이 필요없다.
2. 자연스러운 언어로 인간과 로봇이 교류를 진행하며 고정 문구가 없이도 직장, 생활의 각 영역에서 교류를 진행한다.
3. 실시간 피드백을 진행하며 유발 트러블을 최소로 줄이고 에너시 소비로 줄이다.
상기 기술적 문제를 해결하기 위하여 본 발명은 일종의 로봇 시스템의 음성 식별 시스템을 제공하며 상기 음성 식별 시스템은 이하 내용을 포함한다.
음성 명령 수신에 사용되는 마이크; 본 발명의 마이크가 항상 오픈 상태이며 끊임없이 실시간으로 외부의 음성 신호를 수신한다. 이외 외부의 음성 데이터를 수집하며 로봇 시스템의 청각 역할을 한다.
음성 명령에 대해 검측하고 현재의 음성 신호에 사람의 목소리가 들어 있는지를 판단하며 목소리를 포함할 경우 출력하는 로컬 음성 검측기; 본 발명중의 로봇 시스템의 마이크는 항상 오픈 상태이며 환경중에는 여러가지 음성이 존재하며 그중 대부분은 소음이기 때문에 로봇 시스템의 음성 식별에는 무의미한 음성이다. 이러한 무의미한 기능적 손실 및 대량의 유발 트러블을 감소시키기 위하여 사람의 목소리로 판단되는 음성이 포착될 때에만 해당 음성 데이터를 식별 시스템에 전송한다.
본 발명의 실시 예 중에서 로컬 음성 검측기는 신경 네트워크 연산 방법을 기초로 하며 정확하고 신속하게 입력된 음성 데이터에 대해 목소리 판단을 진행하여 소음으로 인한 유발 트러블을 방지하며 네트워크 및 서비스 청구에 대한 소비를 절감하는 관건적인 부분이다.
음성 검측기가 출력하는 음성 신호를 수신하여 식별하고 현재의 음성 신호가 각성 명령 인지를 판단하며 각성 명령 일 경우 출력하는 로컬 음성 식별 모듈; 본 발명의 로봇 시스템에서 음성 검측기를 통하여 수집한 음성이 사람의 목소리인지를 판단하나 이러한 목소리는 무조건 의미를 갖는 것은 아니다. 통속적으로 말하자면 해당 음성은 로봇을 상대로 한 음성이 아닐수 있으며 이러한 내용도 서비스 단말에 업데이트 시켜서 분석을 하게 되면 대량의 시간과 성능에 대한 낭비이다. 그러기에 우선 로컬에서 해당 음성이 로봇을 상대로한 음성인지를 신속하게 판단한다. 즉 사람과의 대화와 마찬가지로 우선 자기와의 대화인지를 판단한 뒤 응답한다.
본 발명중에서 특별히 우수하게 조정한 로컬 음성 식별 모듈의 적용은 신속하게 입력된 자연 언어가 로봇을 상대로 한것인지를 식별하며 수시로 임의의 활성화 문구(본 발명의 로봇 시스템중에서는 로봇의 이름으로 정의한다 예를 들면 사람이나 애완동물의 이름과 같다.)에 대해 업데이트 혹은 수정을 할 수 있으며 판단정확도는 90%이상이다.
본 발명의 실시 예 중에서 로봇의 이름, 즉 각성 명령은 각성 명령 편집 모듈을 통하여 편집할 있으며 본인의 기호에 따라 임의로 로봇의 이름을 설정할 수있다.
로컬 음성 코딩 모듈이 출력하는 코딩을 진행한 음성 신호에 대해 해독하고 출력하는 원격 음성 해독 모듈;
원격 음성 식별 모듈, 원격 언어 처리 모듈, 원격 음성 식별 모듈은 원격 음성 해독 모듈이 출력한 해독이 완료된 음성 신호를 수신하며 전환 후 원격 언어 처리 모듈에 출력하며 원격 언어 처리 모듈은 전환 후의 음성 신호에 의거 상응한 작업 명령을 생성;
원격 음성 식별 모듈은 비교적 완정한 언어 모델과 음향학 모델을 갖고 있으며 일상 생활의 90%이상의 상용 언어를 커버할 수 있으며 다국어 지원이 가능하다. 예를 들면 영어 중국어 및 일본어 등 이다. 이외 중국어의 다양한 방언 지원도 가능하다. 예를 들면 광동 방언, 사천 방언, 하남 방언 등 이다. 본 발명중의 로봇 시스템이 관련되는 특정 영역 또한 보다 더 최적화로 되여 있으며 음성 식별 정확도는 95%이상이다. 이외 본 발명의 실시 예 중의 로컬 음성 식별 모듈은 데이터 스트림의 방식으로 음성 신호를 원격 음성 식별 모듈에 출력하며 음성 식별 모듈은 첫 프레임 데이터부터 실시간 식별이 시작되며 음성이 끝난뒤 해당 문구에 대한 식별 결과가 생성되며 음성 데이터의 발송 종료부터 최종 식별 결과 형성까지 소모되는 시간은100ms미만이다. 원격 자연 언어 처리 서비스는 일상 생활의 80%이상의 사용 장면을 커버 할 수 있으며 신속하게 입력되는 자연 언어와 관련되는 모든 영역을 명중하며 처리시간은 일반적으로10-20ms사이이다. 종합적으로 네트워크가 안정된 상황에서 본 발명의 전체 음성 식별 과정은 500ms을 초과하지 않는다.
원격 언어 처리 모듈의 작업 명령을 실행하는 실행 모듈; 본 발명의 실시 예 중에서 해당 실행 모듈은 미디어 모듈에 대한 컨트롤을 통하여 원격 언어 처리 모듈이 발송하는 작업 명령을 실행한다.예를 들면 음악 재생, 네비게이션 실행, 메세지 발송, 조명 컨트롤 등 작업이다.
사용자는 인간의 교류에 가장 적합한 교류방식 즉 음성, 자연 언어를 사용하여 교류한다. 이상의 모듈은 공통적으로 본 발명의 로봇 시스템이 자연 언어를 통하여 실시간 입력과 실시간 피드백을 진행하는 것을 보증하며 시스템의 성능의 동력 소비량의 평형 및 전체시스템의 온정성을 보증한다.
이와 동시에 본 발명은 일종의 상기 식별 시스템의 식별 방법을 제공하며 해당 식별 방법은,
마이크를 이용하여 실시간으로 외부의 음성 신호를 수신하는 단계;
로컬 음성 검측기를 이용하여 현재의 음성 신호가 목소리를 포함하였는지를 판단하며 목소리를 포함할 경우 로컬 음성 식별 모듈로 출력하는 단계;
로컬 음성 식별 모듈을 이용하여 음성 신호를 식별하고 현재의 음성 신호에 각성 명령을 포함하는지를 판단하며 각성 명령을 포함 할 경우 음성 신호를 로컬 음성 코딩 모듈에 출력하는 단계;
로컬 음성 코딩 모듈에서 음성 신호의 코딩을 진행 한 뒤 원격 음성 코딩 모듈에 전송하는 단계;
원격 음성 코딩 모듈에서 수신한 음성 신호에 대해 해독한 뒤 원격 음성 식별 모듈에 전송하는 단계;
원격 음성 식별 모듈을 이용하여 원격 음성 해독 모듈에 출력한 음성 신호를 전환하여 원격 언어 처리 모듈에 전송하는 단계;
원격 언어 처리 모듈이 전환한 음성 신호에 의거하여 상응한 작업 명령을 생성하는 단계;
실행 모듈이 미디어 모듈에 대한 컨트롤을 통하여 작업 명령을 실행 하는 단계;를 포함한다.
로컬 음성 식별 모듈에서 식별한 현재의 음성 신호에 각성 명령이 포함될 때 로컬 음성 식별 모듈은 닫히게 되며 음성 신호는 로컬 음성 코딩 모듈에서 코딩을 진행 한 뒤 직접 원격 음성 코딩 모듈에 전송하여 해독하며 원격 음성 식별 모듈에 전송한다.
도1을 참조하면 로봇의 이름을 “R2”로 가정하고 주인이 로봇에게 "R2, 기분이 좋지 않아, 음악을 재생해줘"라고 말하면 지속적으로 오픈 상태에 있던 마이크가 수신한 데이터는 로컬 음성 검측기를 통과하며 이 단계에서 로컬 음성 검측기가 검측한 음성은 환경 소음이 아닌 목소리로 판정이 되나 로봇은 자신을 상대로 한 대화인지를 확인할 필요가 있다. 이때 해당 음성은 로컬 음성 검측기에서 식별을 진행하며 로컬 음성 식별 서비스는 자신과의 대화를 확인하며(로봇의 이름 "R2"를 불렀기 때문이다.) 이후의 대화는 자신과의 대화로 인식하며 해당 음성은 원격 음성 해독 모듈에 전송되여 해독 한 뒤 원격 음성 식별 서비스에 출력되여 식별을 진행하며 자연 언어의 분석이 진행되고 분석후 주인이 표현하는 내용은"기분이 좋지 않아, 음악이 필요"로 받아들여지며 로봇은 주인을 위해 "힐링음악을 재생" 하며 상기 결정을 로컬 시스템에 발송하여 최종적으로 로컬 시스템은 해당 결과로 "힐링음악"을 검색하여 재생을 시작한다.
상기 내용을 종합하면 본발명은 상기 기술방안을 적용하여 완전히 음성으로 교류를 진행 할 수 있으며 별도의 유발 동작이 필요하지 않으며 진정한 인간과 로봇의 자연 언어로의 교류가 가능하며 고정적인 문구가 없어도 직장, 생황의 각종영역에 대해 교류를 할수 있으며 실시간 피드백으로 유발 트러블을 최소화하는 상황에서 에너지의 소모를 일정하게 유지할 수 있다.
본 발명은 상술한 특정의 바람직한 실시 예에 한정되지 아니하며 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양하게 변형실시가 가능한 것은 물론이고 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

Claims (9)

  1. 일종의 로봇 시스템의 음성 식별 시스템으로
    음성 명령 수신에 사용되는 마이크;
    음성 명령에 대해 검측하고 현재의 음성 신호에 사람의 목소리가 들어 있는지를 판단하며 목소리를 포함할 경우 출력하는 로컬 음성 검측기;
    음성 검측기가 출력하는 음성 신호를 수신하여 식별하고 현재의 음성 신호가 각성 명령 인지를 판단하며 각성 명령 일 경우 출력하는 로컬 음성 식별 모듈;
    음성 신호에 대해 코딩을 진행한 후 출력하는 로컬 음성 코딩 모듈;
    로컬 음성 코딩 모듈이 출력하는 코딩을 진행한 음성 신호에 대해 해독하고 출력하는 원격 음성 해독 모듈;
    원격 음성 식별 모듈, 원격 언어 처리 모듈, 원격 음성 식별 모듈은 원격 음성 해독 모듈이 출력한 해독이 완료된 음성 신호를 수신하며 전환 후 원격 언어 처리 모듈에 출력하며 원격 언어 처리 모듈은 전환 후의 음성 신호에 의거 상응한 작업 명령을 생성;
    원격 언어 처리 모듈의 작업 명령을 실행하는 실행 모듈;을 포함하는 것을 특징으로 하는 시스템.
  2. 제1항에 있어서,
    상기 음성 식별 시스템은 상기 마이크가 항상 오픈 상태이며 끊임없이 실시간으로 외부의 음성 신호를 수신하는 것을 특징으로 하는 시스템.
  3. 제1항에 있어서,
    상기 음성 식별 시스템은 미디어 모듈을 포함하며 상기 미디어 모듈을 통하여 상기 작업 명령을 실행하는 것을 특징으로 하는 시스템.
  4. 제1항에 있어서,
    상기 음성 식별 시스템은 상기 로컬 음성 식별 모듈이 데이터 스트림의 방식으로 음성 신호를 상기 원격 음성 식별 모듈에 출력하는 것을 특징으로 하는 시스템.
  5. 제1항에 있어서,
    상기 음성 식별 시스템은 각성 명령 편집 모듈이 포함되며 상기 각성 명령을 편집하는 것을 특징으로 하는 시스템.
  6. 제1항에 있어서,
    상기 음성 식별 시스템은 상기 로컬 음성 검측기는 신경 네트워크 연산 방법을 기초로 하는 것을 특징으로 하는 시스템.
  7. 제1항에 있어서,
    상기 음성 식별 시스템은 상기 원격 언어 처리 모듈이 전환한 음성 식별 신호에 의거하여 상응한 작업 명령을 생성하는 처리시간은 10~20ms사이 인것을 특징으로 하는 시스템.
  8. 일종의 제1항 내지 제7항의 임의 항을 적용한 상기 식별 시스템의 식별 방법은
    마이크를 이용하여 실시간으로 외부의 음성 신호를 수신하는 단계;
    상기 로컬 음성 검측기를 이용하여 현재의 음성 신호가 목소리를 포함하였는지를 판단하며 목소리를 포함할 경우 상기 로컬 음성 식별 모듈로 출력하는 단계;
    상기 로컬 음성 식별 모듈을 이용하여 음성 신호를 식별하고 현재의 음성 신호에 각성 명령을 포함하는지를 판단하며 각성 명령을 포함 할 경우 상기 음성 신호를 상기 로컬 음성 코딩 모듈에 출력하는 단계;
    상기 로컬 음성 코딩 모듈에서 음성 신호의 코딩을 진행한 뒤 상기 원격 음성 코딩 모듈에 전송하는 단계;
    상기 원격 음성 코딩 모듈에서 수신한 음성 신호에 대해 해독한 뒤 상기 원격 음성 식별 모듈에 전송하는 단계;
    상기 원격 음성 식별 모듈을 이용하여 상기 원격 음성 해독 모듈에 출력한 음성 신호를 전환하여 상기 원격 언어 처리 모듈에 전송하는 단계;
    상기 원격 언어 처리 모듈이 전환한 음성 신호에 의거하여 상응한 작업 명령을 생성하는 단계;
    상기 실행 모듈이 상기 미디어 모듈에 대한 컨트롤을 통하여 상기 작업 명령을 실행하는 단계;를 포함하는 것을 특징으로 하는 식별 방법.
  9. 제8항에 있어서,
    상기 로컬 음성 식별 모듈에서 식별한 현재의 음성 신호에 각성 명령이 포함될 때 로컬 음성 식별 모듈은 닫히게 되며 음성 신호는 상기 로컬 음성 코딩 모듈에서 코딩을 진행한 뒤 직접 상기 원격 음성 코딩 모듈에 전송하여 해독하며 상기 원격 음성 식별 모듈에 전송하는 것을 특징으로 하는 식별 방법.
KR1020177022361A 2015-01-12 2015-06-12 일종의 로봇 시스템의 음성 식별 시스템 및 식별 방법 KR20170103925A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510015421.6A CN105845135A (zh) 2015-01-12 2015-01-12 一种机器人系统的声音识别系统及方法
CN201510015421.6 2015-01-12
PCT/CN2015/081409 WO2016112634A1 (zh) 2015-01-12 2015-06-12 一种机器人系统的声音识别系统及方法

Publications (1)

Publication Number Publication Date
KR20170103925A true KR20170103925A (ko) 2017-09-13

Family

ID=56405179

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177022361A KR20170103925A (ko) 2015-01-12 2015-06-12 일종의 로봇 시스템의 음성 식별 시스템 및 식별 방법

Country Status (12)

Country Link
US (1) US20160343376A1 (ko)
EP (1) EP3246915A4 (ko)
JP (1) JP6572314B2 (ko)
KR (1) KR20170103925A (ko)
CN (1) CN105845135A (ko)
CA (1) CA2973512A1 (ko)
HK (1) HK1222254A1 (ko)
NZ (1) NZ734339A (ko)
SG (1) SG11201705705SA (ko)
TW (1) TWI576825B (ko)
WO (1) WO2016112634A1 (ko)
ZA (1) ZA201705424B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020251074A1 (ko) * 2019-06-12 2020-12-17 엘지전자 주식회사 음성 인식 기능을 제공하는 인공 지능 로봇 및 그의 동작 방법

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106272481A (zh) * 2016-08-15 2017-01-04 北京光年无限科技有限公司 一种机器人服务的唤醒方法及装置
CN107767880B (zh) * 2016-08-16 2021-04-16 杭州萤石网络有限公司 一种语音检测方法、摄像机和智能家居看护系统
CN106328137A (zh) * 2016-08-19 2017-01-11 镇江惠通电子有限公司 语音控制方法、装置及系统
CN106328138A (zh) * 2016-08-22 2017-01-11 黄广明 一种具有人机对话功能的机器人系统
CN106409306A (zh) * 2016-09-19 2017-02-15 宁波高新区敦和科技有限公司 一种获取人声的智能系统及基于该系统的获取方法
CN106445455A (zh) * 2016-09-29 2017-02-22 深圳前海弘稼科技有限公司 种植设备和种植设备的控制方法
CN108154880A (zh) * 2016-12-05 2018-06-12 广东大仓机器人科技有限公司 能实时分辨环境噪音进行语音识别的机器人
KR101893768B1 (ko) * 2017-02-27 2018-09-04 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
CN106971719A (zh) * 2017-05-16 2017-07-21 上海智觅智能科技有限公司 一种离线可切换唤醒词的非特定音语音识别唤醒方法
CN109093627A (zh) * 2017-06-21 2018-12-28 富泰华工业(深圳)有限公司 智能机器人
US10504511B2 (en) * 2017-07-24 2019-12-10 Midea Group Co., Ltd. Customizable wake-up voice commands
CN107276777B (zh) * 2017-07-27 2020-05-29 苏州科达科技股份有限公司 会议系统的音频处理方法及装置
DE102017216571B4 (de) 2017-09-19 2022-10-06 Volkswagen Aktiengesellschaft Kraftfahrzeug
CN110800045A (zh) * 2017-10-24 2020-02-14 北京嘀嘀无限科技发展有限公司 用于不间断应用唤醒和语音识别的系统和方法
CN107885441A (zh) * 2017-12-06 2018-04-06 子歌教育机器人(深圳)有限公司 智能机器人的新闻播报方法、系统和智能机器人
CN110021294A (zh) * 2018-01-09 2019-07-16 深圳市优必选科技有限公司 机器人的控制方法、装置以及存储装置
CN108228191B (zh) * 2018-02-06 2022-01-25 威盛电子股份有限公司 语法编译系统以及语法编译方法
US11468891B2 (en) * 2018-03-30 2022-10-11 Sony Corporation Information processor, information processing method, and program
CN108986823A (zh) * 2018-09-27 2018-12-11 深圳市易控迪智能家居科技有限公司 一种语音识别解码器及语音操作系统
CN109308900B (zh) * 2018-10-29 2022-04-05 恒玄科技(上海)股份有限公司 耳机装置、语音处理系统和语音处理方法
CN109543578B (zh) * 2018-11-13 2020-12-22 北京猎户星空科技有限公司 智能设备控制方法、装置和存储介质
TWI689826B (zh) * 2019-01-24 2020-04-01 林佩君 音樂視覺化系統
WO2021015308A1 (ko) * 2019-07-19 2021-01-28 엘지전자 주식회사 로봇 및 그의 기동어 인식 방법
CN111976924A (zh) * 2020-08-12 2020-11-24 厦门大学 一种用于潜水全面罩的实时信息交流装置
CN117086871B (zh) * 2023-08-30 2024-02-06 合肥中科深谷科技发展有限公司 一种开放式机器人交互控制系统

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
JP2004341033A (ja) * 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
US20070150104A1 (en) * 2005-12-08 2007-06-28 Jang Choul S Apparatus and method for controlling network-based robot
JP5018773B2 (ja) * 2006-05-26 2012-09-05 日本電気株式会社 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
WO2007138503A1 (en) * 2006-05-31 2007-12-06 Philips Intellectual Property & Standards Gmbh Method of driving a speech recognition system
JP5075664B2 (ja) * 2008-02-15 2012-11-21 株式会社東芝 音声対話装置及び支援方法
JP5163202B2 (ja) * 2008-03-18 2013-03-13 株式会社国際電気通信基礎技術研究所 物品推定システム
CN102013254A (zh) * 2010-11-17 2011-04-13 广东中大讯通信息有限公司 一种数字电视语音识别人机交互系统及方法
US10032127B2 (en) * 2011-02-18 2018-07-24 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
CN202446811U (zh) * 2011-12-20 2012-09-26 安徽科大讯飞信息科技股份有限公司 一种用于玩具的智能语音操控装置
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
CN103839549A (zh) * 2012-11-22 2014-06-04 腾讯科技(深圳)有限公司 一种语音指令控制方法及系统
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
CN103095911B (zh) * 2012-12-18 2014-12-17 苏州思必驰信息科技有限公司 一种通过语音唤醒寻找手机的方法及系统
EP3709293A1 (en) * 2013-03-12 2020-09-16 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
US9316400B2 (en) * 2013-09-03 2016-04-19 Panasonic Intellctual Property Corporation of America Appliance control method, speech-based appliance control system, and cooking appliance
CN103714815A (zh) * 2013-12-09 2014-04-09 何永 语音控制方法及其设备
CN103729193A (zh) * 2014-01-11 2014-04-16 苏州思必驰信息科技有限公司 一种人机交互方法及装置
CN104253902A (zh) * 2014-07-21 2014-12-31 宋婉毓 与智能语音设备进行语音交互的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020251074A1 (ko) * 2019-06-12 2020-12-17 엘지전자 주식회사 음성 인식 기능을 제공하는 인공 지능 로봇 및 그의 동작 방법
US11810575B2 (en) 2019-06-12 2023-11-07 Lg Electronics Inc. Artificial intelligence robot for providing voice recognition function and method of operating the same

Also Published As

Publication number Publication date
HK1222254A1 (zh) 2017-06-23
US20160343376A1 (en) 2016-11-24
SG11201705705SA (en) 2017-08-30
EP3246915A4 (en) 2019-01-09
TW201626363A (zh) 2016-07-16
CN105845135A (zh) 2016-08-10
CA2973512A1 (en) 2016-07-21
JP6572314B2 (ja) 2019-09-04
ZA201705424B (en) 2019-09-25
NZ734339A (en) 2020-08-28
TWI576825B (zh) 2017-04-01
EP3246915A1 (en) 2017-11-22
WO2016112634A1 (zh) 2016-07-21
JP2018507434A (ja) 2018-03-15

Similar Documents

Publication Publication Date Title
KR20170103925A (ko) 일종의 로봇 시스템의 음성 식별 시스템 및 식별 방법
Subhash et al. Artificial intelligence-based voice assistant
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
CN110047481B (zh) 用于语音识别的方法和装置
CN107799126A (zh) 基于有监督机器学习的语音端点检测方法及装置
CN112151015B (zh) 关键词检测方法、装置、电子设备以及存储介质
CN111179928A (zh) 一种基于语音交互的变配电站智能控制方法
CN114330371A (zh) 基于提示学习的会话意图识别方法、装置和电子设备
KR20190068021A (ko) 감정 및 윤리 상태 모니터링 기반 사용자 적응형 대화 장치 및 이를 위한 방법
CN112735418A (zh) 一种语音交互的处理方法、装置、终端及存储介质
KR101548907B1 (ko) 다중언어의 대화시스템 및 그 제어방법
WO2016027909A1 (ja) データ構造、音声対話装置及び電子機器
CN112309396A (zh) 一种ai虚拟机器人状态动态设置系统
KR20210051523A (ko) 도메인 자동 분류 대화 시스템
Kos et al. A speech-based distributed architecture platform for an intelligent ambience
CN109887490A (zh) 用于识别语音的方法和装置
US20220020368A1 (en) Output apparatus, output method and non-transitory computer-readable recording medium
CN114999496A (zh) 音频传输方法、控制设备及终端设备
Song et al. Multi-speaker Multi-style Speech Synthesis with Timbre and Style Disentanglement
Patil et al. Voice Assistant-A Review
CN109785836B (zh) 交互方法和装置
KR102258531B1 (ko) 복합 입력 인지 시스템용 통합 인지 분석부
CN111783892B (zh) 一种机器人指令识别方法、装置及电子设备和存储介质
AU2017101077A4 (en) A voice recognition system of a robot system and method thereof
WO2023092399A1 (zh) 语音识别方法、语音识别装置及系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application