KR20220109467A - 요청 대화에서의 오류 정정 및 추출 - Google Patents

요청 대화에서의 오류 정정 및 추출 Download PDF

Info

Publication number
KR20220109467A
KR20220109467A KR1020227024030A KR20227024030A KR20220109467A KR 20220109467 A KR20220109467 A KR 20220109467A KR 1020227024030 A KR1020227024030 A KR 1020227024030A KR 20227024030 A KR20227024030 A KR 20227024030A KR 20220109467 A KR20220109467 A KR 20220109467A
Authority
KR
South Korea
Prior art keywords
user
operating mode
machine
training
neural network
Prior art date
Application number
KR1020227024030A
Other languages
English (en)
Inventor
스테판 콘스탄틴
알렉산더 와이벨
Original Assignee
줌 비디오 커뮤니케이션즈, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 줌 비디오 커뮤니케이션즈, 인크. filed Critical 줌 비디오 커뮤니케이션즈, 인크.
Publication of KR20220109467A publication Critical patent/KR20220109467A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Manipulator (AREA)

Abstract

시스템은 사용자로부터의 요청에 따라 동작하도록 구성되는 기계 및 기계에 대한 사용자로부터의 작동 모드 대화 스트림을 감지하기 위한 감지 수단을 포함한다. 시스템은 또한 기계 학습을 통해 신경망을 훈련시켜 훈련 대화 스트림 데이터 세트의 각 훈련 예시에 대해, 기계에 대한 정정된 요청을 출력하도록 구성되는 컴퓨팅 시스템을 포함한다. 컴퓨팅 시스템은 또한 작동 모드에서 훈련된 신경망을 사용하여, 기계에 대한 사용자로부터의 작동 모드 대화 스트림에 기초하여 기계에 대한 정정된 작동 모드 요청을 생성하도록 구성되고, 작동 모드 대화 스트림은 감지 수단에 의해 감지된다.

Description

요청 대화에서의 오류 정정 및 추출
본 출원은, 본원과 동일한 발명의 명칭 및 발명자로 2019년 12월 13일에 출원된 미국 가출원 제62/947,946호에 대한 우선권을 주장하며, 이의 내용은 전체로서 참조에 의해 본원에 포함된다.
오류와 모호성은 대화에서 회피하기가 곤란하다. 정정은 오류로부터 복구하고 모호성을 해소하는 것을 허용한다. 예를 들어, 가정용 로봇은 "세척된 칼을 날붙이 서랍에 넣어주세요(Put the cleaned knives into the cutlery drawer)"라는 요청을 받았지만 로봇은 서랍 중 어느 것이 날붙이 서랍인지 알지 못한다. 로봇은 서랍 중 하나를 선택하고 그곳에 칼을 넣을 수 있다. 그 선택이 잘못된 경우, 사용자는 예컨대, "아니요, 싱크대 오른쪽 서랍에(No, into the drawer right of the sink)"와 같이 로봇을 정정해야 한다. 다르게는, 로봇은 서랍 중 어느 것이 날붙이 서랍인지 물어볼 수 있다. 인간의 명료화 응답, 예컨대, "싱크대의 오른쪽 서랍입니다(It's the drawer right of the sink,)"는 또한 본 응답이 모호성을 해소하기 때문에 정정이다. 다른 유형의 정정은 예컨대, "마음을 바꿨어요, 포크(I changed my mind, the forks)"와 같이 사용자가 그들의 마음을 바꿀 때 발생한다.
이러한 모든 정정 유형은 동일한 방식으로 처리될 수 있고, 따라서 본 발명은 하나의 일반적인 측면에서, 요청 및 정정을 얻고 정정된 요청을 출력하는 소프트웨어 기반의 기계 학습 구성 요소에 관한 것이다. 하나의 구현에서, 이 정정된 요청을 얻기 위해 정정 구문의 개체가 요청의 그의 대응하는 개체를 대체한다. "아니요, 싱크대 오른쪽 서랍에"라는 그 정정과 함께인 "세척된 칼을 날붙이 서랍에 넣어주세요"라는 요청은 "세척된 칼을 싱크대 오른쪽 서랍에 넣어주세요"로 변환된다. 이러한 구성 요소는 실제 대화 구성 요소에서 정정을 처리하는 것과 비교하여 두 가지 이점을 갖는다. 첫째로, 오픈 도메인 정정 구성 요소가 있는 경우 정정은 학습될 필요가 없기 때문에 실제 대화 구성 요소에 필요한 훈련 데이터의 양을 감소시킨다. 둘째로, 이러한 종류의 정정 구성 요소는 레파란둠 및 리페어 개체의 쌍을 출력할 수 있도록 확장될 수 있다. 이 예시에서, 하나의 쌍: 날붙이 서랍과 싱크대 오른쪽 서랍이 있다. 이러한 개체 쌍은 예를 들어, 향후 대화에서 정정될 필요성을 감소시키기 위해 예컨대, 로봇은 서랍 중 어느 것이 날붙이 서랍인지 학습할 수 있는 것과 같이, 대화 시스템의 평생 학습 구성 요소에서 학습하는데 사용될 수 있다.
따라서, 하나의 일반적인 측면에서, 본 발명은 기계, 감지 수단, 및 컴퓨터 시스템을 포함하는 시스템에 관한 것이다. 예를 들어, 로봇이나 컴퓨터일 수 있는 기계는 사용자로부터의 요청에 따라 동작하도록 구성된다. 감지 수단은 기계에 대한 사용자로부터의 작동 모드 대화 스트림을 감지하기 위한 것이다. 컴퓨터 시스템은 훈련 대화 스트림 데이터 세트의 각 훈련 예시에 대해 기계에 대한 정정된 요청을 출력하기 위해 기계 학습을 통해 훈련된 신경망을 포함한다. 컴퓨터 시스템은 또한 작동 모드에서, 훈련된 신경망을 사용하여, 사용자로부터의 작동 모드 대화 스트림에 기초하여 기계에 대한 정정된 작동 모드 요청을 생성하도록 구성된다.
다른 일반적인 측면에서, 본 발명은 기계 학습을 통해 신경망을 훈련시켜 훈련 대화 스트림 데이터 세트의 각 훈련 예시에 대해 기계에 대한 정정된 요청을 출력하는 단계를 포함하는 방법에 관한 것이며, 기계는 사용자로부터의 요청에 따라 동작하도록 구성된다. 방법은 또한 신경망을 훈련시킨 후 신경망의 작동 모드에서: (i) 기계에 대한 사용자로부터의 작동 모드 대화 스트림을 감지 수단에 의해 감지하는 단계; 및 (ii) 감지 수단과 통신하는 컴퓨터 시스템에 의해, 훈련된 신경망을 사용하여, 작동 모드 대화 스트림에 기초하여 기계에 대한 정정된 작동 모드 요청을 생성하는 단계를 포함한다.
본 발명의 구현을 통해 실현 가능한 이들 및 다른 이점은 다음의 설명으로부터 명백할 것이다.
본 발명의 다양한 구현 및 실시형태는 다음의 도면과 함께 예시로서 본 명세서에 설명된다.
도 1은 리페어 용어로 주석이 달린 유창하지 않은 발화를 도시한다.
도 2는 복사(C) 및 삭제(D) 라벨로 라벨링된 유창하지 않은 발화를 도시한다.
도 3은 리페어 용어로 주석이 달린 요청 및 정정 구문을 도시한다.
도 4는 본 발명의 다양한 실시형태에 따른 시스템을 도시한다.
도 5는 본 발명의 다양한 실시형태에 따른 도 4의 오류 정정 모듈 신경망에 대한 훈련 데이터 세트를 생성하기 위한 예시적인 템플릿을 도시한다.
도 6은 본 발명의 다양한 실시형태에 따른 도 4의 오류 정정 모듈 신경망을 훈련하기 위한 예시에 대한 검증 및 테스트 데이터 세트 사이즈를 도시한다.
도 7은 본 발명의 다양한 실시형태에 따른 시퀀스 라벨링 및 시퀀스 대 시퀀스 접근법을 도시한다.
도 8은 본 발명의 다양한 실시형태에 따른 도 4의 오류 정정 모듈 신경망에 대한 평가 결과를 나열한다.
도 9는 본 발명의 다양한 실시형태에 따른 도 4의 컴퓨터 시스템을 도시한다.
요청 정정 작업은 눌변(disfluency) 제거 작업에 관한 것이다. 눌변 제거에는 (어떤 개체가 교체되어야 하는) 레파란둠(reparandum), (정정이 시작되는) 중단 지점, (어떤 구문이 정정을 위한 신호 구문인) 인터레그넘(interregnum) 및 리페어 구문(repair phrase)(정확한 개체)이 있다. 도 1은 이 용어로 주석이 달린 유창하지 않은 발화를 도시한다.
눌변 제거를 위해 많은 작업이 수행되었다. 이러한 작업에서는, 유창한 발화를 얻기 위해 유창하지 않은 발화의 토큰(token)을 삭제하는 것으로 충분하다고 가정한다. 복사 및 삭제 라벨이 있는 유창하지 않은 발화는 도 2에 도시된다. 그러나 정정 작업에서 장거리 교체가 발생할 수 있다. 이러한 장거리 교체는 도 3에 도시된다.
하나의 일반적인 측면에서, 본 발명은 요청 또는 대화 스트림(dialog stream)에서 오류 정정을 수행하는 시스템에 관한 것이다. 도 4는 다양한 실시형태에 따른 시스템의 예시이다. 도 4에 도시된 바와 같이, 시스템(10)은 사용자 및 기계를 포함할 수 있고, 사용자는, 예를 들어, 요청(11A) 및 필요한 경우 기계를 위한 정정(11B)을 포함하는 대화 스트림과 같은 교환 또는 통신을 출력한다. 정정(11B)은, 예를 들어 (직접적으로 또는 간접적으로) 기계로부터의 (가청의(audible) 또는 텍스트) 질문에 응답하여 또는 기계에 의한 부정확한 동작을 보거나 다른 방식으로 감지하는 사용자에 응답하여 사용자에 의해 발행될 수 있다. 기계는 로봇이 움직일 수 있는, 도 4에 도시된 전기 기계 로봇(12)과 같이, 사용자로부터의 대화 스트림의 명령 또는 요청에 응답하여 동작을 수행하는 임의의 기계일 수 있다. 다른 실시형태에서, 기계는 예를 들어, 노트북, PC, 서버, 워크스테이션, 메인프레임, 모바일 디바이스(예컨대, 스마트폰 또는 태블릿 컴퓨터), 웨어러블 컴퓨터 디바이스 또는 디지털 개인 비서와 같은 컴퓨터 디바이스일 수 있다. 또 다른 구현에서, 기계는 주방 또는 기타 가전 제품, 전동 공구, 의료 디바이스, 의료 진단 디바이스, 자동차 시스템(예컨대, 차량의 전자 또는 엔진 제어 유닛(ECU)) 등과 같은 프로세서(들)을 포함하는 기기 또는 도구일 수 있다. 기계는 또한 자율 주행 차량과 같은 자율적인 모바일 디바이스이거나 그 일부일 수 있다.
도 4에 도시된 바와 같이, 다양한 구현에서, 시스템(10)은 사용자로부터 (예컨대, 요청(11A) 및 정정(11B)을 포함하는) 대화 스트림을 수신하고 그로부터 기계에 대한 정정된 요청을 생성하는 컴퓨터 시스템(14)을 포함한다. 컴퓨터 시스템(14)은 사용자로부터의 요청 및 정정을 감지하기 위한 감지 수단을 포함할 수 있다. 예를 들어, 사용자가 가청 요청을 발행하는 도 4의 예시에서 도시된 바와 같이, 감지 수단은 마이크(들)(16)와 마이크(16)에 의해 픽업된 사용자로부터의 가청 발언을 처리하기 위한 자연어 처리(natural language processing, NLP) 모듈(18)을 포함할 수 있다. 컴퓨터 시스템(14)은 또한 오류 정정 모듈(20)을 포함하고, 상기 오류 정정 모듈(20)은, 바람직하게는, 예를 들어 수신된 대화 스트림에 기초하여 기계에 대한 정정된 요청을 생성하도록 훈련된 기계 학습 신경망(machine-learning neural network)을 구현한다. 컴퓨터 시스템(14)은 또한 로봇/기계에 정정된 요청을 출력하는 출력 디바이스(19)를 포함할 수 있다.
감지 수단은 도 4에 도시된 바와 같이, 마이크(16) 및 NLP 모듈(18)을 포함할 수 있다. 이와 관련하여, 사용자에 의한 응답(예컨대, 정정)은 구두 응답일 수 있다. 다른 구현에서, 시스템(10)의 맥락 및 목적에 따라, 다른 유형의 감지 수단이 마이크에 (추가하여 또는 대신에) 사용될 수 있다. 예를 들어, 감지 수단은 또한 사용자(또는 누군가 또는 다른 것)에 의해 로봇(12)에 부여되는 정정된 모션을 감지하는 로봇(12) 상의 모션 센서와 같은 모션 센서를 포함할 수 있다. 주방 로봇을 예로 사용하여, 사용자는 로봇(12)을 날붙이 서랍 쪽으로 밀 수 있고 컴퓨터 시스템(14)은 정정된 요청을 생성하기 위해 사용자로부터 로봇(12)에 입력된 그 감지된 모션을 정정으로서 사용할 수 있다. 모션 센서는 가속도계 및/또는 자이로스코프(gyroscope)일 수 있다.
감지 수단은 또한 경우에 따라, (1) 사용자로부터의 물리적 응답, 모션 또는 제스처와 같은 모션을 캡처하는 카메라 및 (2) 사용자로부터의 물리적 응답, 모션 또는 제스처를 요청(11A) 또는 명료화(clarification)(11B)로 해석하도록 훈련된 모듈(예컨대, 신경망)을 포함할 수 있다. 또한, 감지 수단은 예를 들어, (1) 사용자로부터의 터치 입력을 수신하는 컴퓨터 시스템(14) 상의 터치 감응 디스플레이 및 (2) 사용자로부터의 터치 입력을 해석하기 위한 모듈을 포함할 수 있다. 또한, 감지 수단은 사용자로부터의 텍스트를 수신하고 처리하기 위한 소프트웨어 프로그램을 포함할 수 있다. 예를 들어, 사용자는 "앱"(예컨대, 모바일 디바이스용 소프트웨어 애플리케이션) 또는 다른 유형의 컴퓨터 프로그램(예컨대, 브라우저)을 활용하여 로봇(12)에 대한 텍스트 기반 요청 및 정정을 포함하는 텍스트 기반 대화 스트림을 생성할 수 있다.
이와 관련하여, 본 명세서에 사용되는 "대화 스트림"이라는 용어는 단지 음성 단어 또는 텍스트를 포함하는 대화에 제한되지 않는다. 오히려, 대화 스트림은 카메라 시스템에 의해 인식되는 음성 단어, 텍스트, 제스처, 터치 사용자 인터페이스에 의해 수신되는 입력, 사용자에 의해 로봇에 부여되는 감지된 모션 등을 포함하여 요청 및 명료화를 만들기에 적합한 형식 또는 양식으로의 요청 시퀀스 및 요청에 대한 후속 명료화일 수 있다. 또한 기존의 요청과 명료화는 동일하거나 다른 양식을 사용할 수 있다. 예를 들어, 기존 요청은 음성 단어 또는 텍스트를 포함할 수 있고 후속 명료화는 사용자에 의해 인식된 제스처, 터치 사용자 인터페이스를 통해 사용자로부터 수신된 입력, 사용자에 의해 로봇에 부여되는 감지된 모션 등을 포함할 수 있다. 또한 사용자는 1인일 필요가 없다. 한 사람은 초기 요청을 할 수 있고 다른 사람은 명료화를 할 수 있다. 또한 사용자는 사람일 필요도 없지만, 대신 가상 비서(예컨대, 애플 시리(Apple Siri), 구글 어시스턴트(Google Assistant), 아마존 알렉사(Amazon Alexa) 등) 또는 일부 다른 유형의 지능형 시스템과 같은 지능형 시스템일 수 있다.
기계에 대한 사용자 요청은, 예를 들어 기계에 대한 직접적인 요청 또는 명령일 수 있다. 주방 기반 로봇 기계의 경우, 요청 또는 명령은 "차를 만들어 주세요"와 같은 것일 수 있다. 사용자 요청은 또한 기계에 대한 사용자의 인지된 또는 검출된 의도와 같이 덜 직접적일 수 있다. 주방 기반 로봇의 예를 계속하면, 사용자는 "차를 마시고 싶어요"라고 말할 수 있다. 이 경우 기계는 "차를 마시다"라는 사용자의 의도를 주방 로봇이 차를 만들라는 요청으로 번역하도록 훈련될 수 있다. 따라서, 본 명세서에 사용되는 용어인 "사용자 의도"는 기계에 대한 사용자에 의한 의도를 지칭하며, 사용자 의도는 기계에 대한 직접적인 요청 또는 명령일 수 있지만 또한 기계의 사용자에 대한 인지된 의도일 수 있다.
또한, 시스템의 다양한 실시형태 및 구현이 사용자와 기계 사이의 "대화 스트림"과 관련하여 본원에 설명되지만 "대화 스트림"이 반드시 음성 대화를 포함할 필요는 없다는 것이 설명으로부터 명확해야 하고; 반드시 순차적 대화가 필요한 것이 아니며; 그리고 반드시 두 사람의 대화(예컨대, 사용자와 기계)로 제한되지 않는다. 예를 들어, 본 명세서에 설명되는 바와 같이, 스피치에 더하여 또는 스피치 대신에, 사용자는 텍스트 또는 모션을 사용하여 기계에 대한 사용자 의도를 표현할 수 있다. 모션은 제스처, 고개 끄덕임, 사용자에 의해 기계에 부여되는 움직임 등일 수 있다. 감지 수단은 사용자에 의해 표현되는 임의의 형태의 사용자 의도를 검출하도록 구성되어야 한다. 이와 관련하여, 감지 수단은 마이크, 텍스트 또는 스피치를 위한 NLP, 모션 센서, 카메라, 압력 센서, 근접 센서, 습도 센서, 주변 광 센서, GPS 수신기, 및/또는 (예컨대, 터치 감응 디스플레이를 통해 사용자로부터의 입력을 수신하기 위한) 터치 감응 디스플레이를 포함할 수 있다. 사용자와 기계 사이의 대화 스트림 또는 의사소통 교환은 순차적일 필요가 없다. 스트림 또는 교환의 전부 또는 일부는 병렬 또는 동시적일 수 있다.
도 4는 컴퓨터 시스템(14)이 사용자 및 기계로부터 개별적이고 분리된 것으로 도시한다. 이 도시된 실시형태에서, 컴퓨터 시스템(14)은 가청의 정정된 요청을 발행할 수 있고, 이 경우에 출력 디바이스(19)는 로봇(12)의 마이크에 의해 픽업되고 그에 따라 로봇에 의해 처리되는 로봇(12) 부근의 확성기이다. 다른 구현에서, 출력 디바이스(19)는 무선 네트워크를 통해 로봇(12)에 전자 무선 통신을 발행하는 무선 통신 회로이다. 무선 데이터 네트워크는 애드혹(ad hoc) 및/또는 블루투스 네트워크, 지그비(Zigbee) 네트워크, Wi-Fi 네트워크, 무선 메시(mesh) 네트워크와 같은 기반 시설 무선 네트워크, 또는 임의의 기타 적합한 무선 네트워크를 포함할 수 있다.
다른 구현에서, 컴퓨터 시스템(14)은 로봇/기계(12)의 일부이거나 로봇/기계(12)와 통합될 수 있다. 즉, 예를 들어, 감지 수단 및 오류 정정 모듈(19)은 로봇/기계(12)의 일부이거나 로봇/기계(12)와 통합될 수 있다. 그 경우에, 출력 디바이스(19)는 로봇/기계(12)의 작동을 제어하는 로봇/기계(12)의 제어기에 데이터 버스(data bus)를 통해 명령을 발행할 수 있다.
컴퓨터 시스템(14)은 또한 분산 시스템을 포함할 수 있다. 예를 들어, 마이크(14) 또는 다른 입력 디바이스는 원격 NLP 모듈(18) 및 오류 정정 모듈(20)과 무선 통신하는 사용자가 보유, 사용 또는 휴대하는 디바이스의 일부일 수 있다. 예를 들어, NLP 모듈(18) 및 오류 정정 모듈(20)은 마이크(또는 다른 입력 디바이스)로부터 멀리 떨어진 클라우드 컴퓨팅 시스템 또는 다른 컴퓨팅 시스템의 일부일 수 있다. 그 경우에, 입력 디바이스는 NLP 모듈(18)과 무선 통신(예컨대, 애드혹 및/또는 Wi-Fi와 같은 기반 시설 무선 네트워크)할 수 있다.
오류 정정 모듈(20)은 사용자로부터 수신된 대화 스트림에 기초하여 로봇/기계에 대한 정정된 요청을 생성하기 위해 충분한 훈련 예시를 통해 훈련되는, 심층 신경망과 같은, 하나 이상의(예컨대, 앙상블의) 기계 학습 네트워크로 구현될 수 있다. 다양한 구현에서, 훈련은 로봇/기계에 대한 의도된 컨텍스트(context) 또는 도메인을 고려하고 레버리지(leverage)할 수 있다. 예를 들어, 주방 로봇 예의 경우, 오류 정정 모듈(20)은 대화 스트림을 레버리지할 수 있고 및/또는 정정된 요청은 주방과 관련된 용어(예컨대, 서랍, 나이프, 포크 등)를 포함할 가능성이 있다. 유사하게, 의료 진단 설정의 경우, 오류 정정 모듈(20)은 대화 스트림을 레버리지할 수 있고 및/또는 정정된 요청은 의료 용어 등을 포함할 가능성이 있다.
다음은 신경망을 훈련하는 한 가지 방법을 설명한다. 요청 및 대응하는 정정을 갖는 데이터 세트가 생성될 수 있다. 오류 동작 및 명료화 질문과 같은 로봇/기계의 출력은 데이터 세트의 일부가 아니다. 예를 들어, 훈련 데이터 세트는 주방 로봇과 같은 특정 도메인에 있을 수 있다. 데이터 세트의 한 버전은 명시된 대상을 명시된 위치로 가져오고 명시된 레시피를 요리하는 작업에 집중할 수 있다. 여러 명의(예컨대, 7명) 참가자 각각으로부터, 명시된 대상을 명시된 위치로 가져오는 작업에 대한 다수의(예컨대, 20개) 발화 및 그에 따른 다수의(예컨대, 20개) 정정 응답이 수집될 수 있다. 참가자 각각으로부터, 명시된 레시피를 요리하는 작업에 대한 수개의(예컨대, 10개) 발화 및 그에 따른 수개의(예컨대, 10개) 정정 응답이 다시 수집될 수 있다. 수집된 데이터의 예시로는 "세척된 칼을 날붙이 서랍에 넣어주세요"라는 요청, "아니요, 싱크대 오른쪽 서랍에"라는 로봇의 잘못된 동작에 대한 정정, "싱크대의 오른쪽 서랍입니다"라는 명료화 또는 "마음을 바꿨어요, 포크."라는 사용자의 변심이 있다. 정정 응답은 대상, 위치, 대상과 위치 또는 레시피를 정정하거나 명료화 하기 위해 수집되었다. 수집된 데이터는 자연어의 다양성을 포괄하려 시도하는 템플릿을 구축하는 데 사용되었다. 이 다양성을 증가시키기 위해 동의어, 새로운 대상, 새로운 위치 및/또는 새로운 레시피가 수집된 데이터에 추가될 수 있다. 예제 템플릿은 도 5에 도시된다. 예를 들어, 요청에 대한 15개의 템플릿이 생성될 수 있고 정정 응답에 대한 45개의 템플릿이 생성될 수 있어, 74,309개의 요청 및 정정 쌍이 오류 정정 모듈(20)을 훈련하는데 사용될 수 있도록 한다.
이 컨텍스트에서 데이터 세트는 2개의 타겟을 가질 수 있다. 제1 타겟은 정정된 요청인 한편 제2 타겟은 레파란둠 및 리페어 개체의 쌍이다. 검증 및 테스팅 데이터 세트에서 다음의 4개의 능력인: 미지의 개체; 미지의 템플릿; 미지의 개체 및 템플릿; 및 도메인 외부의 템플릿 및 개체 처리가 테스트될 수 있다. 미지의 개체 처리를 테스트하기 위해 훈련 데이터 세트의 템플릿이 사용될 수 있고 모든 개체는 훈련 데이터 세트에서 발생하지 않는 개체로 교체될 수 있다. 자연어의 다양성에 대한 일반화를 테스트하기 위해 훈련 데이터 세트의 모든 템플릿이 동일한 의미를 갖는 미지의 템플릿으로 교체될 수 있다. 설명된 테스트 모두를 조합하기 위해, 오직 미지의 개체와 템플릿이 사용될 수 있다. 예를 들어, 훈련된 모델이 다른 도메인이나 재훈련 없이 작업에 사용될 수 있는지 여부를 테스트하기 위해, 제품을 구매하고 특정 대상을 특정 위치에 부착하는 새로운 작업이 사용될 수 있다. 한 변형에서, 검증을 위한 400개의 요청 및 정정 쌍과 테스트를 위한 1727개의 쌍이 사용된다. 도 6의 표는 개별 테스트에 대한 쌍의 수를 도시한다.
정정 및 추출을 위해 시퀀스 라벨링 접근법(sequence labeling approach)이 다양한 실시형태에 사용될 수 있다. 이러한 실시형태에서, 신경망은 요청 및 정정의 모든 단어 토큰을 C(복사), D(삭제), R1(잠재적으로 교체될 개체 1), R2(잠재적으로 교체될 개체 2), S1(개체 1을 대체할 개체) 또는 S2(개체 2를 대체할 개체)를 위한 토큰과 같이, 특정 토큰으로 라벨링하도록 훈련된다. 정정 타겟의 경우, S1 및 S2로 라벨링된 개체는 각각 R1 및 R2로 라벨링된 개체를 대체하는데 사용될 수 있다. 추출 타겟의 경우, 출력은 R1 및 S1 쌍뿐만 아니라 R2 및 S2 쌍일 수 있다. 도 7은 예제 요청 및 정정 쌍에 대한 라벨링을 도시하며 두 타겟 모두 제공된다. 시퀀스 라벨링을 위해, 케이스 BERT 기본 모델의 미세 조정된 버전(12개의 변압기 블록, 768개의 숨겨진 사이즈, 12개의 자기 주의 헤드(self-attention head) 및 110M 매개변수를 포함함)은 명명된 개체 인식 도구(Named Entity Recognition tool)와 함께 사용될 수 있다. 케이스 BERT(변압기로부터의 양방향 인코더 표현(Bidirectional Encoder Representations from Transformers)) 기본 모델에 대한 세부사항은 2019년 전산언어학협회(NACL) 북미지 회의 2019년 회의록, J. Devlin 외, "BERT: Pre-training of deep bidirectional transformers for language meaning"에서 확인할 수 있으며, 상기 내용은 전체로서 참조에 의해 본원에 포함된다. 예를 들어, 훈련 데이터 세트의 3개의 에포크(epoch)는 2e-5의 시작 미세 조정 학습률로 미세 조정될 수 있다. 이 컨텍스트에서 변압기는 순차적 데이터를 처리하지만 순차적 데이터가 순서대로 처리될 필요는 없는 심층 학습(deep learning) 모델이다.
시퀀스 라벨링 접근법의 대안으로, 정정된 스트림이 뉴런 네트워크로부터 직접 출력되는 시퀀스 대 시퀀스 접근법이 사용될 수 있다. 시퀀스 대 시퀀스 접근법의 경우, 변압기 모델은 훈련될 수 있거나 사전 훈련된 변압기 모델은 미세 조정될 수 있다. 변압기 훈련에 대한 세부 사항은 Vaswani 외, "Attention Is All You Need," arXiv 1706.03762(2017)에 제공되며; 사전 훈련된 변압기 모델의 미세 조정에 대한 세부 사항은 Raffel 외, "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer", arXiv 1910.10683(2019)에 제공된다.
아키텍처(architecture)는 메트릭(metric) 정확도로 평가될 수 있다. 이러한 평가에서 타겟, 정정된 요청과 레파란둠 및 리페어 개체 쌍 모두가 그들의 참조와 동일하면 요청 및 정정 쌍은 올바르게 전환될 수 있다. 도 8은 본 발명의 하나의 예시적인 인스턴스를 위한 데이터 세트에 대한 결과를 도시한다. 이 평가된 실시형태에서, 훈련된 개체를 미지의 개체로 교체하거나 훈련된 템플릿을 미지의 템플릿으로 교체하는 것은 훈련된 모델에 문제를 일으키지 않았다. 각각 98.54% 또는 97.03%의 정확도가 획득되었다. 이 둘의 조합은 성능을 90.24%로 감소시켰다. 이 예시에서 도메인 외부의 개체 및 템플릿에 대해 88.35%의 정확도가 획득되었다.
따라서, 오류 정정 모듈은 로봇/기계를 제어하기 위한 대화 스트림의 훈련 데이터 세트를 기반으로 정정된 스트림 또는 정정된 요청을 출력하도록 훈련되는 기계 학습 신경망(또는 신경망의 집합)을 포함할 수 있고, 훈련 데이터 세트 스트림은 기존 요청 및 후속 명료화를 포함할 수 있다. 훈련되고 작동 모드에 있으면, 오류 정정 모듈은 마이크 또는 기타 감지 수단에 의해 감지된 대화 스트림에 기초하여 로봇/기계에 대한 정정된 스트림을 생성할 수 있다. 예를 들어, 오류 정정 모듈의 신경망은 적절한 훈련 예시로 훈련되어 요청에서 레파란둠과 요청에 대한 정정에서 리페어를 식별하고, 식별된 레파란둠 및 리페어를 기반으로 기계에 대한 정정된 스트림을 생성할 수 있다. 오류 정정 모듈은 또한 식별된 레파란둠 및 리페어로부터 새로운 정보를 학습하기 위해 신경망과 같은 다른 기계 학습 시스템을 포함할 수 있다. 다시 부엌의 예를 사용하여 기존 요청이 "포크를 날붙이 서랍에 넣어주세요"이고 정정이 "냉장고 왼쪽 서랍 말고; 냉장고 오른쪽에 있는 서랍이어야 합니다"이면 오류 정정 모듈(20)은 날붙이 서랍이 냉장고 오른쪽에 있다는 것을 학습할 수 있어, 시스템의 후속 사용을 위해 컴퓨터 시스템(14)이 정정 없이 정정된 요청을 만들 수 있도록 한다. 예를 들어, 기존 요청이 "포크를 날붙이 서랍에 넣어주세요"인 경우 새로운 지식과 함께 오류 정정 모듈(20)은 자동으로 "포크를 냉장고 오른쪽에 있는 날붙이 서랍에 넣어주세요"라는 정정된 요청을 만들 수 있다.
오류 정정 모듈의 신경망(들)은 선택적으로 고정된 사이즈 또는 고정적이지 않은 사이즈의 출력 어휘를 가질 수 있다. 특히, 신경망에 대한 시퀀스 라벨링 접근법은 C, R1, R2, D, S1, S2와 같은 고정된 사이즈의 출력 어휘를 가질 수 있다. 시퀀스 대 시퀀스 접근법(정정된 대화로부터 정확한 대화가 직접 추론됨)에서 고정된 사이즈의 어휘 접근법에 추가하여 고정적이지 않은 사이즈의 어휘(예컨대, 정정을 포함하여 간주되는 대화의 모든 토큰) 접근법이 사용될 수 있다. 이러한 접근법에서 단어 토큰은 예를 들어, 전체 단어 또는 단어의 하위 부분일 수 있다.
감지 수단은 감지 양식의 조합을 포함할 수 있다. 부엌의 예를 계속하면 사용자의 정정은 위치를 가리키는 동시에 "여기"라는 단어를 언급하는 것일 수 있다. 이는 지시적인 응답/정정의 예시이다. 마이크/NLP는 사용자에 의한 발화 "여기"를 검출할 수 있고 카메라는 사용자가 가리키는 위치를 감지할 수 있다. 따라서, 사용자의 기존 요청이 "칼을 날붙이 서랍에 넣어주세요"이고 냉장고 오른쪽 서랍을 가리키면서 "아니요, 여기입니다"라고 말하는 것이 정정인 경우, 오류 정정 모듈(20)은 "칼을 냉장고 오른쪽에 있는 날붙이 서랍에 넣어주세요"라는 정정된 요청을 생성할 수 있다.
도 9는 다양한 실시형태에 따른 컴퓨터 시스템(14)의 도면이다. 도시된 컴퓨터 시스템(14)은, 도시된 실시형태에서, 프로세서 코어의 다중(N) 세트(2404A-N)를 각각 포함하는 다중 프로세서 유닛(2402A-B)을 포함한다. 각각의 프로세서 유닛(2402A-B)은 온보드 메모리(onboard memory)(ROM 또는 RAM)(도시되지 않음) 및 오프 보드 메모리(off-board memory)(2406A-B)를 포함할 수 있다. 온보드 메모리는 1차, 휘발성 및/또는 비휘발성 스토리지(예컨대, 프로세서 코어(2404A-N)에 의해 직접 액세스할 수 있는 스토리지)를 포함할 수 있다. 오프 보드 메모리(2406A-B)는 ROM, HDD, SSD, 플래시 등과 같은 2차, 비휘발성 스토리지(예컨대, 프로세서 코어(2404A-N)에 의해 직접 액세스할 수 없는 스토리지)를 포함할 수 있다. 프로세서 코어(2404A-N)는 CPU 코어, GPU 코어 및/또는 Al 가속기 코어일 수 있다. GPU 코어는 병렬로 작동하므로(예컨대, 범용 GPU(GPGPU) 파이프라인) 통상적으로 CPU 코어 집합보다 데이터를 더 효율적으로 처리할 수 있지만 GPU의 모든 코어는 한 번에 동일한 코드를 실행한다. AI 가속기는 인공 신경망을 가속화하도록 설계된 마이크로프로세서의 클래스이다. 이들은 또한 전형적으로 호스트 프로세서(2410)를 구비한 디바이스의 코프로세서(coprocessor)로서 사용된다. AI 가속기는 보통 AI 가속기의 8비트 정밀도 대 CPU 코어의 64비트 정밀도와 같이 CPU 코어보다 낮은 정밀도로 작동하는 수만 개의 매트릭스 승수 유닛(matrix multiplier unit)을 갖는다.
다양한 실시형태에서, 상이한 프로세서 코어(2404)는 NLP 모듈(18) 및/또는 오류 정정 모듈(20)의 상이한 구성 요소를 훈련 및/또는 구현할 수 있다. 예를 들어, 하나의 실시형태에서, 제1 프로세서 유닛(2402A)의 코어는 NLP 모듈(18)울 구현할 수 있고 제2 프로세서 유닛(2402B)은 오류 정정 모듈(20)을 구현할 수 있다. 하나 이상의 호스트 프로세서(2410)는 프로세서 유닛(2402A-B)을 조정하고 제어할 수 있다. 다른 실시형태에서, 시스템(2400)은 하나의 프로세서 유닛(2402)으로 구현될 수 있다. 다중 프로세서 유닛이 있는 실시형태에서, 프로세서 유닛은 같은 위치에 배치되거나 분산될 수 있다. 예를 들어, 프로세서 유닛(2402)은 적합한 유선 및/또는 무선 데이터 통신 링크를 사용하여 LAN, WAN, 인터넷 등과 같은 데이터 네트워크에 의해 상호 연결될 수 있다. 데이터는 데이터 버스(바람직하게는 고속 데이터 버스) 또는 네트워크 링크(예컨대, 이더넷(Ethernet))와 같은 적합한 데이터 링크를 사용하여 다양한 처리 유닛(2402) 사이에서 공유될 수 있다.
NLP 모듈(18) 및 오류 정정 모듈(20) 및 본원에서 설명되는 기타 컴퓨터 기능을 위한 소프트웨어는 .NET, C, C++ 또는 Python과 같은 임의의 적합한 컴퓨터 프로그래밍 언어를 사용하고 전통적인, 기능적인 또는 객체 지향 기법을 사용하여 컴퓨터 소프트웨어로 구현될 수 있다. 예를 들어, 오류 정정 모듈(20)은 컴퓨터 판독 가능 매체, 예컨대, RAM, ROM, 2차 스토리지 등에 저장되거나 다른 방식으로 유지되는 소프트웨어 모듈로 구현될 수 있다. 그 후, 기계 학습 시스템의 하나 이상의 처리 코어(예컨대, CPU 또는 GPU 코어)는 소프트웨어 모듈을 실행하여 각각의 기계 학습 시스템(예컨대, 학생, 코치 등)의 기능을 구현할 수 있다. 컴퓨터 소프트웨어 및 기타 컴퓨터 구현 명령어를 위한 프로그래밍 언어는 실행 전에 컴파일러(compiler)나 어셈블러(assembler)에 의해 기계어로 번역될 수 있고 및/또는 인터프리터(interpreter)에 의해 런타임(run time)에 직접 번역될 수 있다. 어셈블리 언어의 예시는 ARM, MIPS 및 x86을 포함하고; 고급 언어의 예시는 Ada, BASIC, C, C++, C#, COBOL, Fortran, Java, Lisp, Pascal, Object Pascal, Haskell, ML을 포함하며; 스크립팅 언어(scripting languages)의 예시는 Bourne script, JavaScript, Python, Ruby, Lua, PHP 및 Perl을 포함한다.
따라서, 하나의 일반적인 측면에서, 본 발명은 지능형 컴퓨터 기반 시스템 및 방법에 관한 것이다. 다양한 구현에 따른 시스템은 사용자로부터의 사용자 의도(예컨대, 요청)에 따라 동작하도록 구성된 기계 및 기계에 대한 사용자로부터의 작동 모드 통신(예컨대, 대화 스트림)을 감지하기 위한 감지 수단을 포함한다. 시스템은 또한 감지 수단과 통신하는 컴퓨터 시스템을 포함한다. 컴퓨터 시스템은 기계 학습을 통해 신경망을 훈련시켜 훈련 데이터 세트의 각 훈련 예시에 대해 기계에 대한 정정된 사용자 의도(요청)를 출력하도록 구성된다. 컴퓨터 시스템은 또한 작동 모드에서 훈련된 신경망을 사용하여 기계에 대한 사용자로부터의 작동 모드 통신(대화 스트림)을 기반으로 기계에 대한 정정된 작동 모드 사용자 의도(요청)를 생성하도록 구성되고, 작동 모드 통신(대화 스트림)은 감지 수단에 의해 감지된다.
본 발명에 따른 방법은 기계 학습을 통해 신경망을 훈련시켜 훈련 대화 스트림 데이터 세트의 각 훈련 예시에 대해 기계에 대한 정정된 요청을 출력하는 단계를 포함할 수 있고, 기계는 사용자로부터의 요청에 따라 동작하도록 구성된다. 방법은 또한, 신경망을 훈련시킨 후 신경망의 작동 모드에서: 감지 수단에 의해 기계에 대한 사용자로부터의 작동 모드 대화 스트림을 감지하는 단계; 및 감지 수단과 통신하는 컴퓨터 시스템에 의해 훈련된 신경망을 사용하여 작동 모드 대화 스트림에 기초하여 기계에 대한 정정된 작동 모드 요청을 생성하는 단계를 포함한다.
다양한 구현에 따르면, 훈련 대화 스트림 데이터 세트는 훈련 대화 스트림을 포함하고, 훈련 대화 스트림은 각각 기계에 대한 훈련 요청 및 훈련 요청에 대한 훈련 정정을 포함하고; 작동 모드 대화 스트림은 기계에 대한 작동 모드 요청 및 요청에 대한 작동 모드 정정을 포함한다.
다양한 구현에 따르면, 신경망은 훈련 대화 스트림 데이터 세트의 훈련 요청에서 레파란둠을 식별하고 훈련 대화 스트림 데이터 세트의 훈련 요청에 대한 정정에서 훈련 리페어를 식별하고, 훈련 대화 스트림 데이터 세트의 식별된 레파란둠 및 리페어에 기초하여 기계에 대한 정정된 요청을 생성하도록 훈련된다. 신경망은 또한 작동 모드에서, 작동 모드 요청에서 식별된 작동 모드 레파란둠 및 작동 모드 정정에서 식별된 작동 모드 리페어를 기반으로 기계에 대한 정정된 작동 모드 요청을 생성하도록 구성된다.
다양한 구현에서, 신경망은, 작동 모드에서, 기계에 대한 제2 작동 모드 요청에서 식별된 작동 모드 레파란둠 및 기계에 대한 이전 작동 모드 대화 스트림에서 식별된 작동 모드 리페어에 기초하여 기계에 대한 제2 작동 모드 정정 요청을 생성하도록 구성된다.
다양한 구현에서, 신경망은 훈련 대화 스트림 데이터 세트의 대화 스트림에서 단어 토큰에 라벨을 할당하고 할당된 라벨을 기반으로 훈련 대화 스트림 데이터 세트의 각 훈련 예시에 대해 정정된 요청을 결정하도록 훈련된다.
다양한 구현에서, 기계는 로봇을 포함한다. 이러한 구현에서, 사용자에 의한 작동 모드 정정은 로봇에 의한 부정확한 동작에 대한 사용자에 의한 응답을 포함할 수 있다. 또한, 감지 수단은 로봇에 의한 부정확한 행동에 대한 사용자에 의한 응답을 감지하기 위한 수단을 포함할 수 있다. 또한, 응답은 사용자에 의한 물리적 응답, 사용자에 의한 구두 응답, 사용자에 의한 지시적 응답 및 사용자에 의한 제스처로 구성되는 그룹으로부터 선택된 응답을 포함할 수 있다.
다양한 구현에서, 기계는 컴퓨터, 모바일 디바이스, 기기, 홈 엔터테인먼트 시스템, 개인 비서, 자동차 시스템, 헬스케어 시스템 또는 의료 디바이스와 같은 프로세서 기반 디바이스를 포함한다.
다양한 구현에서, 감지된 작동 모드 요청은 사용자로부터의 오디오를 포함하고; 감지 수단은 마이크와 자연어 프로세서(NLP)를 포함한다. 또한, 감지된 작동 모드 요청은 텍스트를 포함하는 전자 메시지를 포함할 수 있고; 감지 수단은 전자 메시지의 텍스트를 처리하기 위한 자연어 프로세서(NLP)를 포함할 수 있다. 또한, 감지 수단은 모션 센서, 카메라 및 터치 감응 디스플레이를 포함할 수 있다. 감지 수단은 기계의 일부일 수 있고; 컴퓨터 시스템은 기계의 일부일 수 있다.
본원에 제시되는 실시예는 본 발명의 잠재적이고 특정한 구현을 예시하도록 의도된다. 실시예는 주로 당해 기술 분야의 통상의 기술자를 위한 본 발명의 예시의 목적을 위해 의도된 것임을 이해할 수 있다. 실시예의 특정 측면 또는 측면이 반드시 본 발명의 범위를 제한하도록 의도되지 않는다. 나아가, 본 발명의 도면 및 설명은 명료함을 위해 다른 요소를 제거하면서 본 발명의 명확한 이해에 관련된 요소를 예시하기 위해 단순화되었음을 이해해야 한다. 다양한 실시형태가 본 명세서에 설명되었지만, 당해 기술 분야의 통상의 기술자라면 이점들 중 적어도 일부의 달성과 함께 이러한 실시형태에 대한 다양한 수정, 변경 및 개조에 상도할 수 있음은 명백하다. 따라서, 개시된 실시형태는 본 명세서에 설명되는 실시형태의 범위로부터 벗어남 없이 이러한 모든 수정, 변경 및 개조를 포함하도록 의도된다.

Claims (26)

  1. 시스템으로서, 상기 시스템은:
    사용자로부터의 사용자 의도에 따라 동작하도록 구성되는 기계;
    상기 기계에 대한 상기 사용자로부터의 작동 모드 통신을 감지하기 위한 감지 수단; 및
    상기 감지 수단과 통신하는 컴퓨터 시스템을 포함하고, 상기 컴퓨터 시스템은:
    기계 학습(machine learning)을 통해 신경망(neural network)을 훈련시켜 훈련 데이터 세트의 각 훈련 예시에 대해, 상기 기계에 대한 하나 이상의 정정된 사용자 의도를 출력하고; 그리고
    작동 모드에서, 상기 훈련된 신경망을 사용하여, 상기 기계에 대한 상기 사용자로부터의 상기 작동 모드 통신 - 상기 작동 모드 통신은 상기 감지 수단에 의해 감지됨 - 에 기초하여 상기 기계에 대한 하나 이상의 정정된 작동 모드 사용자 의도를 생성하도록 구성되는, 시스템.
  2. 제1항에 있어서,
    상기 훈련 데이터 세트는 훈련 통신을 포함하고, 상기 훈련 통신은 각각 상기 기계에 대한 훈련 사용자 의도 및 상기 훈련 사용자 의도에 대한 훈련 정정을 포함하고; 그리고
    상기 작동 모드 통신은 상기 기계에 대한 작동 모드 사용자 의도 및 상기 작동 모드 사용자 의도에 대한 작동 모드 정정을 포함하는, 시스템.
  3. 제2항에 있어서, 상기 신경망은:
    상기 훈련 데이터 세트의 상기 훈련 사용자 의도에서 레파란둠(reparandum)을 식별하고 상기 훈련 데이터 세트의 상기 훈련 사용자 의도에 대한 정정에서 훈련 리페어(repair)를 식별하여, 상기 훈련 데이터 세트의 상기 식별된 레파란둠 및 리페어를 기반으로 상기 기계에 대한 상기 하나 이상의 정정된 사용자 의도를 생성하도록 훈련되고; 그리고
    상기 작동 모드에서, 상기 작동 모드 사용자 의도에서 식별된 작동 모드 레파란둠 및 상기 작동 모드 정정에서 식별된 작동 모드 리페어에 기초하여 상기 기계에 대한 상기 하나 이상의 정정된 작동 모드 사용자 의도를 생성하도록 구성되는, 시스템.
  4. 제3항에 있어서, 신경망은, 상기 작동 모드에서, 상기 기계에 대한 제2 작동 모드 사용자 의도에서 식별된 작동 모드 레파란둠 및 상기 기계에 대한 이전 작동 모드 통신에서 식별된 작동 모드 리페어에 기초하여 상기 기계에 대한 제2 작동 모드 정정된 사용자 의도를 생성하도록 구성되는, 시스템.
  5. 제3항에 있어서, 상기 컴퓨터 시스템은 상기 작동 모드 사용자 의도에서 식별된 레파란둠과 상기 식별된 레파란둠에 대한 상기 하나 이상의 정정된 사용자 의도 사이의 관계를 학습하도록 훈련되는 제2 신경망을 더 포함하는, 시스템.
  6. 제1항에 있어서, 상기 신경망은 고정된 사이즈의 출력 어휘를 갖는, 시스템.
  7. 제3항에 있어서, 상기 신경망은 상기 훈련 데이터 세트의 통신에서 단어 토큰(token)에 라벨을 할당하고 상기 할당된 라벨에 기초하여 상기 훈련 데이터 세트의 각 훈련 예시에 대해 상기 하나 이상의 정정된 사용자 의도를 결정하도록 훈련되는, 시스템.
  8. 제1항에 있어서, 상기 신경망은 고정된 사이즈의 출력 어휘를 갖지 않는, 시스템.
  9. 제2항에 있어서, 상기 기계는 로봇을 포함하는, 시스템.
  10. 제9항에 있어서,
    상기 사용자에 의한 상기 작동 모드 정정은 상기 로봇에 의한 부정확한 동작에 대한 상기 사용자에 의한 응답을 포함하고; 그리고
    상기 감지 수단은 상기 로봇에 의한 상기 부정확한 동작에 대한 상기 사용자에 의한 상기 응답을 감지하기 위한 수단을 포함하는, 시스템.
  11. 제10항에 있어서, 상기 응답은 상기 사용자에 의한 물리적 응답, 상기 사용자에 의한 구두 응답, 상기 사용자에 의한 지시적(deictic) 응답 및 상기 사용자에 의한 제스처로 구성되는 그룹으로부터 선택된 응답을 포함하는, 시스템.
  12. 제1항에 있어서, 상기 기계는 컴퓨터, 모바일 디바이스, 기기, 홈 엔터테인먼트 시스템, 개인 비서, 자동차 시스템, 헬스케어 시스템 및 의료 디바이스로 구성되는 그룹으로부터 선택된 프로세서 기반 디바이스를 포함하는, 시스템.
  13. 제1항에 있어서,
    상기 감지된 작동 모드 사용자 의도는 상기 사용자로부터의 오디오를 포함하고; 그리고
    상기 감지 수단은 마이크와 자연어 프로세서(Natural Language Processor, NLP)를 포함하는, 시스템.
  14. 제1항에 있어서,
    상기 감지된 작동 모드 사용자 의도는 텍스트를 포함하는 전자 메시지를 포함하고; 그리고
    상기 감지 수단은 상기 전자 메시지의 상기 텍스트를 처리하기 위한 자연어 프로세서(NLP)를 포함하는, 시스템.
  15. 제1항에 있어서, 상기 감지 수단은 모션 센서, 카메라, 압력 센서, 근접 센서, 습도 센서, 주변 광 센서, GPS 수신기 및 터치 감응 디스플레이로 구성되는 그룹으로부터 선택된 센서를 포함하는, 시스템.
  16. 제1항에 있어서, 상기 감지 수단은 상기 기계의 일부인, 시스템.
  17. 제1항에 있어서, 상기 컴퓨터 시스템은 상기 기계의 일부인, 시스템.
  18. 제1항에 있어서, 상기 기계에 대한 상기 사용자로부터의 상기 사용자 의도는 상기 기계에 대한 상기 사용자로부터의 명령적(imperative) 요청을 포함하는, 시스템.
  19. 제1항에 있어서, 상기 감지 수단에 의해 감지되는 상기 작동 모드 통신은 텍스트, 스피치, 제스처, 머리 움직임, 동작과 같은 물리적인 것으로 구성되는 그룹으로부터 선택된 통신 양식(modality)을 포함하는, 시스템.
  20. 제1항에 있어서, 상기 감지 수단에 의해 감지되는 상기 작동 모드 통신은 대화 스트림(dialog stream)을 포함하고, 상기 대화 스트림은 상기 사용자로부터의 대화를 포함하는, 시스템.
  21. 방법으로서, 상기 방법은:
    기계 학습을 통해 신경망을 훈련시켜 훈련 데이터 세트의 각 훈련 예시에 대해 기계에 대한 하나 이상의 정정된 사용자 의도를 출력하는 단계 - 상기 기계는 사용자로부터의 사용자 의도에 따라 동작하도록 구성됨 -; 및
    상기 신경망을 훈련시킨 후 상기 신경망의 작동 모드에서:
    상기 기계에 대한 사용자로부터의 작동 모드 통신을 감지 수단에 의해 감지하는 단계; 및
    상기 감지 수단과 통신하는 컴퓨터 시스템에 의해, 상기 훈련된 신경망을 사용하여, 상기 감지 수단에 의해 감지된 상기 작동 모드 통신에 기초하여 상기 기계에 대한 하나 이상의 정정된 작동 모드 사용자 의도를 생성하는 단계
    를 포함하는, 방법.
  22. 제21항에 있어서,
    상기 훈련 데이터 세트는 훈련 통신을 포함하고, 상기 훈련 통신은 각각 상기 기계에 대한 훈련 사용자 의도 및 상기 훈련 사용자 의도에 대한 훈련 정정을 포함하고; 그리고
    상기 작동 모드 통신은 상기 기계에 대한 작동 모드 사용자 의도 및 상기 사용자 의도에 대한 작동 모드 정정을 포함하는, 방법.
  23. 제22항에 있어서,
    상기 신경망을 훈련시키는 단계는 상기 신경망을 훈련시켜 상기 훈련 데이터 세트의 상기 훈련 사용자 의도에서 레파란둠을 식별하고 상기 훈련 데이터 세트의 상기 훈련 사용자 의도에 대한 정정에서 훈련 리페어를 식별하여, 상기 훈련 데이터 세트의 상기 식별된 레파란둠 및 리페어를 기반으로, 상기 기계에 대한 상기 하나 이상의 정정된 사용자 의도를 생성하는 단계를 포함하고; 그리고
    상기 작동 모드에서 상기 하나 이상의 정정된 사용자 의도를 생성하는 단계는 상기 작동 모드 사용자 의도에서 식별된 작동 모드 레파란둠 및 상기 작동 모드 정정에서 식별된 작동 모드 리페어에 기초하여 상기 기계에 대한 상기 하나 이상의 정정된 작동 모드 사용자 의도를 생성하는 단계를 포함하는, 방법.
  24. 제23항에 있어서, 상기 작동 모드에서, 상기 신경망에 의해, 상기 기계에 대한 제2 작동 모드 사용자 의도에서 식별된 작동 모드 레파란둠 및 상기 기계에 대한 이전 작동 모드 통신에서 식별된 작동 모드 리페어에 기초하여 상기 기계에 대한 제2 작동 모드 정정된 사용자 의도를 더 포함하는, 방법.
  25. 제22항에 있어서,
    상기 기계는 로봇을 포함하고;
    상기 사용자에 의한 상기 작동 모드 정정은 상기 로봇에 의한 부정확한 동작에 대한 상기 사용자에 의한 응답을 포함하고; 그리고
    상기 작동 모드 통신을 감지하는 단계는 상기 로봇에 의한 상기 부정확한 동작에 대한 상기 사용자에 의한 상기 응답을 상기 감지 수단에 의해 감지하는 단계를 포함하는, 방법.
  26. 제25항에 있어서, 상기 응답을 감지하는 단계는 상기 사용자에 의한 물리적 응답, 상기 사용자에 의한 구두 응답, 상기 사용자에 의한 지시적 응답, 및 상기 사용자에 의한 제스처로 구성되는 그룹으로부터 선택된 반응을 상기 감지 수단에 의해 감지하는 단계를 포함하는, 방법.
KR1020227024030A 2019-12-13 2020-12-14 요청 대화에서의 오류 정정 및 추출 KR20220109467A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962947946P 2019-12-13 2019-12-13
US62/947,946 2019-12-13
PCT/US2020/064828 WO2021119586A1 (en) 2019-12-13 2020-12-14 Error-correction and extraction in request dialogs

Publications (1)

Publication Number Publication Date
KR20220109467A true KR20220109467A (ko) 2022-08-04

Family

ID=76329096

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227024030A KR20220109467A (ko) 2019-12-13 2020-12-14 요청 대화에서의 오류 정정 및 추출

Country Status (5)

Country Link
US (1) US20230013768A1 (ko)
EP (1) EP4073612A4 (ko)
JP (1) JP2023505835A (ko)
KR (1) KR20220109467A (ko)
WO (1) WO2021119586A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023212260A1 (en) * 2022-04-28 2023-11-02 Theai, Inc. Agent-based training of artificial intelligence character models

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7860719B2 (en) * 2006-08-19 2010-12-28 International Business Machines Corporation Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers
US9514098B1 (en) * 2013-12-09 2016-12-06 Google Inc. Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
JP6667855B2 (ja) * 2016-05-20 2020-03-18 日本電信電話株式会社 取得方法、生成方法、それらのシステム、及びプログラム
JP2019005842A (ja) * 2017-06-23 2019-01-17 カシオ計算機株式会社 ロボット、ロボットの制御方法及びプログラム
US10562181B2 (en) * 2017-07-03 2020-02-18 X Development Llc Determining and utilizing corrections to robot actions
US10853396B2 (en) * 2017-12-22 2020-12-01 Sap Se Intelligent natural language query processor
US10800039B2 (en) * 2018-01-23 2020-10-13 General Electric Company Controlling and commanding an unmanned robot using natural interfaces
US10431207B2 (en) * 2018-02-06 2019-10-01 Robert Bosch Gmbh Methods and systems for intent detection and slot filling in spoken dialogue systems
US20190340485A1 (en) * 2018-05-07 2019-11-07 Phuc Ngo Method and system for generating a responsive communication from a chatbot to network with plant monitoring systems
US11157704B2 (en) * 2018-06-18 2021-10-26 DataChat.ai Constrained natural language processing

Also Published As

Publication number Publication date
EP4073612A4 (en) 2024-01-03
EP4073612A1 (en) 2022-10-19
WO2021119586A1 (en) 2021-06-17
JP2023505835A (ja) 2023-02-13
US20230013768A1 (en) 2023-01-19

Similar Documents

Publication Publication Date Title
Schuster et al. Cross-lingual transfer learning for multilingual task oriented dialog
JP7066349B2 (ja) 翻訳方法、翻訳装置及びコンピュータプログラム
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
US11823061B2 (en) Systems and methods for continual updating of response generation by an artificial intelligence chatbot
WO2021120543A1 (zh) 基于自然语言和知识图谱的表示学习方法及装置
WO2019200923A1 (zh) 基于拼音的语义识别方法、装置以及人机对话系统
TWI753325B (zh) 產生機器翻譯模型的計算裝置及方法及機器翻譯裝置
US20190324744A1 (en) Methods, systems, articles of manufacture, and apparatus for a context and complexity-aware recommendation system for improved software development efficiency
CN105074817B (zh) 用于使用手势来切换处理模式的系统和方法
JP4331219B2 (ja) 二言語単語対応付けの方法および装置、二言語単語対応モデルを訓練する方法および装置
EP3642834A1 (en) Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
CN104850542B (zh) 非可听语音输入校正
JP2022003539A (ja) テキスト誤り訂正方法、装置、電子機器及び記憶媒体
KR20190073525A (ko) 기계 학습 작업의 암시적 브리징
KR20210158344A (ko) 디지털 어시스턴트를 위한 머신 러닝 시스템
US9454525B2 (en) Information extraction in a natural language understanding system
CN105468585A (zh) 机器翻译装置和机器翻译方法
CN110222350A (zh) 将双语预定义翻译对融入神经机器翻译模型的方法
KR20220109467A (ko) 요청 대화에서의 오류 정정 및 추출
CN113782030B (zh) 基于多模态语音识别结果纠错方法及相关设备
US11968088B1 (en) Artificial intelligence for intent-based networking
WO2023226767A1 (zh) 模型训练方法和装置及语音含义的理解方法和装置
CN108304389A (zh) 交互式语音翻译方法及装置
WO2024044014A1 (en) Concept-conditioned and pretrained language models based on time series to free-form text description generation
KR20210071890A (ko) 독해 모델 트레이닝 방법 및 독해 처리 방법