KR101689290B1 - 대화에서 정보를 추출하는 장치 - Google Patents

대화에서 정보를 추출하는 장치 Download PDF

Info

Publication number
KR101689290B1
KR101689290B1 KR1020147028069A KR20147028069A KR101689290B1 KR 101689290 B1 KR101689290 B1 KR 101689290B1 KR 1020147028069 A KR1020147028069 A KR 1020147028069A KR 20147028069 A KR20147028069 A KR 20147028069A KR 101689290 B1 KR101689290 B1 KR 101689290B1
Authority
KR
South Korea
Prior art keywords
speaker
language
speech
translation
recognized
Prior art date
Application number
KR1020147028069A
Other languages
English (en)
Other versions
KR20140142280A (ko
Inventor
알렉산더 웨이벨
Original Assignee
페이스북, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 페이스북, 인크. filed Critical 페이스북, 인크.
Publication of KR20140142280A publication Critical patent/KR20140142280A/ko
Application granted granted Critical
Publication of KR101689290B1 publication Critical patent/KR101689290B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0486Drag-and-drop
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명에서는 2명의 화자 사이의 사람-대-사람의 단일-언어 또는 다중-언어 대화 중 정보를 추출하는 컴퓨터-구현 시스템 및 방법이 개시된다. 인식된 제2 화자에 의한 음성(또는 그 번역) 및/또는 인식된 제1 화자에 의한 음성(또는 그 번역)으로부터 정보가 추출된다. 이후, 추출된 정보는 데이터 스토어에 저장된 전자 서식으로 입력된다.

Description

대화에서 정보를 추출하는 장치{DEVICE FOR EXTRACTING INFORMATION FROM A DIALOG}
본 출원은 (1) 2013년 2월 6일에 출원된 발명의 명칭이 "DEVICE FOR EXTRACTING INFORMATION FROM A DIALOG"인 미국특허출원 제13/760,535호 및 (2) 2012년 3월 8일에 출원된 발명의 명칭이 "SPEECH TRANSLATION DEVICE WITH INFORMATION EXTRACTION"인 미국 가특허출원 제61/608,334호의 우선권을 주장하며, 양 출원은 본 명세서에 전체로서 참조로 통합된다.
음성 통신 및 번역 장치는 각각의 다른 언어를 이해하지 못하는 2명의 (또는 그 이상의) 사람들 사이의 통신 장벽을 이어주는 목적을 제공한다. 이는 적어도 하나의 언어 쪽으로 적어도 하나의 음성 번역 시스템이 (1) 음성 인식 엔진, (2) 기계 번역 엔진 및 (3) 다른 언어로 출력을 청자에게 제시하는 출력 생성 인터페이스(이런 출력은 합성 음성, 링크된 웹 클라이언트의 출력 텍스트, 헤드-업 디스플레이, 프로젝터, 특수 오디오-스피커 등으로 제시될 수 있다)의 조합으로 구성되는 배열을 포함한다. 이런 시스템의 목적은 사람-대-사람의 통신을 제공하는 것, 즉 하나의 화자에 의해 표현된 정보인 생각을 다른 언어의 청자에게 전달하는 것이다. 음성 번역 시스템을 개시한 종래의 특허 참조문헌들은 미국특허 제5,712,957호; 미국특허 제6,324,510호; 미국특허 6,963,837호; 미국특허 8,090,570호; 미국특허 제8,204,739호; 미국공개공보 제2007/0271088호; 미국공개공보 제2008/0120091호; 및 미국공개공보 제2011/0307241호를 포함하며, 이들 모두는 본 명세서에 참조로 통합된다. 대안으로, 가령 딕테이션 시스템(dictation systems)이나 데이터 엔트리에 대한 사람-기계 대화 시스템과 같은 시스템들이 레코드 보관용으로 제시되었다. 그러나, 사람-사람 대화는 흔히 레코드 보관이나 데이터 엔트리용으로 추후 필요할 수 있는 정보를 이미 포함한다.
대화 과정에서 전송되는 정보가 또한 다양한 정보 처리 업무에 사용되고 처리되는 많은 상황이 있다. 현재, 이런 정보는 통상 사람-기계 인터페이스의 다른 시스템으로 입력되거나 추가되거나 재입력되어야 하며, 따라서 비경제적이고 시간 소모가 크다. 그러나, 인식되는 대화 정보는 또한 사람-사람의 대화를 "청취(listens)"하는 사람-기계 인터페이스에 직접 이용될 수 있다. 그러므로, 정보가 시람-사람의 대화로부터 암시적으로 추출되는 통합되고 결합된 설계가 본 출원에서 제안된다. 또한, 언어 해석의 목적으로 음성 번역에 사용되는 사람-사람의 대화 처리 기술은 교차-언어뿐 아니라 단일-언어의 대화로부터 정보의 추출을 도와주는데 사용될 수 있다. 본 출원은 2명(또는 그 이상)의 대화 상대자의 음성으로부터 수집된 정보가 대화 과정 중에 기록을 완료하거나 부수적인 서비스를 직접 작동시키는데 사용될 수 있으며, 이로써 시간을 절약하고 원하지 않은 혼란을 방지할 수 있는 기술을 설명한다. 따라서, 본 출원은 하나의 일반적인 태양으로 음성-번역 서비스의 구성요소가 되며 그 능력을 확장하여 암시적 또는 명시적으로 그러나 사람-대-사람의 통신의 부수적인 효과(side-effect)로서 다양한 부수적인 기계 서비스를 통보하고 안내하는 장치를 개시한다. 그렇게 함으로써, 이런 장치는 시간을 절약하고 정보가 더 효과적이고 효율적으로 수집되도록 한다.
예컨대, 의학 분야에 사용되는 음성 번역 장치에서, 2명의 화자(의사와 환자)는 환자가 겪고 있는 질환에 대해 토론중일 수 있다. 이런 대화의 과정에서, 의사는 가령: "열이 좀 있나요(Do you have any fever)", "두통이 좀 있나요(any headache)" 또는 "알레르기가 있나요(do you have any allergies)"와 같이 전부 진단의 부분인 질문들을 할 수 있다. 환자 리포트나 진단에 응답을 입력하는 대신에 그리고 그로 인한 치료법을 기입하는 대신에, 본 발명의 실시예들은 사람-대-사람의 대화 중에 자동으로 이런 리포트를 생성하는데 사용될 수 있다. 본 발명의 실시예들은 사람-대-사람의 대화에서의 부수적인 효과로서 정보를 레코드(record)로 추출하여 작업의 흐름을 간소화하고 통합함으로써 지식 노동자의 수고를 개선할 수 있거나, 사람-사람의 대화에서 레코드로의 이런 정보의 신속하고 효과적인 다중모드 전달을 허용할 수 있고/있거나, 사람-사람의 상호작용 중에 균일하게 레코드 내의 이런 정보의 보정의 보충 데이터 엔트리를 허용할 수 있다.
또한, 이 기술은 사람-사람의 상호작용 레코드를 기초로 게시물-편집 단계로서 적용될 수 있다. 이런 결합된 사람-사람 및 사람-기계의 대화의 하나의 중요한 태양은 오류의 처리이다. 모든 정보가 정확히 인식되고 번역될 수는 없거나, 이후 정확히 추출되고 소기의 레코드에 기입될 수는 없다. 이런 경우, 생성된 레코드를 확인하고 정정하는데 사람의 개입이 필요할 수 있다. 특정 실시예로, 다양한 다중-모드 에러 교정 기술이 레코드를 정정하는데 이용될 수 있다.
또 다른 일반적인 태양으로, 본 발명은 제1 언어로 말하는 제1 화자와 제2 언어로 말하는 제2 화자 사이의 사람-대-사람의 대화의 음성 번역 중 발생하는 모호성(ambiguities)을 해소하는 시스템 및 방법에 관한 것이다. 음성 인식 또는 번역의 일부로서 프로세스 모호성이 감지될 때, 명확화 질의(disambiguation query)가 참가자(예컨대, 화자)에게 송출된다. 응답이 모호성을 해소하고 음성 번역 프로세스가 더 높은 신뢰도로 계속되도록 허용하기 위해 명확화 질의는 문구화(phrased)된다. 터치 스크린 디스플레이가 명확화 질의를 송출하고 화자의 응답을 수신하는데 사용될 수 있다.
본 발명의 내용 중에 포함되어 있다.
본 발명의 다양한 실시예들은 하기의 도면과 함께 예로서 본 명세서에 기술된다:
도 1 내지 5 및 7은 본 발명의 다양한 실시예에 따른 음성 번역 장치의 다이어그램이다.
도 6은 본 발명의 다양한 실시예에 따른 정보 추출 모듈의 프로세스 흐름의 다이어그램이다.
도 8은 본 발명의 다양한 실시예에 따른 상호작용형 명확화 모듈의 프로세스 흐름의 흐름도이다.
도 9는 본 발명의 다양한 실시예에 따라 사람-사람의 대화(2개의 언어, 다수의 언어 또는 단일의 언어)로부터 정보를 추출하고 완성하며 보정하기 위한 상호작용형 사용자 인터페이스의 다이어그램이다.
도 10은 본 발명의 다양한 실시예에 따른 음성 번역 장치의 블록 다이어그램이다.
도 1은 본 발명의 다양한 실시예에 따라 정보를 추출하는 음성 번역 장치(12)의 다이어그램이다. 음성 번역 장치(12)는 예컨대 각각의 2명(또는 그 이상)의 화자로부터 음성을 연속적이거나 동시에 번역하는 연속적이고 동시적인 번역 모드로 동작할 수 있다. 도 1에서는 2개의 언어로 2명의 화자가 도시되지만(즉, 2-방향 시스템), 이 장치는 다수의 화자를 다루도록 확장될 수 있다(예컨대, 다수-(3 이상의) 화자 시스템). 도 1의 실시예에서, 언어 1로 된 화자 1로부터의 입력 음성(또는 발언)은 언어 1을 위한 자동 음성 인식 엔진(ASR 1)으로 입력된다. ASR 1은 예컨대 종래의 자동 음성 인식 기술을 사용하여 언어 1의 입력 음성을 언어 1의 텍스트로 변환한다. ASR 1로부터의 텍스트 출력은 언어 1의 텍스트를 언어 2로 번역하는 기계 번역 엔진(MT 1)으로 입력된다. 이후, MT 1로부터 언어 2로 번역된 음성은 텍스트 디스플레이(14)(예컨대, 컴퓨터 모니터, 스마트폰의 디스플레이 또는 다른 휴대형 컴퓨터 등)에 출력되고/되거나 언어 2를 위한 텍스트-대-음성 합성기(TTS 2)를 사용하여 화자(16)에 의한 언어 2의 음성으로 출력될 수 있다.
마찬가지로, 다른 방향으로, 언어 2로 된 화자 2로부터의 입력 음성은 언어 2를 위한 자동 음성 인식 엔진(ASR 2)으로 입력된다. ASR 2는 예컨대 종래의 자동 음성 인식 기술을 사용하여 언어 2의 입력 음성을 언어 2의 텍스트로 변환한다. ASR 2로부터의 텍스트 출력은 언어 2의 텍스트를 언어 1로 번역하는 기계 번역 엔진(MT 2)으로 입력된다. 이후, MT 2로부터 언어 1로 번역된 음성은 텍스트 디스플레이(14)에 출력되고/되거나 언어 1을 위한 텍스트-대-음성 합성기(TTS 1)를 사용하여 화자(16)에 의한 언어 1의 음성으로 출력될 수 있다. 다시 한번, 다수-당사자 및/또는 다수-언어 대화나 회의를 가능하게 하는 애플리케이션 및 배치에 따라 추가의 언어 방향으로 다수의 추가적인 배열이 추가될 수 있다.
또한, 각각의 방향은 언어 1용 정보 추출 모듈(IEM 1) 및 언어 2용 IEM 2를 포함한다. IEM 1은 ASR 1로부터의 텍스트 출력을 언어 1로 수신하고, IEM 2는 ASR 2로부터의 텍스트 출력을 언어 2로 수신한다. 또한, 다양한 실시예로, 도 1에 도시된 바와 같이, IEM 1은 또한 MT 1로부터 출력을 수신할 수 있고, IEM 2도 또한 MT 2로부터 출력을 수신할 수 있다. IEM들은 사람-대-사람의 대화로부터 관련 정보를 추출하도록 설정된다.
일실시예로, IEM들은 의미 문법(semantic grammar)에 의한 ASR 엔진들(또는 MT들)로부터 텍스트 문장(들)을 파싱(parsing)하는 포맷팅 및 파싱 단계(PARS)에 의해 각각의 ASR들(또는 MT들)로부터 각각의 텍스트 입력을 처리한다. 다양한 실시예로, IEM들은 Phoenix 파서(parser)를 사용하여 ASR 엔진으로부터 텍스트를 파싱할 수 있다. Phoenix 파서에 대한 더 많은 세부사항은 W. Ward의 Proceedings of International Conference on Spoken Language, 1994의 "Extracting Information in Spontaneous Speech" 및 W. Ward의 Proceedings of ICASSP'91, 1991의 "Understanding Spontaneous Speech: the Phoenix System"에서 확인할 수 있으며, 이들 모두 본 명세서에 전체로서 참조로 통합된다. 대안으로, 단지 어떤 예측가능한 정보 클래스(예컨대, 이름, 숫자)가 추출된다면, 가령 클래스 태거(class tagger)와 텍스트 처리 모듈 또는 개체명 태거(named entity tagger)와 같이 더 간소한 배열이 정보 추출에 충분할 수 있다. IEM들은 소기의 정보 클래스의 발생을 감지할 수 있고 이를 추가적인 처리에 적합한 내부 표현으로 변환할 수 있다. 예컨대, "I am fifty six years old"라는 문장에서, 클래스 태거의 역할은 숫자(56)의 발생을 감지하는 것이고 텍스트 처리기는 문자열 "fifty six"를 추가적인 처리에 사용가능한 숫자 엔트리 "56"으로 변환할 수 있다.
도 6은 다양한 실시예에 따른 IEM들의 프로세스 흐름을 도시하는 흐름도이다. 단계 60에서, 파싱 단계는 말해진 문장의 역할 또는 화행(speech act)에 해당하는 의미 프레임(semantic frame)을 할당할 수 있고, 단계 62에서 그 문장 내 키워드(또는 키워드들)를 그 프레임 내 의미 슬롯(semantic slots)에 맵핑할 수 있다. 단계 64에서, 의미 프레임과 슬롯은 이후 전자 서식의 적절한 엔트리로 복사될 수 있는데, 여기서 전자 서식은 이후 결과 리포트를 구성한다. 바람직하기로,서식(28)은 언어 1 또는 언어 2 중 하나로 되어 있다. 동일한 논의에 대해 서식이 언어 1로 되어 있다고 가정하면, 서식(28)은 언어 1로 화자 1로부터 인식된 단어 및/또는 언어 2에서 언어 1로 번역된 화자 2로부터 번역된 단어로 채워진다. 서식은 가령 원격이나 로컬 데이터베이스(26)와 같은 음성 대화 및 추출 시스템(12)의 데이터 스토어에 저장된 전자 서식(28)일 수 있으며, 이런 데이터베이스(26)는 휴대가능한 음성 대화 시스템(12)의 1차 또는 2차 메모리 또는 원격 컴퓨터 시스템의 데이터 스토어에 저장될 수 있다. 사람-사람의 상호작용에서 화자의 역할(예컨대, 의사 또는 환자)에 따라 그리고 문법이나 적용되는 추출 도구에 따라, 결과 서식은 이후 예컨대 진단용, 치료용 또는 처방용으로 사용되는 수요가 많은 정보 레코드를 포함한다.
또 다른 실시예로, 파싱 대신에, IEM들은 의미 프레임 대신에 키워드를 단지 추출하고 이들을 리포트로 복사하는 구두 용어 검출(spoken term detection) 또는 키워드 스포팅(KWS) 모듈을 사용한다. 또한, 이런 키워드 기능은 문자열에서 이름이나 클래스를 식별하는 개체명 또는 클래스 태깅 모듈에 의해 제공될 수 있다. 이는 개체명(적절한 이름, 장소명, 약품, 음식 또는 수치값(무게, 연령,...) 등)이 식별되고 서식/리포트에 채워지는 경우에 특히 유용하다. 개체명과 숫자 표현은 화자 레코드의 준비, 병원 등록, 재난 구조용 난민 등록 등과 같은 요구사항으로 이름을 추출하는데 중요한 역할을 한다. KWS 모듈에 대한 더 많은 세부사항은 L. Ratinov와 D. Roth의 CoNLL (2009)의 "Design Challenges and Misconceptions in Named Entity Recognition" 및 J. R. Finkel, T. Grenager, C. Manning의 Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL 2005), pp.363-370의 "Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling" 및 미국특허 8,204,739에서 살펴볼 수 있으며, 이들 각각은 본 명세서에 전체로서 참조로 통합되어 있다.
또 다른 실시예로, IEM들은 정보 검색(IR) 모듈을 이용한다. IR 모듈(IR1 및 IR2)은 도 2에 도시된 바와 같이 World Wide Web을 포함하는 대용량의 원격 문서 데이터베이스로부터 관련 문서나 응답을 추출할 수 있다. IEM들은 무선(예컨대, WiFi)이나 유선 네트워크 연결을 통해 World Wide Web과 통신할 수 있다. 이런 방식으로, IR 모듈(IR1 및 IR2)은 전사된 입력 문장을 수신하고 그와 관련이 있는 문서로부터 관련 문서나 문자열을 검색한다. IR 모듈(IR1 및 IR2)은 가령 World Wide Web, 위키피디아 기사, Helpfiles, 홍보 자료, 제품 제안 등과 같은 대용량 데이터베이스를 통해 검색을 수행하여, 사용자들이 또 다른 사람과 대화를 하는 동안 관련 기사 또는 설명을 사용자(예컨대, 화자들 중 하나나 또 다른 사용자)에게 제시할 수 있다. 사람-사람의 대화의 부수적인 효과에 따라 그리고 그 효과로서 설명, 관련 광고, 엔터테인먼트, 유머, 뉴스 등의 검색으로의 적용이 가능하다. 특히, 이 실시예는 덜 구조화된 사람-사람의 대화에 아주 적합한데, 여기서 원하는 결과는 구조 리포트가 아니라 관련 정보이다.
도 1 및 2에 도시된 음성 번역 장치(12)는 다양한 모듈(예컨대, ASR 엔진, MT 엔진, TTS 유닛 및 IEM들)에 상응하는 소프트웨어 코드를 실행하는 하나 이상의 프로세서를 가진 컴퓨터-기반 시스템으로서 구현될 수 있다. 예컨대, 도 10과 함께 하기에 더 기술되는 바와 같이, 랜덤 액세스 메모리(RAM)(212) 및/또는 비-휘발성 데이터 저장소(예컨대, ROM)(216)는 ASR 엔진, MT 엔진, TTS 유닛 및 IEM들에 대한 소프트웨어 코드를 저장할 수 있고, 애플리케이션 프로세서(204)는 그 코드를 실행할 수 있다. 일실시예로, 도 1 및 2에 도시된 ASR 엔진, MT 엔진, TTS 유닛 및 IEM들은 가령 개인용 컴퓨터, 랩톱, 태블릿 컴퓨터, 스마트폰 등과 같은 단일의 컴퓨터-기반 장치로 구현될 수 있다. (각 화자당 하나씩) 2개의 마이크로폰(18a, 18b)이 도 1 및 2에 도시되지만, 컴퓨터 장치는 2명(또는 그 이상)의 화자용으로 하나의 마이크로폰을 사용할 수 있다. 텍스트 출력은 컴퓨터 장치 및/또는 화자에 의한 출력의 모니터/디스플레이에 디스플레이될 수 있다. 일부 실시예로, 토글 입력(toggle input)은 2명(또는 그 이상)의 화자 사이를 전환하는데 사용될 수 있다. 다른 실시예로, 음성 번역 장치(12)는 미국출원공개공보 제2011/0307241호에 기술되는 바대로 입력 언어(예컨대, 언어 1 또는 언어 2)를 자동으로 식별할 수 있다. 다양한 실시예들에 따라 서식/리포트를 저장하는 데이터베이스는 컴퓨터 장치의 메모리의 일부일 수 있거나, 데이터가 컴퓨터-기반의 전자식 전화 및/또는 데이터 네트워크를 통해 업로드되는 원격 데이터베이스일 수 있다.
다른 실시예로, 분산형 컴퓨팅 시스템이 사용될 수 있다. 예컨대, 도 3에 도시된 바와 같이, 화자 1과 관련된 컴포넌트(예컨대, ASR 1, MT 1, TTS 2 및 IEM 1)는 하나의 컴퓨터(20)(예컨대, 스마트폰, 개인용 컴퓨터, 랩톱 등)상에 있을 수 있고, 화자 2와 관련된 컴포넌트(예컨대, ASR 2, MT 2, TTS 1 및 IEM 2)는 또 다른 컴퓨터 장치(22)상에 있을 수 있다. MT 1로부터의 출력은 컴퓨터-기반의 전자식 전화 및/또는 데이터 네트워크(24)를 통해 화자 2의 컴퓨터 장치(22)로 전송될 수 있으며, 그 반대의 경우도 마찬가지로, 모든 컴퓨팅은 중앙 서버에서 이루어질 수 있고, 화자 1 및 2는 단지 스마트폰이나 태블릿과 같은 입력/출력 장치만을 휴대한다. 이런 실시예에서, 데이터베이스(26)는 전화 및/또는 데이터 네트워크를 통해 화자의 컴퓨터와 통신할 수 있다.
또한, 본 발명의 다양한 실시예들은 도 4에 도시된 바와 같이 다중모드의 상호작용 인터페이스(MMII)로 확장될 수 있다. 음성 인식 자동형 구두 용어 검출이나 의미 파싱은 전혀 완전하지 않으며, 때때로 관련되거나 중요한 정보의 추출을 놓칠 수 있다. 보고하고 검색하는 기능을 견고하고 효율적으로 동작하도록 하기 위해, 다중모드 상호작용이 다양한 실시예들에서 상호작용형 수단에 의해 핵심 정보를 식별하는데 사용될 수 있다. MMII는 사용자가 시스템과 상호작용하여 추가 정보를 시스템으로 공급할 수 있는 하나 이상의 수단을 포함할 수 있다. 예컨대, 화자의 컴퓨터 장치(32)의 디스플레이(30)는 터치 스크린 디스플레이(30)의 (예컨대, 손가락이나 스타일러스에 의한) 사용자의 터치를 감지하는 터치 스크린일 수 있다. 이런 실시예에서, 화자(화자 1)로부터 인식된 음성의 텍스트는 디스플레이(30)에 디스플레이될 수 있고, 화자(화자 1)는 디스플레이(30)에 나타난 적절한 키워드를 탭핑하여 디스플레이된 텍스트에서 키워드를 식별할 수 있다. 다른 실시예로, 화자(화자 1)는 터치 스크린(30) 및/또는 종래의 컴퓨터 마우스(34)나 키보드(36)를 사용하여 디스플레이(30) 상의 키워드를 드래그하고 그것을 (디스플레이(30) 상에 동시에 디스플레이되는) 서식에 드롭할 수 있다. 또한, 사용자는 구두 입력이 장치(32)의 마이크로폰(38)에 의해 감지되고 음성 인식 소프트웨어(예컨대, ASR1 및 MT1)에 의해 처리되어 서식의 오류를 정정하는 보정을 구두로 입력(예컨대, 용어에 대한 올바른 철자를 구두로 제공)함으로써 서식 내 엔트리를 정정(예컨대, 그 철자를 정정)할 수 있다.
사람-대-사람의 대화로부터의 정보를 서식으로 전달하는 것은 이상적으로는 항상 자동으로 이루어져야 하지만, 다중모드 상호작용은 오류로부터의 견고한 회복 메커니즘을 제공한다. 이런 경우, 2개의 다른 타입의 오류: 누락 및 잘못된 정보가 식별될 수 있다. 누락의 경우, 컴퓨터 장치(예컨대, 도 4의 컴퓨터 장치(32))는 정확한 정보를 입력하는 다중모드 지원을 제공하는 소프트웨어를 구비(및 실행)할 수 있다. 이는 음성 전사(transcription)로부터의 정확한 정보를 서식으로 드래그하는 것 및/또는 정확한 정보를 서식으로 직접 타이핑/스펠링/수기(handwriting)하는 것을 포함한다. 오류의 경우, 본 명세서에 전체로서 참조로 포함되는 미국출원공개공보 제2011/0307241호뿐 아니라 미국특허 5,712,957 및 5,855,000에 기술되는 바와 같은 다중모드 오류 보정 기술이 잘못된 정보를 정정하는데 사용될 수 있다. 상술한 바와 같이, 사용자는 구두로 보정을 입력할 수 있다. 또한, 컴퓨터 장치(32)는 사용자의 제스처나 다른 동작을 감지하여 서식에 오류를 표시 또는 정정하거나 서식 내 데이터의 정확성을 확인할 수 있는 제스처 인식 능력(예컨대, 카메라 및 비디오 처리 소프트웨어)을 보유할 수 있다. 이런 방식으로, 사용자는 오류를 정정하고 그 오류를 정확한 정보로 대체하도록 수기하고, 동작하며, 스펠링하고, 다시 말하며, 바꾸어 말하는(paraphrase) 등을 할 수 있다. 예컨대, 간단한 대화는 또한 목소리("John이라고 말했어 아니면 Joan이라고 말했어(did you say John or Joan)")로 오류 복구를 수행하는데 사용될 수 있다. 도 4에서는 터치스크린 디스플레이(30)가 MT1로부터 출력을 디스플레이하는 것으로 도시되지만, 상술한 바와 같이, 특히 상술한 다중모드 전달 및 보정 기술을 이용하는 실시예에서는 터치스크린 디스플레이가 ASR 1로부터의 출력을 또한 디스플레이할 수 있다.
상술한 바와 같이, 다수의 화자가 시스템을 사용할 수 있다. 도 5는 3명의 화자가 각각 다른 언어로 말하고 있는 한 실시예를 도시한다. 3명의 화자가 언어 1, 2 및 3으로 각각 말하는 이런 예에서, 언어 1로 된 화자 1의 발언은 언어 2 및 3으로 번역되고; 언어 2로 된 화자 2의 발언은 언어 1 및 3으로 번역되며; 언어 3으로 된 화자 3의 발언은 언어 1 및 2로 번역된다. 이 시스템은 유사한 방식으로 더 많은 화자, 더 많은 언어 및/또는 단일어 사용으로 확장될 수 있다. 또한, 도 5에서는 IEM들이 ASR들로부터 출력을 수신하는 것으로 도시되지만, IEM들은 또한 MT들과 연결되고 MT들로부터 출력을 수신할 수 있는데, 이 경우 IEM들은 또한 번역들로부터 정보를 추출할 수 있다.
다양한 실시예로, 본 발명은 다음과 같은 것들을 제공할 수 있다:
● 교차-언어의 사람-사람 대화에 대한 부수적 효과로서 암시된 정보 추출.
● 단일-언어의 사람-사람 대화에 대한 부수적 효과로서 암시된 정보 추출(하기에 더 기술됨).
● 의미 파서를 적용한 사람-사람 대화로부터의 정보 추출.
● 개체명 태거, 워드 스포터(word spotter) 또는 구두 용어 검출을 적용한 사람-사람 대화로부터의 정보 추출.
● 매칭 문서를 찾는 정보 검색을 적용한 사람-사람 대화로부터의 정보 추출
● 인도주의적인 군대 배치, 난민 등록, 신고(registration), 통계 수집, 질병 발생, 의사-환자 대화, 부상자 분류(triage)에서 암시된 정보 추출 확장으로의 적용.
● 광고, 유머, 엔터테인먼트에 대한 암시된 정보 추출에의 적용.
● 다중모드 서식 기입 및 보정. 누락 정보의 보정이나 완성을 위해, 택타일(tactile) (탭핑), 드래드-앤드-드롭; 교차-모드 스펠링, 수기에 의한 누락 엔트리를 보정 및 완성.
● 인터페이스의 레이아웃: 동일한 스크린에 기입되는 서식을 포함한 음성 번역 인터페이스.
○ 정보 추출에 의한 서식 내 정보의 자동 기입(또는 사전-기입(pre-filling)). 사전-기입이 정확하지 않으면 교차-모드 보정.
○ 대안의 직접 입력, 암시되고 명시된 서식 기입의 선택의 제공. 대안의 직접 입력으로는 다른 방식들, 수기, 클릭, 다시 말하기, 스펠링.
○ 음성 번역 인터페이스로부터 리포트의 공유 및 업로드.
● 인터페이스의 레이아웃: 동일한 스크린과 즐겨찾기 리스트(favorites list)에 기입된 서식을 포함한 음성 번역 인터페이스.
○ 음성 번역 이외에 설명과 기설정된 문구의 재생 및 서식 기입
○ 음성 번역에서의 정보를 전달하기 위한 드래그-앤드-드롭, 터치.
○ 정보 추출에 의해 자동으로 정보를 사전 기입. 사전-기입이 정확하지 않으면 교차-모드 보정.
○ 대안의 직접 입력, 암시되고 명시된 서식 기입의 선택의 제공. 대안의 직접 입력으로는 다른 방식들, 수기, 클릭, 다시 말하기, 스펠링.
○ 다중모드 보정을 통한 오류 복구의 제공. 오류를 정확한 정보로 대체하기 위한 보정의 제스처 및 상보적인 방식들.
○ 음성 번역 인터페이스로부터 리포트의 공유 및 업로드.
○ 서식 기입 이외에 자유 음성 번역(free speech translation)과 재생 문구의 조합을 제공
도 9는 사람-대-사람의 대화에서의 추출 정보로 기입될 수 있는 디지털 서식을 갖는 예시적인 사용자 인터페이스(89)를 도시한다. 서식은 장치(12)의 메모리(26)에 저장될 수 있고, 서식(94)을 가진 인터페이스(89)는 예컨대 디스플레이(14)에 디스플레이될 수 있다. 번역된 음성을 보여주는 (이 예에서는 하나 위에 다른 하나가 있는) 2개의 필드(90, 92)가 좌측에 있다. 이 예는 영어-스페인어 번역 시나리오를 가정한다. 화자 1이 영어로 말하면, 영어인 화자 1의 인식된 음성은 필드(90)에 텍스트로 나타나며, 스페인어 번역이 필드(92)에 텍스트로 나타난다. 마찬가지로, 화자 2가 스페인어로 말하면, 스페인어인 화자 2의 인식된 음성은 필드(92)에 텍스트로 나타나며, 영어 번역이 필드(90)에 텍스트로 나타난다. 필드(90, 92)는 2명의 화자 사이의 대화가 진전될 때 차례로 2명의 화자의 인식된 음성 및 그 번역을 보여줄 수 있다. 또한, 장치 화자(16)는 다른 화자가 선호하는 언어로 음성을 들을 수 있도록 번역된 음성을 들을 수 있게 출력할 수 있다. 예컨대, 화자 1이 영어로 말하고 화자 2가 스페인어로 말하는 상기의 동일한 예를 계속 이어가면, 장치 화자(16)는 화자 2에게 유용하도록 화자 1의 발언의 스페인어 번역을 출력할 수 있고, 반대로 화자 1에게 유용하도록 화자 2의 발언의 영어 번역을 출력할 수 있다. 사용자는 언어 선택 입력(91a-b)을 통해 원하는 제1 언어와 제2 언어를 선택할 수 있다.
도 9 및 10의 예에서, 사람-사람의 대화를 통해 채워지는 서식(94)은 의료 데이터 서식이다. 예컨대, 이런 서식은 의사-환자의 대화에 사용될 수 있다. 이와 같이, 의료-관련 정보는 대화에서 추출되어 서식(94)의 다양한 필드에 기재되거나 채워진다. 음성 번역으로 중재되는 사람-사람(예컨대, 의사-환자)의 대화가 필드(90, 02)에 도시된다. 게다가, 핵심 정보(예컨대, 서식(94)에 관련되거나 해당되는 정보)가 어느 한 언어(즉, 이 예에서는 영어 또는 스페인어)로 제시될 때, 그 정보는 추출되고 서식(94)의 해당 필드에 미리 채워진다. 예컨대, 의사가 언어 1(예컨대, 영어)로 "What is your age?"라고 질문할 수 있다. 환자는 언어 2(예컨대, 스페인어)로 (영어로는 "I am fifty years old"라고 번역하는)
Figure 112014095133314-pct00001
Figure 112014095133314-pct00002
라고 대답할 수 있다. 여기서, 핵심 정보 "50"은 대화에서 추출되고 서식의 연령 필드(96)에 기입될 수 있다. 게다가, 질문의 내용, 예컨대 "What is your age?"는 환자의 대답이 연령 필드(96)에 기입되는 연령을 포함할 것이라고 알아내는데 장치에 의해 사용될 수 있다. 유사한 방식으로, 의사-환자의 대화는 가령 이름 필드(98, 100), 성별 필드(102), 체중 필드(104), 임신 체크 필드(106), 알레르기 필드(108) 등과 같은 서식의 다른 필드들을 채우는데 사용될 수 있다.
다양한 실시예로, 서식은 또한 음성 추출 이외에 다른 모드에 의한 데이터 엔트리를 허용할 수 있다. 예컨대, 터치 스크린 인터페이스(14)를 통해, 의사가 질문-답변의 대화 없이 환자의 성별을 결정할 수 있다면, 가령 사용자(예컨대, 의사)는 직접적으로 서식 내 "남성" 및 "여성" 필드를 클릭할 수 있다. 마찬가지로, 환자가 남성이라면, "임신 아님" 응답이 자동으로 채워질 수 있거나, 이런 다른 종속된 질문들은 제거되거나 수정될 수 있으며, 따라서 무관하거나 중복된 질문을 제거할 수 있다.
또한, 다양한 실시예로, 예컨대 영어로 "What is your age?"라고 질문하는 것과 같이 화자 1이 서식의 필드들 중 하나와 관련된 질문을 언어 1로 말하는 대신에, 사용자는 활성화될 때 장치(12)가 선택된 제2 언어(이 예에서는 스페인어, 언어 선택 입력(91)을 참조)로 관련 필드(예컨대, 연령 필드(96))에 대한 정보를 끌어내도록 설계된 사전기록된 질문을 들리도록 출력할 수 있게 하는, 예컨대 "Ask" 입력(110)과 같은 (예컨대, 터치 스크린 인터페이스를 통해) 아이콘을 활성화할 수 있다. 예컨대, 연령 필드(96)와 관련된 "Ask" 입력(100)을 활성화하여, 장치(12)는 사용자가 언어 1(예컨대, 영어)로 질문을 먼저 말해야 할 필요 없이, 가령 ("What is your age"의 스페인어인)
Figure 112014095133314-pct00003
과 같은 질문을 들리도록 출력할 수 있다. 서식(94) 내 다른 필드들은 도 9의 예에 도시된 바와 같이 장치(12)가 관련 필드에 대한 원하는 정보를 끌어내도록 설계된 사전기록된 질문을 들리도록 출력할 수 있게 하는 해당 "Ask" 버튼을 가질 수 있다. 사전기록된 질문의 사용은 화자 1(예컨대, 의사)이 (특히 반복되는 업무/대화에 유용한) 화자 1의 언어로 관련 질문을 먼저 말해야 할 필요 없게 함으로써 대화의 속도를 높일 수 있다. 게다가, "Ask" 버튼에 대한 사전기록된 질문은 화자 2(예컨대, 환자)에 대한 혼동 및 모호성을 피하도록 선택된 언어에 대하여 조정될 수 있다. 즉, 사전기록된 질문은 언어 2로의 혼동 및 모호성이 거의 없도록 테스트되고 증명될 수 있어서, 이로써 화자 2로부터의 정확한 응답뿐 아니라 장치(12)에 의한 정확한 추출의 가능성을 증가시킬 수 있다.
마찬가지로, 다양한 실시예로, 사용자에 의해 활성화될 때 질문과 대조적으로 사전기록된 지시적이거나 설명적 정보가 언어 2(예컨대, 스페인어)로 화자 2(예컨대, 환자)에 대해 진술되는 경우, 인터페이스(89)는 버튼이나 입력(미도시)을 제공할 수 있다. 예컨대, 이런 사전기록된 설명적 정보는 절차의 양상을 환자에게 설명할 수 있다. 예컨대, 의사(예컨대, 화자 1)가 영어로 "I will now check your blood pressure"라고 말한 후 그 질문을 언어 2(예컨대, 스페인어)로 번역되게 하는 대신, 장치가 ("I will now check your blood pressure"에 대한 스페인어인)
Figure 112014095133314-pct00004
Figure 112014095133314-pct00005
라고 들리도록 출력할 수 있는 경우에 의사는 단지 혈압(blood pressure)과 관련된 말하기(tell) 버튼을 활성화할 수 있고, 이로써 의사가 먼저 언어 1로 설명을 들리게 한 후 이를 언어 2로 번역하게 하지 않아도 된다. 사전기록된 질문과 설명은 특히 환자의 개인 데이터(이름, 연령 등)이나 건강 상태(vital signs) 수집과 같은 반복되는 질의 중에 시간과 수고를 덜어줄 수 있다.
다른 실시예로, 질문과 대답을 사전기록하게 하는 대신, 장치(12)는 음성 번역/대화 시스템의 능력을 사용하여 종합적으로 다수의 언어로 질문 및/또는 대답을 생성할 수 있다. 예컨대, 사용자는 서식(94)의 다양한 필드에 대해 언어 1로 서식의 질의 필드로 그/그녀 자신의 질문이나 설명을 타이핑할 수 있으며, 음성이나 텍스트를 통해 장치(12)에 입력되고 저장될 수 있다. 장치(12)는 상술한 바와 같이 이런 입력을 언어 2로 번역할 수 있고 L1, L2 또는 원하는 임의의 다른 언어로 반복된 재생에 대한 종합 구두 질의(synthetic spoken queries)를 생성할 수 있다. 따라서, 시스템의 사용자는 임의의 다른 언어들에서의 언어 능력을 필요로 하지 않고 그/그녀의 목적을 위해 장치로 생성된 임의의 메시지나 질의를 맞춤화할 수 있다.
물론, 도 9는 의료 데이터 서식의 하나의 예이지만, 다른 데이터 필드 및/또는 추가의 데이터 필드를 가진 다른 서식들이 사용될 수 있다. 또한, 의료 데이터 서식 이외의 다른 사용이 이용될 수 있다.
사람-사람의 대화로부터의 정보의 추출이 항상 정확하거나 맞는 것은 아니라는 점을 유의해야 한다. 다양한 실시예로 장치(12)는 서식 내 정보를 복구하거나 정정하기 위한 수단을 제공할 수 있다. 이런 수단은 음성 추출 이외의 것, 즉 (예컨대, 서식에 대한 다중-모드 입력을 가능하게 하는) 다른 입력 모드일 수 있다. 예컨대, 터치 스크린 인터페이스(14)를 사용하여, 사용자(예컨대, 화자 1)는 터치와 드래그 제스처 또는 입력에 의해 필드(90, 02) 중 어느 하나로부터의 정보를 서식(94) 내 적절한 필드로 드래그할 수 있다.
대안으로 또는 추가로, 다른 실시예에서는 서식 보정이나 데이터 엔트리의 다른 모드가 사용될 수 있다. 예컨대, 다양한 실시예로, 사용자(예컨대, 의사)는 서식(94) 내 추출된 데이터를 클릭하거나 선택하여 서식 내 데이터를 편집할 수 있다. 예컨대, 다양한 실시예로, 사용자는 음성 추출에 대한 데이터의 다시 말하기, 터치 스크린 인터페이스(14)상의 수기 제스처(handwriting gesture) 또는 임의의 다른 적절한 수단에 의해, (터치 스크린 키보드를 포함하는) 키보드를 통해 선택된 데이터를 편집(또는 삭제)할 수 있다. 마찬가지로, 상술한 바와 같이, 정보는 서식(94)에 관한 질문을 명시적으로 하지 않고 별도로 입력될 수 있다. 예컨대, 의사는 환자가 여성임을 확인하고, 서식(94)에 바로 정보를 단지 클릭하거나 타이핑할 수 있으므로, 이 단계에서는 사람-사람의 대화를 완전히 우회할 수 있다. 이 경우, 사용자(예컨대, 화자 1)는 직접 필드를 누르고 어느 한 언어로 음성 인식을 활성화하도록 선택하여 정보를 직접 입력할 수 있다. 대안으로, 서식(94) 내 필드에 대한 정보는 타이핑되거나 스펠링되거나 수기화될 수 있다. 본 명세서에 전체로서 참조로 통합되는 미국특허 5,712,957 및 5,855,000은 다양한 다중모드 보정 기술에 대한 세부사항을 제공한다.
도 10은 본 발명의 다양한 실시예들에 따른 장치(12)의 블록 다이어그램이다. 이런 실시예에서, 장치(12)는 예컨대 랩톱 컴퓨터, 스마트폰 또는 태블릿 컴퓨터와 같은 스마트한 휴대형 장치로 구현될 수 있다. 도 10의 예에 도시된 바와 같이, 장치(12)는 다수의 프로세서(202, 204)를 포함할 수 있다. 기저대역 프로세서(202)는 임의의 적절한 통신 기술(예컨대, 3G, 4G 등)에 따라 모바일 통신 네트워크(예컨대, 셀룰러 네트워크)를 통한 통신을 다룰 수 있다. 기저대역 프로세서(202)는 전용 랜덤 액세스 메모리(RAM)(214)를 포함할 수 있다. 다양한 실시예로, 기저대역 프로세서(202)는 송수신기(206)와 통신할 수 있다. 이후, 송수신기(206)는 하나 이상의 전력 증폭기(208) 및 안테나(210)와 통신할 수 있다. 모바일 통신 네트워크에 대한 발신 신호는 기저대역 프로세서(202)에 의한 기저대역에서 처리될 수 있고 송수신기(206)로 제공될 수 있다. 송수신기(206) 및/또는 기저대역 프로세서(206)는 발신 신호를 반송파 주파수로 변조할 수 있다. 하나 이상의 증폭기(208)는 이후 안테나(210)를 통해 전송될 수 있는 발신 신호를 증폭할 수 있다. 모바일 통신 네트워크에 대한 착신 신호는 안테나(210)에 의해 수신되고 하나 이상의 증폭기(208)에 의해 증폭되며 송수신기(206)로 제공될 수 있다. 송수신기(206) 또는 기저대역 프로세서(202) 중 하나는 착신 신호를 기저대역으로 복조할 수 있다.
응용 프로세서(204)는 운영 시스템뿐 아니라 본 명세서에 기술된 음성 인식 및 번역 모듈들(예컨대, 도 1에 도시된 ASR, MT, TTS 및 IEM 모듈들)을 포함하는 소프트웨어 애플리케이션을 실행할 수 있다. 또한, 응용 프로세서(204)는 터치 스크린 인터페이스(232)에 디스플레이되는 서식(94)에 나타난 데이터를 입력하고 정정하기 위한 기술을 포함하는 터치 스크린 인터페이스(232)에 대한 소프트웨어를 실행할 수 있다. 또한, 응용 프로세서(204)는 애플리케이션 RAM(212) 및 비-휘발성 데이터 저장소(예컨대, ROM)(216)와 통신할 수 있다. 응용 프로세서(204)는 WI-FI/BLUETOOTH 조합 송수신기(218)와 같은 다른 하드웨어 장치와 추가로 통신할 수 있다. WI-FI/BLUETOOTH 송수신기(218)는 (예컨대, WI-FI 표준이나 임의의 적절한 표준에 따라) LAN과의 무선(RF) 통신 또는 (예컨대, BLUETOOTH 표준이나 임의의 적절한 표준에 따라) 장치(200)와 또 다른 무선 장치 사이의 직접적인 RF 통신을 다룰 수 있다. 또한, 다양한 실시예로, 장치(200)는 장치(200)의 지리적 위치를 설명하는 정보를 응용 프로세서(204)에 제공하기 위해 GPS 안테나(223)를 통해 위성-기반 GPS 시스템과 통신하는 위성 항법 시스템(GPS)(222)을 포함할 수 있다. 터치 스크린(232)은 시각적 서식으로 장치(12)의 사용자에게 출력을 제공하고 사용자로부터 입력을 수신하는 것 모두를 할 수 있다. 입력은 사용자에 의한 스크린-터치를 표현하는 신호의 형태 내에 있을 수 있다. 오디오 코덱 모듈(224)은 오디오 신호를 부호화하고 실행하기 위한 하드웨어 및/또는 소프트웨어를 제공할 수 있다. 일부의 실시예로, 코덱(224)은 또한 디지털-대-아날로그 컨버터를 포함할 수 있다. 오디오 출력 신호는 오디오 출력 신호를 실행하기 위해 한 세트의 헤드폰 및/또는 스피커를 수신할 수 있는 장치 스피커(16) 및/또는 잭(미도시)으로 제공될 수 있다. 오디오 입력 신호는 장치 마이크로폰(들)(18)을 통해 제공될 수 있다. 또한, 장치는 디지털 카메라(240)를 포함할 수 있다.
다양한 다른 센서가 임의의 실시예에 포함될 수 있다. 자기 센서(226)는 장치 근처의 자기장을 감지할 수 있다. 예컨대, 자기 센서(226)는 다양한 앱 및/또는 시스템 기능에 의해 나침반을 구현하는데 사용될 수 있다. 가속도계(228) 및 자이로스코프(230)는 장치의 동작을 기술하는 데이터를 제공할 수 있다. 예컨대, 가속도계(228) 및 자이로스코프(230)로부터의 데이터는 터치 스크린(232)의 디스플레이를 (예컨대, 세로 대 가로) 지향시키는데 사용될 수 있다. 장치(200)는 배터리(234)에 의해 전력을 공급받을 수 있는데, 이는 결국 전력 관리 집적 회로(PMIC)(236)에 의해 관리될 수 있다. I/O 송수신기(238)는 예컨대 USB(Universal Serial Bus) 또는 임의의 다른 적절한 표준에 따라 장치와 다른 장치 사이의 유선 통신을 관리할 수 있다. 커넥터(239)는 유선 연결을 용이하게 할 수 있다. 일부의 실시예로, 커넥터(239) 및/또는 I/O 송수신기(238)를 통한 연결은 배터리(234)를 충전하기 위한 전력을 제공할 수 있다.
도 9의 예시적인 서식을 다시 살펴보면, 추출된 정보를 추가하거나 확인하기 위해, 가령 (GPS 수신기(222)를 통한) GPS 정보, (카메라(240)를 통한) 카메라 입력, 가속도계(228), (예컨대, 장치에서 실행하는 바코드 앱 또는 장치의 일부인 별도의 하드웨어 바코드 리더기를 통한) 바코드 리더기 등과 같은 다른 데이터 엔트리 방식들이 성별이나 개인 식별정보, 위치 등과 같은 정보를 도출하는데 사용될 수 있다. 이는 정보를 자동으로 채우도록 음성 대화를 보완함으로써 효율성을 향상시킬 수 있다. 보완 정보는 또한 추출된 정보의 정확성을 향상시키거나 소정의 정보를 교차-검증할 수 있다. 예컨대, 음성으로부터의 자동 성별 분류는 의사의 코멘트나 클릭에 따라 성별 필드(102)를 사전기입할 수 있다. 또는, 이름이 카메라 얼굴 식별이나 스피커 식별 또는 바코드 판독에 의해 확인될 수 있다.
다양한 실시예로, 질문가능한 정보는 음향의 신뢰성뿐 아니라 추출된 정보의 타당성을 확인하는 보완 정보 모두를 사용하는 신뢰 기준(confidence measures)를 통해 결정될 수 있다. 서식 내 질문가능한 정보는 예컨대 하이라이팅(highlighting)에 의해 호출될 수 있다. 예컨대, 의사는 환자의 성별을 직접 입력할 수 있으나, 신뢰 기준은 음향 신뢰성 및 화자/성별 ID가 정보에 오류가 있을 수 있다고 제안하면 정보를 하이라이팅할 수 있다. 낮은 신뢰성의 정보는 서식뿐 아니라 음성 번역 대화창의 텍스트에서 하이라이팅되거나 호출될 수 있다. 낮은 신뢰성의 다른 소스는 어휘 이외의 음성(Out-of-Vocabulary)(OOV) 아이템, 음향, 의미 및 번역 모호성의 검출로부터 도출될 수 있다. 낮은 신뢰성의 영역은 하이라이팅될 수 있고, 모호성이 설명된다(유사한 단어, 대안의 의미, 누락 단어 등).
도 9의 예에서, 서식(94)은 영어로 완성된다. 장치(12)의 사용자는 서식 언어 입력(115)을 활성화함으로써 언어 1(예컨대, 영어)과 언어 2(예컨대, 스페인어) 사이를 토글(toggle)로 왔다 갔다 할 수 있다. 입력(115)을 활성화할 때, 서식(94)은 언어 1(이 예에서는 영어)로 디스플레이되는 것으로부터 언어 2(이 예에서는 스페인어)로 전환할 수 있고, 입력(115)의 제2 활성화시 그 역도 또한 같은 기타 등이 가능하다. 이런 방식으로, 화자 1(예컨대, 의사)은 언어 1(예컨대, 영어)로 서식의 모든 면을 열람할 수 있으며, 이후 화자 2(예컨대, 환자)에 의한 확인 및/또는 검증을 위해 그 서식을 언어 2(예컨대, 스페인어)로 전환할 수 있다. 다양한 실시예로, 모든 정보, 서식 엔트리의 이름, 입력되는 컨텐츠, 재생되는 자동 메시지, 버튼의 설명과 이름 및 지시들이 시스템의 음성 및 번역 능력에 의해 생성될 수 있고 필요한 언어 사이를 토글로 왔다 갔다 할 수 있음을 유의하자.
또한, 다양한 실시예로, 음성 번역 장치(12)는 사용자나 전문직 종사자가 다른 언어를 알고 있을 필요 없이 스스로 다수의 언어로 서식들을 정의할 수 있도록 한다. 예컨대, 서식(들)은 언어로 된 탬플릿 서식(예컨대, 엑셀과 같은 스프레드시트)으로부터 읽혀질 수 있고 (도 9의 예에 도시된 바와 같이) 서식을 생성할 수 있다. 전문직 종사자(가령 이 예에서는 의사)는 필요에 따라 탬플릿 서식을 편집하여 질문이나 코멘트를 추가한 후 이런 새로운/수정된 서식을 장치로 읽을 수 있다. 이후, 음성 번역 컴포넌트는 각각의 서식 라벨, 서식 메시지 및 (사용중) 이후 추출된 정보에 대한 번역을 자동 생성할 수 있고, 각 언어로 종합된 음성 발언을 생성할 수 있다.
추가로, 송수신기(206) 또는 송수신기(218)를 통해, 장치(12)는 예컨대 이메일이나 전자식 환자 레코드 업로드로 완료되거나 그렇지 않은 (데이터베이스(26)에 저장된) 서식을 공유할 수 있으며, 이로써 모바일 휴대용 장치로부터 중앙 데이터베이스에서 정보의 레코드의 증가하는 즉각적인 업데이트를 가능하게 한다. 다양한 실시예로, 사용자는 공유 아이콘(116)을 활성화함으로써 이런 무선 전송이나 서식의 업로드를 개시할 수 있다. 업로드/전송되는 서식은 실제 대화의 데이터뿐 아니라 관련된 다중모드 사용자 상호작용, 질의 및 편집을 포함하거나 포함하지 않을 수 있으며, 따라서 전체의 사람-사람의 만남과 상호작용에 대한 과립형 정보(granular information)를 제공할 수 있다.
다양한 실시예로, 장치는 동시적이고 연속적인 번역 모드로 동작(예컨대, 음성을 번역하고 서식-작성가능한 정보를 추출)할 수 있다. 동시적 모드에서, 화자 사이를 왔다갔다하는 푸시 버튼이나 다른 입력의 사용 없이 그리고 번역의 완료를 기다릴 필요 없이 실시간으로 진행중인 연속적인 대화의 전사(transcript) 및 번역을 사용한다. 이런 경우, 장치는 상술한 서식으로 관계되고 관련이 있는 정보를 추출하고, 오류 보정은 동일하게 작동한다. 연속적인 번역 모드에서, 화자들은 교대로 말하며 연속해서 말한다. 이들은 장치(가령 터치 스크린 인터페이스(14))상의 버튼이나 다른 입력을 사용하여 하나의 번역 채널(예컨대, 언어 1에서 언어 2로 번역)로부터 다른 채널(예컨대, 언어 2에서 언어 1로 번역)로 전환할 수 있다. 인터페이스는 사용자의 편의상 음성 번역 및/또는 서식 창을 선택적으로 활성화 또는 비활성화할 수 있다.
또한, 도 7의 예에 도시된 바와 같이, 다양한 실시예로, 장치는 예컨대 상호작용형 명확화 모듈(40)과 같은 상호작용형 명확화용 소프트웨어를 포함하고 실행할 수 있으며, 그에 의해 장치(12)는 상호작용형 명확화 모듈(40)을 사용하여 조치를 취하고, 모호성이나 오류가 의심되면 가능한 오류 및 니어 미스(near miss)에 대한 피드백을 제안한다. 다양한 실시예로, 이는 2개의 단계들: 인식 단계 및 번역 단계에서 발생할 수 있다. 인식 단계에서는, (경우에 따라, ASR 모듈 1 또는 2에 의해 결정되는) 인식의 신뢰성이 낮다면 또는 인식된 텍스트가 서식의 레벨에서 예상되는 것과 충돌하거나 부조화하다면, 상호작용형 명확화 모듈(40)은 가령 외부 화자(16)를 통해 들리도록 및/또는 텍스트 디스플레이(14)를 통해 시각적으로, 사용자에게 다시 질의를 송출할 수 있다. 너무 많은 명확화 질의가 사용자를 귀찮게 하면, 명확화를 요청하는 시간과 순간이 바람직하게는 신중히 선택되어야 한다. 다양한 실시예로, 신뢰성 또는 인식 가설(recognition hypothesis)의 타당성을 판단하는 몇몇 기준이 사용될 수 있다:
○ 음향 신호가 인식되었던 문장일 가능성이 있는지를 확립하는 음향 신뢰성 점수.
○ 기입되는 서식 또는 추출되는 정보의 컨텍스트에서의 타당성. 화자가 서식이 기입되는 단계에서 일주일 중 날짜를 현재 논의하고 있다면, "We met on Tuesday"의 인식이 "We met and who's he?"보다 더 가능성이 높을 수 있다. 따라서, 서식 내 공통 선택과 맞는 모호한 단어(예컨대, "Tuesday")가 있다면, 인식 가설 "We met and who's he"이 질문되어야 한다.
○ 다른 화자들의 (그들의 언어로 된) 발언들로부터 번역에 주어진 언어 컨텍스트도 또한 그 예상에 영향을 미치며, 따라서 인식 가설을 질문하거나 변경할 수 있다. 상기 예에서, 다른 화자가 스페인어로
Figure 112014095133314-pct00006
라고 말하면, 이 문장의 영어 번역인 "When did you meet"이 "Who's he?"에서 가설 "Tuesday"의 가능성을 높일 수 있는 컨텍스트를 모델링하는 언어를 제공한다.
3가지의 신뢰성 기준이 사용자로부터 명확화를 언제 요청할지를 결정하는데 사용될 수 있다. 다양한 실시예로, 하나 이상의 이런 기준은 하나의 신뢰성 또는 명확성 점수로 결합된다. 이후, 명확화 질의는 명확성을 요청하도록 송출될 수 있다.
번역 단계에서는, 상호작용형 명확화 모듈(40)은 다양한 실시예로 MT 엔진(예컨대, MT1 또는 MT2)으로부터의 입력을 기초로 명확화를 요청할 수 있다.
(a) 여러 출력 번역들이 가능하고 그 가능성이 유사하다면(가장 높은 점수의 번역과 임계 점수의 차이 내에 있는 적어도 하나의 다른 번역이 있다면) 또는 (b) 하나의 더 높은 가능성의 출력이 있다면(예컨대, 가장 높은 점수의 출력 번역과 임계 점수의 차이 내에 어떠한 대안의 출력 번역이 없다면), 가장 높은 점수의 출력은 타겟 언어에서 낮은 신뢰성을 가지며 틀릴 가능성이 있다. (b)의 경우, 그/그녀의 (소스) 언어로 사용자에게 다시 질의가 송출되며, 가능한 질문의 화자를 변경하고, 명확화를 위해 재진술이나 다른 말로 바꾼 표현(paraphrase)을 요청할 수 있다. (a)의 경우, 2 이상의 대안이 고려되어야 한다. 이 경우, 시스템은 타겟 언어에서 단어의 2가지 사용을 명확하게 하는 소스 언어의 매개 문장 내에 내장된 이들 2가지 경우들을 사용자에게 제시할 수 있다. 예컨대, 사용자가 영어로 다음의 문장"This is my nail"이라고 말한다면, 단어 "nail"은 모호하고, 스페인어로
Figure 112014095133314-pct00007
또는
Figure 112014095133314-pct00008
라고 번역될 수 있다. 두 결과의 번역 가능성이 타당성의 임계치 내에서 비교가능하다면, 시스템은 사용자로부터의 명확화를 요청할 수 있다. 다양한 실시예로, 이는 이후 트레이닝 데이터베이스(training database) 내 그 사용 중 하나에서 질문 내 단어를 포함하는 문구를 검색하여 이루어질 수 있다. 예컨대, 화자의 장치는 원격 트레이닝 데이터베이스를 검색하는 원격 컴퓨터 시스템으로 데이터 네트워크를 통해 연결될 수 있다. 원격 컴퓨터 시스템이 명확화를 감지할 수 있거나 화자의 장치 중 하나가 명확화를 감지할 수 있다. 대안의 실시예로, 트레이닝 데이터베이스 대신, 화자의 장치에 또는 원격으로 저장될 수 있는 종래의 사전이 이용될 수 있다.
소스 측에서, 시스템은 이후 "they used nails to fix the door"의 경우 또는 "she painted her nails red"의 경우 중 "did you mean 'nail'"이라고 사용자에게 질문하는 위치에 있다. 이후 사용자가 한 해답이나 다른 해답을 선택하면, 시스템은 선택된 번역 의미를 채택하고 그 단어의 의미에 대한 번영 가능성을 증가시킬 것이다. 2개의 모호한 선택의 제시가 디스플레이에 그래픽적으로 또는 구두의 명확화 문구로 제공될 수 있다.
명확화 모듈에 대한 코드는 RAM(212) 및/또는 비-휘발성 데이터 저장소(216)에 저장될 수 있고, 예컨대 응용 프로세서(204)에 의해 실행될 수 있다. 도 10을 참고하자.
도 8은 다양한 실시예에 따른 상호작용형 명확화 모듈(40)의 프로세스 흐름의 흐름도이다. 이 예에서, 화자 1은 화자 2를 위해 언어 2로 번역되는 언어 1로 말하고 있다고 가정하자. 단계 50에서, 상호작용형 명확화 모듈(40)은 언어 1로 된 화자 1의 인식된 음성에 모호성이 있는지 결정한다. 상술한 바와 같이, 상호작용형 명확화 모듈(40)은 (i) 화자 1에 의한 발언에 대한 ASR1로부터의 음향 인식 신뢰도 점수, (ii) 추출되는 정보(예컨대, 기입되는 서식)에 기초한 ASR1의 가설의 타당성 및 (iii) 다른 화자(예컨대, MT2로부터의 화자 2)에 의한 발언으로부터의 번역의 언어 컨텍스트에 기초한 가설의 타당성을 기초로 이런 결정을 할 수 있다. 이런 점수와 판단(및 가능한 기타 등등)을 기초로, 상호작용형 명확화 모듈(40)은 명확화 질의가 화자 1에게 송출되어야 하는지를 결정한다. 그렇다면, 단계 52에서, 가령 상술한 바와 같이, 명확화 질의가 송출된다.
단계 50에서 모호성이 검출되지 않으면, 프로세스는 단계 54로 진행되는데, 여기서는 언어 1에서 언어 2로의 화자 1의 번역된 음성을 기초로 명확화 질의가 필요한지가 결정된다. 이는 상술한 바와 같이 이루어질 수 있다. 명확화 질의가 필요하면, 프로세스는 명확화 질의가 송출되는 단계 52로 진행된다. 물론, 번역으로 인한 명확화 질의가 필요하지 않다면, 시스템은 단계 56의 정상 음성 인식과 번역 프로세스로 이어진다. 상술한 바와 같이, 단계 52의 명확화 질의는 예컨대 인식 대 번역과 같이 모호성의 타입을 기초로 다른 포맷을 가질 수 있다.
상술한 명확화 능력은 다양한 실시예에 따른 정보 추출 능력과 함께 또는 필요없이 사용될 수 있다.
상술한 설명에서, 정보 추출 프로세스는 2개 언어의 대화의 컨텍스트에서 기술되었다. 다른 실시예로, 정보 추출 프로세스는 단일 언어의 대화의 프로세스에서 수행될 수 있다. 2개의 언어 모드와 유사하게, 단일 언어 모드의 장치는 화자들에 의한 음성 발언에 대한 음성 인식을 수행하고 서식(28)의 다양하고 적용가능한 필드에 기입하도록 인식된 음성에서 핵심 정보를 추출할 수 있다. 상술한 2개의 언어 모드와 동일한 예를 사용하면, 의사는 제1 언어(예컨대, 영어)로 "What is your age?"라고 질문할 수 있다. 환자는 동일한 언어(즉, 단일 언어의 대화)로 "I am fifty years old"라고 대답할 수 있다. 여기서, 핵심 정보 "50"이 대화로부터 추출되고 서식(94)의 연령 필드(96)에 기입될 수 있다(도 9 참조). 게다가, 예컨대 "What is your age?"와 같은 질문의 컨텍스트는 장치에 의해 환자의 대답이 연령 필드(96)에 기입되는 연령을 포함할 것이라고 알아내는데 사용될 수 있다. 유사한 방식으로, 의사-환자의 대화는 가령 이름 필드(98, 100), 성별 필드(102), 체중 필드(104), 임신 체크 필드(106), 알레르기 필드(108) 등과 같은 서식의 다른 필드들을 채우는데 사용될 수 있다. 도 9의 예시적인 인터페이스를 참조하면, 이런 실시예에서, 공통의 언어(예컨대, 영어)로 된 2명의 화자들의 인식된 음성의 텍스트는 2개의 필드(90, 92)에 각각 디스플레이될 수 있다. 2명의 화자 사이의 단일 언어의 대화로부터 추출된 정보는 우측의 서식(94)에 디스플레이될 수 있다.
다양한 실시예로, 사람인 사용자들 사이의 대화 흐름은 (레코드 버튼을 활성화한 후에만 각각의 발언을 기록하는) 푸시-투-토크(push-to-talk) 스위치를 통해 제어될 수 있거나, 시스템은 동시에 2명(또는 다수)의 화자로부터의 음성에 동작하는 자유 다중-채널 오픈 마이크 레코딩 (동시 번역) 모드로 동작할 수 있다.
또한, 앞서와 같이, 장치(12)는 예컨대 이메일이나 전자식 환자 레코드 업로드로 완료되거나 그렇지 않은 서식을 공유할 수 있으며, 이로써 모바일 휴대용 장치로부터 중앙 데이터베이스에서 정보의 레코드의 증가하는 즉각적인 업데이트를 가능하게 한다. 업로드/전송되는 서식은 실제 대화의 데이터뿐 아니라 관련된 다중모드 사용자 상호작용, 질의 및 편집을 포함하거나 포함하지 않을 수 있으며, 따라서 전체의 사람-사람의 만남과 상호작용에 대한 과립형 정보를 제공할 수 있다.
따라서, 다양한 실시예에 따르면, 본 발명은 적어도 제1 화자와 제2 화자 사이의 사람 대 사람의 대화로부터 정보를 추출하기 위한 장치에 관한 것이다. 장치는 적어도 하나의 마이크로폰, 스크린 디스플레이 및 적어도 하나의 프로그램가능한 프로세서와 디지털 데이터를 저장하기 위한 적어도 하나의 데이터 저장 유닛을 포함할 수 있다. 적어도 하나의 프로그램가능한 프로세서는 적어도 하나의 마이크로폰 및 스크린 디스플레이와 통신한다. 게다가, 적어도 하나의 프로그램가능한 프로세서는: (i) 적어도 하나의 마이크로폰에 의해 수신되는 제1 화자에 의한 음성을 자동으로 인식하고; (ii) 적어도 하나의 마이크로폰에 의해 수신되는 제2 화자에 의한 음성을 자동으로 인식하며; (iii) 인식된 제2 화자의 음성으로부터 적어도 정보를 추출하고; (iv) 인식된 제2 화자의 음성으로부터 추출된 정보를 컴퓨터 시스템의 적어도 하나의 데이터 저장 유닛에 저장되고 스크린 디스플레이의 그래픽 사용자 인터페이스에 디스플레이되는 전자 서식으로 입력하도록 프로그래밍된다.
다양한 구현에 따르면, 제1 화자는 제1 언어로 말하고, 제2 화자는 제1 언어와 다른 제2 언어로 말하며, 적어도 하나의 프로그램가능한 프로세서는: (i) 제1 언어로 인식된 제1 화자의 음성을 제2 언어로 자동 번역하고; (ii) 제2 언어로 인식된 제2 화자의 음성을 제1 언어로 자동 번역하며; (iii) 제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 적어도 정보를 추출함으로써 인식된 제2 화자의 음성으로부터 적어도 정보를 추출하고; (iv) 제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 추출된 정보를 입력함으로써 추출된 정보를 적어도 하나의 데이터 저장 유닛에 저장된 전자 서식으로 입력하도록 또한 프로그래밍된다. 또한, 상기 프로세서는: (v) 제1 언어로 인식된 제1 화자의 음성으로부터 적어도 정보를 추출하고; (vi) 제1 언어로 인식된 제1 화자의 음성으로부터 추출된 정보를 전자 서식으로 입력하도록 또한 프로그래밍된다.
다양한 구현에 따르면, 상기 프로세서는 의미 문법에 의한 번역을 파싱하여 제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 정보를 추출하도록 프로그래밍된다. 또한, 상기 프로세서는 원격 데이터베이스로부터 추출된 정보에 관한 하나 이상의 문서를 검색하도록 또한 프로그래밍된다. 또한, 상기 프로세서는 번역에서 하나 이상의 키워드를 검출하여 제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 정보를 추출하도록 프로그래밍된다. 추가로, 상기 프로세서는 전자 서식으로 추출된 정보를 입력하기 전에 제1 화자와 제2 화자 중 적어도 하나로부터 피드백을 요청하도록 또한 프로그래밍된다. 또한, 적어도 하나의 프로그램가능한 프로세서는 장치의 사용자에 의한 스크린 디스플레이를 통해 전자 서식 입력으로 추출된 정보에 대한 편집을 인식하고 수신하도록 프로그래밍된다.
또 다른 일반적인 태양으로, 본 발명은 적어도 제1 화자와 제2 화자 사이의 사람 대 사람의 대화로부터 정보를 추출하기 위한 컴퓨터-기반 장치에 관한 것이다. 장치는 적어도 하나의 마이크로폰, 스크린 디스플레이 및 디지털 데이터를 저장하기 위한 적어도 하나의 데이터 저장 유닛을 포함한다. 또한, 장치는 적어도 하나의 마이크로폰에 의해 수신된 제1 화자의 음성을 자동으로 인식하기 위한 제1 자동 음성 인식 모듈을 더 포함한다. 적어도 하나의 마이크로폰에 의해 수신된 제2 화자의 음성을 자동으로 인식하기 위한 제2 자동 음성 인식 모듈을 더 포함한다. 또한, 장치는 제1 및 제2 자동 음성 인식 모듈들, 적어도 하나의 마이크로폰 및 스크린 디스플레이와 통신하는 정보 추출 모듈을 포함한다. 정보 추출 모듈은: (i) 인식된 제2 화자의 음성으로부터 적어도 정보를 추출하며; (ii) 적어도 하나의 데이터 저장 유닛에 저장되고 스크린 디스플레이에서 그래픽 사용자 인터페이스에 디스플레이되는 전자 서식으로 인식된 제2 화자의 음성으로부터 추출된 정보를 입력하기 위한 것이다.
다양한 구현에 따르면: 제1 화자는 제1 언어로 말하고; 제2 화자는 제1 언어와 다른 제2 언어로 말하며; 상기 장치는: (i) 제1 언어로 인식된 제1 화자의 음성을 제2 언어로 자동 번역하기 위한, 제1 자동 음성 인식 모듈과 통신하는 제1 기계 번역 모듈; 및 (ii) 제2 언어로 인식된 제2 화자의 음성을 제1 언어로 자동 번역하기 위한, 제2 자동 음성 인식 모듈과 통신하는 제2 기계 번역 모듈을 더 포함한다. 이런 구현에서, 상기 정보 추출 모듈은: (i) 제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 적어도 정보를 추출함으로써 인식된 제2 화자의 음성으로부터 적어도 정보를 추출하고; (ii) 제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 추출된 정보를 입력함으로써 추출된 정보를 적어도 하나의 데이터 저장 유닛에 저장된 전자 서식으로 입력하기 위한 것이다.
다양한 구현으로, 상기 정보 추출 모듈은 또한: (i) 제1 언어로 인식된 제1 화자의 음성으로부터 적어도 정보를 추출하고; (ii) 제1 언어로 인식된 제1 화자의 음성으로부터 추출된 정보를 전자 서식으로 입력하기 위한 것이다. 상기 정보 추출 모듈은 의미 문법에 의한 번역을 파싱하여 제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 정보를 추출할 수 있다. 또한, 장치는 원격 데이터베이스로부터 추출된 정보에 관한 하나 이상의 문서를 검색하기 위한 정보 검색기 모듈을 포함할 수 있다. 또한, 상기 정보 추출 모듈은 번역에서 하나 이상의 키워드를 검출하여 제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 정보를 추출할 수 있다. 전자 서식으로 추출된 정보를 입력하기 전에 제1 화자와 제2 화자 중 적어도 하나로부터 피드백을 요청하는 다중모드 상호작용 인터페이스를 더 포함할 수 있다.
또 다른 일반적인 태양으로, 본 발명은 적어도 제1 화자와 제2 화자 사이의 사람 대 사람의 대화 중에 정보를 추출하기 위한 컴퓨터 구현 방법에 관한 것이다. 상기 방법은: (i) 컴퓨터-기반 정보 추출 장치의 적어도 하나의 마이크로폰이 대화 중에 제1 화자와 제2 화자의 음성을 수신하는 단계; (ii) 컴퓨터-기반 정보 추출 장치가 제1 화자의 음성을 자동으로 인식하는 단계; (iii) 컴퓨터-기반 정보 추출 장치가 제2 언어로 제2 화자의 음성을 자동으로 인식하는 단계; (iv) 컴퓨터-기반 정보 추출 장치가 인식된 제2 화자의 음성으로부터 적어도 정보를 추출하는 단계; 및 (v) 컴퓨터-기반 정보 추출 장치가 인식된 제2 화자의 음성으로부터 추출된 정보를 정보 추출 장치의 적어도 하나의 데이터 저장 유닛에 저장된 전자 서식으로 입력하는 단계를 포함할 수 있다.
다양한 구현으로, 상기 방법은 컴퓨터-기반 정보 추출 장치의 스크린 디스플레이에서 전자 서식을 디스플레이하는 단계를 더 포함할 수 있다. 또한, 제1 화자는 제1 언어로 말하고, 제2 화자는 제1 언어와 다른 제2 언어로 말하는 경우, 상기 방법은: (i) 컴퓨터-기반 정보 추출 장치가 제1 언어로 인식된 제1 화자의 음성을 제2 언어로 자동 번역하는 단계; 및 (ii) 컴퓨터-기반 정보 추출 장치가 제2 언어로 인식된 제2 화자의 음성을 제1 언어로 자동 번역하는 단계를 더 포함할 수 있다. 또한, 적어도 정보를 추출하는 단계는 컴퓨터-기반 정보 추출 장치가 제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 적어도 정보를 추출하는 단계를 포함할 수 있다. 그리고 추출된 정보를 입력하는 단계는 컴퓨터-기반 정보 추출 장치가 제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 추출된 정보를 정보 추출 장치의 적어도 하나의 데이터 저장 유닛에 저장된 전자 서식으로 입력하는 단계를 포함할 수 있다.
다양한 구현으로, 상기 방법은 제1 언어로 인식된 제1 화자의 음성으로부터 적어도 정보를 추출하는 단계; 및 제1 언어로 인식된 제1 화자의 음성으로부터 추출된 정보를 전자 서식으로 입력하는 단계를 더 포함한다. 제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 정보를 추출하는 단계는 의미 문법에 의한 번역을 파싱하는 단계를 포함할 수 있다. 상기 방법은 컴퓨터-기반 정보 추출 장치가 원격 데이터베이스로부터 추출된 정보에 관한 하나 이상의 문서를 검색하는 단계를 더 포함할 수 있다. 제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 정보를 추출하는 단계는 번역에서 하나 이상의 키워드를 검출하는 단계를 포함할 수 있다. 또한, 상기 방법은 컴퓨터-기반 정보 추출 장치가 전자 서식으로 추출된 정보를 입력하기 전에 제1 화자와 제2 화자 중 적어도 하나로부터 피드백을 요청하는 단계를 더 포함할 수 있다. 또한, 상기 방법은: (i) 컴퓨터-기반 정보 추출 장치가 인식된 제1 화자의 음성에 모호성이 있는지를 결정하는 단계; (ii) 컴퓨터-기반 정보 추출 장치가 제1 언어로 인식된 제1 화자의 음성의 제2 언어로의 번역에 모호성이 있는지를 결정하는 단계; 및 (iii) 컴퓨터-기반 정보 추출 장치가 (a) 제1 화자의 인식된 음성 또는 (b) 제1 언어로 인식된 제1 화자의 음성의 제2 언어로의 번역 중 하나에 모호성이 있다고 결정하면, 컴퓨터-기반 정보 추출 장치가 컴퓨터-기반 정보 추출 장치의 스크린 디스플레이를 통해 명확화 질의를 제1 화자로 송출하는 단계를 더 포함하며, 명확화 질의에 대한 응답은 모호성을 해소할 수 있다. 제1 화자로 송출되는 명확화 질의는 제1 언어로 인식된 제1 화자의 음성의 제2 언어로의 번역에 모호성이 있는 경우와 제1 화자의 인식된 음성에 모호성이 있는 경우가 서로 다를 수 있다. 또한, 인식된 제1 화자의 음성에 모호성이 있는지에 대한 결정은 복수의 인자를 기초로 할 수 있으며, 상기 인자는: (i) 인식된 제1 화자의 음성의 음향 신뢰 점수; (ii) 전자 서식의 컨텍스트; 및 (iii) 제2 화자의 하나 이상의 발언을 제2 언어에서 제1 언어로 번역하여 얻어진 언어 컨텍스트를 포함한다. 또한, 제1 언어로 인식된 제1 화자의 음성의 제2 언어로의 번역에 모호성이 있는지에 대한 결정은 복수의 인자를 기초로 할 수 있으며, 상기 인자는: 가장 높은 점수의 출력 번역과의 임계 점수 차 내에 하나 이상의 대체 출력 번역이 있는지 여부와; 가장 높은 점수의 출력 번역과의 임계 점수 차 내에 대체 출력 번역이 없다면, 가장 높은 점수의 출력 번역의 점수가 최소 임계치 내에 있는지 여부를 포함한다.
또 다른 일반적인 태양으로, 본 발명은 적어도 제1 언어로 말하는 제1 화자와 제2 언어로 말하는 제2 화자 사이의 사람 대 사람의 대화의 음성 번역에서 모호성을 해소하는 컴퓨터-구현 방법에 관한 것이다. 상기 방법은 (i) 컴퓨터-기반 음성 번역 시스템이 제1 언어로 제1 화자의 음성을 인식하는 단계; (ii) 컴퓨터-기반 음성 번역 시스템이 제1 화자의 인식된 음성에 모호성이 존재하는지를 결정하는 단계; (iii) 컴퓨터-기반 음성 번역 시스템이 제1 언어로 인식된 제1 화자의 음성을 제2 언어로 번역하는 단계; (iv) 컴퓨터-기반 음성 번역 시스템이 제1 언어로 인식된 제1 화자의 음성의 제2 언어로의 번역에 모호성이 존재하는지를 결정하는 단계; 및 (v) 컴퓨터- 기반 음성 번역 시스템이 (a) 제1 화자의 인식된 음성 또는 (b) 제1 언어로 인식된 제1 화자의 음성의 제2 언어로의 번역 중 하나에 모호성이 있다고 결정하면, 컴퓨터-기반 음성 번역 시스템이 음성 번역 시스템의 사용자 인터페이스를 통해 명확화 질의를 제1 화자로 송출하는 단계를 포함할 수 있으며, 명확화 질의에 대한 응답은 모호성을 해소한다.
또 다른 일반적인 태양으로, 본 발명은 적어도 제1 화자와 제2 화자 사이의 사람 대 사람의 대화로부터 정보를 추출하는 장치에 관한 것이다. 상기 장치는: 적어도 하나의 마이크로폰; 스크린 디스플레이; 및 적어도 하나의 프로그램가능한 프로세서와 디지털 데이터를 저장하기 위한 적어도 하나의 데이터 저장 유닛을 포함할 수 있다. 적어도 하나의 프로그램가능한 프로세서는 스크린 디스플레이와 적어도 하나의 마이크로폰과 통신한다. 그리고 적어도 하나의 프로그램가능한 프로세서는: (i) 제1 화자와 제2 화자 사이의 대화 중에, 적어도 하나의 마이크로폰에 의해 수신되는 제1 화자와 제2 화자의 음성을 자동으로 인식하고; (ii) 제1 화자와 제2 화자 사이의 대화 중 스크린 디스플레이에 디스플레이되는 그래픽 사용자 인터페이스의 제1 부분에 제1 화자와 제2 화자의 인식된 음성을 출력하며; (iii) 스크린 디스플레이에 디스플레이되는 그래픽 사용자 인터페이스의 제2 부분에 제1 화자와 제2 화자 사이의 대화에 관한(예컨대, 추출된) 정보를 가진 서식을 출력하도록 프로그래밍될 수 있다. 적어도 하나의 프로그램가능한 프로세서는 서식의 그래픽 사용자 인터페이스의 제2 부분에 출력하기 위해 제1 화자와 제2 화자 사이의 대화로부터 정보를 추출하도록 또한 프로그래밍될 수 있다. 또한, 제1 화자는 제1 언어로 말하고 있고, 제2 화자는 제2 언어로 말하고 있는 경우에 대해, 적어도 하나의 프로그램가능한 프로세서는: (i) 인식된 제1 화자의 음성을 제2 언어로 번역하고; (ii) 인식된 제2 화자의 음성을 제1 언어로 번역하며; (iii) 그래픽 사용자 인터페이스의 제1 부분에 인식된 제1 화자와 제2 화자의 음성의 번역을 디스플레이하도록 프로그래밍될 수 있다. 또한, 적어도 하나의 프로그램가능한 프로세서는 장치의 사용자에 의한 스크린 디스플레이를 통해 입력으로 추출된 정보에 대한 편집을 인식하고 수신하도록 프로그래밍될 수 있다.
본 명세서에 기술된 적어도 일부의 실시예는 소프트웨어, 펌웨어 및/또는 하드웨어의 많은 다른 실시예들로 구현될 수 있음이 당업자에게 명백할 것이다. 소프트웨어 및 펌웨어 코드는 프로세서 회로 또는 임의의 다른 유사한 컴퓨팅 장치에 의해 실행될 수 있다. 실시예들을 구현하는데 사용될 수 있는 소프트웨어 코드 또는 특화된 제어 하드웨어는 제한이 없다. 예컨대, 본 명세서에 기술된 실시예는 가령 종래의 기술 또는 객체-지향 기술을 사용하여, 임의의 적절한 컴퓨터 소프트웨어 언어 타입을 사용하는 컴퓨터 소프트웨어로 구현될 수 있다. 이런 소프트웨어는 예컨대 자기 저장매체나 광학 저장매체와 같은 임의의 타입의 적절한 컴퓨터-판독가능한 매체나 매체들에 저장될 수 있다. 실시예들의 동작이나 행동은 특정 소프트웨어 코드나 특화된 하드웨어 컴포넌트의 특정한 언급 없이도 기술될 수 있다. 당업자가 더 이상의 합리적인 노력 없이 그리고 과도한 실험 없이 본 설명을 기초로 실시예들을 구현하도록 소프트웨어 및 제어 하드웨어를 설계할 수 있음이 명백히 이해되기 때문에, 이런 특정한 언급이 기술되지 않을 수 있다.
게다가, 본 실시예들과 관련된 프로세스는 가령 컴퓨터나 컴퓨터 시스템, 모바일 장치, 스마트폰 및/또는 프로세서와 같은 프로그램가능한 기기로 실행될 수 있다. 프로그램가능한 기기가 프로세스를 실행하도록 할 수 있는 소프트웨어는 예컨대 컴퓨터 시스템 (비휘발성) 메모리, RAM, ROM, 플래시 메모리, 광학 디스크, 자기 테이프 또는 자기 디스크와 같은 임의의 저장 장치에 저장될 수 있다. 게다가, 적어도 일부의 프로세스는 컴퓨터 시스템이 제조되거나 다양한 타입의 컴퓨터-판독가능한 매체에 저장될 때 프로그램화될 수 있다.
또한, 본 명세서에 기술된 특정 프로세스의 태양은 컴퓨터 시스템이 프로세스 단계들을 수행하게 하는 컴퓨터-판독가능한 매체나 매체들에 저장된 명령어들을 사용하여 수행될 수 있음이 이해될 수 있다. 컴퓨터-판독가능한 매체는 예컨대, 가령 디스켓과 같은 메모리 장치, 콤팩트 디스크(CDs), DVDs(digital versatile discs), 광학 디스크 드라이브 또는 하드 디스크 드라이브를 포함할 수 있다. 또한, 컴퓨터-판독가능한 매체는 물리적, 가상적, 영구적, 일시적, 반영구적 및/또는 반일시적인 메모리 저장소를 포함할 수 있다.
"컴퓨터", "컴퓨터 시스템", "호스트", "서버" 또는 "프로세서"는 예로서 제한 없이, 프로세서, 마이크로컴퓨터, 미니컴퓨터, 서버, 메인프레임, 랩톱, 개인용 정보 단말기(PDA), 무선 이메일 장치, 셀룰러폰, 스마트폰, 태블릿, 모바일 장치, 페이저, 프로세서, 팩스 머신, 스캐너 또는 네트워크를 통해 데이터를 송신 및/또는 수신하도록 구성된 임의의 다른 프로그램가능한 장치일 수 있다. 본 명세서에 개시된 컴퓨터 시스템 및 컴퓨터-기반 장치는 정보를 획득, 처리 및 통신하는데 사용되는 특정 소프트웨어 모듈이나 엔진을 저장하기 위한 메모리를 포함할 수 있다. 이런 메모리는 개시된 실시예들의 동작에 대해 내부 또는 외부에 있을 수 있음이 이해될 수 있다. 또한, 메모리는 하드 디스크, 광학 디스크, 플로피 디스크, ROM(read only memory), RAM(random access memory), PROM(programmable ROM), EEPROM(electrically erasable PROM) 및/또는 다른 컴퓨터-판독가능한 매체를 포함하는 소프트웨어 저장용 임의의 수단을 포함할 수 있다. 본 명세서에 기술된 소프트웨어 모듈 및 엔진은 모듈들을 저장하는 메모리에 접속하는 컴퓨터 장치의 프로세서(또는 경우에 따라 프로세서들)에 의해 실행될 수 있다.
본 명세서에 개시된 다양한 실시예로, 단일의 컴포넌트가 다수의 컴포넌트로 대체될 수 있고 다수의 컴포넌트는 소정의 기능이나 기능들을 수행하는 단일의 컴포넌트로 대체될 수 있다. 이런 대체가 작동될 수 없는 경우 이외에, 이런 대체는 실시예들의 의도된 범위 내에 있다. 본 명세서에 기술된 임의의 서버는 예컨대 협력 기능들이 위치되고 설정되는 "서버 팜(server farm)" 또는 (가령 서버 블래이드(server blades)와 같은) 네트워크형 서버의 다른 그룹화로 대체될 수 있다. 서버 팜은 팜의 개별 컴포넌트들 사이에 작업량을 분배하는 역할을 할 수 있고 다수의 서버의 공동의 협력적인 능력을 활용하여 컴퓨팅 프로세서를 신속히 처리할 수 있음이 이해될 수 있다. 이런 서버 팜은 예컨대 다른 기계들로부터의 능력을 처리기 위한 수요를 추적하기, 네트워크 수요를 기초로 업무를 순위화하고 스케쥴링하기 및/또는 컴포넌트 고장이나 동작성의 감소시 비상 백업을 제공하기와 같은 업무들을 수행하는 부하-균등 소프트웨어(load-balancing software)를 이용할 수 있다.
컴퓨터 시스템은 하나 이상의 데이터 버스를 통해 메모리(예컨대, RAM 또는 ROM)와 통신하는 하나 이상의 프로세서를 포함할 수 있다. 데이터 버스는 프로세서(들)와 메모리 사이의 전기 신호를 전달할 수 있다. 프로세서 및 메모리는 전기 전류를 전도하는 전기 회로를 포함할 수 있다. 가령 프로세서(들) 및/또는 메모리 회로(들)의 고체 상태 트랜지스터(solid state transistors)와 같은 회로의 다양한 컴포넌트의 전하 상태는 회로의 동작 중 변화할 수 있다.
다양한 실시예들이 본 명세서에 기술되었지만, 이런 실시예들에 대한 다양한 변경, 변형 및 개조가 적어도 일부의 이점을 성취하도록 당업자에 의해 이루어질 수 있음이 명백해야 한다. 따라서, 개시된 실시예들은 본 명세서에 제시되는 바와 같은 실시예들의 범위를 벗어남이 없는 이런 모든 변경, 변형 및 개조를 포함하도록 의도된다.

Claims (55)

  1. 적어도 하나의 마이크로폰;
    스크린 디스플레이; 및
    적어도 하나의 프로그램가능한 프로세서와 디지털 데이터를 저장하기 위한 적어도 하나의 데이터 저장 유닛을 포함하는 장치로서,
    적어도 하나의 프로그램가능한 프로세서는 적어도 하나의 마이크로폰 및 스크린 디스플레이와 통신하고,
    적어도 하나의 프로그램가능한 프로세서는:
    제1 화자로부터 음성 입력을 수신하는 단계;
    수신된 음성 입력에 기반하여 인식된 음성 결과를 결정하는 단계; 및
    컴퓨터-기반 음성 번역 시스템에 의해, 제1 화자의 인식된 음성의 인식 모호성이 존재하는지를 결정하는 단계를 포함하여, 적어도 하나의 마이크로폰에 의해 수신되는 제1 화자에 의한 음성 입력을 자동으로 인식하고;
    컴퓨터-기반 음성 번역 시스템에 의해, 제1 언어로 인식된 제1 화자의 음성 결과를 제2 언어로 번역하며;
    컴퓨터-기반 음성 번역 시스템에 의해, 제1 언어로 인식된 제1 화자의 음성 결과의 제2 언어로의 번역에서 하나 이상의 단어에 대한 번역 모호성이 있는지를 결정하고;
    컴퓨터-기반 음성 번역 시스템에 의해 (i) 제1 화자의 인식된 음성 결과의 인식 모호성 또는 (ii) 제1 언어로 인식된 제1 화자의 음성 결과의 제2 언어로의 번역의 번역 모호성 중 어느 하나가 있다고 결정하면, 인식 모호성 또는 번역 모호성에 기반하여 신뢰 점수를 결정하며;
    신뢰 점수가 임계치 미만임에 응답하여, 컴퓨터-기반 음성 번역 시스템에 의해, 음성 번역 시스템의 사용자-인터페이스를 통해 명확화 질의(disambiguation query)를 제1 화자로 송출하도록 프로그래밍되며,
    인식 모호성은 인식된 음성 결과에 대해 가능한 하나 이상의 매치(match)를 나타내고,
    번역 모호성은 하나 이상의 단어의 가능한 하나 이상의 번역을 나타내며,
    명확화 질의에 대한 응답은 인식 모호성 또는 번역 모호성을 해소하고,
    적어도 하나의 프로그램가능한 프로세서는:
    적어도 하나의 마이크로폰에 의해 수신되는 제2 화자에 의한 음성을 자동으로 인식하며;
    인식된 제2 화자의 음성으로부터 적어도 정보를 추출하고;
    인식된 제2 화자의 음성으로부터 추출된 정보를 컴퓨터 시스템의 적어도 하나의 데이터 저장 유닛에 저장되고 스크린 디스플레이의 그래픽 사용자 인터페이스에 디스플레이되는 전자 서식으로 입력하도록 또한 프로그래밍되는 장치.
  2. 삭제
  3. 제 1 항에 있어서,
    제1 화자는 제1 언어로 말하고,
    제2 화자는 제1 언어와 다른 제2 언어로 말하며,
    적어도 하나의 프로그램가능한 프로세서는:
    제2 언어로 인식된 제2 화자의 음성을 제1 언어로 자동 번역하며;
    제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 적어도 정보를 추출함으로써 인식된 제2 화자의 음성으로부터 적어도 정보를 추출하고;
    제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 추출된 정보를 입력함으로써 추출된 정보를 적어도 하나의 데이터 저장 유닛에 저장된 전자 서식으로 입력하도록 또한 프로그래밍되는 장치.
  4. 제 3 항에 있어서,
    상기 프로세서는:
    제1 언어로 인식된 제1 화자의 음성 결과로부터 적어도 정보를 추출하고;
    제1 언어로 인식된 제1 화자의 음성 결과로부터 추출된 정보를 전자 서식으로 입력하도록 또한 프로그래밍되는 장치.
  5. 제 3 항에 있어서,
    상기 프로세서는 의미 문법(semantic grammar)에 의한 번역을 파싱(parsing)하여 제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 정보를 추출하도록 프로그래밍되는 장치.
  6. 제 5 항에 있어서,
    상기 프로세서는 원격 데이터베이스로부터 추출된 정보에 관한 하나 이상의 문서를 검색하도록 또한 프로그래밍되는 장치.
  7. 제 3 항에 있어서,
    상기 프로세서는 번역에서 하나 이상의 키워드를 검출하여 제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 정보를 추출하도록 프로그래밍되는 장치.
  8. 제 7 항에 있어서,
    상기 프로세서는 원격 데이터베이스로부터 추출된 정보에 관한 하나 이상의 문서를 검색하도록 또한 프로그래밍되는 장치.
  9. 제 1 항에 있어서,
    상기 프로세서는 전자 서식으로 추출된 정보를 입력하기 전에 제1 화자와 제2 화자 중 적어도 하나로부터 피드백을 요청하도록 또한 프로그래밍되는 장치.
  10. 제 1 항에 있어서,
    적어도 하나의 프로그램가능한 프로세서는 장치의 사용자에 의한 스크린 디스플레이를 통해 전자 서식 입력으로 추출된 정보에 대한 편집(edit)을 인식하고 수신하도록 프로그래밍되는 장치.
  11. 제 1 항에 있어서,
    적어도 하나의 프로그램가능한 프로세서는:
    제1 화자와 제2 화자 사이의 대화 중 스크린 디스플레이에 디스플레이되는 그래픽 사용자 인터페이스의 제1 부분에 제1 화자의 인식된 음성 결과와 제2 화자의 인식된 음성을 출력하며;
    스크린 디스플레이에 디스플레이되는 그래픽 사용자 인터페이스의 제2 부분에 제1 화자와 제2 화자 사이의 대화로부터 추출된 정보를 가진 서식을 출력하도록 또한 프로그래밍되는 장치.
  12. 제 11 항에 있어서,
    적어도 하나의 프로그램가능한 프로세서는 서식의 그래픽 사용자 인터페이스의 제2 부분에 출력하기 위해 제1 화자와 제2 화자 사이의 대화로부터 정보를 추출하도록 또한 프로그래밍되는 장치.
  13. 제 12 항에 있어서,
    적어도 하나의 프로그램가능한 프로세서는 그래픽 사용자 인터페이스의 제1 부분에 제1 화자의 인식된 음성 결과와 제2 화자의 인식된 음성의 번역을 디스플레이하도록 프로그래밍되는 장치.
  14. 제 12 항에 있어서,
    적어도 하나의 프로그램가능한 프로세서는 장치의 사용자에 의한 스크린 디스플레이를 통해 입력으로 추출된 정보에 대한 편집을 인식하고 수신하도록 프로그래밍되는 장치.
  15. 적어도 하나의 마이크로폰;
    스크린 디스플레이;
    디지털 데이터를 저장하기 위한 적어도 하나의 데이터 저장 유닛;
    적어도 하나의 마이크로폰에 의해 수신된 제1 화자의 음성 입력을 자동으로 인식하기 위한 제1 자동 음성 인식 모듈;
    제1 화자의 인식된 음성 결과의 인식 모호성이 존재하는지를 결정하고, 제1 언어로 인식된 제1 화자의 음성 결과의 제2 언어로의 번역에서 하나 이상의 단어에 대한 번역 모호성이 있는지를 결정하기 위한 상호작용형 명확화 모듈; 및
    제1 언어로 인식된 제1 화자의 음성 결과를 제2 언어로 번역하기 위한 제1 기계 번역 모듈을 포함하는 컴퓨터-기반 장치로서,
    제1 화자의 음성 입력을 자동으로 인식하는 것은: 제1 화자로부터 음성 입력을 수신하고; 수신된 음성 입력에 기반하여 인식된 음성 결과를 결정하는 것을 포함하며,
    인식 모호성은 인식된 음성 결과에 대해 가능한 하나 이상의 매치(match)를 나타내고,
    번역 모호성은 하나 이상의 단어의 가능한 하나 이상의 번역을 나타내며,
    상기 상호작용형 명확화 모듈은 (i) 제1 화자의 인식된 음성 결과의 인식 모호성 또는 (ii) 제1 언어로 인식된 제1 화자의 음성 결과의 제2 언어로의 번역의 번역 모호성 중 어느 하나가 있다고 결정하면, 인식 모호성 또는 번역 모호성에 기반하여 신뢰 점수를 결정하며; 신뢰 점수가 임계치 미만임에 응답하여, 컴퓨터-기반 음성 번역 시스템에 의해, 음성 번역 시스템의 사용자-인터페이스를 통해 명확화 질의를 제1 화자로 송출하도록 더 구성되며,
    명확화 질의에 대한 응답은 인식 모호성 또는 번역 모호성을 해소하고,
    제1 화자는 제1 언어로 말하고;
    제2 화자는 제1 언어와 다른 제2 언어로 말하며;
    상기 컴퓨터-기반 장치는:
    적어도 하나의 마이크로폰에 의해 수신된 제2 화자의 음성을 자동으로 인식하기 위한 제2 자동 음성 인식 모듈;
    제2 언어로 인식된 제2 화자의 음성을 제1 언어로 자동 번역하기 위한 제2 기계 번역 모듈; 및
    제1 언어로 번역되는 제2 화자의 인식된 음성의 번역으로부터 적어도 정보를 추출함으로써 제2 화자의 인식된 음성으로부터 적어도 정보를 추출하고, 제1 언어로 번역되는 제2 화자의 인식된 음성의 번역으로부터 추출된 정보를 입력함으로써 추출된 정보를 적어도 하나의 데이터 저장 유닛에 저장된 전자 서식으로 입력하기 위한 정보 추출 모듈을 더 포함하는 컴퓨터-기반 장치.
  16. 삭제
  17. 제 15 항에 있어서,
    상기 정보 추출 모듈은 또한: 제1 언어로 인식된 제1 화자의 음성 결과로부터 적어도 정보를 추출하고; 제1 언어로 인식된 제1 화자의 음성 결과로부터 추출된 정보를 전자 서식으로 입력하기 위한 것인 컴퓨터-기반 장치.
  18. 제 15 항에 있어서,
    상기 정보 추출 모듈은 의미 문법에 의한 번역을 파싱하여 제1 언어로 번역되는 제2 화자의 인식된 음성의 번역으로부터 정보를 추출하는 컴퓨터-기반 장치.
  19. 제 18 항에 있어서,
    원격 데이터베이스로부터 추출된 정보에 관한 하나 이상의 문서를 검색하기 위한 정보 검색기 모듈을 더 포함하는 컴퓨터-기반 장치.
  20. 제 15 항에 있어서,
    상기 정보 추출 모듈은 번역에서 하나 이상의 키워드를 검출하여 제1 언어로 번역되는 제2 화자의 인식된 음성의 번역으로부터 정보를 추출하는 컴퓨터-기반 장치.
  21. 제 20 항에 있어서,
    원격 데이터베이스로부터 추출된 정보에 관한 하나 이상의 문서를 검색하기 위한 정보 검색기 모듈을 더 포함하는 컴퓨터-기반 장치.
  22. 제 15 항에 있어서,
    전자 서식으로 추출된 정보를 입력하기 전에 제1 화자와 제2 화자 중 적어도 하나로부터 피드백을 요청하는 다중모드 상호작용형 인터페이스를 더 포함하는 컴퓨터-기반 장치.
  23. 컴퓨터-기반 음성 번역 시스템에 의해: 제1 화자로부터 음성 입력을 수신하는 단계와, 수신된 음성 입력에 기반하여 인식된 음성 결과를 결정하는 단계와, 컴퓨터-기반 음성 번역 시스템에 의해 제1 화자의 인식된 음성 결과의 인식 모호성이 존재하는지를 결정하는 단계를 포함하는, 제1 언어로의 제1 화자에 의한 음성 입력을 인식하는 단계;
    컴퓨터-기반 음성 번역 시스템에 의해, 제1 언어로 인식된 제1 화자의 음성 결과를 제2 언어로 번역하는 단계;
    컴퓨터-기반 음성 번역 시스템에 의해, 제1 언어로 인식된 제1 화자의 음성 결과의 제2 언어로의 번역에서 하나 이상의 단어에 대한 번역 모호성이 있는지를 결정하는 단계;
    컴퓨터-기반 음성 번역 시스템에 의해 (i) 제1 화자의 인식된 음성 결과의 인식 모호성 또는 (ii) 제1 언어로 인식된 제1 화자의 음성 결과의 제2 언어로의 번역의 번역 모호성 중 어느 하나가 있다고 결정하면, 인식 모호성 또는 번역 모호성에 기반하여 신뢰 점수를 결정하는 단계; 및
    신뢰 점수가 임계치 미만임에 응답하여, 컴퓨터-기반 음성 번역 시스템에 의해, 음성 번역 시스템의 사용자-인터페이스를 통해 명확화 질의를 제1 화자로 송출하는 단계를 포함하며,
    인식 모호성은 인식된 음성 결과에 대해 가능한 하나 이상의 매치(match)를 나타내고,
    번역 모호성은 하나 이상의 단어의 가능한 하나 이상의 번역을 나타내며,
    명확화 질의에 대한 응답은 인식 모호성 또는 번역 모호성을 해소하고,
    컴퓨터-기반 정보 추출 장치의 적어도 하나의 마이크로폰에 의해, 사람 대 사람의 대화의 일부로서 제2 화자에게 제1 언어로 말하는 제1 화자의 음성을 수신하는 단계;
    컴퓨터-기반 정보 추출 장치에 의해, 제2 언어로의 제2 화자에 의한 음성을 자동으로 인식하는 단계;
    컴퓨터-기반 정보 추출 장치에 의해, 제2 화자에 의한 인식된 음성으로부터 적어도 정보를 추출하는 단계; 및
    컴퓨터-기반 정보 추출 장치에 의해, 제2 화자에 의한 인식된 음성으로부터 추출된 정보를 정보 추출 장치의 적어도 하나의 데이터 저장 유닛에 저장된 전자 서식으로 입력하는 단계를 더 포함하는 컴퓨터 구현 방법.
  24. 삭제
  25. 제 23 항에 있어서,
    컴퓨터-기반 정보 추출 장치의 스크린 디스플레이에서 전자 서식을 디스플레이하는 단계를 더 포함하는 컴퓨터 구현 방법.
  26. 제 25 항에 있어서,
    제1 화자는 제1 언어로 말하고,
    제2 화자는 제1 언어와 다른 제2 언어로 말하며,
    상기 방법은:
    컴퓨터-기반 정보 추출 장치가 제1 언어로 인식된 제1 화자의 음성 결과를 제2 언어로 자동 번역하는 단계; 및
    컴퓨터-기반 정보 추출 장치가 제2 언어로 인식된 제2 화자의 음성을 제1 언어로 자동 번역하는 단계를 더 포함하며,
    적어도 정보를 추출하는 단계는 컴퓨터-기반 정보 추출 장치가 제1 언어로 번역되는 제2 화자의 인식된 음성의 번역으로부터 적어도 정보를 추출하는 단계를 포함하고,
    추출된 정보를 입력하는 단계는 컴퓨터-기반 정보 추출 장치가 제1 언어로 번역되는 제2 화자의 인식된 음성의 번역으로부터 추출된 정보를 정보 추출 장치의 적어도 하나의 데이터 저장 유닛에 저장된 전자 서식으로 입력하는 단계를 포함하는 컴퓨터 구현 방법.
  27. 제 26 항에 있어서,
    제1 언어로 인식된 제1 화자의 음성 결과로부터 적어도 정보를 추출하는 단계; 및
    제1 언어로 인식된 제1 화자의 음성 결과로부터 추출된 정보를 전자 서식으로 입력하는 단계를 더 포함하는 컴퓨터 구현 방법.
  28. 제 26 항에 있어서,
    제1 언어로 번역되는 제2 화자의 인식된 음성의 번역으로부터 정보를 추출하는 단계는 의미 문법에 의한 번역을 파싱하는 단계를 포함하는 컴퓨터 구현 방법.
  29. 제 28 항에 있어서,
    컴퓨터-기반 정보 추출 장치가 원격 데이터베이스로부터 추출된 정보에 관한 하나 이상의 문서를 검색하는 단계를 더 포함하는 컴퓨터 구현 방법.
  30. 제 26 항에 있어서,
    제1 언어로 번역되는 인식된 제2 화자의 음성의 번역으로부터 정보를 추출하는 단계는 번역에서 하나 이상의 키워드를 검출하는 단계를 포함하는 컴퓨터 구현 방법.
  31. 제 30 항에 있어서,
    컴퓨터-기반 정보 추출 장치가 원격 데이터베이스로부터 추출된 정보에 관한 하나 이상의 문서를 검색하는 단계를 더 포함하는 컴퓨터 구현 방법.
  32. 제 26 항에 있어서,
    컴퓨터-기반 정보 추출 장치가 전자 서식으로 추출된 정보를 입력하기 전에 제1 화자와 제2 화자 중 적어도 하나로부터 피드백을 요청하는 단계를 더 포함하는 컴퓨터 구현 방법.
  33. 제 26 항에 있어서,
    컴퓨터-기반 정보 추출 장치의 스크린 디스플레이는 터치-스크린 디스플레이를 포함하는 컴퓨터 구현 방법.
  34. 제 23 항에 있어서,
    제1 화자로 송출되는 명확화 질의는 제1 언어로 인식된 제1 화자의 음성 결과의 제2 언어로의 번역에 모호성이 있는 경우와 제1 화자의 인식된 음성 결과에 모호성이 있는 경우가 서로 다른 컴퓨터 구현 방법.
  35. 제 23 항에 있어서,
    제1 화자의 인식된 음성 결과에 모호성이 있는지에 대한 결정은 복수의 인자를 기초로 하며,
    상기 인자는: 제1 화자의 인식된 음성 결과의 음향 신뢰 점수; 제1 화자와 제2 화자 사이의 대화의 컨텍스트; 및 제2 화자의 하나 이상의 발언을 제2 언어에서 제1 언어로 번역하여 얻어진 언어 컨텍스트를 포함하는 컴퓨터 구현 방법.
  36. 제 23 항에 있어서,
    제1 언어로 인식된 제1 화자의 음성 결과의 제2 언어로의 번역에 모호성이 있는지에 대한 결정은 복수의 인자를 기초로 하며,
    상기 인자는: 가장 높은 점수의 출력 번역과의 임계 점수 차 내에 하나 이상의 대체 출력 번역이 있는지 여부와; 가장 높은 점수의 출력 번역과의 임계 점수 차 내에 대체 출력 번역이 없다면, 가장 높은 점수의 출력 번역의 점수가 최소 임계치 미만인지 여부를 포함하는 컴퓨터 구현 방법.
  37. 제 23 항에 있어서,
    음성 번역 시스템의 사용자-인터페이스는 터치-스크린 디스플레이를 포함하는 컴퓨터 구현 방법.
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
  52. 삭제
  53. 삭제
  54. 삭제
  55. 삭제
KR1020147028069A 2012-03-08 2013-03-04 대화에서 정보를 추출하는 장치 KR101689290B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261608334P 2012-03-08 2012-03-08
US61/608,334 2012-03-08
US13/760,535 2013-02-06
US13/760,535 US9257115B2 (en) 2012-03-08 2013-02-06 Device for extracting information from a dialog
PCT/US2013/028831 WO2013134106A2 (en) 2012-03-08 2013-03-04 Device for extracting information from a dialog

Publications (2)

Publication Number Publication Date
KR20140142280A KR20140142280A (ko) 2014-12-11
KR101689290B1 true KR101689290B1 (ko) 2016-12-23

Family

ID=49114862

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147028069A KR101689290B1 (ko) 2012-03-08 2013-03-04 대화에서 정보를 추출하는 장치

Country Status (10)

Country Link
US (4) US9257115B2 (ko)
EP (1) EP2823478B1 (ko)
JP (1) JP6058039B2 (ko)
KR (1) KR101689290B1 (ko)
CN (1) CN104380375B (ko)
AU (2) AU2013230453B2 (ko)
CA (1) CA2872790C (ko)
IL (1) IL234477A (ko)
MX (1) MX340907B (ko)
WO (1) WO2013134106A2 (ko)

Families Citing this family (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9128981B1 (en) 2008-07-29 2015-09-08 James L. Geer Phone assisted ‘photographic memory’
US8775454B2 (en) 2008-07-29 2014-07-08 James L. Geer Phone assisted ‘photographic memory’
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9257115B2 (en) * 2012-03-08 2016-02-09 Facebook, Inc. Device for extracting information from a dialog
RU2530268C2 (ru) 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ обучения информационной диалоговой системы пользователем
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US20140278345A1 (en) * 2013-03-14 2014-09-18 Michael Koski Medical translator
KR102197143B1 (ko) * 2013-11-26 2020-12-31 현대모비스 주식회사 음성 인식을 이용한 명령 수행 시스템 및 그 동작 방법
CN103744843B (zh) 2013-12-25 2017-01-04 北京百度网讯科技有限公司 一种在线语音翻译方法及装置
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633309B2 (en) * 2014-06-19 2017-04-25 International Business Machines Corporation Displaying quality of question being asked a question answering system
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP5907231B1 (ja) * 2014-10-15 2016-04-26 富士通株式会社 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
KR102033395B1 (ko) * 2014-11-20 2019-10-18 한국전자통신연구원 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법
US9772816B1 (en) * 2014-12-22 2017-09-26 Google Inc. Transcription and tagging system
US10199041B2 (en) * 2014-12-30 2019-02-05 Honeywell International Inc. Speech recognition systems and methods for maintenance repair and overhaul
US20160246781A1 (en) * 2015-02-19 2016-08-25 Gary Cabot Medical interaction systems and methods
JP6434363B2 (ja) * 2015-04-30 2018-12-05 日本電信電話株式会社 音声入力装置、音声入力方法、およびプログラム
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) * 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
CN104932826B (zh) * 2015-06-26 2018-10-12 联想(北京)有限公司 一种信息处理方法和电子设备
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
CN105046098A (zh) * 2015-09-10 2015-11-11 济南市儿童医院 一种孕妇早产因素流行病学调查系统
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN105488142B (zh) * 2015-11-24 2019-07-30 科大讯飞股份有限公司 成绩信息录入方法及系统
US10318640B2 (en) * 2016-06-24 2019-06-11 Facebook, Inc. Identifying risky translations
KR20180012464A (ko) * 2016-07-27 2018-02-06 삼성전자주식회사 전자 장치 및 그의 음성 인식 방법
KR101827773B1 (ko) * 2016-08-02 2018-02-09 주식회사 하이퍼커넥트 통역 장치 및 방법
CN107886955B (zh) * 2016-09-29 2021-10-26 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
JP6767046B2 (ja) * 2016-11-08 2020-10-14 国立研究開発法人情報通信研究機構 音声対話システム、音声対話装置、ユーザー端末、および音声対話方法
US10860685B2 (en) * 2016-11-28 2020-12-08 Google Llc Generating structured text content using speech recognition models
KR102668438B1 (ko) * 2016-12-26 2024-05-24 현대자동차주식회사 음성 처리 장치, 이를 포함하는 차량 및 음성 처리 방법
US10431216B1 (en) * 2016-12-29 2019-10-01 Amazon Technologies, Inc. Enhanced graphical user interface for voice communications
US11755997B2 (en) * 2017-02-22 2023-09-12 Anduin Transactions, Inc. Compact presentation of automatically summarized information according to rule-based graphically represented information
US11582174B1 (en) 2017-02-24 2023-02-14 Amazon Technologies, Inc. Messaging content data storage
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10652592B2 (en) 2017-07-02 2020-05-12 Comigo Ltd. Named entity disambiguation for providing TV content enrichment
US11316865B2 (en) 2017-08-10 2022-04-26 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US10546655B2 (en) 2017-08-10 2020-01-28 Nuance Communications, Inc. Automated clinical documentation system and method
JP7197259B2 (ja) * 2017-08-25 2022-12-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置およびプログラム
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CN110730952B (zh) * 2017-11-03 2021-08-31 腾讯科技(深圳)有限公司 处理网络上的音频通信的方法和系统
CN107894972A (zh) * 2017-11-15 2018-04-10 北京百度网讯科技有限公司 一种会话标记方法、装置、聚合服务器和存储介质
WO2019108231A1 (en) * 2017-12-01 2019-06-06 Hewlett-Packard Development Company, L.P. Collaboration devices
CN110021290A (zh) * 2018-01-08 2019-07-16 上海西门子医疗器械有限公司 医疗系统和用于医疗系统的实时语言转换方法
US10423727B1 (en) 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
WO2019142419A1 (ja) * 2018-01-22 2019-07-25 ソニー株式会社 情報処理装置および情報処理方法
US11398221B2 (en) * 2018-02-22 2022-07-26 Sony Corporation Information processing apparatus, information processing method, and program
EP3762931A4 (en) * 2018-03-05 2022-05-11 Nuance Communications, Inc. AUTOMATED CLINICAL DOCUMENTATION REVIEW SYSTEM AND METHOD
WO2019173333A1 (en) 2018-03-05 2019-09-12 Nuance Communications, Inc. Automated clinical documentation system and method
US11250382B2 (en) 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
US11354521B2 (en) 2018-03-07 2022-06-07 Google Llc Facilitating communications with automated assistants in multiple languages
EP3723084A1 (en) * 2018-03-07 2020-10-14 Google LLC Facilitating end-to-end communications with automated assistants in multiple languages
CN110322881A (zh) * 2018-03-29 2019-10-11 松下电器产业株式会社 语音翻译装置、语音翻译方法及其存储介质
US11238852B2 (en) * 2018-03-29 2022-02-01 Panasonic Corporation Speech translation device, speech translation method, and recording medium therefor
EP3602545B1 (en) 2018-04-11 2021-11-24 Google LLC Low latency nearby group translation
KR20200125735A (ko) * 2018-04-27 2020-11-04 주식회사 엘솔루 음성 인식 기술을 이용한 다자간 대화 기록/출력 방법 및 이를 위한 장치
CN108764649B (zh) * 2018-04-28 2022-04-26 平安科技(深圳)有限公司 保险销售实时监控方法、装置、设备及存储介质
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
CN110659970A (zh) * 2018-06-12 2020-01-07 百度在线网络技术(北京)有限公司 基于语音识别的账务信息处理方法、装置和电子设备
US20210365641A1 (en) * 2018-06-12 2021-11-25 Langogo Technology Co., Ltd Speech recognition and translation method and translation apparatus
US20190384811A1 (en) * 2018-06-14 2019-12-19 Pubali Sen System and method for communication exchange feedback
CN109166594A (zh) * 2018-07-24 2019-01-08 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN108984788A (zh) * 2018-07-30 2018-12-11 珠海格力电器股份有限公司 一种录音文件整理、归类系统及其控制方法与录音设备
EP3605527A3 (en) * 2018-08-02 2020-04-15 SoundHound, Inc. Visually presenting information relevant to a natural language conversation
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109088995B (zh) * 2018-10-17 2020-11-13 永德利硅橡胶科技(深圳)有限公司 支持全球语言翻译的方法及手机
KR20200056712A (ko) 2018-11-15 2020-05-25 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20210099629A (ko) * 2018-12-06 2021-08-12 베스텔 일렉트로닉 사나이 베 티카레트 에이에스 음성제어가능 전자 장치에 대한 커맨드를 생성하는 기술
US11423215B2 (en) 2018-12-13 2022-08-23 Zebra Technologies Corporation Method and apparatus for providing multimodal input data to client applications
EP3685374B1 (en) * 2018-12-14 2021-04-07 Google LLC Generation of a voice-based interface
US11798560B1 (en) 2018-12-21 2023-10-24 Cerner Innovation, Inc. Rapid event and trauma documentation using voice capture
US11869509B1 (en) * 2018-12-21 2024-01-09 Cerner Innovation, Inc. Document generation from conversational sources
US11875883B1 (en) 2018-12-21 2024-01-16 Cerner Innovation, Inc. De-duplication and contextually-intelligent recommendations based on natural language understanding of conversational sources
CN109683714B (zh) 2018-12-28 2021-08-31 北京小米移动软件有限公司 多媒体资源管理方法、装置及存储介质
CN111475206B (zh) * 2019-01-04 2023-04-11 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
US11145171B2 (en) * 2019-02-28 2021-10-12 Arlo Technologies, Inc. Electronic doorbell system with text communication
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
KR102280453B1 (ko) * 2019-03-28 2021-07-22 주식회사 포시에스 화자 식별을 통한 전자문서 데이터 제공 방법 및 장치
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11227679B2 (en) 2019-06-14 2022-01-18 Nuance Communications, Inc. Ambient clinical intelligence system and method
US11216480B2 (en) 2019-06-14 2022-01-04 Nuance Communications, Inc. System and method for querying data points from graph data structures
US11043207B2 (en) 2019-06-14 2021-06-22 Nuance Communications, Inc. System and method for array data simulation and customized acoustic modeling for ambient ASR
US11531807B2 (en) 2019-06-28 2022-12-20 Nuance Communications, Inc. System and method for customized text macros
WO2021002838A1 (en) * 2019-07-01 2021-01-07 Google Llc Adaptive diarization model and user interface
KR102076793B1 (ko) * 2019-07-04 2020-02-12 주식회사 포시에스 음성을 통한 전자문서 제공 방법, 음성을 통한 전자문서 작성 방법 및 장치
US20210026923A1 (en) * 2019-07-23 2021-01-28 Reginald Dalce Intent-Based Language Translation
KR20210016739A (ko) * 2019-08-05 2021-02-17 삼성전자주식회사 전자 장치 및 전자 장치의 입력 방법
US11670408B2 (en) 2019-09-30 2023-06-06 Nuance Communications, Inc. System and method for review of automated clinical documentation
CN111833865B (zh) * 2020-01-08 2024-05-24 北京嘀嘀无限科技发展有限公司 一种人机交互方法与终端、计算机可读存储介质
CN111710436A (zh) * 2020-02-14 2020-09-25 北京猎户星空科技有限公司 诊疗方法、装置、电子设备及存储介质
WO2021179048A1 (en) * 2020-03-13 2021-09-16 Tstreet Pty Limited Language communication method and system
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US12001785B2 (en) 2020-09-10 2024-06-04 International Business Machines Corporation Mining multi-party collaboration platforms to create triaging trees and playbooks
US11252205B1 (en) * 2020-10-15 2022-02-15 Fuze, Inc. Real time information analysis for a teleconference
US11222103B1 (en) 2020-10-29 2022-01-11 Nuance Communications, Inc. Ambient cooperative intelligence system and method
KR102480479B1 (ko) * 2020-11-30 2022-12-23 주식회사 마인즈랩 전사를 위한 음성 콘텐츠의 전처리 방법
KR102666826B1 (ko) * 2021-02-25 2024-05-20 오동길 Stt를 활용한 화자구분 시스템
US11928111B2 (en) 2021-03-03 2024-03-12 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling electronic apparatus
KR20220124523A (ko) * 2021-03-03 2022-09-14 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN113157966B (zh) * 2021-03-15 2023-10-31 维沃移动通信有限公司 显示方法、装置及电子设备
CN112951238A (zh) * 2021-03-19 2021-06-11 河南蜂云科技发展有限公司 一种基于语音处理的科技法庭智能管理方法、系统及存储介质
CN113506565B (zh) * 2021-07-12 2024-06-04 北京捷通华声科技股份有限公司 语音识别的方法、装置、计算机可读存储介质与处理器
US11681538B1 (en) * 2022-04-06 2023-06-20 Truist Bank Coordinating and synchronizing data entry between client computing devices

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3411198B2 (ja) * 1997-10-20 2003-05-26 シャープ株式会社 通訳装置及び方法並びに通訳装置制御プログラムを記憶した媒体
JP3890326B2 (ja) * 2003-11-07 2007-03-07 キヤノン株式会社 情報処理装置、情報処理方法ならびに記録媒体、プログラム
JP2011524991A (ja) * 2008-04-15 2011-09-08 モバイル テクノロジーズ,エルエルシー 現場にて音声−音声翻訳をメンテナンスするシステム及び方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5855000A (en) 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US5712957A (en) 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
JP2000010578A (ja) * 1998-06-19 2000-01-14 Ntt Data Corp 音声メッセージ送受信システム、及び音声メッセージ処理方法
US6324510B1 (en) 1998-11-06 2001-11-27 Lernout & Hauspie Speech Products N.V. Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains
US6963837B1 (en) 1999-10-06 2005-11-08 Multimodal Technologies, Inc. Attribute-based word modeling
US7149347B1 (en) 2000-03-02 2006-12-12 Science Applications International Corporation Machine learning of document templates for data extraction
US7124085B2 (en) 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
US7660400B2 (en) 2003-12-19 2010-02-09 At&T Intellectual Property Ii, L.P. Method and apparatus for automatically building conversational systems
JP4287386B2 (ja) * 2005-01-31 2009-07-01 株式会社東芝 情報検索システム、方法及びプログラム
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
CN103050117B (zh) 2005-10-27 2015-10-28 纽昂斯奥地利通讯有限公司 用于处理口述信息的方法和系统
JP4058071B2 (ja) * 2005-11-22 2008-03-05 株式会社東芝 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
US8898052B2 (en) 2006-05-22 2014-11-25 Facebook, Inc. Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer
JP2008077601A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
US7907705B1 (en) * 2006-10-10 2011-03-15 Intuit Inc. Speech to text for assisted form completion
US8090570B2 (en) 2006-10-26 2012-01-03 Mobile Technologies, Llc Simultaneous translation of open domain lectures and speeches
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
TW200824408A (en) 2006-11-27 2008-06-01 Htc Corp Methods and systems for information retrieval during communication, and machine readable medium thereof
WO2009129315A1 (en) 2008-04-15 2009-10-22 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
US8527522B2 (en) * 2008-09-05 2013-09-03 Ramp Holdings, Inc. Confidence links between name entities in disparate documents
US20120323574A1 (en) * 2011-06-17 2012-12-20 Microsoft Corporation Speech to text medical forms
US9257115B2 (en) * 2012-03-08 2016-02-09 Facebook, Inc. Device for extracting information from a dialog

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3411198B2 (ja) * 1997-10-20 2003-05-26 シャープ株式会社 通訳装置及び方法並びに通訳装置制御プログラムを記憶した媒体
JP3890326B2 (ja) * 2003-11-07 2007-03-07 キヤノン株式会社 情報処理装置、情報処理方法ならびに記録媒体、プログラム
JP2011524991A (ja) * 2008-04-15 2011-09-08 モバイル テクノロジーズ,エルエルシー 現場にて音声−音声翻訳をメンテナンスするシステム及び方法

Also Published As

Publication number Publication date
CA2872790A1 (en) 2013-09-12
US9257115B2 (en) 2016-02-09
US20170046326A1 (en) 2017-02-16
MX340907B (es) 2016-07-29
WO2013134106A3 (en) 2013-11-21
US20160110350A1 (en) 2016-04-21
JP6058039B2 (ja) 2017-01-11
AU2016269531B2 (en) 2017-08-17
MX2014010795A (es) 2015-02-05
EP2823478B1 (en) 2020-01-15
US9514130B2 (en) 2016-12-06
CN104380375A (zh) 2015-02-25
EP2823478A2 (en) 2015-01-14
WO2013134106A2 (en) 2013-09-12
AU2013230453B2 (en) 2016-09-08
CA2872790C (en) 2020-03-10
JP2015516587A (ja) 2015-06-11
AU2013230453A1 (en) 2014-10-02
AU2016269531A1 (en) 2017-01-05
US20130238312A1 (en) 2013-09-12
CN104380375B (zh) 2017-05-10
KR20140142280A (ko) 2014-12-11
US10606942B2 (en) 2020-03-31
IL234477A (en) 2017-02-28
US10318623B2 (en) 2019-06-11
US20190251156A1 (en) 2019-08-15

Similar Documents

Publication Publication Date Title
KR101689290B1 (ko) 대화에서 정보를 추출하는 장치
CN110024026B (zh) 使用语音识别模型生成结构化文本内容
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US20220092278A1 (en) Lexicon development via shared translation database
CN111710333B (zh) 用于生成语音转录的方法和系统
US8924853B2 (en) Apparatus, and associated method, for cognitively translating media to facilitate understanding
JP4398966B2 (ja) 機械翻訳を行う装置、システム、方法およびプログラム
US11682381B2 (en) Acoustic model training using corrected terms
US20150127321A1 (en) Lexicon development via shared translation database
WO2019096056A1 (zh) 语音识别方法、装置及系统
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及系统
KR101626109B1 (ko) 통역 장치 및 방법
Hämäläinen et al. Multilingual speech recognition for the elderly: The AALFred personal life assistant
KR20130086971A (ko) 음성인식 질의응답 시스템 및 그것의 운용방법
JP6298806B2 (ja) 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム
EP2579233A1 (en) Apparatus, and associated method, for cognitively translating media to facilitate understanding

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191202

Year of fee payment: 4