KR102109876B1 - 개인정보 보호 트레이닝 코퍼스 선택 - Google Patents

개인정보 보호 트레이닝 코퍼스 선택 Download PDF

Info

Publication number
KR102109876B1
KR102109876B1 KR1020197017008A KR20197017008A KR102109876B1 KR 102109876 B1 KR102109876 B1 KR 102109876B1 KR 1020197017008 A KR1020197017008 A KR 1020197017008A KR 20197017008 A KR20197017008 A KR 20197017008A KR 102109876 B1 KR102109876 B1 KR 102109876B1
Authority
KR
South Korea
Prior art keywords
data
audio data
automatic speech
important
specific audio
Prior art date
Application number
KR1020197017008A
Other languages
English (en)
Other versions
KR20190071010A (ko
Inventor
유진 웨인스테인
멘기바 페드로 제이. 모레노
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20190071010A publication Critical patent/KR20190071010A/ko
Application granted granted Critical
Publication of KR102109876B1 publication Critical patent/KR102109876B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2111Location-sensitive, e.g. geographical location, GPS
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 음성 인식 시스템을 트레이닝하는 것에 관한 것이다. 시스템은 자동 음성 인식기를 포함하고 클라이언트 장치로부터 데이터를 수신한다. 시스템은 수신된 데이터의 적어도 일부가 중요 데이터라고 결정한다. 상기 수신된 데이터의 적어도 일부가 삭제되기 전에, 시스템은 자동 음성 인식기를 위한 인식 모델을 트레이닝하는 모델 트레이닝 엔진에 상기 수신된 데이터의 적어도 일부를 제공한다. 상기 수신된 데이터의 적어도 일부가 제공된 후에, 시스템은 수신된 데이터의 적어도 일부를 삭제한다.

Description

개인정보 보호 트레이닝 코퍼스 선택{PRIVACY-PRESERVING TRAINING CORPUS SELECTION}
이 명세서는 일반적으로 자동 음성 인식에 관한 것이다.
음성 인식은 인간이 말한 워드들의 전사(transcription of words)에 관한 것이다. 음성 인식을 수행함에 있어서, 음향 및 언어 모델은 자동 음성 인식(ASR) 엔진에 의해 사용되어, 발화자에 의해 발화된 단어들을 반영하는 하나 이상의 가능한 전사를 생성하기 위해 인코딩된 발언을 통계적으로 분석한다.
일 구현 예에 따르면, 본 명세서는 사용자가 인식 시스템, 예를 들어 사용자가 자동 음성 인식기에 제출하는 데이터 중에서 중요 정보(sensitive information)를 식별함과 아울러, 상기 중요 정보가 삭제되기 전에 상기 인식 시스템의 후속적인 반복(subsequent iterations)에 의해 사용되는 인식기 모델, 예를 들어 광학 인식 모델, 음향 모델 또는 언어 모델을 트레이닝하기 위해 상기 정보를 이용하는 프로세스를 기술한다. 그렇게 하는데 있어서, 인식 시스템의 추가적인 반복은 중요 정보의 수집 및 저장에 관한 모든 적절한 데이터 개인정보 보호 정책을 준수하면서, 유사한 중요 정보가 포함된 제출된 데이터를 정확히 인식할 수 있다.
일부 양상들에서, 본 명세서에 기술된 발명은 자동 음성 인식기를 포함하는 시스템에 의해 클라이언트 장치로부터 데이터를 수신하는 동작 및 수신된 데이터의 적어도 일부가 중요 데이터일 가능성이 있다고 결정하는 동작을 포함하며, 상기 중요 정보는 클라이언트 장치들로부터 수신되는 데이터의 로그에 저장되지 않고 상기 시스템에 의해 삭제되거나 혹은 상기 시스템에 의해 미리 결정된 수신기간 내에 삭제되는 데이터이다. 추가적인 동작들은 수신된 데이터의 적어도 일부가 삭제되기 전, 수신된 데이터의 적어도 일부를 자동 음성 인식기를 위한 인식 모델들을 트레이닝하는 모델 트레이닝 엔진에 제공하는 동작을 포함할 수 있다. 추가적인 동작들은 수신된 데이터의 적어도 일부가 제공된 후, 수신된 데이터의 적어도 일부를 삭제하는 동작을 포함할 수 있다.
다른 버전들은 대응하는 시스템, 장치, 및 컴퓨터 스토리지 장치들에 인코딩된 상기 방법들의 동작들을 수행하도록 구성된 컴퓨터 프로그램을 포함한다.
이들 및 다른 버전들은 각각 다음 특징들 중 하나 이상을 옵션에 따라 포함할 수 있다. 예를 들어, 일부 구현 예들에서, 수신된 데이터는 오디오 데이터, 전사 데이터 및 컨텍스트 메타데이터(contextual metadata) 중 하나 이상을 포함한다. 어떤 양상들에서, 미리 결정된 기간은 디폴트 기간보다 짧으며, 이 기간 후, 중요할 것 같지 않다고 결정된 데이터는 삭제된다.
일부 양상들에서, 동작들은 수신된 데이터의 적어도 일부가 중요 데이터일 가능성이 있다고 결정하는 동작을 포함하며, 이 동작은 수신된 데이터의 적어도 일부를 복수의 분류기(classifier)들 - 이들 각각은 서로 다른 유형의 중요 데이터와 관련된다 - 에 제공하는 동작과, 특정 유형의 중요 데이터와 관련된 특정 분류기로부터, 상기 수신된 데이터의 적어도 일부는 상기 특정 유형의 중요 데이터와 상기 신뢰 임계치 이상으로 관련되는 것으로서 나타내는 표시를 수신하는 동작을 포함한다. 일부 구현 예들에서, 중요 데이터의 각 유형은 삭제를 위한 미리 결정된 관련 기간을 갖는다.
일부 양상들에서, 동작들은 수신된 데이터의 적어도 일부분을 익명화(anonymizing)하는 동작과, 클라이언트 장치들로부터 수신되는 데이터의 로그에 상기 익명화된 데이터를 저장하는 동작을 포함한다. 일부 양상들에서, 동작들은 상기 모델 트레이닝 엔진으로부터 업데이트된 인식 모델을 수신하는 동작과, 상기 업데이트된 인식 모델을 상기 자동 음성 인식기에 제공하는 동작과, 그리고 상기 업데이트된 인식 모델을 사용하여 후속적으로 수신된 오디오 데이터를 인식하는 동작을 포함한다.
일부 구현 예들에서, 중요 데이터는 연락처 정보, 배경 오디오 데이터, 개인 식별 정보, 미리 결정된 전사 키워드들 및 지리적 좌표들 중 하나 이상을 포함한다.
장점적인 구현 예들은 다음 특징 중 하나 이상을 포함할 수 있다. 예컨대, 음성 인식 모델들이 적용되는 새로운 전화, 새로운 잡음 조건 또는 새로운 악센트 등 일부 정적(static)인 발언 또는 데이터 세트가 있음을 가정하는 대신에, 상기 기술된 음성 인식 기법들은 항상 음성 기록들이 상기 로그들 내로 들어올 때 연속적인 루프로 트레이닝 될 수 있다. 이는 발언들을 정확하게 인식하는데 필요한 어떤 음성 발언들 및/또는 컨텍스트 정보가 로깅 가능하지 않고 그리고 예컨대, 초, 분, 하루 등 내에서 신속하게 시스템들로부터 제거되어야 함을 필요로 하는 난제에 대처할 수 있게 한다. 여기에 기술된 기법들을 통해, 상기 모델 트레이닝은 분산 백프로퍼게이션 신경망 트레이닝 구현(distributed backpropagation neural network training implementation)을 따를 수 있다. 선택 및 전사 알고리즘들은 프로덕션 설정(production setup)에 통합될 수 있으며, 데이터 포인트들이 로그에 도착할 때 이 데이터 포인트들은 실시간으로 트레이닝 서버들 내로 피드될 수 있다. 기술된 기법은 잠재적으로 대규모 음성 인식 시스템들로 하여금, 까다로운 법적 환경들이 로깅이 최소로 유지되어야함을 지시(dictation)하거나, 또는 로그들이 임시 스토리지(ephemeral storage)에서 구현되어야하는 시장들(markets)에서 더 성공적으로 동작할 수 있게 할 수 있다.
본 명세서에서 기술된 발명의 하나 이상의 구현들의 세부 사항이 첨부 도면 및 이하의 상세한 설명에 제출된다. 발명의 다른 잠재적 특징, 양상 및 장점들이 상세한 설명, 도면 및 특허청구 범위로부터 명백해질 것이다.
도 1은 예시적인 음성 인식 시스템의 다이어그램이다.
도 2는 음성 인식기를 트레이닝하기 위한 예시적인 프로세스를 나타내는 흐름도이다.
도 3은 예시적인 개인정보 보호 음성 인식 시스템의 다이어그램이다.
도 4는 여기에 설명된 기법들을 구현하는데 사용될 수 있는 컴퓨팅 장치 및 모바일 컴퓨팅 장치의 예를 도시한 것이다.
다양한 도면에서 동일한 참조 번호 및 명칭은 동일한 요소를 나타낸다.
음성 인식을 위한 음향 모델들의 트레이닝에는 상당한 연산 자원들, 예컨대, 수백 또는 수천 개의 머신들을 소비하는 알고리즘을 수반할 수 있으며, 양호한 품질을 달성하기 위해 매우 긴 시간, 예를 들어 일주일 또는 그 이상이 걸릴 수 있다. 일부 트레이닝 접근 방식들에서는 음성 데이터의 오디오 레코딩들이 항상 저장할 수 있다고 가정하는데, 이는 사용자 개인정보 제한으로 인한 경우는 아닐 수도 있다. 개인정보 보호에 중요한 프로덕션 환경에서, 음성 데이터는 때때로 로깅될 수 없거나 혹은 짧은 기간 동안만 로깅될 수 있다. 때때로, 발언를 정확하게 전사하기 위해 필요한 추가적인 컨텍스트 정보는 로깅될 수 없다.
일 예로서, "John에게 텍스트 메시지 보내기"와 같은 음성 동작들에 대한 연락처 인식(contacts recognition)은 인식이 완료될 때 사용자의 연락처가 음성 인식기에 알려져야만 함을 요구할 수 있다. 이 정보는 프로덕션 쿼리가 들어올 때, 그러나 사용자의 연락처 데이터베이스를 저장하는 것이 다양한 개인정보 보호(privacy implications)를 가질 때, 액세스할 수 있다. 이러한 컨텍스트 정보는 때때로 큰 음성 인식 품질 향상을 가능하게 할 수 있다. 따라서 모든 법적 및 보안 기준을 만족시키면서 음성 인식 및 분석 환경 내에서 그러한 정보를 다루기 위해 그러한 비-로깅(non-logged) 컨텍스트 정보를 사용하는 것이 바람직하다. 따라서, 음성 인식 및 분석 환경 내에서 이러한 데이터가 어떻게 다루어지고, 저장되고 또는 처리되는지에 대한 하나 이상의 제한을 받는 중요 데이터에 대해 고품질 음성 인식을 제공하기 위한 개선된 기법, 시스템 및 방법에 대한 필요성이 존재한다.
따라서, 본 발명은 자동 음성 인식을 위한 음향 모델을 트레이닝하는데 있어서 중요 데이터를 사용하기 위한 기법들을 기술한다. 예를 들어, 중요 데이터는 클라이언트 장치들로부터 수신된 데이터의 로그에 저장되지 않고 시스템에 의해 삭제되는 데이터 일 수 있다. 또 다른 예로서, 중요 데이터는 시스템에 의해 미리 결정된 수신기간 내에 삭제되는 데이터일 수 있다. 이 기법들은 음성 인식 중에 중요 데이터를 식별하는 것을 포함한다. 식별된 중요 데이터가 삭제되기 전에, 이 데이터는 자동 음성 인식기를 트레이닝하는데 사용될 수 있다. 중요 데이터는 예를 들어, 데이터의 오디오 콘텐츠 내의 중요 정보 또는 오디오 콘텐츠의 컨텍스트와 관련된 중요 정보를 포함할 수 있다.
도 1은 예시적인 음성 인식 시스템(100)의 다이어그램이다. 사용자(102)는 인식 및 전사를 위해 음성 처리 시스템(106)에 발언(104)을 제출한다. 이 예에서, 사용자(102)에 의해 제출된 발언(104)은 어구 "Bob Smith 입니다. 나의 신용카드 번호는 01-234 입니다". 사용자(102)는 컴퓨팅 장치(112), 예를 들어 모바일 컴퓨팅 장치, 태블릿 컴퓨터, 착용식 컴퓨터, 전자 책 판독기, 데스크톱 컴퓨터, 랩톱 컴퓨터 등에 발언(104)을 한다. 컴퓨팅 장치(112)는, 예를 들어, 음성 인식 입력을 갖는 텍스트 편집기, 자유 형식(free-form)의 음성 입력을 갖는 검색 바, 또는 임의의 다른 적절한 프로그램을 실행할 수 있다. 컴퓨팅 장치(112)는 음성 데이터 아이템(108a) (예를 들어, 파형의 데이터 파일, 오디오 파일, 발언(104)을 인코딩하는 다른 데이터 유형)을 포함하는 음성 인식 요청(107)을 생성할 수 있다.
음성 인식 요청(107)은 또한 컨텍스트 데이터(108b)를 포함할 수 있다. 컨텍스트 데이터(108b)는 예를 들어, 발언(104) 동안 사용자(102)가 액세스하고 있었던 애플리케이션 또는 웹 페이지와 관련된 정보, 사용자(102)의 지리적 좌표, 사용자 (102)의 연락처 리스트와 관련된 정보와 같은 그러한 컨텍스트 정보 또는 기타 컨텍스트 정보를 포함할 수 있다. 컨텍스트 데이터(108b)의 다른 예들은 요청(107) 메타 데이터, 사용자 (102)의 생체 특성 (예컨대 성별, 연령, 악센트 또는 기타 특성), 노이즈 상태들, 사용자(102)의 거주 국가/거주 지역, 및 대화 상태를 포함한다. 몇몇 경우들에서, 음성 인식 요청(107)은 중요 데이터를 포함할 수 있다. 컴퓨팅 장치(112)는 요청(107)을 음성 처리 시스템(106)에 전송할 수 있다.
음성 처리 시스템(106)은 발언(104)과 관련된 음성 인식 요청(107)을 수신하고, 요청(107)을 분석하고, 발언(104)의 텍스트 전사(110)를 생성하는 시스템이다. 일반적으로, 텍스트 전사(110)는 요청(107)의 발언의 콘텐츠들에 대한 음성 인식기의 상위 가설(top hypothesis)을 나타내는 문자 스트링 또는 다른 텍스트 표현을 포함할 수 있다. 전사(110)는 컴퓨팅 장치(112) 또는 다른 시스템 또는 프로그램에 전송될 수 있다. 음성 처리 시스템(106)은 실시간 또는 거의 실시간 (예를 들어, 수십 밀리 초, 수백 밀리 초 또는 다른 시간 구간(duration of time)에서 사용자(102)에게 전사(110)를 전송할 수 있다.
일반적으로, 음성 처리 시스템(106)과 같은 그러한 시스템은 대규모 사용자 기반으로 사용자들로부터 음성 인식 요청(107)을 수신할 수 있다. 음성 인식 시스템은 각각의 요청(107)에 응답하여, 이 요청(107)하에서 음성 인식기에 의해 실행되는 하나 이상의 인식 프로세스의 텍스트 결과(110)를 생성할 수 있다. 비록 명료성을 위해 단일 사용자(102)가 도시되어 있지만, 음성 인식기는 훨씬 더 많은 수의 사용자들, 예를 들어, 수만 명으로부터 요청(107)들을 수신하고 수신된 요청(107)들의 일부 또는 전부를 병렬로 처리하여, 다른 요청들(107)이 수신 및 처리되는 동안 각 사용자에게 텍스트 결과(110)를 제공할 수 있다.
또한, 음성 인식기 시스템은 음성 인식 태스크들을 수행하기 위한 임의의 유형의 적절한 시스템일 수 있다. 예를 들어, 음성 인식기는 서로 다른 여러 가지 서비스들, 태스크들 또는 애플리케이션들을 위한 가상 머신들 또는 작업들을 또한 호스팅하는 대규모 분산 컴퓨팅 환경(massively distributed computing environment)에서 실행되는 가상 머신들 또는 작업들의 그룹에 의해 구성될 수 있다. 일부 구현 예들에서, 음성 인식기는 서버들 또는 서비스들의 대형 시스템의 컴포넌트일 수 있거나 일부 제품 또는 서비스와 연계하여 제공되는 많은 서비스들 중 하나일 수도 있다.
예시적인 음성 처리 시스템(106)은 컴퓨팅 장치(112)로부터 음성 인식 요청 (107)을 수신하는 프론트 엔드(114)를 포함한다. 예를 들어, 프론트 엔드(114)는 음성 인식 요청(107)을 수신하고 처리를 위해 요청(107) 데이터를 준비할 수 있다. 프론트 엔드(114)는 요청(107)을 중요 정보 식별기(116)에 전송할 수 있다. 중요 정보 식별기(116)는 요청 (107)을 분석하여 요청(107) 내의 데이터의 적어도 일부분이 중요할 듯한 데이터인지 여부를 결정할 수 있다.
중요 정보 식별기(116)는 요청(107)내의 중요할 듯한 데이터의 여러 유형들을 식별할 수 있다. 중요할 듯한 데이터는 오디오 데이터 (108a) 및/또는 컨텍스트 데이터(108b)에 포함될 수 있다. 중요 정보 식별기(116)는 중요할 듯한 정보에 관해 오디오 데이터(108a)에 존재하는 배경 오디오를 분석할 수 있다. 예를 들어, 배경 오디오는 사용자의 위치를 식별하는 정보, 사용자 이외의 발화자(speaker)들을 식별하는 정보 또는 다른 중요할 듯한 정보를 포함할 수 있다.
중요 정보 식별기(116)는 신용 카드 정보, 은행 계좌 정보, 화폐 금액과 같은 그러한 중요할 듯한 금융 정보 또는 다른 중요할 듯한 금융 정보를 식별할 수 있다. 중요 정보 식별기(116)는 또한, 사용자의 연락처 리스트에 있는 사람들, 전화 번호, 전자 메일 주소와 같은 그러한 사용자 연락처 정보 또는 다른 중요할 듯한 연락처 정보를 식별할 수 있다. 중요 정보 식별기(116)는 이름, 사회 보장 번호, 주소, 전화 번호와 같은 중요할 듯한 개인정보 또는 다른 중요할 듯한 개인정보를 식별할 수 있다. 이들은 식별될 수 있는 중요 데이터의 예시적인 유형이며, 다른 구현들에서, 다른 유형의 중요 데이터가 식별될 수 있다. 예를 들어, 다른 정보는 위치 정보 (예컨대, GPS (Global Positioning System) 좌표, 이동 전화 정보, 무선 액세스 정보, 웹 페이지 정보) 또는 다른 정보 또는 데이터를 포함할 수 있다.
중요 정보 식별기(116)는 하나 이상의 중요 데이터 분류기(118a-e)를 포함할 수 있으며, 분류기(118a-e) 각각은 서로 다른 유형의 중요 데이터와 관련된다. 예를 들어, 위에서 설명한 중요 데이터의 각 유형은 관련된 분류기를 가질 수 있다. 각각의 분류기는 요청(107)의 적어도 일부가 그 분류기와 관련된 중요 데이터를 포함한다는 표시를 제공할 수 있다. 예를 들어, 분류기는 요청(107)이 그 분류기의 관련된 유형의 중요 데이터와 관련된 신뢰 임계보다 높은 중요 데이터를 포함할 가능성이 있음을 나타내는 표시를 제공할 수 있다.
도 1에 도시된 예를 참조하면, 중요 정보 식별기(116)는 요청(107) 내의 몇몇 중요할 듯한 정보를 식별했다. 배경 오디오 분류기(118a)는 배경 오디오가 중요 정보를 포함할 가능성이 있음을 확인했다. 예를 들어, 배경 오디오는 사용자(102)가 병원에 위치함을 나타내는 오디오를 포함할 수 있다. 신용 카드 분류기 (118b)는 발언(104)의 오디오 데이터(108a)가 중요할 듯한 신용 카드 정보, 즉 신용 카드 번호 "01-234"를 포함함을 식별했다. 그러나, 사용자 연락처 리스트 분류기(118c)는 오디오 데이터(108a)가 사용자의 연락처 리스트에 대한 중요 정보를 포함하지 않는다고 결정했다. 개인정보 분류기(118d)는 중요할 듯한 개인정보, 즉 "Bob Smith"라는 이름을 식별했다. 분류기(118e)에 의해 표현되는 다른 분류기들은 다른 유형의 중요 데이터를 결정할 수 있다.
중요 정보 식별기(116)는 요청(107)데이터의 일부 또는 전부를 트레이닝 엔진(118)에 전송할 수 있다. 몇몇 경우들에서, 요청(107)데이터의 일부 또는 전부는 프론트 엔드(114)에 의해 트레이닝 엔진(118)에 직접 전송된다. 트레이닝 엔진 (118)은 자동 음성 인식기 (예컨대, 자동 음성 인식기(120))에 의해 사용될 수 있는 인식 모델들을 트레이닝하는 컴포넌트이다.
트레이닝 엔진(118)은 음성 인식 모델을 생성하거나 기존의 음성 인식 모델을 업데이트하기 위해 오디오 데이터(108a) 및 컨텍스트 데이터(108b)의 일부 또는 전부를 사용할 수 있다. 몇몇 경우들에서, 오디오 데이터(108a)와 함께 컨텍스트 데이터(108b)의 사용은 오디오 데이터(108a)를 단독으로 사용하는 것보다 더 정확한 음성 인식 모델을 가능하게 할 수 있다. 음성 인식 모델은 트레이닝 엔진(118)을 자동 음성 인식기(120)에 연결하는 화살표(119)로 도 1에 도시한 자동 음성 인식기에 제공될 수 있다. 이러한 방식으로, 트레이닝 엔진(118)은 어떤 중요할 듯한 데이터가 삭제되기 전에 중요할 듯한 데이터를 비롯한 요청(107)으로부터 수신된 데이터를 사용할 수 있다.
요청 데이터(107)의 일부 또는 전부는 또한, 자동 음성 인식기(120)에 전송된다. 자동 음성 인식기(120)는 트레이닝 엔진(118)에 의해 제공되는 음성 인식 모델을 사용하여 오디오 데이터(108a)의 전사(110)를 생성한다. 이 전사(110)는 컴퓨팅 장치(112)에 제공된다.
요청(107) 데이터의 일부 또는 전부는 또한, 중요 정보 관리자(122)에 전송된다. 또한, 중요 정보 신호(123)는 중요 정보 식별기(116)로부터 중요 정보 관리자(122)에 전송될 수 있다. 전사(110)는 또한, 중요 정보 관리자(122)에 제공될 수 있다. 예를 들어, 중요 정보 신호(123)는 요청(107) 및/또는 전사(110)의 어느 부분이 중요 정보를 포함할 가능성이 있는지 나타낼 수 있다. 중요 정보 신호(123)는 분류기(118a-e)로부터의 표시들에 기초할 수 있다. 중요 정보 신호(123)에 기초하여, 중요 정보 관리자(122)는 요청(107) 및/또는 전사(110)의 어느 부분이 로깅되어야 하는지 그리고 어느 부분이 로깅되지 않아야 하는지를 결정할 수 있다. 예를 들어, 로깅되지 않을 요청(107) 및/또는 전사(110)의 부분들은 삭제될 수 있다. 몇몇 경우들에서, 중요 정보 관리자(122)는 요청 데이터(107) 및/또는 전사(110)를 익명화할 수 있다. 예를 들어, 전사 "This is Bob Smith"는 "This is <name>"으로서 익명화될 수 있다. 다른 익명화 기법들도 가능하다. 중요 정보 관리자(122)는 저장을 위해 로거(logger)(124)에 요청(107) 및/또는 전사의 부분들을 제공할 수 있다.
도 2는 자동 음성 인식기를 트레이닝하기 위한 예시적인 프로세스(200)를 도시하는 흐름도이다. 예시적인 프로세스(200)는 예를 들어 음성 인식 시스템(100)의 일부 또는 전부에 의해 구현될 수 있다. 단계(202)에서, 클라이언트 장치로부터의 데이터가 자동 음성 인식기를 포함하는 시스템에 의해 수신된다. 예를 들어, 데이터는 파형의 데이터 파일, 오디오 파일, 또는 발언을 인코딩하는 다른 데이터 타입, 발언과 관련된 메타 데이터, 전사 데이터, 및/또는 발언과 관련된 컨텍스트 데이터를 포함할 수 있다. 상기 클라이언트 장치는 앞서 설명한 바와 같이 포터블 컴퓨터, 스마트 폰 또는 다른 클라이언트 장치일 수 있다. 음성 인식기는 음향 모델, 언어 모델 또는 다른 유형의 음성 인식기 컴포넌트와 같은 그러한 음성 데이터 아이템들의 전사들을 생성하는데 있어 하나 이상의 음성 인식기 컴포넌트를 사용할 수 있다. 하나 이상의 음성 인식기 컴포넌트는 신경망 기반일 수 있다.
단계(204)에서, 수신된 데이터의 적어도 일부가 중요 데이터일 것으로 결정된다. 몇몇 경우들에서, 중요 데이터는 클라이언트 장치에서 수신되는 데이터의 로그에 저장하지 않고 시스템에 의해 삭제되는 데이터이다. 몇몇 경우들에서, 중요 데이터는 연락처 정보, 배경 오디오 데이터, 개인 식별 정보, 미리 결정된 전사 키워드 또는 지리적 좌표 중 하나 이상을 포함할 수 있다. 중요 데이터는 또한, 시스템에 의한 미리 결정된 수신 기간 내에 삭제되는 데이터일 수 있다. 예를 들어, 미리 결정된 기간은 디폴트 기간 - 이 디폴트 기간 후에 중요하지 않을 것으로 결정된 데이터는 삭제된다 - 보다 짧을 수 있다. 일부 구현 예들에서, 중요 데이터의 각 유형은 삭제를 위한 미리 결정된 관련 기간을 갖는다.
수신된 데이터의 적어도 일부가 중요 데이터일 것이라고 결정하는 것은 상기 수신된 데이터의 적어도 일부를 하나 이상의 분류기에 제공하는 것을 포함할 수 있다. 각 분류기는 다른 유형의 중요 데이터와 연관될 수 있다. 특정 유형의 중요 데이터와 관련된 특정 분류기는 상기 수신된 데이터가 특정 유형의 중요 데이터와 관련된다는 표시를 생성할 수 있다.
단계(206)에서, 수신된 데이터의 적어도 일부가 삭제되기 전에, 상기 수신된 데이터의 적어도 일부가 자동 음성 인식기를 위한 인식 모델들을 트레이닝하는 모델 트레이닝 엔진에 제공된다. 상기 수신된 데이터의 적어도 일부는 오디오 데이터 및/또는 컨텍스트 데이터를 포함할 수 있다. 일부 구현 예들에서, 자동 음성 인식 기는 모델 트레이닝 엔진으로부터 업데이트된 인식 모델을 수신할 수 있다. 업데이트된 인식 모델은 후속적으로 수신되는 오디오 데이터를 자동 음성 인식기가 인식하는데 사용될 수 있다.
단계(208)에서, 상기 수신된 데이터의 적어도 일부가 모델 트레이닝 엔진에 제공된 후, 상기 수신된 데이터의 적어도 일부는 삭제된다. 일부 구현 예들에서, 수신된 데이터의 적어도 일부는 익명화되고, 익명화된 데이터는 클라이언트 장치로부터 수신되는 데이터의 로그에 저장될 수 있다.
도 3은 예시적인 음성 인식 시스템(300)의 다이어그램이다. 시스템(300)은 예를 들어, 도 1에 도시된 음성 인식 시스템(100) 또는 도 2에 도시된 프로세스에 의해 구현될 수 있다. 음성 인식 시스템(300)은 개인정보-중요(privacy-sensitive) 데이터(302)를 포함한다. 개인정보-중요 데이터(302)는 음성 인식 요청일 수 있다. 개인정보-중요 데이터(302)는 컨텍스트 정보(304) 및 오디오 데이터(306)를 포함할 수 있다.
개인정보-중요 데이터(302)의 일부는 로그 가능하도록 결정될 수 있다. 예를 들어, 개인정보-중요 데이터(302)의 일부는 중요 정보를 포함하지 않을 수 있고, 그 부분이 로그될 수 있다. 다른 예로서, 개인정보-중요 데이터(302)의 일부는 익명으로 처리될 수 있다. 개인정보-중요 데이터의 로그 가능한 부분은 저장을 위해 로거(308)에 제공될 수 있다. 일부 구현 예들에서, 로거(308)는 별개의 오디오 저장 장치(storage)(310a) 및 별도의 컨텍스트 저장 장치(310b)를 포함한다. 예를 들어, 오디오 저장 장치(310a)는 오디오 데이터(306)를 저장할 수 있고, 컨텍스트 저장부는 컨텍스트 데이터(304)를 저장할 수 있다. 일부 구현 예들에서, 오디오 데이터(306)는 컨텍스트 데이터(304)와 별도로 저장되지 않는다.
개인정보-중요 데이터의 일부 또는 전부는 예시적인 모델 트레이너(312)에 제공될 수 있다. 모델 트레이너(310)는 예를 들어 음성 인식기를 위한 트레이닝 엔진일 수 있다. 일부 구현 예들에서, 개인정보-중요 데이터(302)는 삭제 이전에 트레이닝을 위해 한 번만 사용되고, 새로운 개인정보-중요 데이터(302)가 모델 트레이너(312)에 연속적으로 제공된다. 모델 트레이너(312)는 하나 이상의 컴포넌트를 포함할 수 있다. 예를 들어, 모델 트레이너(312)는 도면부호 314a로 보인 휴리스틱 기반 데이터 선택을 사용하여 개인정보-중요 데이터(302)로부터 트레이닝 데이터를 선택할 수 있다. 모델 트레이너(312)는 예를 들어, 미니 블록 트레이닝 기법 및 트레이닝 루프 기법을 사용하여 도면부호 314b로 보인 후보 모델을 생성할 수 있다. 도면부호 314c로 보인 바와 같이, 최상의 성능을 갖는 모델을 식별하기 위해 후보 모델이 조사되고 분석될 수 있다. 모델 트레이너(312)는 다른 컴포넌트를 포함하거나 다른 기법을 사용할 수 있다.
음성 모델(316)은 모델 트레이너(312)로부터 프로덕션 음성 인식 서버(318)에 제공될 수 있다. 프로덕션 음성 인식 서버(318)는 클라이언트 장치로부터 음성 인식 요청을 수신할 수 있고, 하나 이상의 음성 모델(316)을 사용하여 클라이언트 장치로 음성 전사들을 다시 제공할 수 있다. 이러한 방식으로, 음성 모델들(316)은 개인정보-중요 데이터 보존과 관련된 시스템의 임의의 정책들을 유지하면서 개인정보-중요 데이터(302) 및 모델 트레이너(312)를 사용하여 연속적으로 업데이트될 수 있다.
도 4는 여기에 기술된 기법들을 구현하는데 사용될 수 있는 컴퓨팅 장치 (400) 및 모바일 컴퓨팅 장치의 예를 도시한다. 컴퓨팅 장치(400)는 랩탑, 데스크탑, 워크 스테이션, PDA, 서버, 블레이드 서버, 메인 프레임 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 모바일 컴퓨팅 장치는 개인 포터블 정보 단말기, 셀룰러 전화기, 스마트 폰 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타내기 위한 것이다. 여기에 도시된 컴포넌트들, 이들의 연결 및 관계와 이들의 기능들은 단지 예시적인 것을 의미하며, 본 명세서에 기재된 및/또는 특허청구범위에 기재된 발명들의 구현을 제한하는 것을 의미하지는 않는다.
컴퓨팅 장치(400)는 프로세서(402), 메모리(404), 스토리지 장치(406), 메모리 (404) 및 다수의 고속 확장 포트(410)에 연결되는 고속 인터페이스 (408) 및 저속 인터페이스(414) 및 스토리지 장치(406)에 저장된다. 프로세서(402), 메모리(404), 스토리지 장치(406), 고속 인터페이스(408), 고속 확장 포트(410) 및 저속 인터페이스(412)는 다양한 버스를 사용하여 상호 연결되며, 공통 마더보드 상에 또는 기타 적절한 방식으로 마운트된다. 프로세서(402)는 메모리(404) 또는 스토리지 장치(406)에 저장된 명령들을 비롯한 컴퓨팅 장치(400)내에서 실행을 위한 명령들을 처리하여, GUI에 대한 그래픽 정보를 고속 인터페이스(408)에 결합된 디스플레이(146)와 같은 그러한 외부 입력/출력 장치에 디스플레이할 수 있다. 다른 구현 예들에서, 다수의 프로세서 및/또는 다수의 버스가 다수의 메모리들 및 메모리의 유형들과 함께 적절히 사용될 수 있다. 또한, 다수의 컴퓨팅 장치가 연결될 수 있으며, 각 장치는 필요한 동작들의 부분들, 예컨대 서버 뱅크, 블레이드 서버들의 그룹 또는 멀티프로세서 시스템을 제공한다.
메모리(404)는 컴퓨팅 장치(400) 내의 정보를 저장한다. 일부 구현 예들에서, 메모리(404)는 휘발성 메모리 유닛(들)이다. 일부 구현 예들에서, 메모리(404)는 비휘발성 메모리 유닛(들)이다. 메모리(404)는 또한 자기 또는 광학 디스크와 같은 컴퓨터 판독 가능 매체의 다른 유형일 수 있다.
스토리지 장치(406)는 컴퓨팅 장치(400)를 위한 대용량 스토리지 장치를 제공할 수 있다. 일부 구현 예들에서, 스토리지 장치(406)는 플로피 디스크 장치, 하드 디스크 장치, 광학 디스크 장치 또는 테이프 장치, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 장치, 또는 스토리지 영역 네트워크에 있는 장치들 또는 기타 구성들을 비롯한 장치들의 어레이와 같은 그러한 컴퓨터 판독 가능 매체 일 수 있거나 이들을 포함할 수 있다. 컴퓨터 프로그램 물이 정보 캐리어 유형적으로 구현될 수 있다. 상기 컴퓨터 프로그램 물은 또한 실행될 때 전술한 바와 같은 하나 이상의 방법을 수행하는 명령어들을 내포할 수 있다. 컴퓨터 프로그램 물은 또한 메모리(404), 스토리지 장치(406) 또는 프로세서(402)상의 메모리와 같은 그러한 컴퓨터 또는 머신 판독 가능 매체에 유형적으로 수록될 수 있다.
고속 인터페이스(408)는 컴퓨팅 디바이스(400)에 대한 대역폭-집중적인(bandwidth-intensive) 동작들을 관리하는데 반해, 저속 인터페이스(412)는 낮은 대역폭-집중적인 동작들을 관리한다. 기능들의 이러한 할당은 단지 예시적일 뿐이다. 일부 구현 예들에서, 고속 인터페이스(408)는 메모리(404), (예컨대, 그래픽 프로세서 또는 가속기를 통해) 디스플레이(416), 및 도시되지 않은 다양한 확장 카드를 수용할 수 있는 고속 확장 포트(410)에 연결된다. 이 구현 예들에서, 저속 인터페이스(412)는 스토리지 장치(406) 및 저속 확장 포트(414)에 연결된다. USB, 블루투스, 이더넷, 무선 이더넷 또는 기타의 것들과 같은 그러한 다양한 통신 포트를 포함할 수 있는 저속 확장 포트(414)는 키보드, 포인팅 장치, 스캐너와 같은 그러한 하나 이상의 입/출력 장치들, 또는 예컨대 네트워크 어댑터를 통해 스위치 또는 라우터와 같은 네트워킹 장치에 연결될 수 있다.
컴퓨팅 장치(400)는 도면에 도시된 바와 같이 다수의 서로 다른 형태로 구현 될수 있다. 예를 들어, 이는 표준 서버(420)로서 구현되거나, 또는 그러한 서버들의 그룹으로 여러 번 구현될 수 있다. 또한, 이는 랩톱 컴퓨터(422)와 같은 퍼스널 컴퓨터에서 구현될 수도 있다. 또한, 이는 랙 서버 시스템 (424)의 일부로서 구현 될 수도 있다. 대안적으로, 컴퓨팅 장치(400)로부터의 컴포넌트들은 모바일 컴퓨팅 장치(450)와 같은 그러한 모바일 장치(도시되지 않음)의 다른 컴포넌트들과 결합 될 수 있다. 이러한 장치들 각각은 컴퓨팅 장치(400) 및 모바일 컴퓨팅 장치(450) 중 하나 이상을 포함할 수 있으며, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 장치로 구성될 수 있다.
모바일 컴퓨팅 장치(450)는 여러 가지 컴포넌트들 중에서도 특히, 프로세서 (452), 메모리(464), 디스플레이(454)와 같은 그러한 입/출력 장치, 통신 인터페이스(466) 및 송수신기(468)를 포함한다. 모바일 컴퓨팅 장치(450)에는 또한, 추가적인 스토리지 장치를 제공하기 위해, 마이크로-드라이브 또는 기타 장치와 같은 그러한 스토리지 장치가 제공될 수 있다. 프로세서(452), 메모리(464), 디스플레이(454), 통신 인터페이스(466) 및 송수신기(468) 각각은 다양한 버스들을 사용하여 상호 연결되며, 이들 컴포넌트들 중 일부는 공통 마더 보드 상에 또는 다른 적절한 방식으로 장착될 수 있다.
프로세서(452)는 메모리(464)에 저장된 명령들을 비롯한 모바일 컴퓨팅 장치 (450)내의 명령들을 실행할 수 있다. 프로세서(452)는 개별적인 또는 복수의 아날로그 및 디지털 프로세서들을 포함하는 칩들의 칩셋으로서 구현될 수 있다. 프로세서(452)는 예를 들어, 사용자 인터페이스들의 제어, 모바일 컴퓨팅 장치(450)에 의해 실행되는 애플리케이션 및 모바일 컴퓨팅 장치(450)에 의한 무선 통신과 같은 그러한 모바일 컴퓨팅 장치(450)의 다른 컴포넌트들의 조정(coordination)을 제공할 수 있다.
프로세서(452)는 제어 인터페이스(458)와 디스플레이(454)에 연결된 디스플레이 인터페이스(456)를 통해 사용자와 통신할 수 있다. 디스플레이(454)는 예를 들어, TFT (Thin-Film-Semiconductor Liquid Crystal Display) 디스플레이 또는 OLED(Organic Light Emitting Diode) 디스플레이, 또는 다른 적절한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(456)는 그래픽 및 다른 정보를 사용자에게 제공하기 위해 디스플레이(454)를 구동하기 위한 적절한 회로를 포함할 수 있다. 제어 인터페이스(458)는 사용자로부터 명령들을 수신하고, 프로세서(452)에 제출하기 위해 이 명령들을 변환할 수 있다. 또한, 외부 인터페이스(462)는 다른 장치들과 모바일 컴퓨팅 장치(450)의 근거리 통신이 가능해지도록 프로세서(452)와 통신할 수 있다. 외부 인터페이스(462)는 예를 들어, 일부 구현 예들에서는 유선 통신을 위해, 또는 다른 구현 예들에서는 무선 통신을 제공할 수 있으며, 복수의 인터페이스들이 또한 사용될 수 있다.
메모리(464)는 모바일 컴퓨팅 장치(450)내에 정보를 저장한다. 메모리(464)는 컴퓨터 판독 가능 매체 또는 매체, 휘발성 메모리 유닛 또는 비 휘발성 메모리 유닛 중 하나 이상으로서 구현될 수 있다. 확장 메모리(474)는 또한 예를 들어 SIMM(Single In Line Memory Module) 카드 인터페이스를 포함할 수 있는 확장 인터페이스(472)를 통해 이동 컴퓨팅 장치(450)에 제공되고 접속될 수 있다. 확장 메모리(474)는 모바일 컴퓨팅 디바이스(450)에 대한 여분의 스토리지 공간을 제공하거나 모바일 컴퓨팅 디바이스(450)에 대한 애플리케이션 또는 다른 정보를 저장할 수 있다. 특히, 확장 메모리(474)는 전술한 프로세스를 수행하거나 보충하기 위한 명령을 포함할 수 있으며, 또한 보안 정보를 포함할 수 있다.
따라서, 예를 들어, 확장 메모리(474)는 모바일 컴퓨팅 장치(450)에 대한 보안 모듈로서 제공될 수 있고, 모바일 컴퓨팅 장치(450)의 안전한 사용을 허용하는 명령으로 프로그램될 수 있다. 또한 SIMM 카드에 식별 정보를 해킹할 수 없게 배치하는 등의 추가 정보와 함께 SIMM 카드를 통해 보안 애플리케이션 제공할 수 있다.
메모리는 예를 들어, 후술하는 바와 같이, 플래시 메모리 및/또는 NVRAM 메모리(비 휘발성 랜덤 액세스 메모리)를 포함할 수 있다. 일부 구현 예들에서, 컴퓨터 프로그램 물은 정보 매체에 유형적으로 수록된다. 컴퓨터 프로그램 물은 실행될 때 위에서 설명한 방법과 같은 하나 이상의 방법을 수행하는 지침을 포함한다. 컴퓨터 프로그램 물은 메모리(464), 확장 메모리(474) 또는 프로세서(452)상의 메모리와 같은 컴퓨터 또는 머신 판독 가능 매체일 수 있다. 일부 구현 예들에서, 컴퓨터 프로그램 물은 예를 들어 송수신기(468) 또는 외부 인터페이스(462)를 통해 전파되는 신호로 수신될 수 있다.
모바일 컴퓨팅 장치(450)는 필요한 경우 디지털 신호 처리 회로를 포함할 수있는 통신 인터페이스(466)를 통해 무선으로 통신할 수 있다. 통신 인터페이스 (466)는 여러 가지 것들 가운데에서도 특히, GSM 음성 통화 (이동 통신을 위한 글로벌 시스템), SMS(단문 메시지 서비스), EMS(향상된 메시징 서비스) 또는 MMS 메시징(멀티미디어 메시징 서비스), CDMA(코드 분할 다중 접속), TDMA(시분할 다중 접속), PDC(개인 디지털 셀룰러), WCDMA(광대역 코드 분할 다중 접속), CDMA2000 또는 GPRS(일반 패킷 무선 서비스)와 같은 그러한 다양한 모드들 또는 프로토콜들 하에서 통신을 제공할 수 있다.
이러한 통신은, 예를 들어 무선 주파수를 사용하는 송수신기(468)를 통해 발생할 수 있다. 또한, 블루투스, WiFi 또는 다른 송수신기(도시되지 않음)를 사용하는 것과 같은 단거리 통신이 발생할 수 있다. 또한, GPS 수신기 모듈(470)은 모바일 컴퓨팅 장치(450)상에서 실행되는 애플리케이션에 의해 적절하게 사용될 수 있는 추가의 네비게이션 및 위치 관련 무선 데이터를 모바일 컴퓨팅 장치(450)에 제공 할 수 있다.
모바일 컴퓨팅 디바이스(450)는 또한 사용자로부터 음성 정보를 수신하여 그것을 이용 가능한 디지털 정보로 변환할 수 있는 오디오 코덱(460)을 사용하여 청각적으로 통신할 수 있다. 오디오 코덱(460)은 마찬가지로, 예를 들어 모바일 컴퓨팅 장치(450)의 핸드셋에 있는 스피커를 통해, 사용자를 위한 가청 사운드를 생성할 수 있다. 이러한 사운드는 음성 전화로부터의 사운드를 포함할 수 있고, 음성 메시지, 음악 파일 또는 기타와 같은 기록된 사운드를 포함할 수 있고, 또한 모바일 컴퓨팅 장치(450)상에서 동작하는 애플리케이션에 의해 생성된 사운드를 포함 할수 있다.
모바일 컴퓨팅 장치 (450)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현 될 수 있다. 예를 들어, 셀룰러 폰(380)으로서 구현될 수 있다. 이는 또한 스마트 폰(382), PDA 또는 다른 유사한 모바일 장치의 일부로서 구현될 수도 있다.
여기에 기술된 시스템 및 기술의 다양한 구현 예들은 디지털 전자 회로, 집적 회로, 특별히 설계된 ASIC (주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현들은 데이터 및 명령들을 수신함과 아울러 데이터 및 명령들을 스토리지 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치에 송신하도록 결합된, 특수 또는 범용일 수 있는 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템상에서 실행 가능하고 그리고/또는 해석 가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있다.
이러한 컴퓨터 프로그램들은 또한 프로그램, 소프트웨어, 소프트웨어 응용 또는 코드로도 알려져 있고, 프로그램 가능 프로세서용 머신 명령들을 포함하며, 높은 수준의 절차 및/또는 객체 지향 프로그래밍 언어로 및/또는 어셈블리/머신 언어로 구현될 수 있다. 본 명세서에 사용된 용어 "머신 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"는 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치 (PLD) 머신 판독 가능 신호로서 머신 명령들을 수신하는 머신 판독 가능 매체를 포함하는, 프로그램 가능 프로세서에 머신 명령들 및/또는 데이터를 제공하는 것을 포함한다. "머신 판독 가능 신호"라는 용어는 머신 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하는 데 사용되는 모든 신호들을 의미한다.
사용자와의 상호 작용을 제공하기 위해, 여기에 설명된 시스템 및 기술은 디스플레이 장치, 예를 들어, 디스플레이 장치를 갖는 컴퓨터상에서 구현될 수 있다. 사용자에게 정보를 표시하기 위한 CRT(cathode ray tube) 또는 LCD (liquid crystal display) 모니터, 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 장치, 예를 들어, 마우스 또는 트랙볼을 포함할 수 있다. 다른 종류의 장치가 사용자와의 상호작용을 제공하기 위해 사용될 수 있다. 예를 들어, 사용자에게 제공된 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각(tactile) 피드백 일 수 있으며, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다.
여기에 기술된 시스템 및 기술은 예를 들어 데이터 서버와 같은 백엔드 컴포넌트를 포함하거나 미들웨어 컴포넌트를 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 애플리케이션 서버 또는 프론트 엔드 컴포넌트, 예를 들어 사용자가 여기에 기술된 시스템 및 기술의 구현과 상호 작용할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 클라이언트 컴퓨터, 또는 이러한 백 엔드, 미들웨어 또는 프런트 엔드 컴포넌트들의 임의의 조합을 포함한다. 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호 접속될 수 있다. 통신 네트워크의 예는 근거리 통신망( "LAN"), 광역 통신망 ( "WAN") 및 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생한다.
다수의 실시 예들이 설명되었다. 그럼에도 불구하고, 본 발명의 사상 및 범위를 벗어나지 않으면서 다양한 변형이 이루어질 수 있음을 이해할 것이다. 또한, 도면에 도시된 논리 흐름은 바람직한 결과를 얻기 위해 도시된 특정 순서 또는 순차 순서를 요구하지 않는다. 또한, 다른 단계들이 제공되거나 설명된 흐름들로부터 제거될 수 있으며, 설명된 시스템들에 다른 컴포넌트들이 추가되거나 제거될 수 있다. 따라서, 다른 실시 예들은 다음의 청구항들의 범위 내에 있다.

Claims (20)

  1. 중요 데이터를 사용하여 자동 음성 인식을 개선하기 위한 컴퓨터로 구현되는 방법으로서,
    자동 음성 프로세서에 의해, 사용자에 의해 발화된 발언에 대응하는 특정한 오디오 데이터를 수신하는 단계;
    상기 자동 음성 프로세서에 의해, 상기 특정한 오디오 데이터의 적어도 일부가 오디오 데이터의 로그에 로깅되지 않고 삭제될 중요 데이터(sensitive data)를 포함할 가능성이 크다고 결정하는 단계, 상기 중요 데이터는 중요 데이터의 유형과 연관되며, 상기 결정은 상기 특정한 오디오 데이터의 적어도 일부가 상기 중요 데이터의 유형과 연관된 신뢰 임계치 이상의 중요 데이터를 포함할 가능성을 가진다고 결정함에 기초하며;
    상기 자동 음성 프로세서에 의해, 중요 데이터를 포함할 가능성이 큰 상기 특정한 오디오 데이터의 적어도 일부가 삭제되기 전에, 상기 특정한 오디오 데이터를 상기 자동 음성 프로세서에 대한 음향 모델들을 트레이닝하는 음향 모델 트레이닝 엔진에 제공하는 단계;
    상기 자동 음성 프로세서에 의해, 상기 특정한 오디오 데이터가 상기 음향 모델 트레이닝 엔진에 제공된 후에, 상기 특정한 오디오의 적어도 일부를 삭제하는 단계;
    상기 자동 음성 프로세서에 의해, 상기 음향 모델 트레이닝 엔진으로부터, 상기 특정한 오디오 데이터의 적어도 일부를 사용하여 트레이닝된 업데이트된 음향 모델을 수신하는 단계; 및
    상기 자동 음성 프로세서에 의해, 후속적으로 수신된 오디오 데이터를 인식하기 위해 상기 업데이트된 음향 모델을 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
  2. 청구항 1에 있어서,
    상기 중요 데이터는 중요 데이터가 아닐 것으로 결정된 데이터가 삭제된 후의 기본 기간보다 짧은 기간 후에 삭제될 데이터인 것을 특징으로 하는 방법.
  3. 청구항 1에 있어서,
    상기 중요 데이터의 각 유형은 삭제를 위해 연관된 미리 결정된 기간을 갖는 것을 특징으로 하는 방법.
  4. 청구항 1에 있어서,
    상기 수신된 오디오 데이터의 적어도 일부를 익명화(anonymizing)하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  5. 청구항 1에 있어서,
    상기 중요 데이터는 연락처 정보를 포함하는 것을 특징으로 하는 방법.
  6. 청구항 1에 있어서,
    상기 중요 데이터는 개인 식별 정보를 포함하는 것을 특징으로 하는 방법.
  7. 청구항 1에 있어서,
    상기 중요 데이터는 중요 금융 정보를 포함하는 것을 특징으로 하는 방법.
  8. 청구항 1에 있어서,
    상기 중요 데이터는 하나 이상의 미리 결정된 키워드들을 포함하는 것을 특징으로 하는 방법.
  9. 중요 데이터를 사용하여 자동 음성 인식을 개선하기 위한 시스템으로서,
    하나 이상의 컴퓨터들 및 실행가능한 명령어들을 저장하는 하나 이상의 저장 디바이스들을 포함하며, 상기 명령어들은 상기 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
    자동 음성 프로세서에 의해, 사용자에 의해 발화된 발언에 대응하는 특정한 오디오 데이터를 수신하는 동작;
    상기 자동 음성 프로세서에 의해, 상기 특정한 오디오 데이터의 적어도 일부가 오디오 데이터의 로그에 로깅되지 않고 삭제될 중요 데이터(sensitive data)를 포함할 가능성이 크다고 결정하는 동작, 상기 중요 데이터는 중요 데이터의 유형과 연관되며, 상기 결정은 상기 특정한 오디오 데이터의 적어도 일부가 상기 중요 데이터의 유형과 연관된 신뢰 임계치 이상의 중요 데이터를 포함할 가능성을 가진다고 결정함에 기초하며;
    상기 자동 음성 프로세서에 의해, 중요 데이터를 포함할 가능성이 큰 상기 특정한 오디오 데이터의 적어도 일부가 삭제되기 전에, 상기 특정한 오디오 데이터를 상기 자동 음성 프로세서에 대한 음향 모델들을 트레이닝하는 음향 모델 트레이닝 엔진에 제공하는 동작;
    상기 자동 음성 프로세서에 의해, 상기 특정한 오디오 데이터가 상기 음향 모델 트레이닝 엔진에 제공된 후에, 상기 특정한 오디오의 적어도 일부를 삭제하는 동작;
    상기 자동 음성 프로세서에 의해, 상기 음향 모델 트레이닝 엔진으로부터, 상기 특정한 오디오 데이터의 적어도 일부를 사용하여 트레이닝된 업데이트된 음향 모델을 수신하는 동작; 및
    상기 자동 음성 프로세서에 의해, 후속적으로 수신된 오디오 데이터를 인식하기 위해 상기 업데이트된 음향 모델을 사용하는 동작을 포함하는 것을 특징으로 하는 시스템.
  10. 청구항 9에 있어서,
    상기 중요 데이터는 중요 데이터가 아닐 것으로 결정된 데이터가 삭제된 후의 기본 기간보다 짧은 기간 후에 삭제될 데이터인 것을 특징으로 하는 시스템.
  11. 청구항 9에 있어서,
    상기 중요 데이터의 각 유형은 삭제를 위해 연관된 미리 결정된 기간을 갖는 것을 특징으로 하는 시스템.
  12. 청구항 9에 있어서,
    상기 수신된 오디오 데이터의 적어도 일부를 익명화(anonymizing)하는 동작을 더 포함하는 것을 특징으로 하는 시스템.
  13. 청구항 9에 있어서,
    상기 중요 데이터는 연락처 정보를 포함하는 것을 특징으로 하는 시스템.
  14. 청구항 9에 있어서,
    상기 중요 데이터는 개인 식별 정보를 포함하는 것을 특징으로 하는 시스템.
  15. 청구항 9에 있어서,
    상기 중요 데이터는 중요 금융 정보를 포함하는 것을 특징으로 하는 시스템.
  16. 청구항 9에 있어서,
    상기 중요 데이터는 하나 이상의 미리 결정된 키워드들을 포함하는 것을 특징으로 하는 시스템.
  17. 하나 이상의 컴퓨터들에 의해 실행가능한 명령어들을 포함하는 소프트웨어를 저장하는 컴퓨터 판독가능 비일시적 매체로서, 상기 명령어들은 실행시 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
    자동 음성 프로세서에 의해, 사용자에 의해 발화된 발언에 대응하는 특정한 오디오 데이터를 수신하는 동작;
    상기 자동 음성 프로세서에 의해, 상기 특정한 오디오 데이터의 적어도 일부가 오디오 데이터의 로그에 로깅되지 않고 삭제될 중요 데이터(sensitive data)를 포함할 가능성이 크다고 결정하는 동작, 상기 중요 데이터는 중요 데이터의 유형과 연관되며, 상기 결정은 상기 특정한 오디오 데이터의 적어도 일부가 상기 중요 데이터의 유형과 연관된 신뢰 임계치 이상의 중요 데이터를 포함할 가능성을 가진다고 결정함에 기초하며;
    상기 자동 음성 프로세서에 의해, 중요 데이터를 포함할 가능성이 큰 상기 특정한 오디오 데이터의 적어도 일부가 삭제되기 전에, 상기 특정한 오디오 데이터를 상기 자동 음성 프로세서에 대한 음향 모델들을 트레이닝하는 음향 모델 트레이닝 엔진에 제공하는 동작;
    상기 자동 음성 프로세서에 의해, 상기 특정한 오디오 데이터가 상기 음향 모델 트레이닝 엔진에 제공된 후에, 상기 특정한 오디오의 적어도 일부를 삭제하는 동작;
    상기 자동 음성 프로세서에 의해, 상기 음향 모델 트레이닝 엔진으로부터, 상기 특정한 오디오 데이터의 적어도 일부를 사용하여 트레이닝된 업데이트된 음향 모델을 수신하는 동작; 및
    상기 자동 음성 프로세서에 의해, 후속적으로 수신된 오디오 데이터를 인식하기 위해 상기 업데이트된 음향 모델을 사용하는 동작을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 비일시적 매체.
  18. 청구항 17에 있어서,
    상기 중요 데이터는 중요 데이터가 아닐 것으로 결정된 데이터가 삭제된 후의 기본 기간보다 짧은 기간 후에 삭제될 데이터인 것을 특징으로 하는 컴퓨터 판독가능 비일시적 매체.
  19. 청구항 17에 있어서,
    상기 중요 데이터의 각 유형은 삭제를 위해 연관된 미리 결정된 기간을 갖는 것을 특징으로 하는 컴퓨터 판독가능 비일시적 매체.
  20. 청구항 17에 있어서,
    상기 수신된 오디오 데이터의 적어도 일부를 익명화(anonymizing)하는 동작을 더 포함하는 것을 특징으로 하는 컴퓨터 판독가능 비일시적 매체.
KR1020197017008A 2015-06-29 2016-05-23 개인정보 보호 트레이닝 코퍼스 선택 KR102109876B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/753,912 2015-06-29
US14/753,912 US9881613B2 (en) 2015-06-29 2015-06-29 Privacy-preserving training corpus selection
PCT/US2016/033773 WO2017003579A1 (en) 2015-06-29 2016-05-23 Privacy-preserving training corpus selection

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020177019375A Division KR101991473B1 (ko) 2015-06-29 2016-05-23 개인정보 보호 트레이닝 코퍼스 선택

Publications (2)

Publication Number Publication Date
KR20190071010A KR20190071010A (ko) 2019-06-21
KR102109876B1 true KR102109876B1 (ko) 2020-05-28

Family

ID=56097336

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020197017008A KR102109876B1 (ko) 2015-06-29 2016-05-23 개인정보 보호 트레이닝 코퍼스 선택
KR1020177019375A KR101991473B1 (ko) 2015-06-29 2016-05-23 개인정보 보호 트레이닝 코퍼스 선택

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020177019375A KR101991473B1 (ko) 2015-06-29 2016-05-23 개인정보 보호 트레이닝 코퍼스 선택

Country Status (8)

Country Link
US (2) US9881613B2 (ko)
EP (1) EP3234944B1 (ko)
JP (1) JP6486503B2 (ko)
KR (2) KR102109876B1 (ko)
CN (2) CN111695146B (ko)
DE (1) DE112016000292B4 (ko)
GB (1) GB2551917B (ko)
WO (1) WO2017003579A1 (ko)

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9881613B2 (en) * 2015-06-29 2018-01-30 Google Llc Privacy-preserving training corpus selection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US20180358021A1 (en) * 2015-12-23 2018-12-13 Intel Corporation Biometric information for dialog system
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10755172B2 (en) 2016-06-22 2020-08-25 Massachusetts Institute Of Technology Secure training of multi-party deep neural network
CN117577099A (zh) * 2017-04-20 2024-02-20 谷歌有限责任公司 设备上的多用户认证的方法、系统和介质
CN107103903B (zh) * 2017-05-05 2020-05-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
CN107240395B (zh) * 2017-06-16 2020-04-28 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
WO2019010250A1 (en) * 2017-07-05 2019-01-10 Interactions Llc REAL-TIME CONFIDENTIALITY FILTER
US10540521B2 (en) * 2017-08-24 2020-01-21 International Business Machines Corporation Selective enforcement of privacy and confidentiality for optimization of voice applications
WO2019077013A1 (en) * 2017-10-18 2019-04-25 Soapbox Labs Ltd. METHODS AND SYSTEMS FOR PROCESSING AUDIO SIGNALS CONTAINING VOICE DATA
US11216745B2 (en) 2017-11-07 2022-01-04 Google Llc Incognito mode for personalized machine-learned models
EP3496090A1 (en) * 2017-12-07 2019-06-12 Thomson Licensing Device and method for privacy-preserving vocal interaction
US10861463B2 (en) * 2018-01-09 2020-12-08 Sennheiser Electronic Gmbh & Co. Kg Method for speech processing and speech processing device
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
KR102155380B1 (ko) * 2018-06-29 2020-09-14 주식회사 디플리 실시간 소리 분석 방법 및 장치
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN111031329B (zh) * 2018-10-10 2023-08-15 北京默契破冰科技有限公司 一种用于管理音频数据的方法、设备和计算机存储介质
US11138334B1 (en) * 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
CN112997247A (zh) * 2018-11-05 2021-06-18 株式会社赛斯特安国际 利用大数据的最佳语言模型生成方法及用于其的装置
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US10573312B1 (en) 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US10388272B1 (en) 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11170761B2 (en) 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
KR102041621B1 (ko) * 2019-02-25 2019-11-06 (주)미디어코퍼스 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11545136B2 (en) * 2019-10-21 2023-01-03 Nuance Communications, Inc. System and method using parameterized speech synthesis to train acoustic models
US11769496B1 (en) * 2019-12-12 2023-09-26 Amazon Technologies, Inc. Predictive deletion of user input
CN111064797B (zh) * 2019-12-20 2023-01-10 深圳前海微众银行股份有限公司 一种数据处理方法及装置
JP7310673B2 (ja) * 2020-03-23 2023-07-19 横河電機株式会社 データ管理システム、データ管理方法、および、データ管理プログラム
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111711562A (zh) * 2020-07-16 2020-09-25 网易(杭州)网络有限公司 消息处理方法及装置、计算机存储介质、电子设备
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio
CN113033191A (zh) * 2021-03-30 2021-06-25 上海思必驰信息科技有限公司 语音数据处理方法、电子设备及计算机可读存储介质
US11960625B2 (en) * 2021-05-06 2024-04-16 Jpmorgan Chase Bank, N.A. Systems and methods for protecting sensitive data in user online activities
US20220399009A1 (en) * 2021-06-09 2022-12-15 International Business Machines Corporation Protecting sensitive information in conversational exchanges

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110099602A1 (en) * 2009-10-28 2011-04-28 Liveops, Inc. System and method for implementing adaptive security zones
WO2012132296A1 (ja) * 2011-03-25 2012-10-04 日本電気株式会社 情報漏洩防止装置、方法及びプログラム
WO2014133525A1 (en) * 2013-02-28 2014-09-04 Nuance Communication, Inc. Server-side asr adaptation to speaker, device and noise condition via non-asr audio transmission
US20140278426A1 (en) * 2013-03-13 2014-09-18 Nuance Communications, Inc. Data shredding for speech recognition acoustic model training under data retention restrictions

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3725470B2 (ja) * 2001-12-28 2005-12-14 株式会社東芝 統計的言語モデルを作成するためのコーパス処理装置及び方法並びにプログラム
US8473451B1 (en) * 2004-07-30 2013-06-25 At&T Intellectual Property I, L.P. Preserving privacy in natural language databases
US20070244700A1 (en) * 2006-04-12 2007-10-18 Jonathan Kahn Session File Modification with Selective Replacement of Session File Components
US8073681B2 (en) * 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
JP2008219534A (ja) * 2007-03-06 2008-09-18 Sharp Corp 無線通信システム
US8346532B2 (en) 2008-07-11 2013-01-01 International Business Machines Corporation Managing the creation, detection, and maintenance of sensitive information
JP5164922B2 (ja) * 2009-05-19 2013-03-21 日本電信電話株式会社 個人情報削除装置とその方法、そのプログラムと記録媒体
US9111540B2 (en) * 2009-06-09 2015-08-18 Microsoft Technology Licensing, Llc Local and remote aggregation of feedback data for speech recognition
US8880403B2 (en) * 2010-09-03 2014-11-04 Canyon Ip Holdings Llc Methods and systems for obtaining language models for transcribing communications
US8401853B2 (en) * 2010-09-22 2013-03-19 At&T Intellectual Property I, L.P. System and method for enhancing voice-enabled search based on automated demographic identification
US9484018B2 (en) * 2010-11-23 2016-11-01 At&T Intellectual Property I, L.P. System and method for building and evaluating automatic speech recognition via an application programmer interface
CN102572839B (zh) * 2010-12-14 2016-03-02 中国移动通信集团四川有限公司 一种控制语音通信的方法和系统
US8688601B2 (en) * 2011-05-23 2014-04-01 Symantec Corporation Systems and methods for generating machine learning-based classifiers for detecting specific categories of sensitive information
US8554559B1 (en) * 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US8990091B2 (en) * 2012-07-27 2015-03-24 Nuance Communications, Inc. Parsimonious protection of sensitive data in enterprise dialog systems
US8831957B2 (en) * 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
US9093069B2 (en) * 2012-11-05 2015-07-28 Nuance Communications, Inc. Privacy-sensitive speech model creation via aggregation of multiple user models
US8494853B1 (en) * 2013-01-04 2013-07-23 Google Inc. Methods and systems for providing speech recognition systems based on speech recordings logs
US9131369B2 (en) * 2013-01-24 2015-09-08 Nuance Communications, Inc. Protection of private information in a client/server automatic speech recognition system
US9514740B2 (en) * 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition language model training under data retention restrictions
US9305174B2 (en) * 2013-04-09 2016-04-05 Robert Hansen Electronic clipboard protection
US9881613B2 (en) * 2015-06-29 2018-01-30 Google Llc Privacy-preserving training corpus selection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110099602A1 (en) * 2009-10-28 2011-04-28 Liveops, Inc. System and method for implementing adaptive security zones
WO2012132296A1 (ja) * 2011-03-25 2012-10-04 日本電気株式会社 情報漏洩防止装置、方法及びプログラム
WO2014133525A1 (en) * 2013-02-28 2014-09-04 Nuance Communication, Inc. Server-side asr adaptation to speaker, device and noise condition via non-asr audio transmission
US20140278426A1 (en) * 2013-03-13 2014-09-18 Nuance Communications, Inc. Data shredding for speech recognition acoustic model training under data retention restrictions

Also Published As

Publication number Publication date
KR20170094415A (ko) 2017-08-17
CN107209842A (zh) 2017-09-26
EP3234944B1 (en) 2023-02-22
US20160379639A1 (en) 2016-12-29
US9881613B2 (en) 2018-01-30
DE112016000292T5 (de) 2017-11-09
US9990925B2 (en) 2018-06-05
CN111695146B (zh) 2023-12-15
EP3234944A1 (en) 2017-10-25
KR20190071010A (ko) 2019-06-21
JP6486503B2 (ja) 2019-03-20
KR101991473B1 (ko) 2019-09-30
GB2551917A (en) 2018-01-03
WO2017003579A1 (en) 2017-01-05
GB201711683D0 (en) 2017-09-06
CN107209842B (zh) 2020-05-05
US20180108355A1 (en) 2018-04-19
CN111695146A (zh) 2020-09-22
JP2018506081A (ja) 2018-03-01
DE112016000292B4 (de) 2021-10-07
GB2551917B (en) 2021-10-06

Similar Documents

Publication Publication Date Title
KR102109876B1 (ko) 개인정보 보호 트레이닝 코퍼스 선택
US11289096B2 (en) Providing answers to voice queries using user feedback
US20230237104A1 (en) Unified message search
US10276163B1 (en) Speech recognition parameter adjustment
US10510338B2 (en) Voice recognition grammar selection based on context
CN108463849B (zh) 一种计算机实现的方法和计算系统
US9043199B1 (en) Manner of pronunciation-influenced search results
US9767801B1 (en) Intelligently canceling user input
CN110325987B (zh) 语境语音驱动深度书签
US11113631B2 (en) Engineering data analytics platforms using machine learning
WO2020233381A1 (zh) 基于语音识别的服务请求方法、装置及计算机设备
KR20200013774A (ko) 보이스 가능 디바이스를 디스플레이 디바이스와 페어링
US9747891B1 (en) Name pronunciation recommendation
KR102222637B1 (ko) 감성 분석 장치, 이를 포함하는 대화형 에이전트 시스템, 감성 분석을 수행하기 위한 단말 장치 및 감성 분석 방법
US10296510B2 (en) Search query based form populator
US9104759B1 (en) Identifying stem variants of search query terms

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant