KR20220101672A

KR20220101672A - 오디오-비주얼 스트림에서 프라이버시-인식 회의실 전사

Info

Publication number: KR20220101672A
Application number: KR1020227020016A
Authority: KR
Inventors: 올리버 시오한; 오타비오 브라가; 바실리오 가르시아 카스틸로; 행크 리아오; 리차드 로즈; 타카키 마키노
Original assignee: 구글 엘엘씨
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2022-07-19
Also published as: JP2024026295A; US20240104247A1; JP7400100B2; WO2021101510A1; EP4052255B1; JP2023501728A; EP4052255A1; US12118123B2; CN114667726A; US20220382907A1

Abstract

프라이버시-인식 전사를 위한 방법은 음성 환경에서 오디오 데이터 및 이미지 데이터를 포함하는 오디오-비주얼 신호 및 음성 환경의 참가자로부터 프라이버시 요청을 수신하는 단계를 포함하고, 상기 프라이버시 요청은 참가자에 대한 프라이버시 조건을 표시한다. 방법은 또한 상기 오디오 데이터를 복수의 세그먼트들로 세그먼트화하는 단계를 포함한다. 각 세그먼트에 대해, 방법은 상기 이미지 데이터에 기초하여 상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 결정하는 단계 및 상기 대응 세그먼트의 화자의 신원이 상기 프라이버시 조건과 연관된 참가자를 포함하는지 여부를 결정하는 단계를 포함한다. 상기 대응 세그먼트의 화자의 신원이 상기 참가자를 포함하는 경우, 방법은 프라이버시 조건을 상기 대응 세그먼트에 적용하는 단계를 포함한다. 또한 방법은 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 단계를 포함한다.

Description

오디오-비주얼 스트림에서 프라이버시-인식 회의실 전사

본 개시는 오디오-비주얼 스트림으로부터의 프라이버시 인식 회의실 전사에 관한 것이다.

화자 분할은 입력 오디오 스트림을 화자 신원에 따라 동종 세그먼트로 파티셔닝하는 프로세스이다. 여러 화자가 있는 환경에서, 화자 분할은 "누가 언제 말하고 있는지"라는 질문에 답하며, 멀티미디어 정보 검색, 화자 턴 분석 및 오디오 프로세싱을 비롯한 다양한 적용을 포함한다. 특히, 화자 분할 시스템은 음향 음성 인식 정확도를 크게 개선시킬 가능성이 있는 화자 경계를 생성할 수 있다.

본 개시물의 일 양태는 콘텐츠 스트림으로부터 프라이버시-인식 회의실 전사를 생성하기 위한 방법을 제공한다. 방법은 데이터 프로세싱 하드웨어에서 오디오 데이터 및 이미지 데이터를 포함하는 오디오-비주얼 신호를 수신하는 단계를 포함한다. 상기 오디오 데이터는 음성 환경의 복수의 참가자들로부터의 음성 발화에 대응하고, 이미지 데이터는 음성 환경의 상기 복수의 참가자들의 얼굴을 표현한다. 방법은 또한 데이터 프로세싱 하드웨어에서, 복수의 참가자들 중 한 참가자로부터 프라이버시 요청을 수신하는 단계를 포함한다. 프라이버시 요청은 음성 환경에서 참가자와 연관된 프라이버시 조건을 표시한다. 방법은 또한 상기 데이터 프로세싱 하드웨어에 의해, 상기 오디오 데이터를 복수의 세그먼트들로 세그먼트화하는 단계를 더 포함한다. 오디오 데이터의 각 세그먼트에 대해, 방법은 상기 데이터 프로세싱 하드웨어에 의해, 상기 복수의 참가자들 중에서, 상기 이미지 데이터에 기초하여 상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 결정하는 단계를 포함한다. 오디오 데이터의 각 세그먼트에 대해, 방법은 상기 데이터 프로세싱 하드웨어에 의해, 상기 대응 세그먼트의 화자의 신원이 상기 수신된 프라이버시 요청에 의해 표시된 상기 프라이버시 조건과 연관된 참가자를 포함하는지 여부를 결정하는 단계를 포함한다. 상기 대응 세그먼트의 화자의 신원이 상기 참가자를 포함하는 경우, 방법은 프라이버시 조건을 상기 대응 세그먼트에 적용하는 단계를 포함한다. 방법은 또한 상기 데이터 프로세싱 하드웨어에 의해, 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 단계를 더 포함한다.

본 개시의 구현예는 다음 구성들 중 하나 이상을 포함할 수 있다. 일부 구현예에서, 상기 프라이버시 조건을 상기 대응 세그먼트에 적용하는 단계는 상기 전사를 결정한 후, 상기 오디오 데이터의 대응 세그먼트를 삭제하는 단계를 포함한다. 추가적으로 또는 대안적으로, 상기 프라이버시 조건을 상기 대응 세그먼트에 적용하는 단계는 상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 시각적으로 은폐하기 위해 상기 이미지 데이터의 상기 대응 세그먼트를 증강하는 단계를 포함할 수 있다.

일부 예에서, 프라이버시 조건을 적용하는 오디오 데이터의 세그먼트들 중 하나에 대응하는 전사의 각 부분에 대해, 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 단계는 화자의 신원을 포함하지 않도록 전사의 대응 부분을 수정하는 단계를 포함한다. 선택적으로, 프라이버시 조건을 적용하는 오디오 데이터의 각 세그먼트에 대해, 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 단계는 오디오 데이터의 대응 세그먼트를 전사하는 것을 생략하는 단계를 포함할 수 있다. 상기 프라이버시 조건은 콘텐츠-특정 조건을 포함하고, 상기 콘텐츠-특정 조건은 상기 전사로부터 제외할 콘텐츠의 유형을 표시한다.

일부 구성에서, 상기 복수의 참가자들 중에서, 상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 결정하는 단계는 상기 이미지 데이터에 기초하여 상기 화자에 대한 복수의 후보 신원들을 결정하는 단계를 포함한다. 여기서, 상기 복수의 후보 신원들의 각각의 후보 신원에 대해, 상기 이미지 데이터에 기초하여 대응 후보 신원의 얼굴이 상기 오디오 데이터의 대응 세그먼트의 화자 얼굴을 포함할 가능성을 표시하는 신뢰 점수를 생성한다. 이 구성에서, 방법은 상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 가장 높은 신뢰 점수와 연관된 복수의 후보 신원들 중 후보 신원으로 선택하는 단계를 포함한다.

일부 구현예에서, 상기 데이터 프로세싱 하드웨어는 상기 복수의 참가자들 중 적어도 하나의 참가자에 로컬인 디바이스에 상주한다. 이미지 데이터는 데이터 프로세싱 하드웨어에 의해 프로세싱된 고화질 비디오를 포함할 수 있다. 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 단계는 상기 전사를 결정하기 위해 상기 이미지 데이터를 프로세싱하는 단계를 포함할 수 있다.

본 개시의 일 양태는 프라이버시-인식 전사를 위한 시스템을 제공한다. 시스템은 데이터 프로세싱 하드웨어와 상기 데이터 프로세싱 하드웨어와 통신하는 메모리 하드웨어를 포함한다. 메모리 하드웨어는 데이터 프로세싱 하드웨어에서 실행될 때 상기 데이터 프로세싱 하드웨어로 하여금 동작들을 수행하게 하는 명령어들 저장한다. 동작들은 오디오 데이터 및 이미지 데이터를 포함하는 오디오-비주얼 신호를 수신하는 동작을 포함한다. 상기 오디오 데이터는 음성 환경의 복수의 참가자들로부터의 음성 발화에 대응하고, 이미지 데이터는 음성 환경의 상기 복수의 참가자들의 얼굴을 표현한다. 또한 동작들은 상기 복수의 참가자들 중 한 참가자로부터 프라이버시 요청을 수신하는 동작을 포함하며, 상기 프라이버시 요청은 상기 음성 환경에서 상기 참가자와 연관된 프라이버시 조건을 표시한다. 방법은 또한 상기 오디오 데이터를 복수의 세그먼트들로 세그먼트화하는 단계를 포함한다. 오디오 데이터의 각 세그먼트에 대해, 동작들은 상기 복수의 참가자들 중에서, 상기 이미지 데이터에 기초하여 상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 결정하는 동작을 포함한다. 오디오 데이터의 각 세그먼트에 대해, 동작들은 상기 대응 세그먼트의 화자의 신원이 상기 수신된 프라이버시 요청에 의해 표시된 상기 프라이버시 조건과 연관된 참가자를 포함하는지 여부를 결정하는 동작을 포함한다. 상기 대응 세그먼트의 화자의 신원이 상기 참가자를 포함하는 경우, 동작들은 프라이버시 조건을 상기 대응 세그먼트에 적용하는 동작을 포함한다. 또한 동작들은 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 동작을 포함한다.

본 양태는 다음 구성들 중 하나 이상을 포함할 수 있다. 일부 예에서, 상기 프라이버시 조건을 상기 대응 세그먼트에 적용하는 동작은 상기 전사를 결정한 후, 상기 오디오 데이터의 대응 세그먼트를 삭제하는 동작을 포함한다. 선택적으로, 상기 프라이버시 조건을 상기 대응 세그먼트에 적용하는 동작은 상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 시각적으로 은폐하기 위해 상기 이미지 데이터의 상기 대응 세그먼트를 증강하는 동작을 포함할 수 있다.

일부 구성에서, 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 동작은 상기 프라이버시 조건을 적용하는 상기 오디오 데이터의 상기 세그먼트들 중 하나에 대응하는 전사의 각 부분에 대해, 상기 화자의 신원을 포함하지 않도록 상기 전사의 대응 부분을 수정하는 동작을 포함한다. 추가적으로 또는 대안적으로, 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 동작은 상기 프라이버시 조건을 적용하는 상기 오디오 데이터의 각 세그먼트에 대해, 상기 오디오 데이터의 대응 세그먼트를 전사하는 것을 생략하는 동작을 포함할 수 있다. 상기 프라이버시 조건은 콘텐츠-특정 조건을 포함하고, 상기 콘텐츠-특정 조건은 상기 전사로부터 제외할 콘텐츠의 유형을 표시한다.

일부 구현예에서, 상기 복수의 참가자들 중에서, 상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 결정하는 동작은 상기 이미지 데이터에 기초하여 상기 화자에 대한 복수의 후보 신원들을 결정하는 동작을 포함한다. 이 구현예는 상기 복수의 후보 신원들의 각각의 후보 신원에 대해, 상기 이미지 데이터에 기초하여 대응 후보 신원의 얼굴이 상기 오디오 데이터의 대응 세그먼트의 화자 얼굴을 포함할 가능성을 표시하는 신뢰 점수를 생성하는 동작을 포함한다. 이 구현예는 상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 가장 높은 신뢰 점수와 연관된 복수의 후보 신원들 중 후보 신원으로 선택하는 동작을 포함한다.

일부 예에서, 상기 데이터 프로세싱 하드웨어는 상기 복수의 참가자들 중 적어도 하나의 참가자에 로컬인 디바이스에 상주한다. 이미지 데이터는 데이터 프로세싱 하드웨어에 의해 프로세싱된 고화질 비디오를 포함할 수 있다. 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 단계는 상기 전사를 결정하기 위해 상기 이미지 데이터를 프로세싱하는 단계를 포함할 수 있다.

본 개시의 하나 이상의 구현예의 세부 내용이 첨부 도면과 아래의 설명에서 기술된다. 다른 양태, 구성, 객체 및 이점은 아래의 설명, 도면 및 청구항으로부터 명백해질 것이다.

도 1a는 전사기를 갖는 예시적 어셈블리 환경의 개략도이다.
도 1b-1e는 프라이버시-인식 전사기를 갖는 도 1a의 예시적 어셈블리 환경의 개략도이다.
도 2a 및 2b는 예시적 전사기의 개략도이다.
도 3은 도 1a의 어셈블리 환경 내에서 콘텐츠를 전사하는 방법에 대한 동작의 예시적 구성의 흐름도이다.
도 4는 본 명세서에 기술된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적 컴퓨팅 디바이스의 개략도이다.
도 5는 전사기에 액세스 가능한 메모리 하드웨어에 저장된 예시적 프로필의 개략도이다.
다양한 도면들에서 기호들은 동일한 엘리먼트를 표시한다.

화상 회의 시스템에서 사용되고 생성된 데이터의 프라이버시는 이러한 시스템의 중요한 측면이다. 회의 참가자는 회의 중에 획득한 오디오 및 비디오 데이터와 관련하여 프라이버시에 대해 개별적인 견해를 가질 수 있다. 따라서, 화상 회의에 대한 전사를 정확하게 생성하는 동시에 이러한 프라이버시 요구 사항을 신뢰할 수 있고 정확한 방식으로 처리할 수 있는 화상 회의 시스템을 제공하는 방법에 대한 기술적인 문제가 있다. 본 개시 내용의 구현예는 전사를 생성할 때, 회의 중에 캡처된 오디오 뿐만 아니라 회의 중에 캡처된 비디오에 기초하여 참가자들의 발언 기여를 식별하여 화상 회의 시스템에 대한 참가자의 요구를 정확하고 효율적으로 구현하는 화상 회의 시스템으로 회의의 참가자가 고유의 프라이버시 구성을 설정하게 함으로써(예: 화상 회의 시스템의 다양한 구성의 옵트-인 또는 옵트-아웃), 기술적 해결책을 제공하며, 이는 화상 회의에 대한 기여자의 식별의 높은 정확성을 보장하며, 전사의 정확성을 개선함과 동시에 참가자의 맞춤형 프라이버시 요구 사항의 정확하고 안정성 있는 구현을 가능하게 한다. 즉, 보다 정확하고 안정적이며 유연한 화상 회의 시스템을 제공한다.

더욱이, 일부 구현예에서, 화상 회의의 전사를 생성하는 프로세스는 화상 회의의 참가자들 중 하나 이상에게, 예를 들어, 그 참가자들과 동일한 방에 있는 디바이스에 의해 로컬적으로 수행된다. 다시 말해서, 그러한 구현예에서, 전사를 생성하는 프로세스는 하나 이상의 원격/클라우드 서버를 통해와 같이 원격으로 수행되지 않는다. 이렇게 하면 특정 프라이버시 요구 사항이 충족될 수 있도록 하는 동시에 화상 회의 중에 화자를 식별할 때 로컬에서 캡처한 전체/원본 해상도 및 전체/원본 품질 비디오 데이터를 사용할 수 있다(화자 식별의 정확성을 떨어뜨릴 수 있는 저해상도 및/또는 저품질 비디오에서 동작하는 원격 서버와 반대).

어셈블리 환경(일반적으로 환경이라고도 함)에서, 사람들은 생각, 아이디어, 일정 또는 기타 문제를 교류하기 위해 함께 모인다. 어셈블리 환경은 참가자를 위한 공유 공간 역할을 한다. 이 공유 공간은 회의실 또는 교실과 같은 물리적 공간, 가상 공간(예: 가상 회의실) 또는 이들의 임의의 조합일 수 있다. 환경은 중앙 집중식 위치(예: 로컬 호스팅) 또는 분산 위치(예: 가상 호스팅)일 수 있다. 예를 들어, 환경은 회의실이나 교실과 같이 참가자가 모이는 단일 방이다. 일부 구현예에서 환경은 참가자의 집합을 형성하기 위해 함께 연결된 둘 이상의 공유 공간이다. 예를 들어, 회의는 호스트 위치(예: 회의의 조정자 또는 발표자가 있을 수 있음)와 회의에 참석하는 하나 이상의 원격 위치(예: 실시간 통신 애플리케이션 사용)를 갖는다. 즉, 회사는 시카고에 있는 사무실에서 회의를 호스팅하지만, 회사의 다른 사무실(예: 샌프란시스코 또는 뉴욕)은 원격으로 회의에 참석한다. 예를 들어, 여러 사무실에 걸쳐 대규모 회의를 하는 많은 기업이 있으며 각 사무실에는 회의에 참여하는 회의 공간이 있다. 이는 팀 구성원이 회사 전체(즉, 둘 이상의 위치)에 분산되어 있거나 원격으로 작업하는 일이 점점 더 보편화되고 있기 때문에 특히 그렇다. 또한, 실시간 통신을 위한 애플리케이션이 더욱 강력해짐에 따라 원격 사무실, 원격 직원, 원격 파트너(예: 사업 파트너), 원격 고객 등을 위한 환경이 호스팅될 수 있다. 따라서 다양한 어셈블리 물류를 수용할 수 있는 환경이 발전했다.

일반적으로 의사 소통의 공간으로 환경은 여러 참가자를 호스팅한다. 여기서, 각 참가자는 환경에 있는 동안 오디오 콘텐츠(예: 말하기에 의한 가청 발언) 및/또는 시각적 콘텐츠(예: 참가자의 행동)를 제공할 수 있다. 환경에 둘 이상의 참가자가 있는 경우, 일부 또는 모든 참가자의 참여를 추적 및/또는 기록할 수 있는 이점이 있다. 환경이 다양한 어셈블리 물류를 수용할 때 특히 그렇다. 예를 들어, 시카고 사무실에서 뉴욕 사무실과 샌프란시스코 사무실이 모두 원격으로 참석하는 회의를 주최하는 경우, 시카고 사무실의 누군가가 원격 위치 중 하나에 있는 화자를 식별하기 어려울 수 있다. 예를 들어, 시카고 사무실은 시카고 사무실과 멀리 떨어져 있는 각 사무실의 회의실을 캡처하는 비디오 피드를 포함할 수 있다. 비디오 피드가 있더라도 시카고 사무실의 참가자는 뉴욕 사무실의 모든 참가자를 구별하지 못할 수 있다. 예를 들어, 뉴욕 사무실의 화자가 비디오 피드와 연관된 카메라에서 멀리 떨어진 위치에 있으면, 시카고 사무실의 참가자가 뉴욕 사무실의 화자가 누구인지 식별하기 어렵다. 시카고에 기반을 둔 참가자가 회의 내의 다른 참가자와 친숙하지 않은 경우(예: 목소리로 화자를 식별할 수 없는 경우)에도 어려울 수 있다. 화자를 식별할 수 없는 경우, 화자의 신원이 회의 중 중요한 구성 요소일 수 있으므로 문제가 될 수 있다. 다시 말해, 테이크아웃/전달물을 이해하거나 일반적으로 누가 어떤 콘텐츠를 공유했는지 이해하기 위해 화자(또는 콘텐츠 출처)를 식별하는 것이 중요할 수 있다. 예를 들어, 뉴욕 사무실의 Sally가 시카고 사무실의 Johnny에게 전달 가능한 액션 아이템을 가정하지만, Johnny가 Sally가 액션 아이템을 맡았음을 식별할 수 없는 경우 Johnny는 나중에 액션 아이템을 팔로우하는데 문제가 있을 수 있다. 다른 시나리오에서 Johnny는 Sally가 액션 아이템을 맡았음을 식별할 수 없었기 때문에 Johnny는 Tracy(예: 뉴욕 사무실에서도)가 액션 아이템을 맡은 것으로 잘못 식별했을 수 있다. 단순히 참가자들 사이에서 대화를 나누는 기본적인 수준에서도 마찬가지일 것이다. Sally가 특정 주제에 대해 말했지만, Johnny가 그것이 Tracy가 말한 것이라고 생각했다면, Johnny는 회의의 후반부에 해당 주제에 대해 Tracy와 대화할 때 혼란을 일으킬 수 있다.

화자가 다른 참가자에게 익숙하지 않거나 완전히 이해할 수 없는 이름, 두문자어 및/또는 전문 용어를 논의할 때 또 다른 문제가 발생할 수 있다. 즉, Johnny는 배송 중에 사용된 운송업체에 발생한 문제에 대해 논의하고 있을 수 있다. Pete는 Johnny의 문제를 돕기 위해 "오, 당신은 그 물류에 관해 Teddy와 이야기하고 싶을 것입니다."라고 말하면서 도움을 줄 수 있다. Johnny가 Teddy 및/또는 물류 팀에 대해 잘 모르는 경우 Johnny는 Teddy 대신 Freddie와 대화하기 위해 메모를 작성할 수 있다. 이는 특정 산업에서 사용되는 약어 또는 기타 전문 용어에 대해서도 발생할 수 있다. 예를 들어, 시카고 사무실이 회의를 주최하고 시애틀 회사가 원격으로 회의에 참석하여 시카고 사무실이 시애틀 회사와 회의를 가졌던 경우, 시카고 사무실 참가자는 시애틀 회사는 익숙하지 않은 두문자어 및/또는 전문 용어를 사용할 수 있다. 시카고 사무실에서 제공한 콘텐츠의 기록이나 전사가 없으면, 불행히도 시애틀 회사는 회의를 덜 이해하게 될 수 있다(예: 회의가 좋지 않음). 추가적으로 또는 대안적으로, 참가자가 회의 중에 콘텐츠를 이해하려고 할 때 위치 간 또는 회의 호스팅 플랫폼과의 열악한 연결은 참가자의 문제를 복잡하게 만들 수도 있다.

이러한 문제를 극복하기 위해 환경 내(예: 실시간)에서 발생하는 콘텐츠에 대한 전사를 생성하는 환경에서 전사 디바이스가 존재한다. 전사를 생성할 때, 디바이스는 화자(즉, 오디오 콘텐츠를 생성하는 참가자)를 식별하고 및/또는 환경 내에 역시 존재하는 참가자와 콘텐츠를 연관시킬 수 있다. 환경에 제시된 콘텐츠의 전사를 사용하여, 전사 디바이스는 테이크아웃 및/또는 전달물을 기억하고, 참가자가 참조할 수 있는 콘텐츠를 생성한 사람에 대한 기록을 제공할 수 있다. 예를 들어, 참가자는 회의 중(예를 들어, 실시간 또는 실질적으로 실시간으로) 또는 회의 후 약간의 나중 시간에 전사(녹취록, transcript)를 참조할 수 있다. 즉, Johnny는 Teddy(Freddie가 아님)가 물류에서 이야기해야 하는 사람이고 Sally(Tracy가 아님)에게 해당 액션 아이템을 팔로우해야 한다는 것을 인식하기 위해 전사 디바이스에 의해 생성된 전사의 디스플레이를 참조할 수 있다.

불행히도 전사는 환경에서 발생하는 일부 문제를 해결할 수 있지만, 프라이버시와 관련된 문제를 나타낸다. 여기서 프라이버시란, 전사 디바이스에서 생성된 전사에 대한 관찰로부터 자유로운 상태를 의미한다. 프라이버시에는 다양한 유형이 있을 수 있지만 일부 예는 콘텐츠 프라이버시 또는 신원 프라이버시를 포함한다. 여기에서 콘텐츠 프라이버시는 콘텐츠 기반으로 특정 민감한 콘텐츠가 서면이나 사람이 읽을 수 있는 형식(예: 기밀 콘텐츠)으로 기억되지 않는 것이 바람직하다. 예를 들어, 회의의 일부는 회의에 없는 다른 직원에 대한 오디오 콘텐츠를 포함할 수 있다(예: 관리자는 발생한 인적 자원 문제에 대해 논의함). 이 예에서 회의 참가자는 다른 직원에 관한 회의의 이 부분이 전사되거나 다른 방식으로 기록되지 않는 것을 선호한다. 여기에는 다른 직원에 대한 콘텐츠가 포함된 오디오 콘텐츠를 기록하지 않는 것도 포함될 수 있다. 여기서, 기존의 전사 디바이스는 콘텐츠를 무차별적으로 전사하기 때문에, 적어도 회의의 해당 부분 동안에는 회의에서 기존의 전사 디바이스를 활용할 수 없었을 것이다.

신원 프라이버시는 콘텐츠 출처의 익명성을 유지하려는 프라이버시를 의미한다. 예를 들어, 전사는 종종 전사된 콘텐츠의 출처를 식별하는 라벨을 포함한다. 예를 들어, 전사된 콘텐츠의 화자에게 라벨링하는 것은 "누가 무엇을 말했는지"와 "누가 언제 말했는지" 모두에 답하기 위해 화자 분할이라고 할 수 있다. 콘텐츠 출처의 신원이 민감하거나 콘텐츠를 생성하는 소스(예: 참가자)가 어떤 이유로든(예: 개인적인 이유) 자신의 신원을 숨기기를 선호하는 경우, 소스는 라벨이 전사된 콘텐츠와 연관되는 것을 원하지 않는다. 여기에서 콘텐츠 프라이버시와 달리 소스는 전사에서 콘텐츠가 공개되는 것을 신경 쓰지 않지만, 식별자(예: 라벨)가 콘텐츠를 소스와 연관시키는 것을 원하지 않는다. 전통적인 전사 디바이스는 이러한 프라이버시 문제를 처리할 수 있는 능력이 부족하기 때문에 참가자는 앞서 언급한 이점이 포기되더라도 전사 디바이스를 사용하지 않기로 선택할 수 있다. 이러한 이점을 유지하고 및/또는 참가자의 프라이버시를 보호하기 위해 환경은 전사기라고 하는 프라이버시-인식 전사 디바이스를 포함할 수 있다. 추가적인 예에서, 카메라가 익명을 유지하기를 원하는 화자의 비디오를 캡처할 때, 화자는 녹화된 이미지(예를 들어, 얼굴)를 기록하지 않도록 선택할 수 있다. 이는 화자의 얼굴의 비디오/이미지 프레임을 왜곡하거나 및/또는 화자의 신원을 가리는 그래픽을 오버레이하여, 회의의 다른 개인이 화자를 시각적으로 식별할 수 없도록 하는 것을 포함할 수 있다. 추가적으로 또는 대안적으로, 화자의 음성의 오디오는 화자를 익명화하는 방식으로 화자의 음성을 마스킹하기 위해 (예를 들어, 오디오를 보코더를 통해 전달함으로써) 왜곡될 수 있다.

일부 구현예에서, 전사 동안 디바이스 상에서 프라이버시를 프로세싱함으로써, 전사가 참가자를 위한 공유 공간을 제공하는 어셈블리 환경(예를 들어, 회의실 또는 교실)의 경계를 벗어나지 않도록 프라이버시 우려가 더욱 강화된다. 다시 말해, 전사기를 사용하여 디바이스에서 전사를 생성함으로써, 익명을 유지하려는 화자를 식별하는 화자 라벨을 디바이스에서 제거하여 원격 시스템(예: 클라우드 환경)에서 전사를 프로세싱하는 경우 이러한 화자의 신원이 노출/훼손될 우려를 완화할 수 있다. 달리 말하면, 참가자의 프라이버시를 위태롭게 하는 공유 또는 저장될 수 있는 전사기에 의해 생성된 편집되지 않은 전사가 없다.

디바이스에서 오디오-비디오 전사(예: 오디오-비디오 자동 음성 인식(AVASR))를 수행하는 또 다른 기술적 영향은 오디오 및 이미지 데이터(비디오 데이터라고도 함)가 원격 클라우드 서버로 전송될 필요 없이 로컬로 유지될 수 있으므로 대역폭 요구 사항이 감소한다는 것이다. 예를 들어 비디오 데이터를 클라우드로 전송하려면 먼저 압축을 통해 전송해야 할 가능성이 크다. 따라서, 사용자 디바이스 자체에서 비디오 매칭을 수행하는 것의 또 다른 기술적 효과는 비압축(최고 품질) 비디오 데이터를 사용하여 비디오 데이터 매칭을 수행할 수 있다는 것이다. 압축되지 않은 비디오 데이터를 사용하면 오디오 데이터와 화자의 얼굴 간의 일치를 더 쉽게 인식할 수 있으므로, 식별을 원하지 않는 화자가 말한 오디오 데이터의 전사된 부분에 할당된 화자 라벨이 익명화될 수 있다. 동일한 토큰으로, 식별을 원하지 않는 개인의 얼굴을 캡처하는 비디오 데이터는 비디오 녹화가 공유되는 경우 시각적으로 식별될 수 없도록 이러한 개인을 마스킹하기 위해 증강/왜곡/흐리게 처리될 수 있다. 유사하게, 이러한 개인이 말한 발화를 나타내는 오디오 데이터는 식별되기를 원하지 않는 이러한 개인의 말하는 목소리를 익명으로 왜곡할 수 있다. 도 1a-1e를 참조하면, 환경(100)은 복수의 참가자(10, 10a-j)를 포함한다. 여기서, 환경(100)은 호스트 회의실에서 회의(예를 들어, 화상 회의)에 참석하는 6명의 참가자(10a-f)가 있는 호스트 회의실이다. 환경(100)은 원격 시스템(130)으로부터 네트워크(120)를 통해 콘텐츠 피드(112)(멀티미디어 피드, 콘텐츠 스트림 또는 피드라고도 함)를 수신하는 디스플레이 디바이스(110)를 포함한다. 콘텐츠 피드(112)는 오디오 피드(218)(즉, 오디오 콘텐츠, 오디오 신호 또는 오디오 스트림과 같은 오디오 데이터(218)), 시각적 피드(217)(즉, 비디오 콘텐츠, 비디오 신호, 또는 비디오 스트림과 같은 이미지 데이터(217)) 또는 이 둘의 일부 조합(예를 들어, 오디오-비주얼 피드, 오디오-비주얼 신호 또는 오디오-비주얼 스트림이라고도 함)일 수 있다. 디스플레이 디바이스(110)는 비디오 콘텐츠(217)를 디스플레이할 수 있는 디스플레이(111) 및 오디오 콘텐츠(218)의 가청 출력을 위한 스피커를 포함하거나 이와 통신한다. 디스플레이 디바이스(110)의 일부 예는 컴퓨터, 랩톱, 모바일 컴퓨팅 디바이스, 텔레비전, 모니터, 스마트 디바이스(예를 들어, 스마트 스피커, 스마트 디스플레이, 스마트 기기), 웨어러블 디바이스 등을 포함한다. 일부 예에서 , 디스플레이 디바이스(110)는 회의에 참석하는 다른 회의실의 오디오-비주얼 피드(112)를 포함한다. 예를 들어, 도 1a 내지 도 1e는 각각의 피드(112)가 상이한 원격 회의실에 대응하는 2개의 피드(112, 112a-b)를 도시한다. 여기서, 제1 피드(112a)는 3명의 참가자(10, 10g-i)를 포함하고, 제2 피드(112b)는 단일 참가자(10, 10j)(예를 들어, 홈 오피스에서 원격으로 일하는 직원)를 포함한다. 이전 예를 계속하기 위해, 제1 피드(112a)는 뉴욕 사무실로부터의 피드(112)에 대응할 수 있고, 제2 피드(112b)는 샌프란시스코 사무실로부터의 피드(112)에 대응하고, 호스트 회의실(100)은 시카고 사무실에 대응할 수 있다.

원격 시스템(130)은 확장 가능한/탄력적인 리소스(132)를 갖는 분산 시스템(예를 들어, 클라우드 컴퓨팅 환경 또는 스토리지 추상화)일 수 있다. 리소스(132)는 컴퓨팅 리소스(134)(예를 들어, 데이터 프로세싱 하드웨어) 및/또는 저장 리소스(136)(예를 들어, 메모리 하드웨어)를 포함한다. 일부 구현예에서, 원격 시스템(130)은 (예를 들어, 컴퓨팅 리소스(132) 상에서) 환경(100)을 조정하는 소프트웨어를 호스팅한다. 예를 들어, 원격 시스템(130)의 컴퓨팅 리소스(132)는 실시간 통신 애플리케이션 또는 전문 회의 플랫폼과 같은 소프트웨어를 실행한다.

계속해서 도 1a-1e를 참조하면, 환경(100)은 또한 전사기(200)를 포함한다. 전사기(200)는 환경(100) 내에서 발생하는 콘텐츠에 대한 전사(202)를 생성하도록 구성된다. 이 콘텐츠는 전사기(200)가 존재하는 위치(예를 들어, 전사기(200)가 있는 회의실(100)의 참가자(10)) 및/또는 전사기(200)의 위치에 콘텐츠를 통신하는 콘텐츠 피드(112)로부터의 것일 수 있다. 일부 예에서, 디스플레이 디바이스(110)는 하나 이상의 콘텐츠 피드(112)를 전사기(200)에 통신한다. 예를 들어, 디스플레이 디바이스(110)는 콘텐츠 피드(112)의 오디오 콘텐츠(218)를 전사기(200)로 출력하는 스피커를 포함한다. 일부 구현예에서, 전사기(200)는 디스플레이 디바이스(110)와 동일한 콘텐츠 피드(112)를 수신하도록 구성된다. 즉, 디스플레이 디바이스(110)는 컨텐츠 피드(112)의 오디오 및 비디오 피드를 수신하여 전사기(200)의 확장 기능을 수행할 수 있다. 예를 들어, 디스플레이 디바이스(110)는 데이터 프로세싱 하드웨어(212) 및 데이터 프로세싱 하드웨어(212)가 전사기(200)를 실행하게 하는 데이터 프로세싱 하드웨어(212)와 통신하는 메모리 하드웨어(214)와 같은 하드웨어(210)를 포함할 수 있다. 이러한 관계에서, 전사기(200)는 스피커와 같은 디스플레이 디바이스(110)의 주변기기를 통해 중계되는 오디오 콘텐츠/신호(218)를 단지 청각적으로 캡처하지 않고, 네트워크 연결을 통해 콘텐츠 피드(112)(예를 들어, 오디오 및 비주얼 콘텐츠/신호(218, 217))를 수신할 수 있다. 일부 예에서, 전사기(200)와 디스플레이 디바이스(110) 사이의 이러한 연결은 전사기(200)가 환경(100)(예를 들어, 호스트 회의실) 내에서 로컬로 디스플레이 디바이스(110)의 디스플레이/스크린(111) 상에 전사(202)를 매끄럽게 디스플레이할 수 있게 한다. 다른 구성에서, 전사기(200)는 디스플레이 디바이스(110)와 동일한 로컬 환경(110)에 위치하지만, 디스플레이 디바이스(110)와 별개의 컴퓨팅 디바이스에 대응한다. 이러한 구성에서, 전사기(200)는 유선 또는 무선 연결을 통해 디스플레이 디바이스(110)와 통신한다. 예를 들어, 전사기(200)는 디스플레이 디바이스(110)가 전사기(200)의 주변기기 기능을 할 수 있도록 유무선 연결을 허용하는 하나 이상의 포트를 갖는다. 추가적으로 또는 대안적으로, 환경(100)을 형성하는 애플리케이션은 전사기(200)와 호환될 수 있다. 예를 들어, 전사기(200)는 애플리케이션 내에서 입력/출력(I/O) 디바이스로서 구성되어, 애플리케이션에 의해 조정된 오디오 및/또는 시각적 신호가 (예를 들어, 디스플레이 디바이스(110)에 추가하여) 전사기(200)로 채널링되도록 한다.

일부 예에서, 전사기(200)(및 선택적으로 디스플레이 디바이스(110))는 전사기(200)가 회의실 사이에서 전송될 수 있도록 휴대용이다. 일부 구현예에서, 전사기(200)는 오디오 및 비디오 콘텐츠(112)를 프로세싱하고 콘텐츠(112)가 환경(100)에서 제시될 때 전사(202)를 생성하기 위한 프로세싱 능력(예를 들어, 하드웨어/소프트웨어 프로세싱)을 갖도록 구성된다. 다시 말해서, 전사기(200)는 (예를 들어, 원격 시스템(130)에서) 임의의 추가 원격 프로세싱 없이 전사기(202)를 생성하기 위해 전사기(200)에서 로컬적으로 콘텐츠(112)(예를 들어, 오디오 및/또는 시각적 콘텐츠(218, 217))를 프로세싱하도록 구성된다. . 여기에서, 이러한 유형의 프로세싱을 온-디바이스 프로세싱이라고 한다. 대역폭 제약으로 인해 서버 기반 애플리케이션에서 저-충실도의 압축 비디오를 자주 사용하는 원격 프로세싱과 달리, 온-디바이스 프로세싱은 대역폭 제약이 없을 수 있으므로 전사기(200)는 비주얼 콘텐츠를 프로세싱할 때 충실도가 높은 보다 정확한 고화질 비디오를 활용할 수 있다. 더욱이, 이러한 온-디바이스 프로세싱은 오디오 및/또는 시각적 신호(218, 217)가 어느 정도 원격으로(예: 전사기(200)에 연결된 원격 컴퓨팅 시스템(130)에서) 프로세싱된 경우 발생할 수 있는 레이턴시로 인한 지연 없이 실시간으로 화자의 신원을 추적할 수 있게 한다. 전사기(200)에서 콘텐츠를 프로세싱하기 위해, 전사기(200)는 데이터 프로세싱 하드웨어(212) 및 데이터 프로세싱 하드웨어(212)와 통신하는 메모리 하드웨어(214)와 같은 하드웨어(210)를 포함한다. 데이터 프로세싱 하드웨어(212)의 일부 예는 중앙 프로세싱 유닛(CPU), 그래픽 프로세싱 유닛(GPU) 또는 텐서 프로세싱 유닛(TPU)을 포함한다.

일부 구현예에서, 전사기(200)는 제1 및 제2 피드(112a-b) 각각으로부터 뿐만 아니라 회의실 환경(100)으로부터의 피드(112)로부터 콘텐츠(112)(오디오 및 비디오 데이터(217, 218))를 수신함으로써 원격 시스템(130)에서 실행된다. 예를 들어, 원격 시스템(130)의 데이터 프로세싱 하드웨어(134)는 전사기(200)를 실행하기 위해 원격 시스템(130)의 메모리 하드웨어(136)에 저장된 명령어를 실행할 수 있다. 여기서, 전사기(200)는 오디오 데이터(218) 및 이미지 데이터(217)를 프로세싱하여 전사(202)를 생성할 수 있다. 예를 들어, 전사기(200)는 전사(202)를 생성하고 네트워크(120)를 통해 전사(202)를 디스플레이 디바이스(110)에 전송할 수 있다. 전사기(200)은 제1 피드에 대응하는 참가자(10g-i) 및/또는 제2 피드에 대응하는 참가자(10j)와 연관된 컴퓨팅 디바이스/디스플레이 디바이스에 전사(202)를 유사하게 전송할 수 있다.

프로세싱 하드웨어(210)에 추가하여, 전사기(200)는 주변기기(216)를 포함한다. 예를 들어, 오디오 콘텐츠를 프로세싱하기 위해, 전사기(200)는 전사기(200)에 대한 사운드(예를 들어, 음성 발화)를 캡처하고 그 사운드를 오디오 신호(또는 오디오 데이터(218))로 변환하는 (도 2a 및 2b) 오디오 캡처 디바이스(216, 216a)(예를 들어, 마이크)를 포함한다. 오디오 신호(218)는 그 다음, 전사(202)를 생성하기 위해 전사기(200)에 의해 사용될 수 있다.

일부 예에서, 전사기(200)는 또한 주변기기(216)로서 이미지 캡처 디바이스(216, 216b)를 포함한다. 여기에서, 이미지 캡처 디바이스(216b)(예를 들어, 하나 이상의 카메라)는 이미지 데이터(217)(도 2a 및 도 2b)를 오디오 신호(218)와 조합하여 다중 참가자 환경(100)에서 어떤 참가자(10)가 말하고 있는지(즉, 화자) 식별하는 것을 돕는 입력의 추가 소스(예: 시각적 입력)로서 캡처할 수 있다. 다시 말해서, 오디오 캡처 디바이스(216a) 및 이미지 캡처 디바이스(216b) 둘 모두를 포함함으로써, 전사기(200)는 다수의 참가자(10a-10j) 중 어느 참가자(10)가 특정 인스턴스에서 말하고 있는지(즉, 발화(12)를 생성하는지를 표시하는 시각적 피처(예를 들어, 얼굴 피처)를 식별하기 위해 이미지 캡처 디바이스(216b)에 의해 캡처된 이미지 데이터(217)를 프로세싱할 수 있으므로 화자 식별의 정확성을 증가시킬 수 있다. 일부 구성에서, 이미지 캡처 디바이스(216b)는 환경(100)의 전체 뷰를 캡처하기 위해 전사기(200)에 대한 360도를 캡처하도록 구성된다. 예를 들어, 이미지 캡처 디바이스(216b)는 360도 뷰를 캡처하도록 구성된 카메라 어레이를 포함한다.

추가적으로 또는 대안적으로, 이미지 데이터(217)를 사용하는 것은 참가자(10)가 언어 장애가 있을 때 전사(202)를 개선할 수 있다. 예를 들어, 전사기(200)는 화자가 말을 발음하는데 문제를 일으키게 하는 언어 장애가 있는 화자에 대한 전사를 생성하는데 어려움을 겪을 수 있다. 이러한 발음 문제에 의해 야기된 전사(202)의 부정확성을 극복하기 위해, 전사기(200)(예를 들어, 도 2A 및 2B의 자동 음성 인식(ASR) 모듈(230))에서)는 전사(202)의 생성 동안 조음 문제를 인식할 수 있다. 문제를 인식함으로써, 전사기(200)는 대화하는 동안 참가자(10)의 얼굴을 표현하는 이미지 데이터(217)를 활용하여 전사(202)가 참가자(10)의 오디오 데이터(218)만 기반한 경우보다 개선되거나 그렇지 않으면 더 정확한 전사(202)를 생성함으로써 문제를 수용할 수 있다. 여기서, 특정 언어 장애가 이미지 캡처 디바이스(216b)의 이미지 데이터(217)에서 눈에 띄게 나타날 수 있다. 예를 들어, 구음장애의 경우 조음에 영향을 미치는 입술 운동을 유발하는 신경 근육 장애를 이미지(217)에서 인식할 수 있다. 더욱이, 이미지 데이터(217)가 분석되어 특정 언어 장애를 가진 참가자(10)의 입술 움직임을 이러한 참가자(10)가 의도한 음성과 연관시켜 오디오 데이터(218)만 사용하여서는 불가능할 방식으로 자동 음성 인식을 개선할 수 있는 기법이 사용될 수 있다. 일부 구현예에서, 전사기(200)에 대한 입력으로서 이미지(217)를 사용함으로써, 전사기(200)는 ASR 동안 전사(202)의 생성을 개선하기 위해 잠재적인 조음 문제를 식별하고 이 문제를 고려한다.

도 1b 내지 도 1e와 같은 일부 구현예에서, 전사기(200)는 참가자(10)가 (예를 들어, 전사체(202) 또는 시각적 피드(112, 217)에서) 그의 음성 및/또는 이미지 정보 중 임의의 것을 공유하는 것을 옵트아웃할 수 있도록 프라이버시를 인식한다. 여기에서, 하나 이상의 참가자(10)는 화상 회의 환경(100)에 참여하는 동안 참가자(10)에 대한 프라이버시 조건을 나타내는 프라이버시 요청(14)을 통신한다. 일부 예에서, 프라이버시 요청(14)은 전사기(200)에 대한 구성 설정에 대응한다. 프라이버시 요청(14)은 전사기(200)와의 회의 또는 통신 세션 이전, 도중 또는 시작 시에 발생할 수 있다. 일부 구성에서, 전사기(200)는 프로필(예를 들어, 도 5에 도시된 바와 같은 프로필(500))을 포함하며, 프로필은 참가자(10)에 대한 하나 이상의 프라이버시 요청(14)(예를 들어, 도 5의 개별 프로필(510, 510a-n))을 표시한다. 여기서, 프로필(500)은 온-디바이스(예를 들어, 메모리 하드웨어(214)에) 또는 오프-디바이스(예를 들어, 원격 저장 리소스(136)에)에 저장되고 전사기(200)에 의해 액세스될 수 있다. 프로필(500)은 통신 세션 전에 구성될 수 있고, 참가자(10)가 수신된 비디오 콘텐츠(217)의 각각의 부분과 상관될 수 있도록 각각의 참가자(10) 얼굴의 이미지(예를 들어, 이미지 데이터(217))를 포함할 수 있다. 즉, 콘텐츠 피드(112)의 해당 참가자(10)의 비디오 콘텐츠(217)가 개인 프로필(510)과 연관된 얼굴 이미지와 일치할 때 각각의 참가자(10)에 대한 개인 프로필(510)에 액세스할 수 있다. 개인 프로필(510)을 사용하여, 참가자(10)가 참여하는 각각의 통신 세션 동안 참가자의 프라이버시 설정이 적용될 수 있다. 이러한 예에서, 전사기(200)는 (예를 들어, 전사기(200)에서 수신된 이미지 데이터(217)에 기초하여) 참가자(10)를 인식하고 참가자(10)에 대한 적절한 설정을 적용할 수 있다. 예를 들어, 프로필(500)은 특정 참가자(10b)가 보여지는 것에 신경쓰지 않지만(즉, 시각적 피드(217)에 포함됨) 그의 말이 들리거나(즉, 오디오 피드(218)에 포함되지 않음) 그의 발화(12)가 전사되는 것은 원하지 않는다(즉, 전사(202)에 발화가 포함되지 않음)고 표시하는 특정한 참가자(10, 10b)에 대한 개인 프로필(510)을 포함할 수 있고, 다른 참가자(10, 10c)에 대한 다른 개인 프로필(510, 510c)은 보여지고 싶지 않은 반면(즉, 비디오 피드(218)에 포함되지 않음) 그의 발언(12)이 기록되거나 전사되는 것은 괜찮을 수 있다(즉, 오디오 피드(218)에 포함되고 전사(202)에 포함됨).

도 1b을 참조하면, 제3 참가자(10c)는 제3 참가자(10c)가 보여지거나 들려지는 것을 신경 쓰지 않지만 전사(202)가 제3 참가자(10c)가 말할 때 제3 참가자(10c)에 대한 식별자(204)(즉, 화자에 대한 신원의 라벨)를 포함하는 것은 원치 않음을 표시하는 프라이버시 조건을 포함하는 프라이버시 요청(14)을 제출했다(즉, 식별자 프라이버시에 대한 프라이버시 요청(14). 다시 말해, 제3 참가자(10c)는 자신의 신원이 공유되거나 저장되는 것을 원하지 않고, 따라서, 제3 참가자(10c)는 전사(202)에 자신의 신원을 드러내는 제3 참가자(10c)와 연관된 식별자(204)를 포함하지 않도록 선택한다. 여기서는 비록 도 1b는 화자 3의 식별자(204)가 존재할 수 있는 수정된 회색 상자가 있는 전사(202)를 도시하지만, 전사기(200)는 또한 프라이버시 요청(14)과 연관된 화자의 신원이 전사기(200)에 의해 밝혀지는 것을 막는 다른 방식으로 식별자(204)를 완전히 제거하거나 식별자(204)를 가릴 수 있다. 즉, 도 1b는 (예를 들어, 식별자(204)를 제거하거나 가림으로써) 전사기(200)가 화자의 신원을 포함하지 않도록 전사(202)의 일부를 수정하는 것을 예시한다.

도 1c는 프라이버시 요청(14)을 전달하는 제3 참가자(10c)가 환경(100)의 임의의 시각적 피드(112, 217)(예를 들어, 신원 프라이버시의 다른 형태)에서 보여지지 않도록 요청한다는 점을 제외하고는 도 1b와 유사하다. 여기서, 요청하는 참가자(10c)는 들리는 것을 신경 쓰지 않을 수 있지만, 자신의 시각적 신원을 시각적으로 숨기는 것을 선호한다(즉, 시각적 피드(112, 217)에서 자신의 시각적 신원을 공유하거나 저장하지 않음). 이러한 상황에서, 전사기(200)는 참가자(10, 10a-10j) 간의 통신 세션 전체에 걸쳐 요청하는 참가자(10c)의 시각적 존재를 흐리게 하거나 왜곡하거나 가리도록 구성된다. 예를 들어, 전사기(200)는 하나 이상의 콘텐츠 피드(112)로부터 수신된 이미지 데이터(217)로부터 임의의 특정 인스턴스에서 요청자(10c)의 위치를 결정하고 전사기(200)를 통해 통신된 요청자의 임의의 물리적 피처에 추상화(118)(예를 들어, 블러링)를 적용한다. 즉, 이미지 데이터(217)가 디스플레이 디바이스(110)의 화면(111)에 디스플레이될 때 뿐만 아니라 참가자(10g-10j)와 관련된 원격 환경의 화면에 디스플레이될 때, 추상화(119)는 요청자(10c)가 시각적으로 식별될 수 없도록 적어도 요청자(10c)의 얼굴에 오버레이된다. 일부 예에서, 참가자(10)에 대한 개인 프로필(510)은 참가자(10)가 흐려지거나 가려지는지(즉, 왜곡되기를 원하는지) 또는 완전히 제거되기를 원하는지(예를 들어, 도 5에 도시된 바와 같이) 식별한다. 따라서, 전사기(200)는 참가자의 시각적 신원을 은폐하기 위해 비디오 데이터(217)의 일부를 증강, 수정 또는 제거하도록 구성된다.

이에 반해 도 1d는 제3 참가자(10c)로부터의 프라이버시 요청(14)이 전사기(200)가 제3 참가자(10c)의 시각적 표현 또는 제3 참가자(10c)의 음성 정보를 추적하지 않도록 요청하는 예를 도시한다. 본 명세서에서 사용된 바와 같이, '음성 정보'는 참가자(10c)가 말한 발화(12)에 대응하는 오디오 데이터(218) 뿐만 아니라 참가자(10c)가 말한 발화(12)에 대응하는 오디오 데이터(218)로부터 인식된 전사(202)를 지칭한다. 이 예에서, 참가자(10c)는 회의 동안 들릴 수 있지만, 전사기(200)는 (예를 들어, 비디오 피드(217)에 의해 또는 전사(202)에) 참가자(10c)를 청각적으로 또는 시각적으로 기억하지 않는다. 이 접근법은 전사기(202)에 참가자(10c)의 음성 정보 또는 전사기(202)에 참가자(10c)를 식별하는 임의의 식별자(204)에 대한 기록을 갖지 않음으로써 참가자(10c)의 프라이버시를 보존할 수 있다. 예를 들어, 전사기(200)는 참가자(10c)가 말한 발화(12)를 전사하는 전사기(202)의 텍스트 부분을 모두 생략할 수 있거나, 전사기(202)는 텍스트의 이러한 부분을 남겨둘 수 있지만 참가자(10c)를 식별하는 식별자(204)를 적용하지 않을 수 있다. 그러나 전사기(200)는 참가자(10c)를 개인적으로 식별하지 않고 다른 참가자(10a, 10b, 10d-10j)가 말한 발화(12)에 대응하는 다른 부분으로부터 전사(202)에 텍스트의 이러한 부분을 설명하는 임의의 다른 식별자를 적용할 수 있다. 다시 말해서, 참가자(10)는 전사(202) 및 전사(200)에 의해 생성된 임의의 다른 기록이 통신 세션에 참가자의 참여에 대한 기록을 갖지 않을 것을 (예를 들어, 프라이버시 요청(14)을 통해) 요청할 수 있다.

신원 프라이버시 요청(14)과 대조적으로, 도 1e는 콘텐츠 프라이버시 요청(14)을 도시한다. 이 예에서, 제3 참가자(10c)는 전사기(200)가 전사(202)에 제3 참가자(10c)로부터의 어떠한 콘텐츠도 포함하지 않는다는 프라이버시 요청(14)을 전달한다. 여기에서, 제3 참가자(10c)가 미팅 동안 민감한 콘텐츠(예를 들어, 기밀 정보)에 대해 논의할 것이기 때문에 제3 참가자(10c)는 그러한 프라이버시 요청(14)을 한다. 콘텐츠의 민감한 특성으로 인해, 제3 참가자(10c)는 전사기(200)가 전사(202)에 제3 참가자(10c)와 연관된 오디오 콘텐츠(218)를 기억하지 않도록 주의한다. 일부 구현예에서, 전사기(200)는 (예를 들어, 키워드에 의해) 하나 이상의 참가자(10)가 전사(202)에 포함되는 것을 원하지 않는 콘텐츠 유형을 식별하는 프라이버시 요청(14)을 수신하고, 전사(202)에서 이를 제외하기 위해 통신 세션 동안 해당 유형의 콘텐츠가 발생하는 때를 결정하도록 구성된다. 이러한 구현예에서, 특정 참가자(10)로부터의 모든 오디오 콘텐츠(218)가 전사(202)에서 제외되는 것은 아니며, 특정 참가자가 여전히 다른 유형의 콘텐츠에 대해 논의할 수 있고 전사(202)에 포함될 수 있도록 콘텐츠 특정 오디오만 제외된다. 예를 들어, 제3 참가자(10c)는 전사기(200)가 Mike에 관한 오디오 콘텐츠를 전사하지 않도록 요청하는 프라이버시 요청(14)을 전달한다. 이 경우에, 제3 참가자(10c)가 Mike에 대해 논의할 때, 전사기(200)는 이 오디오 콘텐츠(218)를 전사하지 않지만, 제3 참가자가 다른 주제(예: 날씨)에 대해 이야기할 때 전사기(200)는 이 오디오 콘텐츠(218)를 전사한다. 참가자(10c)는 전사기(200)가 일정 시간, 예를 들어 다음 2분 동안 임의의 오디오 콘텐츠(218)를 기억하지 않는 시간 경계를 유사하게 설정할 수 있다.

도 2a 및 도 2b는 전사기(200)의 예이다. 전사기(200)는 일반적으로 분할 모듈(220) 및 ASR 모듈(230)(예를 들어, AVASR 모듈)을 포함한다. 분할 모듈(220)은 (예를 들어, 오디오 캡처 디바이스(216a)에 의해 캡처된) 통신 세션의 참가자(10)로부터의 발언(12)에 대응하는 오디오 데이터(218) 및 통신 세션의 참가자(10)의 얼굴을 표현하는 이미지 데이터(217)를 수신하고, 오디오 데이터(218)를 복수의 세그먼트(222, 222a-n)(예를 들어, 고정 길이 세그먼트 또는 가변 길이 세그먼트)로 세그먼트화하고, 오디오 데이터(218) 및 이미지 데이터(217)에 기초한 확률 모델(예를 들어, 확률적 생성 모델)을 사용하여 각 세그먼트(222)에 할당된 대응하는 화자 라벨(226)을 포함하는 분할 결과(224)를 생성한다. 다시 말해서, 분할 모듈(220)은 짧은 발화(예를 들어, 세그먼트(222))가 있는 일련의 화자 인식 작업을 포함하고, 주어진 대화의 2개의 세그먼트(222)가 동일한 참가자(10)에 의해 발화되었는지 여부를 결정한다. 동시에, 분할 모듈(220)은 화자 인식을 추가로 최적화하기 위해 어느 참가자(10)가 어느 세그먼트(222) 동안 말하고 있는지 식별하기 위해 얼굴 추적 루틴을 실행할 수 있다. 그 다음, 분할 모듈(220)은 대화의 모든 세그먼트(222)에 대해 프로세스를 반복하도록 구성된다. 여기서, 분할 결과(224)는 주어진 세그먼트(222) 동안 말하고 있는 사람을 식별할 뿐만 아니라 인접한 세그먼트(222) 사이에서 화자 변경이 발생할 때를 식별하는 수신된 오디오 데이터(218)에 대한 타임 스탬프가 찍힌 화자 라벨(226, 226a-e)을 제공한다. 여기서, 화자 라벨(226)은 전사(202) 내에서 식별자(204)로서 기능할 수 있다.

일부 예에서, 전사기(200)는 분할 모듈(220)에서 프라이버시 요청(14)을 수신한다. 분할 모듈(220)이 화자 라벨(226) 또는 식별자(204)를 식별하기 때문에, 분할 모듈(220)은 유리하게는 신원 기반 프라이버시 요청(14)에 대응하는 프라이버시 요청(14)을 해결할 수 있다. 다시 말해서, 분할 모듈(220)은 프라이버시 요청(14)이 참가자(10)가 화자인 경우 라벨(226)과 같은 식별자(204)에 의해 참가자(10)를 식별하지 않도록 요청하는 경우 프라이버시 요청(14)을 수신한다. 분할 모듈(220)이 프라이버시 요청(14)을 수신하면, 분할 모듈(220)은 요청(14)에 대응하는 참가자(10)가 주어진 세그먼트(222)에 대해 생성된 라벨(226)과 일치하는지 여부를 결정하도록 구성된다. 일부 예에서, 참가자(10)의 얼굴의 이미지는 참가자(10)를 해당 참가자(10)에 대한 라벨(226)과 연관시키기 위해 사용될 수 있다. 세그먼트(222)에 대한 라벨(226)이 요청(14)에 대응하는 참가자(10)의 신원과 일치할 때, 분할 모듈(220)은 전사기(200)가 라벨(226) 또는 식별자(204)를 특정 세그먼트(222)를 텍스트로 전사하는 전사(202) 결과의 대응 부분에 적용하지 않는다. 세그먼트(222)에 대한 라벨(226)이 요청(14)에 대응하는 참가자(10)의 신원과 일치하지 않는 경우, 분할 모듈(220)은 전사기가 특정 세그먼트를 텍스트로 전사하는 전사(202) 결과의 부분에 라벨(226) 및 식별자(204)를 적용하게 한다. 일부 구현예에서, 분할 모듈(220)이 요청(14)을 수신할 때, ASR 모듈(230)은 발화(12)로부터 오디오 데이터(218)를 전사하기 위해 대기하도록 구성된다. 다른 구현예에서, ASR 모듈(230)은 실시간으로 전사하고, 결과적인 전사(202)는 그들의 음성 정보가 전사되는 것을 옵트아웃하는 프라이버시 요청(14)을 제공하는 임의의 참가자(10)에 대해 실시간으로 라벨(226) 및 식별자(204)를 제거한다. 선택적으로, 분할 모듈(220)은 프라이버시를 추구하는 이러한 참가자(10)와 연관된 오디오 데이터(218)를 더 왜곡하여 참가자(10)를 식별하는데 사용될 수 없는 방식으로 말하는 음성이 변경되도록 할 수 있다.

ASR 모듈(230)은 발언(12)에 대응하는 오디오 데이터(218) 및 발언(12)을 말하는 동안 참가자(10)의 얼굴을 표현하는 이미지 데이터(217)를 수신하도록 구성된다. 이미지 데이터(217)를 사용하여, ASR 모듈(230)은 오디오 데이터(218)를 대응하는 ASR 결과(232)로 전사한다. 여기서, ASR 결과(232)는 오디오 데이터(218)(예를 들어, 전사(202))의 텍스트 전사를 지칭한다. 일부 예에서, ASR 모듈(230)은 발화(12)에 기초하여 음성 인식을 개선하기 위해 오디오 데이터(218)와 연관된 분할 결과들(224)을 활용하기 위해 분할 모듈(220)과 통신한다. 예를 들어, ASR 모듈(230)은 분할 결과(224)로부터 식별된 상이한 화자들에 대해 상이한 음성 인식 모델(예를 들어, 언어 모델, 운율 모델)을 적용할 수 있다. 추가적으로 또는 대안적으로, ASR 모듈(230) 및/또는 분할 모듈(220)(또는 전사기(200)의 일부 다른 컴포넌트)은 분할 결과(224)로부터 획득된 각 세그먼트(222)에 대해 예측된 타임 스탬프가 찍힌 화자 라벨(226)을 사용하여 오디오 데이터(218)의 전사(232)를 인덱싱할 수 있다. 달리 말하면, ASR 모듈(230)은 전사(202) 내의 화자에 대한 식별자(204)를 생성하기 위해 분할 모듈(220)로부터의 화자 라벨(226)을 사용한다. 도 1a 내지 도 1e에 도시된 바와 같이, 환경(100) 내의 통신 세션에 대한 전사(202)는 각 화자/참가자(10)가 말한 것을 식별하기 위해 전사(202)의 일부를 각각의 화자/참가자(10)와 연관시키기 위해 화자/참가자(10)에 의해 인덱싱될 수 있다.

일부 구성에서, ASR 모듈(230)은 전사기(200)에 대한 프라이버시 요청(14)을 수신한다. 예를 들어, ASR 모듈(230)은 프라이버시 요청(14)이 특정 참가자(10)에 대한 음성을 전사하지 말라는 요청(14)에 대응할 때마다 전사기(200)에 대한 프라이버시 요청(14)을 수신한다. 다시 말해서, ASR 모듈(230)은 요청(14)이 라벨/식별자 기반 프라이버시 요청(14)이 아닐 때마다 프라이버시 요청(14)을 수신할 수 있다. 일부 예에서, ASR 모듈(230)이 프라이버시 요청(14)을 수신할 때, ASR 모듈(230)은 먼저 분할 모듈(220)에 의해 결정된 화자 라벨들(226)에 기초하여 프라이버시 요청(14)에 대응하는 참가자(10)를 식별한다. 그 다음, ASR 모듈(230)이 해당 참가자(10)에 대해 전사될 음성이 발생하면, ARS 모듈(230)은 프라이버시 요청(14)을 적용한다. 예를 들어, 프라이버시 요청(14)이 해당 특정 참가자(10)에 대한 음성을 전사하지 않도록 요청하면, ASR 모듈(230)은 해당 참가자에 대한 어떠한 음성도 전사하지 않고, 다른 참가자(10)에 의해 발생하는 음성을 대기한다.

도 2b를 참조하면, 일부 구현예에서, 전사기(200)는 얼굴 추적 루틴을 실행하기 위한 검출기(240)를 포함한다. 이러한 구현예에서, 전사기(200)는 먼저 오디오 데이터(218)를 프로세싱하여 화자에 대한 하나 이상의 후보 신원을 생성한다. 예를 들어, 각 세그먼트(222)에 대해, 분할 모듈(220)은 화자에 대한 후보 신원으로서 다수의 라벨(226, 226a1-3)을 포함할 수 있다. 다시 말해서, 모델은 각각의 세그먼트(222)에 대한 다수의 라벨(226, 226a1-3)을 출력하는 확률 모델일 수 있으며, 여기서 다수의 라벨(226, 226a1-3)의 각 라벨(226)은 화자를 식별하는 잠재적인 후보이다. 여기에서, 전사기(200)의 검출기(240)는 이미지 캡처 디바이스(216b)에 의해 캡처된 이미지(217, 217a-n)를 사용하여, 어떤 후보자 신원이 특정 세그먼트(22)의 화자임을 나타내는 최상의 시각적 피처를 갖는지 결정한다. 일부 구성에서, 검출기(240)는 점수(242) 오디오 신호(예를 들어, 오디오 데이터(218))와 시각적 신호(예를 들어, 캡처된 이미지(217a-n)) 사이의 연관에 기초하여 후보 신원이 화자라는 신뢰 수준을 표시하는 각각의 후보 신원에 대한 점수(242)를 생성한다. 여기서, 최고 점수(242)는 후보 신원이 화자일 가능성이 가장 높다는 것을 나타낼 수 있다. 도 2b에 도시된 바와 같이, 분할 모듈(220)은 특정 세그먼트(222)에서 3개의 라벨(226a1-3)을 생성한다. 검출기(240)는 세그먼트(222)가 발생하는 오디오 데이터(218)의 시간으로부터 이미지(217)에 기초하여 이들 라벨(226) 각각에 대한 점수(242)(예를 들어, 3개의 점수(2421-3)로 도시됨)를 생성한다. 여기서, 도 2b는 제3 점수(2423)와 연관된 제3 라벨(226a3) 주위에 굵은 사각형으로 최고 점수(242)를 나타낸다. 전사기(200)가 검출기(240)를 포함할 때, 최상의 후보 신원은 전사(202)의 식별자(204)를 형성하기 위해 ASR 모듈(230)에 전달될 수 있다.

추가적으로 또는 대안적으로, 프로세스는 역전되어, 전사기(200)가 먼저 이미지 데이터(217)를 프로세싱하여 이미지 데이터(217)에 기초하여 화자에 대한 하나 이상의 후보 신원을 생성하도록 할 수 있다. 그 다음, 각각의 후보 아이덴티티에 대해, 검출기(240)는 대응하는 후보 신원의 얼굴이 오디오 데이터(218)의 대응 세그먼트(222)에 대한 말하는 얼굴을 포함할 가능성을 나타내는 신뢰 점수(242)를 생성한다. 예를 들어, 각각의 후보 신원에 대한 신뢰 점수(242)는 대응하는 후보 신원의 얼굴이 오디오 데이터(218)의 세그먼트(222)에 대한 시간의 인스턴스에 대응하는 이미지 데이터(217) 동안 말하는 얼굴을 포함할 가능성을 나타낸다. 다시 말해서, 검출기(240)는 세그먼트(222)마다 참가자(10)에 대응하는 이미지 데이터(217)가 말하는 얼굴의 표현과 유사한 또는 일치하는 얼굴 표현을 갖는지 여부를 점수화(242)할 수 있다. 여기서, 검출기(240)는 가장 높은 신뢰 점수(242)를 갖는 오디오 데이터(218)의 대응 세그먼트의 화자의 신원을 후보 신원으로 선택한다.

일부 예에서, 검출기(240)는 ASR 모듈(230)의 일부이다. 여기서, ASR 모듈(230)은 이미지 데이터(217)의 복수의 비디오 트랙(217a-n)을 수신하도록 구성된 주의 레이어를 갖는 인코더 프론트엔드를 구현함으로써 얼굴 추적 루틴을 실행하고, 이에 의해 각 비디오 트랙은 각 참가자의 얼굴과 연관된다. 이들 예에서, ASR 모듈(230)에서 주의 레이어는 비디오 얼굴 트랙과 연관된 각각의 사람의 얼굴이 오디오 트랙의 말하는 얼굴을 포함할 가능성을 나타내는 신뢰 점수를 결정하도록 구성된다. 다수의 화자 ASR 인식을 위한 주의 레이어가 있는 인코더 프론트 엔드를 포함하는 오디오-비주얼 ASR 모듈과 관련된 추가 개념 및 기능은 2019년 10월 18일에 출원된 미국 가특허 출원 62/923,096에서 찾을 수 있고, 그 전체가 참조로서 통합된다.

일부 구성에서, 전사기(200)(예를 들어, ASR 모듈(230)에서)는 다국어 환경(100)을 지원하도록 구성된다. 예를 들어, 전사기(200)가 전사(202)를 생성할 때, 전사기(200)는 상이한 언어로 전사(202)를 생성할 수 있다. 이 피처는 환경(100)이 호스트 위치와 다른 언어를 말하는 하나 이상의 참가자(10)가 있는 원격 위치를 포함하는 것을 가능하게 할 수 있다. 더욱이 어떤 상황에서는 회의의 화자가 비-모국어 화자 또는 회의 언어가 화자의 모국어가 아닌 화자일 수 있다. 여기서, 화자의 콘텐츠의 전사(202)는 회의의 다른 참가자(10)가 제시된 콘텐츠를 이해하는데 도움이 될 수 있다. 추가적으로 또는 대안적으로, 전사기(200)는 화자에게 그의 발음에 대한 피드백을 제공하기 위해 사용될 수 있다. 여기서, 비디오 및/또는 오디오 데이터를 결합함으로써, 전사기(200)는 잘못된 발음을 나타낼 수 있다(예를 들어, 화자가 전사기(200)의 도움으로 학습 및/또는 적응하도록 함). 이와 같이, 전사기(200)는 화자에게 자신의 발음에 대한 피드백을 제공하는 알림을 제공할 수 있다.

도 3은 (예를 들어, 전사기(200)의 데이터 프로세싱 하드웨어(212)에서) 콘텐츠를 전사하는 방법(300)에 대한 동작의 예시적 구성이다. 동작(302)에서, 방법(300)은 오디오 데이터(218) 및 이미지 데이터(217)를 포함하는 오디오-비주얼 신호(217, 218)를 수신하는 단계를 포함한다. 상기 오디오 데이터(218)는 음성 환경(100)의 복수의 참가자들(10, 10a-n)로부터의 음성 발화(12)에 대응하고, 이미지 데이터(217)는 음성 환경(100)의 상기 복수의 참가자들(10)의 얼굴을 표현한다. 동작(304)에서, 방법(300)은 복수의 참가자(10a-n) 중 한 참가자(10)로부터 프라이버시 요청(14)을 수신하는 단계를 포함한다. 프라이버시 요청(14)은 음성 환경(100)에서 참가자(10)와 연관된 프라이버시 조건을 표시한다. 동작(306)에서, 방법(300)은 오디오 데이터(218)를 복수의 세그먼트(222, 222a-n)로 세그먼트화한다. 동작(308)에서, 방법(300)은 오디오 데이터(218)의 각 세그먼트(222)에 대해 동작(308, 308a-c)을 수행하는 단계를 포함한다. 동작(308a)에서, 오디오 데이터(218)의 각 세그먼트(222)에 대해, 방법(300)은 복수의 참가자(10a-n) 중에서 이미지 데이터(217)에 기초하여 오디오 데이터(218)의 대응 세그먼트(222)의 화자의 신원을 결정하는 단계를 포함한다. 동작(308b)에서, 오디오 데이터(218)의 각 세그먼트(222)에 대해, 방법(300)은 대응 세그먼트(222)의 화자의 신원이 수신된 프라이버시 요청(14)에 의해 표시된 프라이버시 조건과 연관된 참가자(10)를 포함하는지 여부를 결정하는 단계를 포함한다. 동작(308c)에서, 오디오 데이터(218)의 각 세그먼트(222)에 대해, 대응 세그먼트(222)의 화자의 신원을 참가자(10)를 포함하는 경우, 방법(300)은 프라이버시 조건을 대응 세그먼트(222)에 적용하는 단계를 포함한다. 동작(310)에서, 방법(300)은 오디오 데이터(218)에 대한 전사(202)를 결정하기 위해 오디오 데이터(218)의 복수의 세그먼트(222a-n)를 프로세싱하는 단계를 포함한다.

본 명세서에서 논의된 특정 구현예들이 사용자에 관한 개인 정보(예를 들어, 다른 전자 통신으로부터 추출된 사용자 데이터, 사용자의 소셜 네트워크에 관한 정보, 사용자의 위치, 사용자의 시간, 사용자의 생체 정보 및 사용자의 활동 및 인구통계적 정보, 사용자들 간의 관계 등)를 수집하거나 사용하는 상황들에서, 사용자에게 정보가 수집될지 여부, 개인정보가 저장될지 여부, 개인 정보가 사용될지 여부 및 사용자에 관한 정보가 어떻게 수집되고 저장되고 사용될지를 제어하기 위한 하나 이상의 기회들이 제공된다. 즉, 본 명세서에서 논의된 시스템 및 방법은 관련된 사용자로부터 명시적 허가를 수신함에 따라서만 사용자 개인 정보를 수집하고 저장 및/또는 사용한다.

예를 들면, 프로그램 또는 구성이 그 특정한 사용자 또는 프로그램 또는 구성과 관련된 다른 사용자에 관한 사용자 정보를 수집할지 여부에 관한 제어권이 사용자에게 제공된다. 개인정보가 수집될 각 사용자에게 그 사용자에 관한 정보 수집에 대해 제어하게 하고, 정보가 수집될지 여부에 관한 그리고 정보의 어떤 부분이 수집될지 허가 또는 인가를 제공하기 위한 하나 이상의 옵션들이 제시된다. 예를 들면, 통신 네트워크를 통해 사용자들에게 하나 이상의 상기 제어 옵션들이 제공될 수 있다. 추가로, 특정 데이터는 그것이 저장되거나 사용되기 전에 하나 이상의 다양한 방식들로 취급되어, 개인적으로 식별가능한 정보는 제거된다. 일 예시로서, 사용자의 신원은 개인적으로 식별가능한 정보가 결정될 수 없도록 취급될 수 있다.

도 4는 본 문서에 기술된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적 컴퓨팅 디바이스(400)의 개략도이다. 컴퓨팅 디바이스(400)는 랩톱, 데스크톱, 워크 스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인 프레임 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터들을 나타내기 위한 것이다. 여기에 도시된 컴포넌트들, 그들의 연결 및 관계, 및 그들의 기능은 단지 예시적인 것을 의미하며, 본 명세서에 기술된 및/또는 청구된 발명의 구현을 제한하는 것을 의미하지는 않는다.

컴퓨팅 디바이스(400)는 프로세서(410)(예: 데이터 프로세싱 하드웨어), 메모리(420)(예: 메모리 하드웨어), 저장 디바이스(430), 메모리(420) 및 고속 확장 포트(450)에 연결되는 고속 인터페이스/제어기(440) 및 저속 버스(470) 및 저장 디바이스(430)에 연결되는 저속 인터페이스/제어기(460)를 포함한다. 컴포넌트들(410, 420, 430, 440, 450 및 460) 각각은 다양한 버스들을 사용하여 상호 연결되고, 공통 마더 보드 상에 또는 적절한 다른 방식으로 장착될 수 있다. 프로세서(410)는 메모리(420) 또는 저장 디바이스(430)에 저장된 명령어들을 포함하는, 컴퓨팅 디바이스(400) 내에서 실행하기 위한 명령어들을 프로세싱하여, 고속 인터페이스(440)에 연결된 디스플레이(480)와 같은 외부 입/출력 디바이스상에 그래픽 사용자 인터페이스(GUI)에 대한 그래픽 정보를 디스플레이할 수 있다. 다른 구현예에서, 다수의 프로세서들 및/또는 다수의 버스들이 다수의 메모리들 및 다수의 유형의 메모리와 함께, 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들(400)은 필요한 동작의 부분들을 제공하는 각 디바이스와 연결될 수 있다(예를 들어, 서버 뱅크, 블레이드 서버 그룹 또는 멀티 프로세서 시스템).

메모리(420)는 컴퓨팅 디바이스(400) 내에 비일시적으로 정보를 저장한다. 메모리(420)는 컴퓨터 판독가능 매체, 휘발성 메모리 유닛(들), 비휘발성 메모리 유닛(들)일 수 있다. 비일시적 메모리(420)는 컴퓨팅 디바이스(400)에 의해 사용하기 위해 일시적 또는 영구적으로 프로그램(예를 들어, 명령어 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비휘발성 메모리의 예는 플래시 메모리 및 읽기 전용 메모리(ROM)/프로그래밍 가능한 읽기 전용 메모리(PROM)/지울 수 있는 프로그램 가능한 읽기 전용 메모리(EPROM)/전자적으로 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EEPROM)(예: 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)를 포함하지만, 이에 한정되지 않는다. 휘발성 메모리의 예는 RAM(Random Access Memory), DRAM(Dynamic Random Access Memory), SRAM(Static Random Access Memory), PCM(Phase Change Memory), 디스크 또는 테이프 등을 포함하지만, 이에 한정되지 않는다.

저장 디바이스(430)는 컴퓨팅 디바이스(400)에 대한 대형 스토리지를 제공할 수 있다. 일부 구현예에서, 저장 디바이스(430)는 컴퓨터 판독가능 매체이다. 다양한 상이한 구현예에서, 저장 디바이스(430)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 디바이스, 또는 저장 영역 네트워크 또는 다른 구성의 디바이스를 포함하는 디바이스의 어레이일 수 있다. 일 구현예에서, 컴퓨터 프로그램 제품은 정보 캐리어에 유형적으로 수록된다. 컴퓨터 프로그램 제품은 또한 실행될 때 상기 기술된 바와 같은 하나 이상의 방법을 수행하는 명령어들을 포함한다. 정보 캐리어는 메모리(420), 저장 디바이스(430) 또는 프로세서(410)상의 메모리와 같은 컴퓨터 또는 기계 판독가능 매체이다.

고속 제어기(440)는 컴퓨팅 디바이스(400)에 대한 대역폭 집중 동작들을 관리하는 반면, 저속 제어기(460)는 낮은 대역폭 집중 동작들을 관리한다. 이러한 기능들의 할당은 단지 예시적인 것이다. 일부 구현예에서, 고속 제어기(440)는 메모리(420), 디스플레이(480)(예를 들어, 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드(도시되지 않음)를 수용할 수 있는 고속 확장 포트(450)에 연결된다. 일부 구현예에서, 저속 제어기(460)는 저장 디바이스(430) 및 저속 확장 포트(470)에 연결된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트(470)는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입력/출력 디바이스 또는 예를 들어 네트워크 어댑터를 통해 스위치 또는 라우터와 같은 네트워킹 디바이스에 결합될 수 있다.

컴퓨팅 디바이스(400)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 표준 서버(400a)로서 또는 그러한 서버(400a)의 그룹에서 여러 번, 랩톱 컴퓨터(400b)로서 또는 랙 서버 시스템(400c)의 일부로서 구현될 수 있다.

본 명세서에 기술된 시스템들 및 기법들의 다양한 구현예들은 디지털 전자 및/또는 광학 회로, 집적 회로, 특수하게 설계된 ASIC들(application specific integrated circuits), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 구현될 수 있다. 이들 다양한 구현예들은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행가능하고 및/또는 인터프리트가능한 하나 이상의 컴퓨터 프로그램들에서의 구현예를 포함할 수 있고, 이는 전용 또는 범용일 수 있고, 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고 그에 데이터 및 명령어들을 전송하기 위해 연결될 수 있다.

이들 컴퓨터 프로그램들(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로도 알려짐)은 프로그래머블 프로세서에 대한 기계 명령어들을 포함하며, 하이레벨 절차어 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계어에서 구현될 수 있다. 본 명세서에서 사용된 바와 같이, 용어 "기계 판독가능 매체", "컴퓨터 판독가능 매체"는 기계 판독가능 신호로서 기계 명령어들을 수신하는 기계 판독가능 매체를 포함하여, 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 컴퓨터 프로그램 물, 장치 및/또는 디바이스 예를 들어, 자기 디스크, 광학 디스크, 메모리, 비일시적 컴퓨터 판독가능 매체, 프로그래머블 로직 디바이스(PLD)를 지칭한다. 용어 "기계 판독가능 신호"는 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 신호를 지칭한다.

본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 동작하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그래머블 프로세서들에 의해 수행될 수 있다. 프로세스들 및 논리 흐름들은 또한 FPGA 또는 ASIC와 같은 특수 목적 논리 회로에 의해 수행될 수 있다. 컴퓨터 프로그램의 실행에 적절한 프로세서들은, 예시로서, 범용 및 전용 마이크로프로세서들과 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 읽기-전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 엘리먼트들은 명령어들을 수행하기 위한 프로세서 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대형 저장 디바이스들 예를 들면, 자기적, 자기-광학 디스크들 또는 광학적 디스크들 또한 포함하거나 또는 그로부터 데이터를 수신하거나 그에 데이터를 전송하기 위해 동작적으로 결합될 수 있다. 그러나, 컴퓨터는 상기 디바이스들을 반드시 가져야하는 것은 아니다. 컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능 매체는 예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스들과 같은 반도체 메모리 디바이스들; 예를 들어, 내부 하드 디스크들 또는 이동식 디스크들과 같은 자기 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 그 안에 통합될 수 있다.

사용자와의 인터렉션을 제공하기 위해, 본 개시의 하나 이상의 양태는 사용자에게 정보를 디스플레이하기 위해 예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터 또는 터치 스크린과 같은 디스플레이 디바이스 및 선택적으로 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스 예를 들어, 마우스 또는 트랙볼을 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 인터렉션을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각적 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가로, 컴퓨터는 사용자에 의해 사용되는 디바이스에 문서를 송수신함으로써 예를 들어, 웹브라우저로부터 수신된 요청에 응답하여, 사용자의 사용자 디바이스상의 웹브라우저에 웹페이지를 전송함으로써 사용자와 인터렉션할 수 있다.

다수의 구현예들이 기술되었다. 그럼에도 불구하고, 다양한 수정들이 본 발명의 정신과 범위로부터 벗어나지 않고 이루어질 수 있다는 것이 이해될 것이다. 따라서, 다른 구현예들도 다음의 청구항들의 범위 내에 있다.

Claims

방법으로서,
데이터 프로세싱 하드웨어에서, 오디오 데이터 및 이미지 데이터를 포함하는 오디오-비주얼 신호를 수신하는 단계, 상기 오디오 데이터는 음성 환경의 복수의 참가자들로부터의 음성 발화에 대응하고, 이미지 데이터는 음성 환경의 상기 복수의 참가자들의 얼굴을 표현하며;
상기 데이터 프로세싱 하드웨어에서, 상기 복수의 참가자들 중 한 참가자로부터 프라이버시 요청을 수신하는 단계, 상기 프라이버시 요청은 상기 음성 환경에서 상기 참가자와 연관된 프라이버시 조건을 표시하며;
상기 데이터 프로세싱 하드웨어에 의해, 상기 오디오 데이터를 복수의 세그먼트들로 세그먼트화하는 단계;
상기 오디오 데이터의 각 세그먼트에 대해:
상기 데이터 프로세싱 하드웨어에 의해, 상기 복수의 참가자들 중에서, 상기 이미지 데이터에 기초하여 상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 결정하는 단계;
상기 데이터 프로세싱 하드웨어에 의해, 상기 대응 세그먼트의 화자의 신원이 상기 수신된 프라이버시 요청에 의해 표시된 상기 프라이버시 조건과 연관된 참가자를 포함하는지 여부를 결정하는 단계; 및
상기 대응 세그먼트의 화자의 신원이 상기 참가자를 포함하는 경우, 상기 프라이버시 조건을 상기 대응 세그먼트에 적용하는 단계; 및
상기 데이터 프로세싱 하드웨어에 의해, 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 단계를 포함하는, 방법.
청구항 1에 있어서, 상기 프라이버시 조건을 상기 대응 세그먼트에 적용하는 단계는 상기 전사를 결정한 후, 상기 오디오 데이터의 대응 세그먼트를 삭제하는 단계를 포함하는, 방법.
청구항 1에 있어서, 상기 프라이버시 조건을 상기 대응 세그먼트에 적용하는 단계는 상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 시각적으로 은폐하기 위해 상기 이미지 데이터의 상기 대응 세그먼트를 증강하는 단계를 포함하는, 방법.
청구항 1 내지 3 중 어느 한 항에 있어서, 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 단계는 상기 프라이버시 조건을 적용하는 상기 오디오 데이터의 상기 세그먼트들 중 하나에 대응하는 전사의 각 부분에 대해, 상기 화자의 신원을 포함하지 않도록 상기 전사의 대응 부분을 수정하는 단계를 포함하는, 방법.
청구항 1 내지 4 중 어느 한 항에 있어서, 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 단계는 상기 프라이버시 조건을 적용하는 상기 오디오 데이터의 각 세그먼트에 대해, 상기 오디오 데이터의 대응 세그먼트를 전사하는 것을 생략하는 단계를 포함하는, 방법.
청구항 1 내지 5 중 어느 한 항에 있어서, 상기 프라이버시 조건은 콘텐츠-특정 조건을 포함하고, 상기 콘텐츠-특정 조건은 상기 전사로부터 제외할 콘텐츠의 유형을 표시하는, 방법.
청구항 1 내지 6 중 어느 한 항에 있어서, 상기 복수의 참가자들 중에서, 상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 결정하는 단계는:
상기 이미지 데이터에 기초하여 상기 화자에 대한 복수의 후보 신원들을 결정하는 단계;
상기 복수의 후보 신원들의 각각의 후보 신원에 대해, 상기 이미지 데이터에 기초하여 대응 후보 신원의 얼굴이 상기 오디오 데이터의 대응 세그먼트의 화자 얼굴을 포함할 가능성을 표시하는 신뢰 점수를 생성하는 단계; 및
상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 가장 높은 신뢰 점수와 연관된 복수의 후보 신원들 중 후보 신원으로 선택하는 단계를 포함하는, 방법.
청구항 1 내지 7 중 어느 한 항에 있어서, 상기 데이터 프로세싱 하드웨어는 상기 복수의 참가자들 중 적어도 하나의 참가자에 로컬인 디바이스에 상주하는, 방법.
청구항 1 내지 8 중 어느 한 항에 있어서, 상기 이미지 데이터는 상기 데이터 프로세싱 하드웨어에 의해 프로세싱된 고화질 비디오를 포함하는, 방법.
청구항 1 내지 10 중 어느 한 항에 있어서, 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 단계는 상기 전사를 결정하기 위해 상기 이미지 데이터를 프로세싱하는 단계를 더 포함하는, 방법.
시스템으로서,
데이터 프로세싱 하드웨어; 및
상기 데이터 프로세싱 하드웨어와 통신하는 메모리 하드웨어를 포함하고, 상기 메모리 하드웨어는 명령어를 저장하며, 상기 명령어는 상기 데이터 프로세싱 하드웨어에서 실행될 때 상기 데이터 프로세싱 하드웨어로 하여금 동작들을 수행하게 하며, 상기 동작들은:
오디오 데이터 및 이미지 데이터를 포함하는 오디오-비주얼 신호를 수신하는 동작, 상기 오디오 데이터는 음성 환경의 복수의 참가자들로부터의 음성 발화에 대응하고, 이미지 데이터는 음성 환경의 상기 복수의 참가자들의 얼굴을 표현하며;
상기 복수의 참가자들 중 한 참가자로부터 프라이버시 요청을 수신하는 동작, 상기 프라이버시 요청은 상기 음성 환경에서 상기 참가자와 연관된 프라이버시 조건을 표시하며;
상기 오디오 데이터를 복수의 세그먼트들로 세그먼트화하는 동작;
상기 오디오 데이터의 각 세그먼트에 대해:
상기 복수의 참가자들 중에서, 상기 이미지 데이터에 기초하여 상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 결정하는 동작;
상기 대응 세그먼트의 화자의 신원이 상기 수신된 프라이버시 요청에 의해 표시된 상기 프라이버시 조건과 연관된 참가자를 포함하는지 여부를 결정하는 동작; 및
상기 대응 세그먼트의 화자의 신원이 상기 참가자를 포함하는 경우, 상기 프라이버시 조건을 상기 대응 세그먼트에 적용하는 동작; 및
상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 동작을 포함하는, 시스템.
청구항 11에 있어서, 상기 프라이버시 조건을 상기 대응 세그먼트에 적용하는 동작은 상기 전사를 결정한 후, 상기 오디오 데이터의 대응 세그먼트를 삭제하는 동작을 포함하는, 시스템.
청구항 11에 있어서, 상기 프라이버시 조건을 상기 대응 세그먼트에 적용하는 동작은 상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 시각적으로 은폐하기 위해 상기 이미지 데이터의 상기 대응 세그먼트를 증강하는 동작을 포함하는, 시스템.
청구항 11 내지 13 중 어느 한 항에 있어서, 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 동작은 상기 프라이버시 조건을 적용하는 상기 오디오 데이터의 상기 세그먼트들 중 하나에 대응하는 전사의 각 부분에 대해, 상기 화자의 신원을 포함하지 않도록 상기 전사의 대응 부분을 수정하는 동작을 포함하는, 시스템.
청구항 11 내지 14 중 어느 한 항에 있어서, 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 동작은 상기 프라이버시 조건을 적용하는 상기 오디오 데이터의 각 세그먼트에 대해, 상기 오디오 데이터의 대응 세그먼트를 전사하는 것을 생략하는 동작을 포함하는, 시스템.
청구항 11 내지 15 중 어느 한 항에 있어서, 상기 프라이버시 조건은 콘텐츠-특정 조건을 포함하고, 상기 콘텐츠-특정 조건은 상기 전사로부터 제외할 콘텐츠의 유형을 표시하는, 시스템.
청구항 11 내지 16 중 어느 한 항에 있어서, 상기 복수의 참가자들 중에서, 상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 결정하는 동작은:
상기 이미지 데이터에 기초하여 상기 화자에 대한 복수의 후보 신원들을 결정하는 동작;
상기 복수의 후보 신원들의 각각의 후보 신원에 대해, 상기 이미지 데이터에 기초하여 대응 후보 신원의 얼굴이 상기 오디오 데이터의 대응 세그먼트의 화자 얼굴을 포함할 가능성을 표시하는 신뢰 점수를 생성하는 동작; 및
상기 오디오 데이터의 대응 세그먼트의 화자의 신원을 가장 높은 신뢰 점수와 연관된 복수의 후보 신원들 중 후보 신원으로 선택하는 동작을 포함하는, 시스템.
청구항 11 내지 17 중 어느 한 항에 있어서, 상기 데이터 프로세싱 하드웨어는 상기 복수의 참가자들 중 적어도 하나의 참가자에 로컬인 디바이스에 상주하는, 시스템.
청구항 11 내지 18 중 어느 한 항에 있어서, 상기 이미지 데이터는 상기 데이터 프로세싱 하드웨어에 의해 프로세싱된 고화질 비디오를 포함하는, 시스템.
청구항 11 내지 19 중 어느 한 항에 있어서, 상기 오디오 데이터에 대한 전사를 결정하기 위해 상기 오디오 데이터의 상기 복수의 세그먼트들을 프로세싱하는 동작은 상기 전사를 결정하기 위해 상기 이미지 데이터를 프로세싱하는 동작을 더 포함하는, 시스템.