KR101775461B1

KR101775461B1 - 협력적 오디오 대화 증명

Info

Publication number: KR101775461B1
Application number: KR1020167001586A
Authority: KR
Inventors: 데이브 폴 싱; 도미니크 풀기니티; 마헨드라 타디 타디콘다; 토비아스 ?렌버그; 토비아스 ??렌버그
Original assignee: 인텔 코포레이션
Priority date: 2013-08-20
Filing date: 2013-08-20
Publication date: 2017-09-06
Also published as: EP3036741A1; EP3036741A4; CN105659324A; US9495967B2; WO2015026329A1; US20150058017A1; CN105659324B; KR20160027005A

Abstract

녹음이 틀림없는 것이라는 개인들로부터의 검증을 녹음에 포함한 오디오 녹음을 제작할 수 있는 시스템들, 방법들, 디바이스들, 및 머신 판독 가능 매체들이 일부 예들에 개시되어 있다. 일부 예들에서, 시스템은 권리 관리 제어를 그 개인들에게 제공할 수 있다. 이것은 녹음되어야 하는 오디오 이벤트들에 참여하는 개인들이 그들의 말들이 변경되지도 않고, 맥락을 무시하고 취해지지도 않으며, 다른 방식으로 변경되지도 않는다는 것과 물리적 파일이 개인들의 제어를 벗어난 후에도 개인들이 자신의 말들의 사용에 대한 제어를 보유하고 있다는 것을 확신하도록 보장할 수 있다.

Description

협력적 오디오 대화 증명{COLLABORATIVE AUDIO CONVERSATION ATTESTATION}

실시예들은 오디오 녹음에 관한 것이다. 상세하게는, 일부 실시예들은 오디오 검증 및 제어에 관한 것이다.

오디오 대화들이 다수의 오디오 포착 기술들에 의해 녹음될 수 있다. 예를 들어, 컴퓨팅 디바이스들은 온보드 또는 연결된 마이크를 사용해 오디오를 포착하여 플래시 메모리 또는 다른 저장소에 디지털적으로 저장할 수 있다. 예시적인 컴퓨팅 디바이스들은 PDR(personal digital recorder), 랩톱, 데스크톱, 휴대폰, 휴대용 음악 플레이어(예컨대, 아이팟™) 등을 포함한다. 이 디바이스들에 의해 생성된 디지털 오디오 파일들은 녹음이 완료된 후에 사용자들에 의해 액세스될 수 있다.

꼭 축척대로 되어 있지는 않은 도면들에서, 유사한 숫자들은 상이한 도면들에서의 유사한 구성요소들을 나타낼 수 있다. 상이한 문자 접미사들을 가지는 유사한 숫자들은 유사한 구성요소들의 상이한 인스턴스들을 나타낼 수 있다. 도면들은 일반적으로, 제한이 아닌 예로서, 본 문서에서 논의되는 다양한 실시예들을 예시하고 있다.
도 1은 본 개시 내용의 일부 예들에 따른 시스템의 상위 레벨 개략도.
도 2는 본 개시 내용의 일부 예들에 따른 방법의 플로우차트.
도 3은 본 개시 내용의 일부 예들에 따른, 오디오 세그먼트들을 인식하는 방법의 플로우차트.
도 4는 본 개시 내용의 일부 예들에 따른, DRM을 검증하고 세그먼트에 적용하는 방법의 플로우차트.
도 5는 본 개시 내용의 일부 예들에 따른, 애플리케이션이 보호된 배포 가능 파일(protected distributable file)을 이용하는 방법의 플로우차트.
도 6은 본 개시 내용의 일부 예들에 따른 시스템의 개략도.
도 7은 하나 이상의 실시예들이 구현될 수 있는 머신의 일례를 나타낸 블록도.

디지털 오디오 녹음 디바이스들에 의해 생성된 디지털 오디오 파일들은 일반적으로 오디오 파일들에 대한 액세스를 갖는 개인들에 속하는 물리적 액세스 제어 외에 어떤 수정 또는 액세스 제어의 대상도 되지 않는다. 예를 들어, 디지털 오디오 녹음 디바이스의 소유자는 다른 사람들이 오디오 파일들에 액세스하지 못하게 하는 것에 의해 오디오의 배포 및 사용을 제어할 수 있다. 파일이 다른 사람들에 배포되면 디지털 녹음이 이어서 이메일, FTP(file transfer protocol), 토렌트 사이트들 등을 통해 빠르게 재배포될 수 있기 때문에, 이 제어가 쉽게 상실될 수 있다. 파일의 배포를 통해 제어를 상실하는 것에 부가하여, 파일이 보호되지 않기 때문에, 파일의 콘텐츠가, 오디오 편집 소프트웨어를 사용하여, 발언된 말들을 변경하거나, 말들이 다른 사람들에 의해 발언된 것처럼 보이게 만들거나, 주어진 인용문의 문맥을 변경하는 것에 의해 변조될 수 있다. 이 문제들은 녹음되는 것에 관해 개인들을 걱정하게 만들 수 있고, 보관(custody) 및 통제(control)의 표준들이 요망되는 법정 및 다른 재판지에서 오디오를 증거로서 사용하는 것을 결코 이상적이 아닌 것으로 만들 수 있다.

녹음이 틀림없는 것이라는 개인들로부터의 검증을 녹음에 포함한 오디오 녹음을 제작할 수 있는 시스템들, 방법들, 디바이스들, 및 머신 판독 가능 매체들이 일부 예들에 개시되어 있다. 일부 예들에서, 이 시스템은 또한, 불법 수정(unauthorized modification)과 같은 개인들의 오디오의 불법 사용을 방지하기 위해, 그 개인들에게 권리 관리 제어(rights management control)를 제공할 수 있다. 이것은 녹음되어야 하는 오디오 이벤트들에 참여하는 개인들이 허가 없이 그들의 말들이 변경되지도 않고, 맥락을 무시하고 취해지지도 않으며, 다른 방식으로 변경되지도 않는다는 것과 물리적 파일이 개인들의 제어를 벗어난 후에도 개인들이 자신의 말들의 사용에 대한 제어를 보유하고 있다는 것을 확신하도록 보장할 수 있다.

일부 예들에서, 이것은 오디오 녹음의 복수의 세그먼트들을, 그 세그먼트 동안 말하고 있던 하나 이상의 활성 화자들의 식별에 기초하여, 결정하는 것에 의해 달성될 수 있다. 각각의 오디오 세그먼트가 검증을 위해 그 세그먼트에서 말하고 있는 것으로 식별된 활성 화자 또는 화자들에게 제시될 수 있다. 검증은 포착된 말들이 그 화자가 발언한 말들을 나타낸다는 것을 확인하도록 화자에게 요구한다. 식별된 활성 화자는 또한 각각의 세그먼트에 대한 유포를 제어하기 위해 권리 관리 제어(DRM(Digital Rights Management))를 설정할 수 있다. 각각의 세그먼트에 상이한 DRM이 적용될 수 있다.

이 프로세스는 각각의 세그먼트에서 말하는 것으로 식별된 개인들이 세그먼트 상에 포착되어 있는 것이 자신의 말의 진정한 틀림없는 녹음이라고 인증한 것임을 보장하고, 말들이 변경될 수 없다는 것을 보장하며, 배포 및 다른 권리가 효과적으로 제어될 수 있다는 것을 보장한다. 오디오를 활성 화자에 기초하여 특정의 세그먼트들로 분할하는 것에 의해, 파일의 제어가 녹음된 오디오 이벤트의 참여자들 전부 간에 분산될 수 있다. 이것은 사람들이 자신의 말의 사용하는 것을 궁극적으로 제어하고 있다는 것을 알고서 자유롭게 말할 수 있도록 보장한다.

오디오 이벤트들은 오디오가 포착될 수 있는 임의의 이벤트일 수 있다. 오디오 이벤트는 회의, 강의, 컨퍼런스, 원격 회의, 인터넷 회의, 콘서트, 공연, 법적 증언, 연극 등일 수 있다. 그 이벤트의 오디오 녹음은 오디오에 불과할 수 있거나, 비디오 녹화의 오디오 트랙(들)일 수 있다. 세그먼트는 오디오 녹음에서의 화자 또는 화자 그룹에 의한 임의의 기간의 연속적인 음성으로서 정의될 수 있다. 예를 들어, 간단한 경우에, 음성 세그먼트는 새로운 화자가 말하기 시작할 때 시작되고, 화자가 말하는 것을 끝낼 때 또는 다른 화자가 말하기 시작할 때 끝날 수 있다. 더 복잡한 경우에, 다수의 개인들이 동시에 말하고 있을 수 있다. 이 예들에서, 세그먼트를 정의하는 몇가지 접근법들이 이용될 수 있다. 예를 들어, 다수의 시간 중복 세그먼트들이 있을 수 있다. 이와 같이, 사람 A와 사람 B 둘 다가 말하고 있는 경우, 제1 세그먼트는 사람 A의 음성일 것이고, 제2 세그먼트는 사람 B의 음성일 수 있다. 이 세그먼트들의 시작 시간 인덱스와 종료 시간 인덱스가 중복할 수 있다. 오디오 포착이 사운드 처리 장비 및/또는 소프트웨어가 다수의 활성 화자들을 구별할 수 있는 특성을 갖는 경우 이 접근법이 이용될 수 있다. 다른 예들에서, 다수의 화자들에 기인할 수 있는 단일의 세그먼트가 사용될 수 있다. 이 예들에서, 세그먼트에 있는 어느 화자들에 의해 어느 제어들이 실시될 수 있는지를 결정하기 위해 다양한 규칙들이 이용될 수 있다. 예를 들어, 모든 화자들이 세그먼트를 인증할 필요가 있을 수 있고, 모든 화자들이 세그먼트에 DRM 권리를 부가할 수 있다.

이미 살펴본 바와 같이, 본 시스템은 하나 이상의 식별된 활성 화자들에 기초하여 오디오 이벤트를 세그먼트들로 분할할 수 있다. 활성 화자들은 오디오에서의 특정의 시점 동안 말하고 있는 개인들이다. 일부 예들에서, 오디오 이벤트 후에, 특정의 시점들에서 어느 화자가 말하고 있는지에 관한 정보로 오디오 녹음에 태깅할 수 있는 하나 이상의 개인들에 의해 화자들이 수동으로 인식될 수 있다. 또 다른 예들에서, 활성 화자들의 인식이 녹음 동안(실시간으로) 자동으로 또는 오디오 이벤트의 오디오 녹음의 후처리 동안 자동으로 행해질 수 있다. 본 시스템은 하나 이상의 활성 화자들을 결정하기 위해 다양한 화자 인식 알고리즘들을 사용할 수 있다. 회의 또는 다른 오디오 이벤트를 녹음하기 전에, 참여하고 있는 개인들은 자기 신분을 밝히고 짧은 음성 표본(speech exemplar)을 제출할 수 있다. 본 시스템은 이어서 그 표본들을 사용하여 각각의 개인에 대한 고유의 성문(voice print)들을 생성할 수 있다. 오디오 포착 이벤트가 진행될 때, 또는 오디오 포착 이벤트가 완료되면, 하나 이상의 화자 인식 알고리즘들을 사용한 녹음된 오디오와 성문들 간의 비교에 기초하여 오디오의 다양한 세그먼트들이 식별될 수 있다. 식별된 세그먼트들이 인식된 화자들의 ID(identity)들로 자동으로 태깅될 수 있다.

오디오 이벤트가 완료된 후에, 태깅된 세그먼트가 그 화자들이 발언한 말들의 진정한 틀림없는 녹음이라는 것을 검증하기 위해, 각각의 태깅된 세그먼트가 그 세그먼트에서 말하는 것으로 식별된 인식된 화자들에게 제출될 수 있다. 이 검증은 오디오 포착 디바이스 상에서 행해질 수 있거나, 식별된 화자들에 의해 소유되거나 사용되는 다양한 범용 컴퓨팅 디바이스들 상에서 행해질 수 있다. 각각의 인식된 화자에게 송신되는 정보는 세그먼트의 녹음된 오디오일 수 있는 오디오 클립, 세그먼트의 녹취본(transcript), 또는 세그먼트에 관한 다른 정보를 포함할 수 있다.

일부 예들에서, 검증이 음성에 기초한 것(spoken)일 수 있고, 검증이 세그먼트에서 말하고 있는 사람에 의해 행해지고 있다는 것을 보장하기 위해, 검증 프로세스가 이전에 포착된 음성 표본 또는 성문을 음성 기반 검증(spoken verification)과 비교할 수 있다. 음성 기반 검증에 부가하여 또는 그 대신에, 이 프로세스를 향상시키기 위해 다른 유형들의 생체 인식 보안이 또한 사용될 수 있다. 예를 들어, 검증 프로세스는 오디오 이벤트를 녹음하기 전에 음성 표본들의 포착 동안 사용자로부터 지문 또는 다른 생체 특성(biometric property)을 포착할 수 있다. 검증 프로세스 동안, 검증이 확실하다는 것을 보장하기 위해, 이 생체 특성이 또다시 수집되고 이전에 수집된 생체 특성과 비교될 수 있다. 생체 정보(biometric information)가 세그먼트 정보의 일부로서 화자의 컴퓨팅 시스템으로 송신될 수 있고, 화자의 컴퓨팅 시스템은 생체 정보가 일치한다는 것을 검증할 수 있다. 다른 예들에서, 생체 정보가 검증 응답의 일부로서 포함될 수 있고, 포착 시스템은 생체 데이터를 검증할 수 있다.

화자의 승인을 나타내기 위해, 화자의 검증 정보가 배포 가능 오디오 파일에 태깅될 수 있다. 승인되지 않거나 조건부로 승인된 세그먼트들이 파일에 남아 있을 수 있고(검증의 결여는 불승인의 암시적 신호로서 역할함), 화자의 조건부 승인(conditional approval) 또는 반증(disproval)(불승인의 명시적 신호로서 역할함)으로 태깅될 수 있다. 일부 예들에서, 사용자는 오디오(및 그 오디오의 작성된 임의의 녹취본)의 일부분을 수정(redact)할 수 있다. 예를 들어, 검증되지 않은 일부분이 시스템에 의해 자동으로 수정될 수 있다. 다른 예들에서, 검증된 섹션들조차도 화자들에 의해 수정되도록 선택될 수 있다.

화자(들)는 또한, 각각의 오디오 세그먼트의 제시 및 사용을 제어하기 위해, 특정 DRM 제한으로 각각의 세그먼트에 태깅할 수 있다. 일부 예들에서, 본 시스템에 의해 생성된 배포 가능 파일은 기본적으로 파일의 오디오 콘텐츠의 변경을 금지하는 DRM을 포함할 수 있다. 이것은 오디오가, 참여 화자들에 의해 일단 검증되면, 변경될 수 없도록 보장한다. 일부 예들에서, 배포 가능 파일이 변경될 수 있고 화자 검증들이 제거될 수 있다 - 이는 그 파일이 변경되었다는 것을 나타낼 수 있다. 모든 화자들이 그 각자의 참여 부분들을 검증했고 임의의 원하는 DRM을 지정하였다면, 녹음 시스템은 검증 정보(예컨대, 어느 세그먼트들이 검증되어 있는지) 및 DRM 제한을 포함할 수 있는 마스터 파일을 제작할 수 있다. 마스터 녹음을 사용하고자 하는 개인들은 DRM 제한에 따라 그렇게 할 수 있다.

이 프로세스는 녹음 디바이스의 사용을 통해 용이하게 될 수 있다. 녹음 디바이스는 앞서 기술된 단계들 중 하나 이상을 자동으로 수행할 수 있다. 예를 들어, 녹음 디바이스는 음성 표본들을 녹음하는 것, 세그먼트들을 식별하는 것, 오디오 세그먼트들에 태깅하는 것, 검증 및 DRM 적용을 위해 각각의 세그먼트에 대한 정보를 각각의 태깅된 화자에게 송신하는 것, 및 검증 및 DRM 제한을 수신하는 것 중 하나 이상을 수행할 수 있다. 녹음 디바이스는 이어서 인증 정보 및 DRM 제한을 갖는 배포 가능 파일을 생성할 수 있다. 일부 예들에서, 녹음 디바이스는 PDR(personal digital recorder), 컴퓨팅 디바이스(데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트폰 등) 등일 수 있다. 일부 예들에서, 녹음 디바이스는 전술한 기능 중 일부를 수행할 수 있고, 하나 이상의 다른 컴퓨팅 디바이스들은 나머지를 수행할 수 있다. 또 다른 예들에서, 전술한 기능 중 일부 또는 전부가, 다수의 사용자들이 원격 회의를 하기 위해 전화로 참여하는 전화 회의 서비스와 연관된 것들과 같은, 클라우드 기반 서비스에 의해 수행될 수 있다. 예시적인 전화 회의 서비스들은 Citrix Online, LLC의 GoToMeeting®, Firespotter, Inc.의 Uberconference® 등을 포함할 수 있다. 이 서비스들은 다수의 사용자들 간에 전화 연결(phone bridge)을 제공하고, 전화 회의를 녹음하는 기능을 포함할 수 있다. 이 서비스들은 회의의 검증 및 DRM을 제공하기 위해 그들의 컴퓨팅 시스템들에서 본 개시 내용의 특징들을 구현할 수 있다. 동작들 중 일부가 하나 이상의 컴퓨팅 또는 녹음 디바이스들에 의해 수행될 수 있지만, 동작들의 다른 부분들이 다른 컴퓨팅 디바이스들에 의해 분산 방식으로 수행될 수 있다.

이제 도 1을 참조하면, 본 개시 내용의 일부 예들에 따른 시스템(1000)의 예시적인 상위 레벨 개략도가 도시되어 있다. 포착 디바이스(1010)는 오디오 이벤트의 오디오를 포착할 수 있다. 구성요소들 중에서도 특히, 음성 표본들을 포착하는 것, 음성 표본들로부터 성문(audio print)을 추출하는 것, 오디오 이벤트를 녹음하는 것, 오디오 세그먼트들을 식별하는 것, 각각의 세그먼트에서 활성 화자들을 식별하는 것, 배포 가능 오디오 파일을 생성하는 것 중 하나 이상을 수행할 수 있는 포착 디바이스(1010)는 마이크 및 프로세서를 가질 수 있다. 일부 예들에서, 포착 디바이스(1010)는 또한 검증 및 DRM 선택을 처리할 수 있다. 다른 예들에서, 포착 디바이스(1010)는, 식별된 화자들에 의한 검증 및 DRM 부가를 위해, 각각의 세그먼트에 관한 정보를 하나 이상의 검증 디바이스들(1020)로 송신할 수 있다. 예를 들어, 검증 디바이스들(1020)은 식별된 화자에 의해 시스템에 주어진 전자 연락처 정보(electronic contact information)에 의해 주소 지정 가능할 수 있는, 식별된 화자들 중 하나가 소유하는 컴퓨팅 디바이스들일 수 있다. 또 다른 예들에서, 포착 디바이스(1010)는 일부 검증들 및 DRM 선택들을 처리할 수 있고, 검증 디바이스들(1020)은 다른 것들을 처리할 수 있다. 포착 디바이스(1010)는 검증 디바이스들(1020)로부터 응답들을 수신할 수 있고, 최종적인 배포 가능 오디오 파일을 생성할 수 있다. 다른 예들에서, 백엔드 처리 디바이스(1040)는, 세그먼트들의 식별 및/또는 개인들에의 배포와 같은, 포착 디바이스(1010) 또는 검증 디바이스들(1020)에 의해 수행되는 단계들 중 하나 이상을 수행할 수 있다. 예를 들어, 포착 디바이스(1010)는 음성 표본들 및 오디오 이벤트를 녹음하고 오디오 파일을, 처리(예컨대, 음성들을 식별하는 것, 세그먼트들을 생성하는 것, 및 검증과 DRM을 처리하는 것, 그리고 배포 가능 오디오 이벤트을 생성하는 것)를 위해, 백엔드 처리 디바이스(1040)로 송신할 수 있다. 재생 디바이스(1030)는 배포 가능 오디오 파일을, 배포 가능 파일에 대한 임의의 DRM 제한에 따라, 재생할 수 있다. 예를 들어, 오디오 파일은 독자적 포맷(proprietary format)으로 되어 있고 그리고/또는 그에 적용된 DRM의 결과로서 암호화되어 있을 수 있다. 이 포맷 및 암호화는 적절한 DRM 제한을 시행하도록 신뢰되어 있는 특정 애플리케이션들에 의해서만 재생될 수 있을 것이다. 일부 예들에서, 검증 디바이스(1020), 재생 디바이스(1030), 백엔드 처리 디바이스(1040), 및 포착 디바이스(1010) 중 하나 이상이 동일한 디바이스일 수 있다.

이제 도 2를 참조하면, 일부 예들에 따른 방법(2000)의 플로우차트가 도시되어 있다. 동작(2010)에서, 오디오 이벤트의 시작 이전에, 참여하고 있는 또는 말할 것을 예상하고 있는 그 참여자들이 음성 표본을 제출할 수 있다. 음성 표본은, 특정의 구별되는 소리들을 녹음하기 위해, 미리 결정되어 있을 수 있는 그리고 선택되어 있을 수 있는 단어, 구, 문장, 또는 구절일 수 있다. 이 음성 표본들은 성문이라고 불리우는 다수의 음성 관련 특징들을 추출하는 데 이용될 수 있다. 성문은 이어서 오디오 녹음 동안 활성 화자들을 식별하는 데 사용될 수 있다. 성문은 한 사람의 음성을 다른 사람의 음성과 구별하는 데 사용될 수 있는 임의의 정보를 포함한다. 예를 들어, 성문은 하나 이상의 독특한 음성 특성 패턴들을 포함할 수 있다. 예시적인 특성은 주파수 또는 피치, 속도, 단어 발음, 방언 등을 포함한다. 예를 들어, 개인은 식별자(예컨대, 자신의 이름)를 입력하고 말로 된 구절 또는 구를 읽을 수 있다. 일부 예들에서, 개인들은 또한 검증 및 DRM 선택을 위한 세그먼트들을 인식된 화자들에게 자동으로 송신하기 위해 본 시스템에 의해 사용될 수 있는 전자 연락처 정보(예컨대, 이메일 주소, IP(Internet Protocol) 주소 등)를 제공할 수 있다. 식별자 및 연락처 정보가 구두로(예컨대, 시스템에 의해 녹음되고 이어서 음성 인식 알고리즘들을 통해 컴퓨터 판독 가능 데이터로 변환됨) 또는 키보드와 같은 입력 메커니즘을 통해 제공될 수 있다. 이 프로세스는 말을 해야 하는 모든 개인들이 표본들을 제공할 때까지 계속될 수 있다.

일부 예들에서, 표본들이 오디오 이벤트 이전에 제공되지만, 다른 예들에서, 본 시스템은 사용자들이 자신의 음성 표본들(예컨대, 음성 표본들)을 미리 녹음할 수 있는 설정 프로세스를 가질 수 있다. 본 시스템은 이어서 음성 표본들의 라이브러리를 저장하고 이 라이브러리를 사용하여 활성 화자들을 결정할 수 있다. 다른 예들에서, 오디오 이벤트 이전에, 회의 참여자들은 (설정 프로세스를 완료했을 때 생성되는) 자신의 자격 증명들을 시스템에 제공할 수 있고, 본 시스템은 데이터베이스(예컨대, 온보드 저장소, 네트워크에 의해 액세스 가능한 원격 저장소 등)로부터 음성 표본들을 프리페치함으로써 처리 속도를 높일 수 있다.

동작(2020)에서, 오디오 이벤트 녹음이 시작된다. 동작(2030)에서, 녹음 시스템은 오디오 세그먼트들을 인식하고 활성 화자들의 ID들에 관한 정보로 그 세그먼트들에 태깅한다. 이 동작은 오디오 이벤트가 완료된 후에 또는 오디오가 녹음되고 있을 때 행해질 수 있다.

도 3은 본 개시 내용의 일부 예들에 따른, 오디오 세그먼트들을 인식하는 방법(3000)의 플로우차트를 나타낸 것이다. 오디오가 녹음되거나 처리되고 있을 때(오디오 이벤트가 끝난 후에 세그먼트화가 행해지는 경우), 동작(3010)에서, 특정의 검사되는 시간 인덱스 N에서 현재 말하고 있는 음성과 음성 표본들로부터 생성된 성문들 간의 비교에 기초하여 활성 화자가 결정될 수 있다. 주파수 추정, 은닉 마르코프 모델(hidden Markov model), 가우시안 혼합 모델(Gaussian mixture model), 패턴 정합 알고리즘, 신경망, 행렬 표현, 벡터 양자화, 결정 트리, 또는 다른 알고리즘들과 같은 다양한 화자 인식 알고리즘들이 사용될 수 있다. 화자의 ID가 확인되면, 동작(3020)에서, 화자의 변화가 일어났는지를 결정하기 위해, 결정된 활성 화자가 마지막으로 알려진 화자와 비교된다. 활성 화자와 마지막으로 알려진 활성 화자가 상이한 경우, 동작(3030)에서 새로운 세그먼트가 규정되고, 새로운 세그먼트가 동작(3010)에서 식별된 활성 화자로 태깅된다. 활성 화자가 마지막으로 알려진 활성 화자와 동일한 경우, 현재 세그먼트가 계속된다. 일부 예들에서, 이 프로세스가 화자 변화 이벤트들을 포착하기 위해(새로운 세그먼트들을 생성하기 위해) 특정의 샘플링 주파수 P로 주기적으로 반복될 수 있다. 다른 예들에서, 도 3의 방법은 화자가 변했다는 청각적 단서가 있는지 계속하여 모니터링하는 것(예컨대, 피치, 성량(volume), 주파수 등의 변화가 있는지 모니터링하는 것)에 의해 트리거될 수 있다.

도 3의 방법(3000)은 또한 다수의 화자들이 동시에 또는 거의 동시에 말할 수 있는 상황들에서 이용될 수 있다. 그 시나리오들에서, 동작(3010)에서 결정된 활성 화자는 다수의 활성 화자들일 수 있고, 동작(3020)에서의 비교는 다른 활성 화자 그룹이 말하고 있는지를 결정하기 위한 비교일 수 있다. 예를 들어, 시간 인덱스 N에서, Bill 및 Jill이 말하고 있고 이어서 시간 인덱스 N+P에서 Bill, Jill, 및 Chris가 말하고 있는 경우, Bill 및 Jill의 활성 화자 그룹이 Bill, Jill, 및 Chris의 활성 화자 그룹과 상이하기 때문에, 새로운 세그먼트가 생성될 수 있다.

일부 예들에서, 세그먼트들이 최소 길이일 수 있다. 이것은 P를 최솟값(예컨대, 3 초)으로 설정하는 것에 의해 생성될 수 있다. 일부 예들에서, 본 시스템은 세그먼트들을 매 P 초마다 샘플링할 수 있고, 세그먼트의 변화를 발견할 시에, 활성 화자(또는 활성 화자 그룹)가 변하는 정확한 시점을 포착하기 위해 세그먼트를 조절할 수 있다. 예를 들어, 시스템은 활성 화자 또는 활성 화자 그룹이 변한 정확한 순간을 결정하기 위해 오디오를 “되감기”할 수 있다. 이것은 세그먼트가 누군가의 말의 중간에 시작하는 것을 방지할 수 있다.

다시 도 2를 참조하면, 오디오 세그먼트들이 인식되고 태깅되면, 동작(2040)에서, 오디오 세그먼트들 각각에 대한 정보가 각각의 식별된 화자 또는 화자 그룹에게 송신될 수 있다. 세그먼트들에 대한 정보는 식별된 화자(들)가 세그먼트를 검증하는 데 도움을 주기 위해 식별된 화자(들)에게 정보를 제공할 수 있다. 세그먼트들에 관한 예시적인 정보는 세그먼트 또는 녹음 전체의 오디오의 전부 또는 일부; 음성 인식 알고리즘들에 기초하여 자동으로 생성되는 그 세그먼트 또는 녹음 전체의 오디오의 자동으로 생성된 녹취본; 식별된 화자들에 관한 정보; 세그먼트 길이, 오디오 이벤트에서의 세그먼트 위치와 같은 세그먼트 또는 오디오 전체에 관한 메타 데이터; 또는 세그먼트 또는 오디오 전체에 관한 임의의 다른 정보 중 하나 이상을 포함한다. 일부 예들에서, 세그먼트들을 검증할 때 화자들에게 부가 컨텍스트를 제공하기 위해, 본 시스템은 관심의 세그먼트 직전 및 직후의 세그먼트들에 대한 특정 양의 세그먼트 정보를 제공할 수 있다.

식별된 화자들은 이어서 세그먼트가 검증되어야 하는지 여부와 DRM 제한을 포함시킬지 여부를 결정할 수 있다. 식별된 화자들은 본 시스템에 의해 자신들에게 제공된 정보를 이용할 수 있다. 본 시스템은 이어서 세그먼트에 대한 그들의 승인, 조건부 승인, 또는 거부 및 DRM의 선택을 수신할 수 있다. 승인은 세그먼트가 세그먼트 동안 개인의 말의 정확한 묘사를 포함하고 있다는 것을 나타낸다. 조건부 승인이란 세그먼트의 어떤 부분들은 틀림없는 것이지만 다른 부분들은 그렇지 않은 것이다. 조건부 승인은 세그먼트의 어느 부분들이 승인되고 어느 부분들이 그렇지 않다는 것을 명시할 수 있다. 거부란 세그먼트가 검증되지 않는 상태이다. 세그먼트가 이어서 이 표시로 태깅될 수 있다. 세그먼트가 또한 개인에 의해 선택된 DRM으로 태깅될 수 있다. 다수의 개인들이 세그먼트에서 활성 화자들로서 식별되는 경우, 각각의 화자의 검증, 조건부 검증, 또는 거부가 세그먼트에 부가된다. 다수의 개인들이 DRM을 제출하는 경우, 각각의 DRM 결정이 또한 세그먼트에 부가된다.

예시적인 DRM 제한은 세그먼트의 복사, 액세스, 수정, 배포, 녹취본 작성(예컨대, 오디오의 텍스트 변환의 임의의 디지털 사본에 대한 제한) 또는 삭제에 관한 제한을 포함한다. 일부 예들에서, DRM은 어느 누구도 이러한 활동들을 수행하지 못하게 할 수 있지만, 다른 예들에서, DRM은 특정 사용자들만이 이러한 행동들을 하지 못하게 하거나 하도록 허용할 수 있다. 또 다른 예들에서, DRM은, 세그먼트에 DRM 제한을 부과한 식별된 화자로부터 허가를 얻지 않는 한, 특정 사용자들(또는 사용자 그룹들)이 이러한 행동들을 하지 못하게 할 수 있다. 다수의 개인들이 동일한 세그먼트에 DRM을 부과하는 예들에서, 세그먼트를 재생하는 것과 같은 세그먼트의 임의의 사용은 사용자가 식별된 화자들 모두에 의해 세그먼트에 부과된 DRM 제한들 전부를 충족시킬 것을 필요로 할 수 있다. 일부 예들에서, 본 시스템은 충족되는 DRM 정책들과 연관된 트랙들(예컨대, 음성)만을 재생할 수 있다. 예를 들어, 세그먼트에서 3 명의 사람들이 말하고 있고 DRM 정책이 화자들 중 두 명에 대해서만 충족되는 경우, 그 2 명만이 재생될 수 있다(나머지 사람은 무음 처리(mute)되거나 제거(bleep out)됨).

동작(2050)에서, 본 시스템은 세그먼트들에 대한 검증 및 DRM 제한을 수신한다. 동작(2060)에서, 본 시스템은 모든 세그먼트들이 검증되었는지를 결정하기 위해 검사를 한다. 세그먼트들 전부가 고려되지는 않은 경우, 본 시스템은 세그먼트들 전부를 제출하지는 않은 식별된 화자들에게 리마인더를 송신할 수 있다. 미리 결정된 기간이 경과하고 모든 세그먼트들의 모든 화자들이 고려되지는 않은 경우, 본 시스템은 적절한 조치를 취할 수 있다. 예를 들어, 본 시스템은 그 세그먼트에 어떤 검증 정보도 첨부하지 않을 수 있고, 승인되지 않은 세그먼트들에 대해 기본 DRM을 첨부할 수 있다. 다른 예들에서, 본 시스템이 승인된 부분들의 유포를 허용하기 위해 검증을 꼭 고려할 필요는 없을 수 있다. 예를 들어, 승인되지 않은 부분들은, 승인될 때까지, 수정될 수 있다.

동작(2070)에서, 세그먼트들 모두가 고려되면(또는 고려되지 않은 세그먼트들에 대해 시간이 만료되면), 다양한 화자 태그들, 검증 태그들, 및 DRM 제한들을 포함할 수 있는 마스터 녹음이 생성될 수 있다.

이제 도 4를 참조하면, 본 개시 내용의 일부 예들에 따른, DRM을 검증하고 세그먼트에 적용하는 방법(4000)의 플로우차트가 도시되어 있다. 동작(4010)에서, 세그먼트 정보가 검증 및 DRM 프로세스에 수신된다. 일부 예들에서, 이 세그먼트 정보는 오디오 이벤트를 녹음하는 데 사용되는 디바이스로부터 별개의 컴퓨팅 디바이스에 수신될 수 있다. 예를 들어, 세그먼트 정보가 도 1의 포착 디바이스(1010) 또는 백엔드 처리 디바이스(1040)로부터 수신될 수 있다. 다른 예들에서, 포착 디바이스가 또한 검증 및 DRM 태깅을 수행할 수 있다. 이 예들에서, 세그먼트 정보가 포착 디바이스의 별개의 모듈로부터 수신될 수 있다.

이전에 설명한 바와 같이, 세그먼트 정보는 세그먼트의 오디오, 세그먼트의 녹취본, 세그먼트에 관한 메타 데이터(예컨대, 크기(단위: 바이트), 길이, 오디오 이벤트에서의 위치, 녹음된 시각, 날짜 등), 식별된 활성 화자들에 관한 정보 등을 포함할 수 있다. 동작(4020)에서, 세그먼트 정보가 활성 화자에게 제시될 수 있다. 예를 들어, 오디오 파일이 재생될 수 있고, 녹취본이 디스플레이될 수 있으며, 메타 데이터가 제시될 수 있고, 기타가 행해질 수 있다. 그에 부가하여, 검증에 대한 옵션들 및 DRM의 적용에 대한 옵션들이 표시될 수 있다.

사용자는 이어서 세그먼트를 검증할지 여부 및 어떤 DRM(있는 경우)을 그 세그먼트에 적용할지를 결정할 수 있다. 검증 및 DRM 프로세스는, 동작(4030)에서, 사용자의 결정 및 DRM 선택들을 수신할 수 있다. 결정들이 행해지면, 동작(4040)에서, 검증 정보 및 DRM이 세그먼트 정보의 소스(예컨대, 포착 디바이스, 백엔드 서버, 또는 다른 프로세스 또는 모듈)로 다시 송신될 수 있다.

도 5는 본 개시 내용의 일부 예들에 따른, 애플리케이션이 보호된 배포 가능 파일을 이용(예컨대, 재생, 편집)하는 방법(5000)의 플로우차트를 나타낸 것이다. 동작(5010)에서, 관심의 오디오 파일이 선택될 수 있고, 그 선택이 애플리케이션에 의해 수신될 수 있다. 동작(5020)에서, 원하는 동작이 선택될 수 있고, 그 선택이 애플리케이션에 의해 수신될 수 있다. 예를 들어, 애플리케이션의 사용자가 오디오 파일을 재생하고자 할 수 있다. 다른 예들에서, 다른 동작들은 파일을 변경하는 것, 오디오를 변경하는 것, 검증 정보를 보는 것, 세그먼트 정보를 보는 것 등을 포함할 수 있다. 동작(5030)에서, 동작과 관련되어 있는 오디오 파일에서의 각각의 세그먼트에 대해, 애플리케이션은 그 세그먼트와 연관된 DRM 조건들이 선택된 행위, 애플리케이션의 사용자의 허가들, 및 세그먼트에 태깅된 DRM에 기초하여 충족되는지를 결정한다. 5040에서, DRM 조건들이 충족되는 경우, 행위가 수행된다. 예를 들어, 사용자가 오디오를 재생할 허가를 갖고 행위가 오디오를 재생하는 것인 경우, 세그먼트의 오디오가 재생된다. DRM 조건들이 충족되지 않는 경우, 동작(5050)에서, 행위가 수행되지 않는다. 동작(5020)에서의 행위 선택의 대상인 각각의 세그먼트에 대해 동작들(5030 내지 5050)이 반복될 수 있다. 예를 들어, 사용자가 오디오 녹음의 2개의 세그먼트들을 변경하고자 하는 경우, 각각의 세그먼트에 대해 5030 내지 5050의 동작들이 반복될 것이다. 이와 같이, 사용자는 특정 세그먼트들만을 재생하거나 변경하고 다른 것들은 그렇게 하지 못하는 허가들을 가질 수 있다. 다른 예들에서, 애플리케이션은 DRM 조건들이 오디오 파일 전체에 대해 충족되는 경우에만 행위를 허용할 수 있다. 이와 같이, 사용자가 모든 세그먼트들이 아니라 세그먼트들 중 일부만을 듣는 허가를 가지는 경우, 세그먼트들 중 어느 것도 재생되지 않을 수 있다. 다른 예들에서, DRM 조건들 전부가 아닌 일부가 충족되는 경우, 행위가 부분적으로 수행될 수 있다. 예를 들어, 세그먼트에서의 3 명의 화자들 중 2 명에 대한 DRM 조건들이 충족된 경우가 있다.

도 6은 본 개시 내용의 일부 예들에 따른 예시적인 시스템(6000)의 보다 상세한 개략도를 나타낸 것이다. 포착 디바이스(6010)(예컨대, 도 1의 포착 디바이스(1010))는 음성 표본들을 포착하는 것은 물론 오디오 이벤트를 녹음할 수 있는 오디오 포착 모듈(6020)을 포함할 수 있다. 일부 예들에서, 오디오 포착 모듈(6020)은 모든 화자들의 ID(identification)들 및 연락처 정보도 기록할 수 있다. 포착 디바이스(6010)의 출력이 저장소(6060)에 저장될 수 있다. 저장소(6060)는, 플래시 메모리, RAM(random access memory), 하드 드라이브, SSD(solid state drive), 광, 자기, 테이프 또는 다른 저장 디바이스와 같은, 임의의 로컬 또는 원격 저장소일 수 있다. 일부 예들에서, 저장소(6060)는 별개의 디바이스일 수 있고, 오디오 정보는 입력 및 출력 모듈(6050)에 의해 원격 저장소로 송신될 수 있다.

포착 디바이스(6010)는 오디오 포착을 제어하는 것; 음성 인식 모듈(6040)에 의해 행해진 오디오의 분석에 기초하여 세그먼트들을 결정하는 것; (하나 이상의 디스플레이들 및 입력 디바이스들을 제어할 수 있는) 사용자 인터페이스를 입력 및 출력 모듈을 통해 제공하는 것; 최종적인 배포 가능 오디오 파일을 생성하는 것; 일부 예들에서, 검토 모듈(6070), 재생 모듈(6080), 및 DRM 모듈(6030) 또는 입력 및 출력 모듈(6050)을 이용하여 디바이스(6010) 상에서 또는 디바이스(6010) 외부에서 검증 및 DRM 적용에 대한 임의의 검토를 조정하는 것; 및 기타를 포함하는 프로세스를 제어할 수 있는 제어 모듈(6090)도 포함할 수 있다.

재생 모듈(6080)은 저장소(6060)에 저장된 오디오를 재생할 수 있다. 일부 예들에서, 이것은 식별된 화자들에 의한 검증 및 DRM 부가에 대한 것일 수 있다. 다른 예들에서, 디바이스는 디바이스의 사용자를 위해 오디오 파일을 재생할 수 있다. 이 예들에서, 디바이스는 재생을 위해 오디오 파일 또는 오디오 파일의 일부분을 잠금 해제하는 데 DRM 모듈(6030)을 이용한다. DRM 모듈(6030)은 액세스 권리를 설정하고(디바이스 상에서의 검증 및 DRM 부가의 경우에), 액세스 권리를 검증할 수 있으며, 일부 예들에서, 오디오 포맷에 따라, 디바이스가 오디오 파일에 대한 액세스 제한을 충족시키는 경우 재생 모듈이 재생을 위해 오디오를 이용할 수 있도록 메모리 내의 오디오를 보호 해제할 수 있다.

입력 및 출력 모듈(6050)은 네트워크(6110)를 거쳐 하나 이상의 다른 컴퓨팅 디바이스들과 통신할 수 있고, 제어 모듈(6090)의 지시로 하나 이상의 사용자 인터페이스들을 디바이스(6010) 상에 제공할 수 있다. 입력 및 출력 모듈(6050)은 검증 및 DRM 태깅을 위해 배포 가능 오디오 파일, 세그먼트들에 관한 정보를 식별된 화자들에게 송신할 수 있고, DRM 태그들을 포함하는 검증 결과들을 수신하고, 사용자 입력 등을 수신할 수 있다.

음성 인식 모듈(6040)은 성문들을 생성하기 위해 음성 표본들을 분석할 수 있고, 분석된 성문들에 기초하여 오디오에서의 주어진 시점에서 활성 화자 또는 화자들을 결정할 수 있다. 검토 모듈(6070)은 세그먼트 정보를 하나 이상의 식별된 화자들에게 디스플레이하거나, 재생하거나, 다른 방식으로 제시하기 위해 제어 모듈(6090), 재생 모듈(6080), DRM 모듈(6030), 입력 및 출력 모듈(6050), 및 저장소(6060)와 협력할 수 있고, 식별된 화자(들)와 관련하여 세그먼트의 검증 상태에 관한 입력을 받을 수 있다. 검토 모듈(6070) 및/또는 제어 모듈(6090)은 이어서 검증 상태 및 DRM 정보로 세그먼트에 태깅할 수 있다.

검증 컴퓨팅 디바이스(6100)는 검증 및 DRM 선택을 위한 세그먼트들에 관한 정보를 수신하기 위해 네트워크(6110)를 거쳐 입력 및 출력 모듈(6115)을 통해 포착 디바이스(6010)와 통신할 수 있다. 입력 및 출력 모듈(6115)은 또한 하나 이상의 사용자 인터페이스들을 제시하고 검증 컴퓨팅 디바이스(6100)의 사용자로부터 사용자 입력을 받을 수 있다. 입력 및 출력 모듈(6115)은 포착 디바이스(6010)로부터 검증을 위한 세그먼트 정보를 수신할 수 있다. 검토 모듈(6130)은 세그먼트 정보(예컨대, 오디오 또는 오디오의 녹취본)를 재생 모듈(6140) 및/또는 입력 및 출력 모듈(6115)을 통해 사용자에게 제시할 수 있다. 입력 및 출력 모듈(6115)은 이어서 사용자의 검증 상태(검증됨, 검증되지 않음, 부분적으로 검증됨) 및 사용자가 세그먼트에 적용하고자 하는 임의의 DRM을 입수할 수 있다. 검토 모듈(6130)은 이어서 이 정보를 입력 및 출력 모듈(6115)을 거쳐 네트워크(6110)을 통해 송신할 수 있다.

그에 부가하여, 오디오 파일의 DRM 조건들이 충족되는 경우, 재생 모듈(6140)은 오디오 파일의 하나 이상의 세그먼트들을 재생할 수 있다. 재생 모듈(6140)은, 오디오를 디코딩하여 DRM 준수를 확인하기 위해, DRM 모듈(6120)을 이용할 수 있다. 일부 예들에서, 검증 컴퓨팅 디바이스(6100)의 모듈들은 포착 디바이스(6010) 상의 그의 대응 부분들과 동일하거나 유사한 기능들을 수행할 수 있다.

최종 사용 컴퓨팅 디바이스(6150)는 배포 가능 오디오 파일을 이용할 수 있다. 예를 들어, 최종 사용 컴퓨팅 디바이스(6150)는 오디오 파일을 재생하고, 오디오 파일을 편집하며, 오디오 파일을 재배포하고, 기타를 할 수 있다. 입력 및 출력 모듈(6160)은 네트워크(6110)를 거쳐 검증 컴퓨팅 디바이스(6100) 및/또는 포착 디바이스(6010)와 통신할 수 있다. 예를 들어, 최종 사용 컴퓨팅 디바이스(6150)는 포착 디바이스(6010)로부터 배포 가능 오디오 파일을 수신할 수 있다. 재생 모듈(6180)은, DRM 제한에 따라, 오디오를 재생하고, 오디오 파일을 편집하며, 오디오 파일을 재배포하고, 기타를 할 수 있다. 재생 모듈(6180)은 최종 사용 컴퓨팅 디바이스(6150)(그리고, 일부 예들에서, 최종 사용 컴퓨팅 디바이스(6150)의 사용자)가 오디오 파일을 원하는 방식으로 이용하기 위해 적절한 사용 허가를 갖도록 보장할 수 있는 DRM 모듈(6170)을 이용할 수 있다.

네트워크(6110)는 LAN(Local Area Network), WAN(Wide Area Network), 인터넷, 셀룰러 네트워크(3G 무선 네트워크 또는 4G 무선 네트워크 등), 기타 중 하나 이상의 일부분이거나 그를 포함할 수 있다.

도 6에 도시된 기능의 논리적 구성은 본 개시 내용의 범주를 벗어남이 없이 재배열될 수 있다. 따라서, 포착 디바이스(6010), 검증 컴퓨팅 디바이스(6100), 및 최종 사용 컴퓨팅 디바이스(6150)의 모듈들 중 하나 이상의 모듈들의 기능이 포착 디바이스(6010), 검증 컴퓨팅 디바이스(6100), 또는 최종 사용 컴퓨팅 디바이스(6150) 중 임의의 것에서 구현될 수 있다. 그에 부가하여, 포착 디바이스(6010), 검증 컴퓨팅 디바이스(6100), 및 최종 사용 컴퓨팅 디바이스(6150) 중 하나 이상이 하나 이상의 물리 디바이스들로 결합되거나 몇 개의 디바이스들로 분할될 수 있다.

예시적인 사용 사례들은 경찰 심문, 증언 녹취록, 인터뷰, 기업 회의, 라이프 블로깅(life blogging), 전화 회의 녹음, 중재, 조정, (예컨대, 고비용의 법정 속기(court transcription)에 대한 대안으로서의) 법정 녹음, 법적 진술서 작성 및 증언 등을 포함할 수 있다. 본 개시 내용의 일부분이 포착 디바이스 외부에서 수행되는 일부 예들에서, 제공된 보안에 대한 보다 높은 신뢰를 생성하기 위해, 그 부분들이 신뢰할 수 있는 실행 공간에서 수행될 수 있다. 일부 예들에서, 적용된 DRM은 호환 가능할 수 있고 표준의 DRM 제품들에 의해 용이하게 사용 가능할 수 있다. 예들은 Apple, Inc.에 의해 제공된 DRM(FairPlay 등), Marlin Developer Community에 의해 개발되고 유지되는 Marlin DRM, Adobe에 의해 개발된 Adept DRM, 및 Amazon.com에 의해 개발된 DRM을 포함한다. 또 다른 예들에서, 독자적 DRM이 이용될 수 있다. 일부 DRM 시스템들에서는, 자격을 검증하고, 암호화 키들을 제공하며, 기타를 하기 위해 부가의 서버들이 이용될 수 있다. 이와 같이, 도 6의 DRM 모듈들에 의해 제공되는 기능들 중 일부 또는 전부가 별개의 서버 상에 있을 수 있다.

특정 실시예들이 논리 또는 다수의 구성요소들, 모듈들, 또는 메커니즘들을 포함하는 것으로 본 명세서에 기술되어 있다. 모듈들은 소프트웨어 모듈들(예컨대, 머신 판독 가능 매체 상에 또는 전송 신호에 구현되는 코드) 또는 하드웨어 모듈들을 구성할 수 있다. 하드웨어 모듈은 특정 동작들을 수행할 수 있는 유형적 유닛(tangible unit)이고, 특정 방식으로 구성되거나 배열될 수 있다. 예시적인 실시예들에서, 하나 이상의 컴퓨팅 디바이스들(예컨대, 독립형, 클라이언트 또는 서버 컴퓨팅 디바이스) 또는 컴퓨팅 디바이스의 하나 이상의 하드웨어 모듈들(예컨대, 프로세서 또는 프로세서들의 그룹)은 소프트웨어(예컨대, 애플리케이션 또는 애플리케이션 일부분)에 의해 본 명세서에 기술된 특정 동작들을 수행하도록 동작하는 하드웨어 모듈로서 구성될 수 있다.

다양한 실시예들에서, 하드웨어 모듈은 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들어, 하드웨어 모듈은 특정 동작들을 수행하도록 (예컨대, FPGA(field programmable gate array) 또는 ASIC(application-specific integrated circuit)과 같은 특수 목적 프로세서로서) 영구적으로 구성되어 있는 전용 회로 또는 논리를 포함할 수 있다. 하드웨어 모듈은 또한 특정 동작들을 수행하도록 소프트웨어에 의해 일시적으로 구성되어 있는 (예컨대, 범용 프로세서 또는 다른 프로그램 가능 프로세서 내에 포함된) 프로그램 가능 논리 또는 회로를 포함할 수 있다. 하드웨어 모듈을 기계적으로, 전용의 영구적으로 구성된 회로에, 또는 일시적으로 구성된 회로(예컨대, 소프트웨어에 의해 구성됨)에 구현하는 결정이 비용 및 시간 고려사항들에 의해 좌우될 수 있다는 것을 잘 알 것이다.

그에 따라, "하드웨어 모듈"이라는 용어는, 특정 방식으로 동작하도록 그리고/또는 본 명세서에 기술된 특정 동작들을 수행하도록 물리적으로 구성되거나, 영구적으로 구성되거나(예컨대, 하드와이어링되거나), 일시적으로 구성되는(예컨대, 프로그램되는) 엔터티인, 유형적 엔터티를 포괄하는 것으로 이해된다. 하드웨어 모듈들이 일시적으로 구성되는(예컨대, 프로그램된) 실시예들을 살펴보았지만, 하드웨어 모듈들 각각이 어느 한 순간에 구성되거나 인스턴스화될 필요는 없다. 예를 들어, 하드웨어 모듈들이 소프트웨어를 사용하여 구성된 범용 프로세서를 포함하는 경우, 범용 프로세서는 상이한 때에 각자의 상이한 하드웨어 모듈들로서 구성될 수 있다. 소프트웨어는, 그에 따라, 프로세서를, 예를 들어, 한 순간에는 특정의 하드웨어 모듈을 구성하도록 그리고 다른 순간에는 다른 하드웨어 모듈을 구성하도록 구성할 수 있다.

하드웨어 모듈들은 다른 하드웨어 모듈들에 정보를 제공하고 그들로부터 정보를 수신할 수 있다. 그에 따라, 기술된 하드웨어 모듈들은 통신 연결되어 있는 것으로 간주될 수 있다. 이러한 하드웨어 모듈들 중 다수가 동시에 존재하는 경우, 하드웨어 모듈들을 연결시키는 통신이 신호 전송을 통해(예컨대, 적절한 회로들 및 버스들을 거쳐) 달성될 수 있다. 다수의 하드웨어 모듈들이 상이한 때에 구성되거나 인스턴스화되는 실시예들에서, 이러한 하드웨어 모듈들 간의 통신은, 예를 들어, 다수의 하드웨어 모듈들이 액세스할 수 있는 메모리 구조들에의 정보의 저장 및 검색을 통해 달성될 수 있다. 예를 들어, 하나의 하드웨어 모듈은 동작을 수행하고 그 동작의 출력을 그에 통신 연결되어 있는 메모리 디바이스에 저장할 수 있다. 추가의 하드웨어 모듈은 이어서, 나중에, 저장된 출력을 검색하고 처리하기 위해 메모리 디바이스에 액세스할 수 있다. 하드웨어 모듈들은 또한 입력 또는 출력 디바이스들과 통신을 개시할 수 있고, 자원(예컨대, 정보의 모음)을 처리할 수 있다.

본 명세서에 기술된 예시적인 방법들의 다양한 동작들은, 적어도 부분적으로, 관련 동작들을 수행하도록 일시적으로 구성되어 있는 또는 영구적으로 구성되어 있는 하나 이상의 프로세서들에 의해 수행될 수 있다. 일시적으로 또는 영구적으로 구성되어 있든 간에, 이러한 프로세서들은 하나 이상의 동작들 또는 기능들을 수행하기 위해 동작하는 프로세서 구현 모듈(processor-implemented module)들을 구성할 수 있다. 본 명세서에서 언급되는 모듈들은, 일부 예시적인 실시예들에서, 프로세서 구현 모듈들을 포함한다.

이와 유사하게, 본 명세서에 기술된 방법들이 적어도 부분적으로 프로세서로 구현될 수 있다. 예를 들어, 방법의 동작들 중 적어도 일부가 하나 이상의 프로세서들 또는 프로세서 구현 모듈들에 의해 수행될 수 있다. 동작들 중 일부의 수행은, 단일의 머신 내에 존재할 뿐만 아니라 다수의 머신들에 걸쳐 배포되어 있는, 하나 이상의 프로세서들 간에 분산될 수 있다. 일부 예시적인 실시예들에서, 프로세서 또는 프로세서들이 단일의 위치에(예컨대, 가정 환경, 사무실 환경 내에 또는 서버 팜으로서) 위치되어 있을 수 있는 반면, 다른 실시예들에서, 프로세서들이 다수의 위치들에 걸쳐 분산되어 있을 수 있다.

하나 이상의 프로세서들이 또한 “클라우드 컴퓨팅” 환경에서 또는 “SaaS”(software as a service)로서 관련 동작들의 수행을 지원하기 위해 동작할 수 있다. 예를 들어, 동작들 중 적어도 일부가 (프로세서들을 포함하는 머신의 예로서) 일군의 컴퓨터들에 의해 수행될 수 있고, 이 동작들은 네트워크(예컨대, 인터넷)를 거쳐 그리고 하나 이상의 적절한 인터페이스들(예컨대, API)을 거쳐 액세스 가능하다.

예시적인 실시예들은 디지털 전자 회로로, 또는 컴퓨터 하드웨어, 펌웨어, 컴퓨터 판독 가능 매체에 구현된 소프트웨어로, 또는 이들의 조합으로 구현될 수 있다. 예시적인 실시예들은 데이터 처리 장치(예를 들어, 프로그램 가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들)에 의한 실행을 위해 또는 데이터 처리 장치의 동작을 제어하기 위해 컴퓨터 프로그램 제품(예를 들어, 정보 캐리어(information carrier)에(예를 들어, 머신 판독 가능 매체에) 유형적으로 구현된 컴퓨터 프로그램)을 사용하여 구현될 수 있다.

컴퓨터 프로그램은 컴파일되거나 인터프리트되는 언어들을 비롯한 임의의 형태의 프로그래밍 언어로 작성될 수 있고, 컴퓨터 프로그램은 독립 실행형 프로그램(stand-alone program)으로서, 또는 모듈, 서브루틴, 또는 컴퓨팅 환경에서 사용하기에 적합한 기타 단위로서를 비롯한, 임의의 형태로 배포될 수 있다. 컴퓨터 프로그램이 하나의 컴퓨터 상에서 또는 하나의 사이트에 있거나 다수의 사이트들에 걸쳐 분산되어 있고 통신 네트워크에 의해 상호 연결되어 있는 다수의 컴퓨터들 상에서 실행되도록 배포될 수 있다.

예시적인 실시예들에서, 동작들이 입력 데이터를 처리하여 출력을 생성함으로써 기능들을 수행하기 위해 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 프로세서들에 의해 수행될 수 있다. 방법 동작들이 또한 특수 목적 논리 회로(예컨대, FPGA 또는 ASIC)에 의해 수행될 수 있고, 예시적인 실시예들의 장치가 특수 목적 논리 회로로서 구현될 수 있다.

컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 전형적으로 통신 네트워크를 통해 상호 작용한다. 컴퓨터 프로그램들이 각자의 컴퓨터들 상에서 실행되고 서로 클라이언트-서버 관계를 갖는 것에 의해 클라이언트와 서버의 관계가 생긴다. 프로그램 가능 컴퓨팅 시스템을 배포하는 실시예들에서, 하드웨어 아키텍처 및 소프트웨어 아키텍처 둘 다가 고려될 필요가 있다는 것을 잘 알 것이다. 구체적으로는, 특정 기능을 영구적으로 구성된 하드웨어(예컨대, ASIC)로, 일시적으로 구성된 하드웨어(예컨대, 소프트웨어와 프로그램 가능 프로세서의 조합)로, 또는 영구적으로 구성된 하드웨어와 일시적으로 구성된 하드웨어의 조합으로 구현할지의 선택이 설계 선택 사항일 수 있다는 것을 잘 알 것이다. 다양한 예시적인 실시예들에서, 배포될 수 있는 하드웨어(예컨대, 머신) 아키텍처 및 소프트웨어 아키텍처가 이하에서 기술된다.

도 7은 머신으로 하여금 본 명세서에 논의된 방법들 중 임의의 하나 이상의 방법들을 수행하게 하기 위한 명령어들이 실행될 수 있는 컴퓨팅 디바이스(7000)의 예시적인 형태의 머신의 블록도이다. 예를 들어, 도 1 및 도 6에 도시된 구성요소들 중 임의의 것은 도 7에 기술된 구성요소들 중 하나 이상일 수 있거나 그들을 포함할 수 있다. 대안의 실시예들에서, 머신은 독립형 디바이스로서 동작하거나, 다른 머신들에 연결(예컨대, 네트워크로 연결)될 수 있다. 네트워크화된 배포에서, 머신은 서버-클라이언트 네트워크 환경에서 서버 또는 클라이언트 머신으로서, 또는 피어 투 피어(또는 분산) 네트워크 환경에서 피어 머신으로서 동작할 수 있다. 머신은 PC(personal computer), 노트북 PC, 도킹 스테이션, 무선 액세스 포인트, 태블릿 PC, STB(set-top box), PDA, 휴대폰, 스마트폰, 웹 가전 기기, 네트워크 라우터, 스위치 또는 브리지, 또는 그 머신에 의해 취해질 동작들을 지정하는 명령어들을 (순차적으로 또는 다른 방식으로) 실행할 수 있는 임의의 머신일 수 있다. 게다가, 단일의 머신만이 예시되어 있지만, "머신"이라는 용어는 또한 본 명세서에 논의된 방법들 중 임의의 하나 이상의 방법들을 수행하기 위해 개별적으로 또는 결합하여 명령어 집합(또는 다수의 명령어 집합들)을 실행하는 임의의 머신들의 집합체를 포함하는 것으로 보아야 한다. 머신은 도 7에 도시되지 않은 구성요소들 또는 도 7에 도시된 구성요소들의 부분집합만을 포함할 수 있다.

예시적인 컴퓨팅 디바이스(7000)는 버스와 같은 상호 연결부(7008)를 거쳐 서로 통신하는, 프로세서(7002)(예컨대, CPU(central processing unit)(예컨대, 컴퓨터 프로세서), GPU(graphics processing unit) 또는 둘 다), 메인 메모리(7004) 및 정적 메모리(7006)를 포함한다. 컴퓨팅 디바이스(7000)는 비디오 디스플레이 유닛(7010)(예컨대, LCD(liquid crystal display) 또는 CRT(cathode ray tube))을 추가로 포함할 수 있다. 컴퓨팅 디바이스(7000)는 영숫자 입력 디바이스(7012)(예컨대, 키보드), UI(user interface) 탐색 디바이스(navigation device)(7014)(예컨대, 마우스), 디스크 드라이브 유닛(7016), 신호 발생 디바이스(7018)(예컨대, 스피커) 및 네트워크 인터페이스 디바이스(7020)도 포함할 수 있다. 일부 예들에서, 디바이스는 도 7의 구성요소들 중 하나 이상을 포함하는 SoC(System on a Chip)일 수 있거나 그를 포함할 수 있다.

디스크 드라이브 유닛(7016)은 본 명세서에 기술된 방법들 또는 기능들 중 임의의 하나 이상을 구현하거나 그에 의해 사용되는 하나 이상의 명령어 및 데이터 구조 집합들(예컨대, 소프트웨어)(7024)이 저장되어 있는 머신 판독 가능 매체(7022)를 포함한다. 명령어들(7024)은 또한 컴퓨팅 디바이스(7000)에 의한 그의 실행 동안, 전체적으로 또는 적어도 부분적으로, 메인 메모리(7004), 정적 메모리(7006) 내에 그리고/또는 프로세서(7002) 내에 존재할 수 있고, 메인 메모리(7004) 및 프로세서(7002)는 또한 머신 판독 가능 매체를 구성한다.

머신 판독 가능 매체(7022)가 예시적인 실시예에서 단일의 매체인 것으로 도시되어 있지만, "머신 판독 가능 매체"라는 용어는 하나 이상의 명령어들 또는 데이터 구조들을 저장하는 단일의 매체 또는 다수의 매체들(예컨대, 중앙 집중식 또는 분산형 데이터베이스, 및/또는 연관된 캐시들 및 서버들)을 포함할 수 있다. “머신 판독 가능 매체"라는 용어는 또한 머신으로 하여금 본 발명의 방법들 중 임의의 하나 이상의 방법들을 수행하게 하는, 머신에 의해 실행하기 위한 명령어들을 저장하거나, 인코딩하거나, 담고 있을 수 있는, 또는 이러한 명령어들에 의해 사용되거나 그와 연관되어 있는 데이터 구조들을 저장하거나, 인코딩하거나, 담고 있을 수 있는 임의의 유형적 매체를 포함하는 것으로 보아야 한다. “머신 판독 가능 매체”라는 용어는, 그에 따라, 고상 메모리(solid-state memory), 그리고 광 및 자기 매체(이들로 제한되지 않음)를 포함하는 것으로 보아야 한다. 머신 판독 가능 매체의 구체적인 예들은, 예로서, 반도체 메모리 디바이스(예컨대, EPROM(Erasable Programmable Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory)) 및 플래시 메모리 디바이스를 포함하는 비휘발성 메모리; 내장형 하드 디스크 및 이동식 디스크와 같은 자기 디스크; 광자기 디스크; 그리고 CD-ROM 및 DVD-ROM 디스크를 포함한다.

명령어들(7024)은 또한 전송 매체를 사용하여 통신 네트워크(7026)를 거쳐 전송되거나 수신될 수 있다. 명령어들(7024)은 네트워크 인터페이스 디바이스(7020) 및 다수의 공지된 전송 프로토콜들(예컨대, HTTP) 중 임의의 것을 사용하여 전송될 수 있다. 통신 네트워크의 예들은 LAN, WAN, 인터넷, 이동 전화 네트워크, POTS(Plain Old Telephone) 네트워크, 및 무선 데이터 네트워크(예컨대, Wi-Fi® 및 WiMAX® 네트워크)를 포함한다. "전송 매체"라는 용어는 머신에 의해 실행하기 위한 명령어들을 저장하거나, 인코딩하거나 담고 있을 수 있고 이러한 소프트웨어의 전달을 용이하게 하는 디지털 또는 아날로그 통신 신호들 또는 다른 무형적 매체를 포함하는 임의의 무형적 매체를 포함하는 것으로 보아야 한다. 네트워크 인터페이스(7020)는 데이터를 무선으로 전송할 수 있고, 안테나를 포함할 수 있다.

본 발명이 특정의 예시적인 실시예들을 참조하여 기술되어 있지만, 본 발명의 광의의 사상 및 범주를 벗어남이 없이 이 실시예들에 대해 다양한 수정들 및 변경들이 행해질 수 있다는 것은 명백할 것이다. 그에 따라, 명세서 및 첨부 도면은 제한적인 의미가 아니라 예시적인 것으로 간주되어야 한다.

일 실시예가 특정의 예시적인 실시예들을 참조하여 기술되어 있지만, 본 발명의 광의의 사상 및 범주를 벗어남이 없이 이 실시예들에 대해 다양한 수정들 및 변경들이 행해질 수 있다는 것은 명백할 것이다. 그에 따라, 명세서 및 첨부 도면은 제한적인 의미가 아니라 예시적인 것으로 간주되어야 한다. 명세서의 일부를 형성하는 첨부 도면들은 발명 요지가 실시될 수 있는 특정 실시예들을 제한이 아니라 예시로서 나타내고 있다. 예시된 실시예들은 통상의 기술자가 본 명세서에 개시된 발명 내용을 실시할 수 있게 하기 위해 충분히 상세히 기술되어 있다. 본 개시 내용의 범주를 벗어남이 없이 구조적 및 논리적 치환들 및 변경들이 행해질 수 있도록, 다른 실시예들이 사용되고 그로부터 도출될 수 있다. 따라서, 이 발명을 실시하기 위한 구체적인 내용은 제한적인 의미로 보아서는 안되며, 다양한 실시예들의 범주는, 첨부된 청구범위의 자격을 갖는 등가물들의 전체 범위와 함께, 이러한 청구범위에 의해서만 한정된다.

이와 같이, 특정 실시예들이 본 명세서에 예시되고 기술되어 있지만, 동일한 목적을 달성하기 위해 계산된 임의의 구성이 도시된 특정 실시예들을 대체할 수 있다는 것을 잘 알 것이다. 본 개시 내용은 다양한 실시예들의 모든 개조들 또는 변형들을 포함하는 것으로 보아야 한다. 이상의 실시예들의 조합들, 및 본 명세서에 구체적으로 기술되지 않은 다른 실시예들이 이상의 설명을 살펴보면 통상의 기술자에게 명백하게 될 것이다.

그에 부가하여, 이상의 발명을 실시하기 위한 구체적인 내용에서, 개시를 간소화하기 위해 다양한 특징들이 단일의 실시예에 함께 그룹화되어 있다는 것을 알 수 있다. 이러한 개시 방법이 청구된 실시예들이 각각의 청구항에 명확하게 인용되어 있는 것보다 더 많은 특징들을 필요로 한다는 의도를 반영하는 것으로 해석되어서는 안된다. 오히려, 이하의 청구항들이 반영하고 있는 바와 같이, 본 발명의 발명 요지가 단일의 개시된 실시예의 특징들 전부가 아닌 일부에 있다. 따라서, 이하의 청구항들은 이에 따라 발명을 실시하기 위한 구체적인 내용에 포함되며, 각각의 청구항은 그 자체로서 개별적인 실시예로서의 지위를 갖는다.

다른 유의할 점들 및 예들:

예 1은 복수의 개인들 각각으로부터 음성 표본(voice exemplar)을 수신하는 것; 오디오 이벤트를 녹음하는 것; 오디오 이벤트의 복수의 오디오 이벤트 세그먼트들을 결정하는 것 - 오디오 이벤트 세그먼트들은 적어도 하나의 식별된 활성 화자의 변화들에 기초하여 결정되고, 각각의 세그먼트는 적어도 하나의 대응하는 식별된 활성 화자를 가지며, 식별은 수신된 음성 표본들에 기초함 -; 적어도 하나의 세그먼트에 대한 검증 정보를 적어도 하나의 세그먼트에 대한 대응하는 식별된 활성 화자로부터 수신하는 것; 및 적어도 하나의 세그먼트에 대한 검증 정보를 수신한 것에 응답하여, 태깅된 세그먼트들 및 검증 정보를 포함하는 마스터 오디오 파일을 제작하는 것을 포함하는 발명 요지(방법, 동작들을 수행하는 수단, 머신에 의해 수행될 때, 머신으로 하여금 동작들을 수행하게 하는 명령어들을 포함하는 머신 판독 가능 매체, 또는 수행하도록 구성된 장치 등)를 포함한다.

예 2에서, 예 1의 발명 요지는, 선택적으로, 적어도 하나의 세그먼트에 대한 검증 요청을 그 세그먼트에 대한 대응하는 적어도 하나의 식별된 활성 화자에게 송신하는 것을 포함할 수 있다.

예 3에서, 예 1 및 예 2 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 검증 요청이 세그먼트의 오디오 클립을 포함한다는 것을 포함할 수 있다.

예 4에서, 예 1 내지 예 3 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 각각의 세그먼트의 녹취본을 자동으로 생성하는 것을 포함한다는 것과, 검증 요청이 세그먼트의 녹취본을 포함한다는 것을 포함할 수 있다.

예 5에서, 예 1 내지 예 4 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 검증 요청이 생체 데이터를 포함한다는 것을 포함할 수 있다.

예 6에서, 예 1 내지 예 5 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 생체 데이터가 세그먼트의 수신측 활성 화자의 성문(voice print)을 포함한다는 것을 포함할 수 있다.

예 7에서, 예 1 내지 예 6 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 각자의 세그먼트에 대한 디지털 권리 관리 정보를 각자의 세그먼트에 대한 적어도 하나의 대응하는 식별된 활성 화자로부터 수신하는 것을 포함한다는 것과, 마스터 오디오 파일을 제작하는 것이 디지털 권리 관리 정보를 마스터 오디오 파일에 포함시키는 것을 포함한다는 것을 포함할 수 있다.

예 8에서, 예 1 내지 예 7 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 디지털 권리 관리 정보가 사용자 그룹에 대한 일 세트의 액세스 허가들(a set of access permissions)을 규정한다는 것을 포함할 수 있다.

예 9에서, 예 1 내지 예 8 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 일 세트의 액세스 허가들이 판독 액세스, 기입 액세스, 및 배포 액세스 중 적어도 2개를 포함한다는 것을 포함할 수 있다.

예 10에서, 예 1 내지 예 9 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 방법이 녹음 디바이스에 의해 수행된다는 것을 포함할 수 있다.

예 11에서, 예 1 내지 예 10 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 방법이 적어도 일부가 녹음 디바이스에 의해 그리고 적어도 일부가 컴퓨팅 디바이스에 의해 수행된다는 것을 포함할 수 있다.

예 12에서, 예 1 내지 예 11 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 검증 정보가 적어도 하나의 세그먼트에 대응하는, 대응하는 적어도 하나의 식별된 활성 화자가 각자의 세그먼트에서의 오디오를 생성했다는 검증을 포함한다는 것을 포함할 수 있다.

예 13에서, 예 1 내지 예 12 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 전화 회의를 위한 회의 연결(conference bridge)을 제공하는 것을 포함한다는 것을 포함할 수 있다.

예 14는 복수의 개인들 각각으로부터 음성 표본을 수신하고; 오디오 이벤트를 녹음하도록 구성된 오디오 포착 모듈; 오디오 이벤트의 복수의 오디오 이벤트 세그먼트들을 결정 - 오디오 이벤트 세그먼트들은 적어도 하나의 식별된 활성 화자의 변화들에 기초하여 결정되고, 각각의 세그먼트는 적어도 하나의 대응하는 식별된 활성 화자를 가지며, 식별은 수신된 음성 표본들에 기초함 - 하도록 구성된 제어 모듈; 및 적어도 하나의 세그먼트에 대한 검증 정보를 적어도 하나의 세그먼트의 대응하는 적어도 하나의 식별된 활성 화자로부터 수신하도록 구성된 입력 및 출력 모듈을 포함하고; 입력 및 출력 모듈이 적어도 하나의 세그먼트에 대한 검증 정보를 수신한 것에 응답하여, 제어 모듈이 태깅된 세그먼트들 및 검증 정보를 포함하는 마스터 오디오 파일을 제작하도록 구성되어 있는 것을 포함하는 발명 요지(디바이스, 장치, 또는 머신 등)를 포함하도록 예 1 내지 예 13 중 임의의 예의 발명 요지를 포함하거나, 선택적으로, 그와 결합될 수 있다.

예 15에서, 예 1 내지 예 14 중 임의의 하나 이상의 예의 발명 요지는 오디오 파일이 디지털 오디오 파일이라는 것을 포함한다.

예 16에서, 예 1 내지 예 15 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 입력 및 출력 모듈이 적어도 하나의 세그먼트에 대한 검증 요청을 그 세그먼트에 대한 적어도 하나의 대응하는 식별된 활성 화자에게 송신하도록 구성되어 있다는 것을 포함할 수 있다.

예 17에서, 예 1 내지 예 16 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 검증 요청이 세그먼트의 오디오 클립을 포함한다는 것을 포함할 수 있다.

예 18에서, 예 1 내지 예 17 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 제어 모듈이 각각의 세그먼트의 녹취본을 자동으로 생성하도록 구성되어 있다는 것과 검증 요청이 세그먼트의 녹취본을 포함한다는 것을 포함할 수 있다.

예 19에서, 예 1 내지 예 18 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 검증 요청이 생체 데이터를 포함한다는 것을 포함할 수 있다.

예 20에서, 예 1 내지 예 19 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 생체 데이터가 세그먼트의 수신측 활성 화자의 성문을 포함한다는 것을 포함할 수 있다.

예 21에서, 예 1 내지 예 20 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 입력 및 출력 모듈이 각각의 세그먼트에 대한 디지털 권리 관리 정보를 그 세그먼트에 대한 대응하는 적어도 하나의 식별된 활성 화자로부터 수신하도록 구성되어 있다는 것과, 제어 모듈이, 적어도 디지털 권리 관리 정보를 마스터 오디오 파일에 포함시키는 것에 의해, 마스터 오디오 파일을 제작하도록 구성되어 있다는 것을 포함할 수 있다.

예 22에서, 예 1 내지 예 21 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 디지털 권리 관리 정보가 사용자 그룹에 대한 일 세트의 액세스 허가들을 규정한다는 것을 포함할 수 있다.

예 23에서, 예 1 내지 예 22 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 일 세트의 액세스 허가들이 판독 액세스, 기입 액세스, 및 배포 액세스 중 적어도 2개를 포함한다는 것을 포함할 수 있다.

예 24에서, 예 1 내지 예 23 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 오디오 포착 모듈, 제어 모듈 그리고 입력 및 출력 모듈이 녹음 디바이스 상에 있다는 것을 포함할 수 있다.

예 25에서, 예 1 내지 예 24 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 오디오 포착 모듈, 제어 모듈 그리고 입력 및 출력 모듈 중 적어도 하나가 녹음 디바이스 상에 있고 오디오 포착 모듈, 제어 모듈 그리고 입력 및 출력 모듈 중 적어도 하나가 별개의 컴퓨팅 디바이스 상에 있다는 것을 포함할 수 있다.

예 26에서, 예 1 내지 예 25 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 검증 정보가 그 세그먼트에 대한 대응하는 적어도 하나의 식별된 활성 화자가 세그먼트에서의 오디오를 생성했다는 검증을 포함한다는 것을 포함할 수 있다.

예 27에서, 예 1 내지 예 26 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 제어 모듈이 전화 회의에 대한 회의 연결을 제공하도록 구성되어 있다는 것을 포함할 수 있다.

예 28에서, 예 1 내지 예 27 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 마스터 오디오 파일을 재생하라는 명령을 사용자로부터 수신하는 것; 마스터 오디오 파일에서의 특정의 세그먼트에 대해 사용자가 그 특정의 세그먼트에 적용되는 DRM 조건을 충족시키지 않은 것으로 결정하는 것; 사용자가 그 특정의 세그먼트에 적용되는 DRM 조건을 충족시키지 않은 것으로 결정한 것에 응답하여, 그 세그먼트의 오디오를 재생하지 않는 것(이러한 동작들을 수행하도록 구성된 재생 모듈, 실행될 때 프로세서로 하여금 이러한 동작들을 수행하게 하는 명령어들, 또는 이러한 동작들을 포함하는 방법 단계들)을 포함할 수 있다.

예 29에서, 예 1 내지 예 28 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 마스터 오디오 파일을 재생하라는 명령을 사용자로부터 수신하는 것; 마스터 오디오 파일에서의 특정의 세그먼트에 대해 사용자가 제1 식별된 활성 화자에 대한 그 특정의 세그먼트에 적용되는 DRM 조건은 충족시켰지만 제2 식별된 활성 화자에 대한 그 특정의 세그먼트에 적용되는 제2 DRM 조건은 충족시키지 않은 것으로 결정하는 것; 사용자가 제1 식별된 활성 화자에 대한 그 특정의 세그먼트에 적용되는 DRM 조건은 충족시켰지만 제2 식별된 활성 화자에 대한 그 특정의 세그먼트에 적용되는 제2 DRM 조건은 충족시키지 않은 것으로 결정한 것에 응답하여, 제1 식별된 활성 화자가 말하고 있는 세그먼트의 부분들은 재생하고 제2 식별된 활성 화자가 말하고 있는 세그먼트의 부분들은 재생하지 않는 것(이러한 동작들을 수행하도록 구성된 재생 모듈, 실행될 때 프로세서로 하여금 이러한 동작들을 수행하게 하는 명령어들, 또는 이러한 동작들을 포함하는 방법 단계들)을 포함할 수 있다.

예 30에서, 예 1 내지 예 29 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 마스터 오디오 파일을 재생하라는 명령을 사용자로부터 수신하는 것; 사용자가 복수의 오디오 이벤트 세그먼트들의 각자의 것들에 적용되는 복수의 DRM 조건들 각각을 충족시켰는지를 결정하는 것; 및 사용자가 복수의 오디오 이벤트 세그먼트들의 각자의 것들에 적용되는 복수의 DRM 조건들 각각을 충족시킨 경우에만 오디오를 재생하는 것(이러한 동작들을 수행하도록 구성된 재생 모듈, 실행될 때 프로세서로 하여금 이러한 동작들을 수행하게 하는 명령어들, 또는 이러한 동작들을 포함하는 방법 단계들)을 포함할 수 있다.

예 31에서, 예 1 내지 예 30 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 마스터 오디오 파일의 녹취본을 디스플레이하라는 명령을 사용자로부터 수신하는 것; 마스터 오디오 파일에서의 특정의 세그먼트에 대해 사용자가 그 특정의 세그먼트에 적용되는 DRM 조건을 충족시키지 않은 것으로 결정하는 것; 사용자가 그 특정의 세그먼트에 적용되는 DRM 조건을 충족시키지 않은 것으로 결정한 것에 응답하여, 그 세그먼트의 녹취본을 디스플레이하지 않는 것(이러한 동작들을 수행하도록 구성된 재생 모듈, 실행될 때 프로세서로 하여금 이러한 동작들을 수행하게 하는 명령어들, 또는 이러한 동작들을 포함하는 방법 단계들)을 포함할 수 있다.

예 32에서, 예 1 내지 예 31 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 마스터 오디오 파일의 녹취본을 디스플레이하라는 명령을 사용자로부터 수신하는 것; 마스터 오디오 파일에서의 특정의 세그먼트에 대해 사용자가 제1 식별된 활성 화자에 대한 그 특정의 세그먼트에 적용되는 DRM 조건은 충족시켰지만 제2 식별된 활성 화자에 대한 그 특정의 세그먼트에 적용되는 제2 DRM 조건은 충족시키지 않은 것으로 결정하는 것; 사용자가 제1 식별된 활성 화자에 대한 그 특정의 세그먼트에 적용되는 DRM 조건은 충족시켰지만 제2 식별된 활성 화자에 대한 그 특정의 세그먼트에 적용되는 제2 DRM 조건은 충족시키지 않은 것으로 결정한 것에 응답하여, 제1 식별된 활성 화자가 말하고 있는 세그먼트의 부분들에 대한 녹취본은 디스플레이하고 제2 식별된 활성 화자가 말하고 있는 세그먼트의 부분들에 대한 녹취본은 디스플레이하지 않는 것(이러한 동작들을 수행하도록 구성된 재생 모듈, 실행될 때 프로세서로 하여금 이러한 동작들을 수행하게 하는 명령어들, 또는 이러한 동작들을 포함하는 방법 단계들)을 포함할 수 있다.

예 33에서, 예 1 내지 예 32 중 임의의 하나 이상의 예의 발명 요지는, 선택적으로, 마스터 오디오 파일의 녹취본을 디스플레이하라는 명령을 사용자로부터 수신하는 것; 사용자가 복수의 오디오 이벤트 세그먼트들의 각자의 것들에 적용되는 복수의 DRM 조건들 각각을 충족시켰는지를 결정하는 것; 및 사용자가 복수의 오디오 이벤트 세그먼트들의 각자의 것들에 적용되는 복수의 DRM 조건들 각각을 충족시킨 경우에만 녹취본을 디스플레이하는 것(이러한 동작들을 수행하도록 구성된 재생 모듈, 실행될 때 프로세서로 하여금 이러한 동작들을 수행하게 하는 명령어들, 또는 이러한 동작들을 포함하는 방법 단계들)을 포함할 수 있다.

Claims

오디오를 녹음하는 방법으로서,
하나 이상의 프로세서들을 사용하여,
오디오 이벤트의 복수의 참여자들로부터 음성 표본(voice exemplar)을 수신하는 동작;
상기 오디오 이벤트의 오디오를 녹음하는 동작;
상기 녹음된 오디오의 제1 오디오 이벤트 세그먼트 및 제2 오디오 이벤트 세그먼트를 결정하는 동작 - 상기 제1 오디오 이벤트 세그먼트 및 제2 오디오 이벤트 세그먼트는 적어도 하나의 식별된 활성 화자(active speaker)의 변화들을 식별하는 것에 기초하여 결정되고, 상기 제1 오디오 이벤트 세그먼트는 제1 세트의 하나 이상의 활성 화자를 가지고, 상기 제2 오디오 이벤트 세그먼트는 제2 세트의 하나 이상의 활성 화자를 가지고, 상기 적어도 하나의 식별된 활성 화자의 변화들은 상기 수신된 음성 표본들과 상기 제1 오디오 이벤트 세그먼트 및 제2 오디오 이벤트 세그먼트의 오디오의 정합에 기초하여 식별됨 -;
상기 제1 오디오 이벤트 세그먼트에 대한 상기 제1 세트의 활성 화자들 중 적어도 한 사람으로부터 상기 제1 오디오 이벤트 세그먼트에 대한 검증 정보를 수신하는 동작 - 상기 검증 정보는 상기 제1 오디오 이벤트 세그먼트가 상기 오디오 이벤트의 틀림없는 사본(accurate reproduction)인지 여부에 대한 상기 적어도 한 사람의 의견을 나타냄 -;
상기 제1 세트의 활성 화자들 중 상기 적어도 한 사람으로부터 상기 제1 오디오 이벤트 세그먼트에 대한 제1 디지털 권리 관리(DRM) 정보를 수신하는 동작;
상기 제2 오디오 이벤트 세그먼트에 대한 제2 DRM 정보를 수신하는 동작 - 상기 제1 DRM 정보는 상기 제1 오디오 이벤트 세그먼트에 대한 이용 제한을 특정하고, 상기 제2 DRM 정보는 상기 제2 오디오 이벤트 세그먼트에 대한 이용 제한을 특정하고, 상기 제1 DRM 정보 및 제2 DRM 정보는 상이한 이용 제한들을 특정함 -; 및
검증 정보, 제1 DRM 정보, 및 제2 DRM 정보를 수신한 것에 응답하여, 상기 제1 오디오 이벤트 세그먼트, 제2 오디오 이벤트 세그먼트, 및 상기 검증 정보를 포함하는 마스터 오디오 파일을 제작하는 동작 - 상기 마스터 오디오 파일은 상기 제1 오디오 이벤트 세그먼트에 대한 상기 제1 DRM 정보에 대응하는 제1 DRM 제한 및 상기 제2 오디오 이벤트 세그먼트에 대한 상기 제2 DRM 정보에 대응하는 제2 DRM 제한을 구현함 -
을 수행하는 것을 포함하는, 방법.
제1항에 있어서, 상기 제1 오디오 이벤트 세그먼트에 대한 검증 요청을 상기 제1 세트의 활성 화자들 중 상기 적어도 한 사람에게 송신하는 동작을 포함하는, 방법.
제2항에 있어서, 상기 검증 요청은 상기 제1 오디오 이벤트 세그먼트의 오디오 클립을 포함하는, 방법.
제2항에 있어서, 상기 제1 오디오 이벤트 세그먼트의 녹취본(transcript)을 자동으로 생성하는 동작을 포함하고, 상기 검증 요청은 상기 제1 오디오 이벤트 세그먼트의 상기 녹취본을 포함하는, 방법.
삭제
제1항에 있어서, 상기 디지털 권리 관리 정보는 사용자 그룹에 대한 일 세트의 액세스 허가들(a set of access permissions)을 규정하는, 방법.
제6항에 있어서, 상기 제1 오디오 이벤트 세그먼트에 대한 상기 일 세트의 액세스 허가들은 판독 액세스, 기입 액세스, 및 배포 액세스 중 적어도 2개를 포함하는, 방법.
제1항에 있어서,
상기 방법은 녹음 디바이스에 의해 수행되는 방법.
삭제
제1항에 있어서,
상기 마스터 오디오 파일을 재생하라는 명령을 사용자로부터 수신하는 동작;
상기 사용자가 상기 제1 오디오 이벤트 세그먼트에 적용되는 이용 제한을 충족시키지 않은 것으로 결정하는 동작;
상기 사용자가 상기 제1 오디오 이벤트 세그먼트에 적용되는 상기 제1 DRM 제한을 충족시키지 않은 것으로 결정한 것에 응답하여, 상기 제1 오디오 이벤트 세그먼트의 오디오를 재생하지 않는 동작; 및
상기 사용자가 상기 제2 오디오 이벤트 세그먼트에 적용되는 상기 제2 DRM 제한을 충족시킨 것으로 결정한 것에 응답하여, 상기 제2 오디오 이벤트 세그먼트의 오디오를 재생하는 동작
을 포함하는, 방법.
명령어들을 저장하는 컴퓨터 판독가능 저장 매체로서,
상기 명령어들은 컴퓨터에 의해 수행될 때, 상기 컴퓨터로 하여금,
오디오 이벤트의 복수의 참여자들 각각으로부터 음성 표본을 수신하는 동작;
상기 오디오 이벤트의 오디오를 녹음하는 동작;
상기 녹음된 오디오의 제1 오디오 이벤트 세그먼트 및 제2 오디오 이벤트 세그먼트를 결정하는 동작 - 상기 제1 오디오 이벤트 세그먼트 및 제2 오디오 이벤트 세그먼트는 적어도 하나의 식별된 활성 화자의 변화들을 식별하는 것에 기초하여 결정되고, 상기 제1 오디오 이벤트 세그먼트는 제1 세트의 하나 이상의 활성 화자를 가지고, 상기 제2 오디오 이벤트 세그먼트는 제2 세트의 하나 이상의 활성 화자를 가지고, 상기 적어도 하나의 식별된 활성 화자의 변화들은 상기 수신된 음성 표본들과 상기 제1 오디오 이벤트 세그먼트 및 제2 오디오 이벤트 세그먼트의 오디오의 정합에 기초하여 식별됨 -;
상기 제1 오디오 이벤트 세그먼트에 대한 상기 제1 세트의 활성 화자들 중 적어도 한 사람으로부터 상기 제1 오디오 이벤트 세그먼트에 대한 검증 정보를 수신하는 동작 - 상기 검증 정보는 상기 제1 오디오 이벤트 세그먼트가 상기 오디오 이벤트의 틀림없는 사본인지 여부에 대한 상기 적어도 한 사람의 의견을 나타냄 -;
상기 제1 세트의 활성 화자들 중 상기 적어도 한 사람으로부터 상기 제1 오디오 이벤트 세그먼트에 대한 제1 디지털 권리 관리(DRM) 정보를 수신하는 동작;
상기 제2 오디오 이벤트 세그먼트에 대한 제2 DRM 정보를 수신하는 동작 - 상기 제1 DRM 정보는 상기 제1 오디오 이벤트 세그먼트에 대한 이용 제한을 특정하고, 상기 제2 DRM 정보는 상기 제2 오디오 이벤트 세그먼트에 대한 이용 제한을 특정하고, 상기 제1 DRM 정보 및 제2 DRM 정보는 상이한 이용 제한들을 특정함 -; 및
검증 정보, 제1 DRM 정보, 및 제2 DRM 정보를 수신한 것에 응답하여, 상기 제1 오디오 이벤트 세그먼트, 제2 오디오 이벤트 세그먼트, 및 상기 검증 정보를 포함하는 마스터 오디오 파일을 제작하는 동작 - 상기 마스터 오디오 파일은 상기 제1 오디오 이벤트 세그먼트에 대한 상기 제1 DRM 정보에 대응하는 제1 DRM 제한 및 상기 제2 오디오 이벤트 세그먼트에 대한 상기 제2 DRM 정보에 대응하는 제2 DRM 제한을 구현함 -
을 포함하는 동작들을 수행하게 하는 컴퓨터 판독가능 저장 매체.
제11항에 있어서, 상기 명령어들은, 상기 컴퓨터에 의해 수행될 때, 상기 컴퓨터로 하여금, 상기 제1 오디오 이벤트 세그먼트에 대한 검증 요청을 상기 제1 세트의 활성 화자들 중 상기 적어도 한 사람에게 송신하는 동작을 수행하게 하는 명령어들을 더 포함하는 컴퓨터 판독가능 저장 매체.
제12항에 있어서, 상기 검증 요청은 상기 제1 오디오 이벤트 세그먼트의 오디오 클립을 포함하는 컴퓨터 판독가능 저장 매체.
제12항에 있어서, 상기 명령어들은, 상기 컴퓨터에 의해 수행될 때, 상기 컴퓨터로 하여금, 상기 제1 오디오 이벤트 세그먼트의 녹취본을 자동으로 생성하는 동작을 수행하게 하는 명령어들을 더 포함하고, 상기 검증 요청은 상기 제1 오디오 이벤트 세그먼트의 상기 녹취본을 포함하는 컴퓨터 판독가능 저장 매체.
제12항에 있어서, 상기 검증 요청은 생체 데이터를 포함하는 컴퓨터 판독가능 저장 매체.
삭제
삭제
오디오를 녹음하는 시스템으로서,
컴퓨터 프로세서; 및
상기 컴퓨터 프로세서에 통신 연결(communicatively coupled)되고, 명령어들을 포함하는 메모리
를 포함하고,
상기 명령어들은 상기 컴퓨터 프로세서에 의해 수행되는 경우, 상기 시스템으로 하여금,
오디오 이벤트의 복수의 참여자들로부터 음성 표본을 수신하는 동작;
상기 오디오 이벤트의 오디오를 녹음하는 동작;
상기 녹음된 오디오의 제1 오디오 이벤트 세그먼트 및 제2 오디오 이벤트 세그먼트를 결정하는 동작 - 상기 제1 오디오 이벤트 세그먼트 및 제2 오디오 이벤트 세그먼트는 적어도 하나의 식별된 활성 화자의 변화들을 식별하는 것에 기초하여 결정되고, 상기 제1 오디오 이벤트 세그먼트는 제1 세트의 하나 이상의 활성 화자를 가지고, 상기 제2 오디오 이벤트 세그먼트는 제2 세트의 하나 이상의 활성 화자를 가지고, 상기 적어도 하나의 식별된 활성 화자의 변화들은 상기 수신된 음성 표본들과 상기 제1 오디오 이벤트 세그먼트 및 제2 오디오 이벤트 세그먼트의 오디오의 정합에 기초하여 식별됨 -;
상기 제1 오디오 이벤트 세그먼트에 대한 상기 제1 세트의 활성 화자들 중 적어도 한 사람으로부터 상기 제1 오디오 이벤트 세그먼트에 대한 검증 정보를 수신하는 동작 - 상기 검증 정보는 상기 제1 오디오 이벤트 세그먼트가 상기 오디오 이벤트의 틀림없는 사본인지 여부에 대한 상기 적어도 한 사람의 의견을 나타냄 -;
상기 제1 세트의 활성 화자들 중 상기 적어도 한 사람으로부터 상기 제1 오디오 이벤트 세그먼트에 대한 제1 디지털 권리 관리(DRM) 정보를 수신하는 동작;
상기 제2 오디오 이벤트 세그먼트에 대한 제2 DRM 정보를 수신하는 동작 - 상기 제1 DRM 정보는 상기 제1 오디오 이벤트 세그먼트에 대한 이용 제한을 특정하고, 상기 제2 DRM 정보는 상기 제2 오디오 이벤트 세그먼트에 대한 이용 제한을 특정하고, 상기 제1 DRM 정보 및 제2 DRM 정보는 상이한 이용 제한들을 특정함 -; 및
상기 제1 오디오 이벤트 세그먼트, 제2 오디오 이벤트 세그먼트, 및 상기 검증 정보를 포함하는 마스터 오디오 파일을 제작하는 동작 - 상기 마스터 오디오 파일은 상기 검증 정보의 수신에 응답하여 상기 제1 오디오 이벤트 세그먼트에 대한 상기 제1 DRM 정보에 대응하는 제1 DRM 제한 및 상기 제2 오디오 이벤트 세그먼트에 대한 상기 제2 DRM 정보에 대응하는 제2 DRM 제한을 구현함 -
을 수행하게 하는, 시스템.
제18항에 있어서, 상기 동작들은 상기 제1 오디오 이벤트 세그먼트에 대한 검증 요청을 상기 제1 세트의 활성 화자들 중 상기 적어도 한 사람에게 송신하는 동작들을 포함하는, 시스템.
제19항에 있어서, 상기 검증 요청은 상기 제1 오디오 이벤트 세그먼트의 녹취본을 포함하는, 시스템.
삭제
제18항에 있어서, 상기 디지털 권리 관리 정보는 사용자 그룹에 대한 일 세트의 액세스 허가들을 규정하는, 시스템.
제22항에 있어서, 상기 제1 오디오 이벤트 세그먼트에 대한 상기 일 세트의 액세스 허가들은 판독 액세스, 기입 액세스, 및 배포 액세스 중 적어도 2개를 포함하는, 시스템.
삭제
제18항에 있어서,
상기 메모리는, 상기 컴퓨터 프로세서에 의해 수행되는 경우, 상기 시스템으로 하여금,
상기 마스터 오디오 파일을 재생하라는 명령을 사용자로부터 수신하는 동작;
상기 사용자가 상기 제1 오디오 이벤트 세그먼트에 적용되는 이용 제한을 충족시킨 것으로 결정하는 동작;
상기 사용자가 상기 제1 오디오 이벤트 세그먼트에 적용되는 상기 제1 DRM 제한을 충족시키지 않은 것으로 결정한 것에 응답하여, 상기 제1 오디오 이벤트 세그먼트의 오디오를 재생하지 않는 동작; 및
상기 사용자가 상기 제2 오디오 이벤트 세그먼트에 적용되는 상기 제2 DRM 제한을 충족시킨 것으로 결정한 것에 응답하여, 상기 제2 오디오 이벤트 세그먼트의 오디오를 재생하는 동작
을 수행하게 하는 명령어들을 포함하는, 시스템.