KR102629552B1

KR102629552B1 - 컴퓨팅 디바이스에서 콘텐츠의 청각적 부분을 자동으로 자막화하기

Info

Publication number: KR102629552B1
Application number: KR1020217036159A
Authority: KR
Inventors: 아사 조나스 이브리 블록; 엘리엇 찰스 버포드; 안토니 펠리스 트리팔디; 스테파니 비앙카 파타로; 헤더 파트리샤 루이폴드; 브라이언 켐러; 데만 켈시 호프 반; 나다브 바; 로버트 제임스 베리; 다니엘 코헨; 미첼 라마노비치; 토마스 위든 흄; 니콜 키아나 블루엘; 벤자민 슐레싱저; 저스틴 우영 이; 케빈 로카드; 에릭 로렌트
Original assignee: 구글 엘엘씨
Priority date: 2019-05-02
Filing date: 2019-06-03
Publication date: 2024-01-25
Also published as: JP2023175757A; KR20210151874A; DE112019007274T5; EP3963580A1; CN113692619A; JP2022530201A; US20220148614A1; KR20240013294A; WO2020222851A1; JP7348957B2

Abstract

콘텐츠를 자동으로 자막화하기 위한 컴퓨팅 디바이스가 설명된다. 컴퓨팅 디바이스는 종종 스피커로 전송되는 오디오 신호에 포함된 정보에 의존하는 다른 자막 시스템과 달리, 콘텐츠 소스로부터 출력되는 오디오 데이터로부터 직접 자막을 생성한다. 컴퓨팅 디바이스는 오디오 데이터가 자막화에 적합한지 또는 오디오 데이터가 어떤 다른 유형의 오디오 데이터인지 여부를 결정하기 위해 메타데이터를 분석할 수 있다. 자막화를 위한 오디오 데이터를 식별하는 것에 응답하여, 컴퓨팅 디바이스는 오디오 데이터로부터 해석되는 청각적 사운드의 설명을 신속하게 생성할 수 있다. 컴퓨팅 디바이스는 청각적 콘텐츠의 애플리케이션 소스에 상관없이 그리고 컴퓨팅 디바이스가 콘텐츠의 오디오를 생성하는지 여부에 관계없이 시각적으로 청각적 콘텐츠에 대한 설명을 제공할 수 있다.

Description

컴퓨팅 디바이스에서 콘텐츠의 청각적 부분을 자동으로 자막화하기

전문적으로 제작된 영화 및 TV 프로그램 이외에 대부분의 청각적 콘텐츠는 자막이 없으므로 청각에 어려움이 있거나 내용을 들을 수 없는 많은 사용자는 콘텐츠에 액세스할 수 없다. 일부 자동 자막 시스템을 사용할 수 있지만 이러한 시스템은 비싸고 복잡하며 유지 관리가 어려울 수 있다. 일부 자동 자막 시스템은 스피커에 대한 오디오 출력을 입력으로 요구하며 조용한 환경에서 자막을 제공하는데 적합하지 않을 수 있다. 자동 자막 시스템을 유지하는데 드는 비용과 복잡성을 피하기 위해 일부 컴퓨팅 디바이스는 자막화를 위해 원격 서버에 콘텐츠가 업로드되어야 하는 클라우드 기반 자막 서비스에 액세스하여 사용자 프라이버시 및 편의성을 잠재적으로 감소시킨다.

컴퓨팅 디바이스는 콘텐츠를 로컬 시스템 레벨 서비스로서 자동 자막화하기 위해 설명된다. 컴퓨팅 디바이스는 종종 스피커에 입력으로서 전송되는 오디오 신호에 포함된 정보에 의존하는 다른 자막 시스템과 달리, 콘텐츠 소스(예: 애플리케이션들)로부터 출력되는 오디오 데이터로부터 직접 자막을 생성한다. 컴퓨팅 디바이스는 오디오 데이터가 자막화에 적합한지 또는 오디오 데이터가 어떤 다른 유형의 오디오 데이터(예: 시스템 소리 효과)인지 여부를 결정하기 위해 메타데이터(예: 비-오디오 부분)를 분석할 수 있다.

자막화를 위한 오디오 데이터를 식별하고, 자동 자막화가 가능하다고(예를 들어, 사용자 입력을 통해) 결정하는 것에 응답하여, 컴퓨팅 디바이스는 기계 학습 모델을 사용하여 오디오 데이터로부터 해석되는 청각적 사운드의 설명을 신속하게 생성한다. 컴퓨팅 디바이스는 청각적 콘텐츠의 애플리케이션 소스에 상관없이 그리고 컴퓨팅 디바이스가 콘텐츠의 오디오(예: 청각적 사운드 신호)를 생성하는지 여부에 관계없이 시각적으로(예: 지속적 사용자 인터페이스 엘리먼트로서) 청각적 콘텐츠에 대한 설명을 제공할 수 있다. 이러한 방식으로, 컴퓨팅 디바이스는 오디오 데이터가 내장 자막을 포함하지 않더라도, 디바이스가 자막화를 위해 서버를 사용하지 않을 때, 그리고 컴퓨팅 디바이스가 음소거되고 청각적 사운드를 출력하지 않는 경우에도 콘텐츠의 가청 부분을 설명하기 위한 시스템 수준 오디오를 자막화한다.

스피커에 대한 입력으로서 생성된 오디오 신호와 달리 원본 오디오 데이터에 의존함으로써, 기계 학습 모델은 원래 콘텐츠 소스에서 의도된 대로 콘텐츠의 사운드를 보다 정확하게 표현하는 자막을 생성할 수 있다. 또한, 기계 학습 모델을 사용하기 전에 오디오 데이터가 자막화에 적절한지 여부를 결정함으로써, 컴퓨팅 디바이스는 거의 확실하게 자막화할 어느 것도 포함하지 않는 오디오 데이터의 일부를 포함하는 콘텐츠 소스에 의해 출력되는 모든 오디오 데이터를 과도하게 분석함으로써 리소스 낭비하는 것을 피할 수 있다. 이것은 더 작고 및/또는 덜 복잡한 기계 학습 모델이 사용될 수 있기 때문에 컴퓨팅 디바이스가 보다 효율적으로 실행될 수 있게 한다. 예를 들어, 기계 학습 모델은 자동으로 음성을 인식하고 음성을 포함하는 오디오 데이터만 분석할 수 있다. 이와 같이, 기계 학습 모델은 오디오 데이터를 생성하는 컴퓨팅 디바이스로부터 음성을 자동으로 인식하고 로컬적으로 사운드를 자동으로 분류하여 프라이버시 및 오프라인 편의성을 향상시킬 수 있다. 따라서, 컴퓨팅 디바이스는 자동 자막 시스템에 대한 사용자 만족도를 최소한으로 증가시킬 수 있는 방식으로 시스템 레벨 오디오를 자동 자막화할 수 있다. 의료적 도움이 필요한 사용자는 이러한 방식으로 오디오 데이터를 자동으로 자막화하는 컴퓨팅 디바이스(110)에 대한 액세스를 통해 삶의 질이 향상될 수 있다. 이전에 콘텐츠의 청각적 부분을 듣거나 이해할 수 없었던 사용자는 이제 의료적 도움없이 다른 사용자와 마찬가지로 콘텐츠를 즐길 수 있다.

본 개시를 통해, 컴퓨팅 디바이스가 정보(예를 들어, 오디오 데이터)를 분석할 수 있는 예들이 설명된다. 그러나, 컴퓨팅 디바이스는 컴퓨팅 디바이스가 데이터를 사용하기 위해 컴퓨팅 디바이스의 사용자로부터 명시적인 허가를 받은 후에만 정보를 사용할 수 있다. 예를 들어, 컴퓨팅 디바이스가 컴퓨팅 디바이스에서 실행되는 애플리케이션으로부터 출력되는 오디오 데이터를 분석하는 아래에서 논의되는 상황에서, 개별 사용자는 컴퓨팅 디바이스의 프로그램 또는 구성이 예를 들어 자동 자막화를 위해 오디오 데이터를 수집하고 사용할지 여부를 제어하기 위한 입력을 제공할 기회를 제공받을 수 있다. 개별 사용자는 프로그램이 오디오 데이터로 수행할 수 있는 것과 수행할 수 없는 것을 지속적으로 제어할 수 있다.

추가로, 수집된 정보는 그것이 컴퓨팅 디바이스 및/또는 원격 컴퓨팅 시스템에 의해 전송, 저장되거나 사용되기 전에 하나 이상의 방식들로 사전-처리되어, 개인적으로 식별가능한 정보는 제거된다. 예를 들어, 예시적 컴퓨팅 디바이스가 오디오 데이터로부터 생성된 캡션을 다른 디바이스와 공유하기 전에(예를 들어, 다른 디바이스에서 실행되는 모델을 트레이닝하기 위해), 예시적 컴퓨팅 디바이스는 오디오 데이터를 사전-처리하여 데이터에 내장된 임의의 사용자 식별 정보 또는 디바이스 식별 정보를 제거한다. 따라서, 사용자는 사용자 및 사용자의 디바이스에 관한 정보가 수집되는지 여부 및 어떻게 수집되는지, 수집된다면, 컴퓨팅 디바이스 및 원격 컴퓨팅 시스템에 의해 어떻게 사용되는지에 대한 제어를 가진다.

일 예시에서, 컴퓨팅 디바이스에서 콘텐츠의 청각적 부분을 자동 자막화하는 방법이 설명된다. 상기 방법은 상기 컴퓨팅 디바이스의 오디오 믹서로부터, 상기 컴퓨팅 디바이스에서 실행되는 애플리케이션으로부터 출력된 오디오 데이터를 획득하는 단계, 상기 오디오 데이터는 콘텐츠의 청각적 부분을 나타내는 비-메타데이터 및 선택적으로 메타데이터를 포함하며, 및 선택적으로 상기 오디오 데이터의 메타데이터로부터, 상기 오디오 데이터가 자동 자막화에 적합한 유형인지 여부를 결정하는 단계를 포함한다. 상기 방법은 상기 오디오 데이터가 자막화에 적합한 유형이라고 결정함에 응답하여, 상기 콘텐츠의 청각적 부분의 설명을 결정하는 단계, 및 상기 콘텐츠의 시각적 부분을 디스플레이하는 동안, 상기 콘텐츠의 청각적 부분의 설명을 디스플레이하기 위해 출력하는 단계를 포함한다.

다른 예시에서, 컴퓨팅 디바이스에서 콘텐츠의 청각적 부분을 자동 자막화하는 방법이 설명된다. 상기 방법은 상기 컴퓨팅 디바이스에 의해, 상기 컴퓨팅 디바이스에서 실행되는 애플리케이션의 그래픽 사용자 인터페이스를 디스플레이하는 단계, 상기 그래픽 사용자 인터페이스가 디스플레이되는 동안 상기 애플리케이션으로부터 오디오 데이터 출력을 획득하는 단계, 상기 오디오 데이터는 상기 콘텐츠의 청각적 부분을 표시하는 비-메타데이터 및 선택적으로 메타데이터를 포함하며, 및 선택적으로 상기 오디오 데이터의 메타데이터로부터, 상기 오디오 데이터가 자동 자막화에 적합한 유형인지 여부를 결정하는 단계를 포함한다. 상기 오디오 데이터가 자막화에 적합한 유형인지 결정함에 응답하여, 상기 방법은 콘텐츠의 오디오 부분의 설명을 결정하는 단계, 및 상기 애플리케이션의 그래픽 사용자 인터페이스에 콘텐츠의 시각적 부분을 디스플레이하는 동안, 상기 콘텐츠의 청각적 부분의 설명을 상기 애플리케이션의 그래픽 사용자 인터페이스와 별개의 지속적 엘리먼트로서 디스플레이하기 위해 출력하는 단계를 더 포함한다.

다른 예시에서, 컴퓨팅 디바이스에서 콘텐츠의 청각적 부분을 자동 자막화하는 방법이 설명된다. 상기 방법은 상기 컴퓨팅 디바이스에서 실행되는 애플리케이션으로부터 오디오 데이터를 자동적으로 자막화하기 위해 사용자 입력을 수신하는 단계, 및 상기 사용자 입력을 수신하는 것에 응답하여, 상기 컴퓨팅 디바이스에서 실행되는 애플리케이션으로부터 출력된 오디오 데이터를 획득하는 단계를 포함하며, 상기 오디오 데이터는 콘텐츠의 청각적 부분을 포함한다. 상기 방법은 선택적으로 상기 오디오 데이터의 메타데이터로부터, 상기 오디오 데이터가 자막화에 적합한 유형인지 여부를 결정하는 단계, 및 상기 오디오 데이터가 자막화에 적합한 유형이라고 결정함에 응답하여, 상기 콘텐츠의 청각적 부분의 설명을 결정하는 단계를 더 포함한다. 상기 방법은 상기 콘텐츠의 청각적 부분의 설명을 상기 콘텐츠의 시각적 부분과 별개이고 애플리케이션의 그래픽 사용자 인터페이스와 별개인 지속적 엘리먼트로서 디스플레이하기 위해 출력하는 단계를 포함한다.

다른 예에서, 전술한 예들 중 임의의 방법을 수행하도록 구성된 적어도 하나의 프로세서를 포함하는 컴퓨팅 디바이스가 설명된다.

다른 예에서, 전술한 예들 중 임의의 방법을 수행하기 위한 수단을 포함하는 시스템이 설명된다.

다른 예에서, 실행될 때, 전술한 예들 중 임의의 방법을 수행하게 하는 컴퓨팅 디바이스의 프로세서를 구성하는 명령어를 포함하는 컴퓨터 판독가능 저장 매체가 설명된다.

하나 이상의 구현예들의 세부 사항이 첨부 도면과 아래의 설명에서 기술된다. 다른 구성, 객체 및 이점은 아래의 설명, 도면 및 청구항으로부터 명백해질 것이다. 이 요약은 상세한 설명 및 도면에 자세히 설명된 주제를 소개하기 위해 제공된다. 따라서 이 요약은 필수 구성을 설명하는 것으로 간주되거나 청구된 주제의 범위를 제한하는데 사용되어서는 안된다.

자동 자막화의 하나 이상의 양태의 세부 사항이 아래에 설명된다. 설명 및 도면에서 상이한 경우에 동일한 참조 번호를 사용하는 것은 유사한 엘리먼트를 나타낸다:
도 1은 오디오 데이터를 자동 자막화하도록 구성된 컴퓨팅 디바이스를 나타내는 개념도이다.
도 2는 오디오 데이터를 자동 자막화하도록 구성된 컴퓨팅 디바이스를 나타내는 다른 개념도이다.
도 3은 오디오 데이터를 자동 자막화하도록 구성된 컴퓨팅 디바이스의 기계 학습 모델을 나타내는 개념도이다.
도 4는 오디오 데이터를 자동 자막화하도록 구성된 컴퓨팅 디바이스의 예시적 동작을 나타내는 흐름도이다.
도 5a 내지 5h는 오디오 데이터를 자동 자막화하는 컴퓨팅 디바이스의 예시적 사용자 인터페이스를 도시하는 각각의 스크린샷이다.

전문적으로 제작된 영화 및 TV 프로그램 이외에 대부분의 청각적 콘텐츠는 자막이 없으므로 청각에 어려움이 있거나 내용을 들을 수 없는 많은 사용자는 콘텐츠에 액세스할 수 없다. 수동 및 자동 자막 시스템이 존재하지만 다양한 단점이 있다.

예를 들어, 일부 수동 자막 시스템은 미리 기록된 콘텐츠에 포함된 내장 자막 정보에 기초하여 청각적 콘텐츠를 자막화한다. 다른 수동 자막 시스템은(예를 들어, 생방송 중) 사람 오퍼레이터로부터의 입력에 기초하여 콘텐츠를 자막화한다.

일부 자동 자막 시스템을 사용할 수 있지만 이러한 시스템은 비싸고 복잡하며 유지 관리가 어려울 수 있다. 예를 들어, 자동 자막 시스템은 자막 소스로서 사운드 시스템으로의 오디오 출력을 요구할 수 있다. 자막 시스템은 최소 사운드 레벨을 유지하기 위해 오디오 출력을 요구할 수 있으며, 이러한 시스템은 조용한 환경에서 작동하기에 적합하지 않다. 또한, 오디오 출력은 자막을 위한 사운드(예를 들어, 시스템 사운드, 다른 배경 애플리케이션의 사운드)보다 더 많은 청각적 사운드를 포함할 수 있으며, 따라서 컴퓨팅 디바이스의 모든 오디오 소스의 모든 사운드 소스에서 자막화하는 것이 더 오래 걸리고 리소스를 불필요하게 무분별하게 낭비할 수 있다.

일부 자동 자막 시스템은 애플리케이션 기반이며 컴퓨팅 디바이스에서 로컬로 실행될 수 있다. 그러나 이러한 시스템은 여전히 자막화하기 위해 인터넷 연결이 필요할 수 있다. 예를 들면, 자동 자막 시스템을 유지하는데 드는 비용과 복잡성을 피하기 위해, 컴퓨팅 디바이스는 자막화를 위해 원격 서버에 콘텐츠가 업로드되어야 하는 클라우드 기반 자막 서비스에 액세스하여 사용자 프라이버시 및 편의성을 잠재적으로 감소시킨다.

청각적 콘텐츠의 효율적이고 차별적 자동 자막화를 가능하게 하는 기법이 설명된다. 이 기법들은(예를 들어, 인터넷으로의) 네트워크 연결을 필요로 하지 않으며 사운드 시스템으로 전달되는 청각적 신호로부터 자막을 생성하지 않는다. 대신에, 예시적 컴퓨팅 디바이스는 컴퓨팅 디바이스의 오디오 믹서에 의해 수집된 오디오 데이터로부터 자막을 자동으로 생성할 수 있다. 전체에 걸쳐 사용된 바와 같이, "오디오 데이터"는 사운드를 출력으로 생성하기 위해 오디오 신호로 변환되는 시스템 오디오 믹서 또는 사운드 엔진으로 전송되는 정보를 지칭한다. 오디오 데이터는 이에 응답하여 생성된 오디오 신호와 대조적이다.

예시적 컴퓨팅 디바이스의 운영 체제 또는 플랫폼은 상이한 콘텐츠 소스(예를 들어, 애플리케이션)로부터 출력되는 오디오 데이터를 수집하고 오디오 데이터를 혼합하여 오디오 신호를 생성하는 시스템 레벨 오디오 믹서를 포함한다. 오디오 신호는 사운드 시스템에 의해 증폭되어 청각적 사운드를 생성할 수 있다. 오디오 신호를 무차별적으로 자막화하는 다른 자막 시스템과는 달리, 예시적 컴퓨팅 디바이스는 자막에 적합한 유형의 오디오 데이터로부터 청각적 콘텐츠를 자막화함으로써 청각적 콘텐츠를 차별적으로 자막화한다.

컴퓨팅 디바이스는 오디오 데이터가 자막화에 적합한지 또는 오디오 데이터가 어떤 다른 유형의 오디오 데이터(예: 시스템 소리 효과)인지 여부를 결정하기 위해 메타데이터(예: 오디오 데이터의 비-오디오 부분)를 분석할 수 있다. 오디오 신호에서 찾을 수 없는 메타데이터에 의존함으로써 컴퓨팅 디바이스는 자막용이 아닌 오디오 데이터를 신속하게 걸러 낼 수 있으므로 컴퓨팅 디바이스는 자막화될 수 없거나 자막화하지 않아야 하는 모든 콘텐츠를 자막화하려고 하는 다른 자막 시스템과 같은 리소스를 낭비하지 않게 한다.

자막화를 위한 오디오 데이터를 식별하고, 자동 자막화가 가능하다고(예를 들어, 사용자 입력을 통해) 결정하는 것에 응답하여, 컴퓨팅 디바이스는 기계 학습을 사용하여 트레이닝된 기계 학습 모델을 사용하여 오디오 데이터로부터 해석되는 청각적 사운드의 설명을 신속하게 생성한다. 예를 들어, 컴퓨팅 디바이스는 발화된 오디오의 전사를 결정하거나 비-발화된 오디오로부터의 특정 잡음과 특정 잡음에 대한 소스를 식별하기 위해 종단 간 재귀 신경 네트워크 변환기 자동 음성 인식 모델 또는 기타 기계 학습 모델에 의존할 수 있다.

컴퓨팅 디바이스는 청각적 콘텐츠의 소스에 상관없이 그리고 컴퓨팅 디바이스가 콘텐츠의 오디오(예: 청각적 사운드 신호)를 생성하는지 여부에 관계없이 시각적으로(예: 지속적 사용자 인터페이스 엘리먼트로서) 청각적 콘텐츠에 대한 설명을 제공할 수 있다. 이러한 방식으로, 컴퓨팅 디바이스는 콘텐츠가 내장된 자막을 포함하지 않고, 컴퓨팅 디바이스가 음소거되고 오디오 신호를 출력하지 않는 경우에도 콘텐츠의 청각적 부분에 대한 설명을 제공하는 시스템 레벨 자막 동작을 실행한다.

스피커에 대한 입력으로서 사용된 오디오 신호와 달리 오디오 데이터에 의존함으로써, 기계 학습 모델은 원래 콘텐츠 소스에서 의도된 대로 청각적 콘텐츠의 사운드를 보다 정확하게 표현하는 자막을 생성한다. 애플리케이션 또는 다른 콘텐츠 소스로부터의 오디오 데이터는 일반적으로 오디오 데이터가 콘텐츠 소스로부터 출력된 이후 변경되지 않기 때문에 청각적 콘텐츠의보다 보다 정확한 표현일 수 있다. 다른 자동 자막 시스템은 스피커에 대한 입력으로 의도된 프로세싱된 오디오 신호에 의존할 수 있으며, 따라서 콘텐츠 소스에 의해 의도된 것과의 차이를 유발할 수 있다.

또한, 설명을 위해 기계 학습 모델을 작업하기 전에 오디오 데이터가 자막화에 적절한지 여부를 결정함으로써, 컴퓨팅 디바이스는 거의 확실하게 자막화할 어느 것도 포함하지 않는 오디오 데이터의 일부를 포함하는 콘텐츠 소스에 의해 출력되는 모든 오디오 데이터를 과도하게 분석함으로써 리소스 낭비하는 것을 피한다. 이것은 컴퓨팅 디바이스가 더 작거나 덜 복잡한 기계 학습 모델을 트레이닝 및 실행하여 자동 음성 인식 및 자동 사운드 분류 기법을 수행할 수 있게 한다. 자막화에 적합하지 않은 다양한 유형의 오디오 데이터를 무시하기 위해 모델을 추가로 트레이닝할 필요가 없다. 또한 오디오 데이터가 생성되는 컴퓨팅 디바이스에서 모델을 로컬로 실행하여 개인 프라이버시 및 오프라인 편의성을 향상시킬 수 있다.

보다 정확한 데이터를 사용하면 기계 학습 모델의 정확도가 높아지고 관련 데이터만 사용하면 기계 학습 모델의 효율성이 높아져 자동 자막 시스템에 대한 사용자 만족도가 더욱 높아질 수 있다. 추가로, 의료적 도움이 필요한 사용자는 이러한 방식으로 오디오 데이터를 자동으로 자막화하는 컴퓨팅 디바이스(110)에 대한 액세스를 통해 삶의 질이 향상될 수 있다.

이 설명은 말한 발화된 콘텐츠의 전사를 포함할 수 있으며, 일부 경우에 화자의 이름 또는 설명을 식별할 수도 있다. 일부 경우에, 청각적 사운드는 비-발화된 콘텐츠, 예를 들어 동물 소리, 환경 소리 및 설명과 관련이 있거나 그렇지 않을 수 있는 다른 소리를 포함한다. 설명은 심지어 대응하는 소스(예를 들어, 짖는 개)를 식별하는 것을 포함하는 일부 비-발화된 소리(예를 들어, 개 짖음)에 대한 설명을 포함할 수 있다.

도 1은 오디오 데이터를 자동 자막화하도록 구성된 컴퓨팅 디바이스를 나타내는 개념도이다. 컴퓨팅 디바이스(100)는 모바일 또는 비-모바일 컴퓨팅 디바이스의 임의의 유형일 수 있다. 모바일 컴퓨팅 디바이스로서, 컴퓨팅 디바이스는 휴대폰, 랩톱 컴퓨터, 웨어러블 디바이스(예를 들어, 시계, 안경, 헤드폰, 의류), 태블릿 디바이스, 자동차/차량 디바이스, 휴대용 게임 디바이스, 및 전자 판독기 디바이스, 원격 제어 디바이스 또는 다른 모바일 컴퓨팅 디바이스일 수 있다. 비-모바일 컴퓨팅 디바이스로서, 컴퓨팅 디바이스(100)는 서버, 네트워크 터미널 디바이스, 데스크톱 컴퓨터, 텔레비전 디바이스, 엔터테인먼트 셋톱 디바이스, 스트리밍 미디어 디바이스, 탁상용 어시스턴트 디바이스, 스피커 디바이스, 사운드 시스템, 비휴대용 게임 디바이스, 비즈니스 회의 장비 또는 기타 비-모바일 컴퓨팅 디바이스를 나타낼 수 있다.

컴퓨팅 디바이스(100)는 스피커 컴포넌트(104), 디스플레이 컴포넌트(106) 및 입력 컴포넌트(108)를 포함하는 사용자 인터페이스 디바이스(102)를 포함한다. 컴퓨팅 디바이스(100)는 또한 운영 체제(110) 및 애플리케이션(112)을 포함한다. 이들 및 다른 컴포넌트들 컴퓨팅 디바이스(100)는 유선 및 무선 버스 및 링크의 사용을 포함하여 다양한 방식으로 통신 가능하게 연결된다. 컴퓨팅 디바이스(100)는 도 1에 도시된 것보다 더 많거나 적은 컴포넌트들을 포함할 수 있다.

운영 체제(110)는 일반적으로 사용자 인터페이스 디바이스(102) 및 다른 주변장치를 포함하여 컴퓨팅 디바이스(100)의 기능을 제어한다. 운영 체제(110)는 애플리케이션(112)과 같은 애플리케이션을 위한 실행 환경을 제공한다. 운영 체제(110)는 작업 스케줄링 및 다른 일반적으로 기능을 제어할 수 있으며, 일반적으로 시스템 레벨 사용자 인터페이스(114)를 통해 그렇게 한다.

사용자 인터페이스 디바이스(102)는 운영 체제(110)에 의해 제어되는 시스템 레벨 사용자 인터페이스(114)로의 입력 및 출력을 관리한다. 시스템 레벨 사용자 인터페이스(114)는 자동 자막을 디스플레이하기 위한 지속적 그래픽 엘리먼트(120)를 포함한다. 시스템 레벨 사용자 인터페이스(114)는 선택되면, 사용자 인터페이스(114)가 지속적 그래픽 엘리먼트(120)를 디스플레이할지의 여부를 포함하여 운영 체제(110)가 오디오 데이터를 자동으로 자막화할지 여부를 제어하는 하나 이상의 자막-제어 엘리먼트(122A 및 122B)를 더 포함한다. 일부 경우에, 자막-제어 엘리먼트(122A 및 122B)는 컴퓨팅 디바이스(100)가 오디오 데이터를 자동으로 자막화하는지 여부를 나타내는 아이콘을 포함할 수 있다. 시스템 레벨 인터페이스(114)는 애플리케이션(112)에 대한 애플리케이션 사용자 인터페이스(116)와 같은 컴퓨팅 디바이스(100)에서 실행되는 다른 애플리케이션의 사용자 인터페이스를 디스플레이할 수 있다.

디스플레이 컴포넌트(106) 및 스피커 컴포넌트(104)는 단일 컴포넌트로서 분리되거나 통합될 수 있다. 디스플레이 컴포넌트(106)는 LED, OLED 및 LCD 기술을 포함하는 임의의 적합한 디스플레이 기술로 제조될 수 있다. 스피커 컴포넌트(104)(예를 들어, 단일 스피커 또는 다중 스피커)는 입력으로서 오디오 신호를 수신하고 오디오 신호를 청각적 사운드로 변환하도록 구성된다. 입력 컴포넌트(108)는 마이크로폰, 존재-감응형 디바이스, 터치 스크린, 마우스, 키보드, 또는 사용자 입력을 수신하도록 구성된 다른 유형의 컴포넌트일 수 있다.

사용자 인터페이스 디바이스(102)는 입력 컴포넌트(108)에 의해 검출된 입력에 관한 정보를 출력할 수 있고, 운영 체제(110)는 검출된 입력을 사용자 인터페이스(114)의 엘리먼트와 상관시킬 수 있다. 입력 컴포넌트(108)(예를 들어, 제스처)에서 입력을 수신한 것에 응답하여, 운영 체제(110) 및/또는 애플리케이션(112)은 검출된 입력에 관한 정보를 사용자 인터페이스 디바이스(102)로부터 수신할 수 있다. 운영 체제(110) 또는 애플리케이션(112)은 입력에 응답하여 기능을 수행할 수 있다. 예를 들어, 운영 체제(110)는 입력이 자막-제어 엘리먼트(122A 또는 122B) 중 하나의 선택에 대응하고, 이에 응답하여 오디오 데이터를 자동으로 자막화(또는 자동 자막화 중단)하는 것으로 결정할 수 있다.

애플리케이션 사용자 인터페이스(116)는 영화, 애니메이션, 비디오 또는 내장된 오디오를 갖는 다른 콘텐츠와 같은 미디어 콘텐츠(118)를 포함한다. 미디어 콘텐츠(118)는 비디오 플랫폼, 스트리밍 플랫폼, 라디오, 또는 팟 캐스트, 비디오, 비디오 채팅 애플리케이션, 전화 애플리케이션, 또는 컴퓨팅 디바이스에서 액세스가능하거나 실행중인 다른 오디오 데이터 소스를 포함하는 임의의 멀티미디어 또는 소셜 미디어 콘텐츠일 수 있다.

애플리케이션(112)은 미디어 콘텐츠(118)를 운영 체제(110)에 출력할 수 있다. 디스플레이 컴포넌트(106)를 사용하여, 운영 체제(110)는 사용자 인터페이스 디바이스(102)가 애플리케이션 사용자 인터페이스(116) 내에서 미디어 콘텐츠(118)의 이미지 또는 다른 시각적 표현을 출력하게 할 수 있다. 컴퓨팅 디바이스(100)는 사용자 인터페이스 디바이스(102)로 하여금 미디어 콘텐츠(118)로부터 생성된 오디오 신호를 스피커 컴포넌트(104)로 전달하게 할 수 있다. 이러한 방식으로, 운영 체제(110)는 스피커 컴포넌트(104)가 디스플레이 컴포넌트(106)에 디스플레이된 이미지 또는 다른 비주얼과 동시에 오디오를 출력하게 한다.

동작에서, 운영 체제(110)는 청각적 콘텐츠의 일부를 자동으로 자막화한다. 컴퓨팅 디바이스는 운영 체제(110)의 오디오 믹서 또는 사운드 엔진으로부터 자막화에 사용되는 오디오 데이터를 획득한다. 애플리케이션(112)으로부터의 오디오 데이터는 미디어 콘텐츠(118)의 청각적 부분을 포함할 수 있다.

예를 들어, 도 1에 도시된 바와 같이, 컴퓨팅 디바이스(100)의 사용자는 디스플레이 컴포넌트(106)의 스크린 상에 디스플레이되는 미디어 콘텐츠(118)를 보고 애플리케이션(112)과 인터렉션할 수 있다. 사용자는 미디어 콘텐츠(118)의 자막화할 수 있지만, 미디어 콘텐츠(118)는 애플리케이션(112)이 자막을 생성하여 미디어 콘텐츠(118)에 내장할 방법이 없는 자막화되지 않은 오디오 데이터만을 포함한다.

그럼에도 불구하고, 사용자 입력(예를 들어, 선택가능한 제어 엘리먼트(122B)가 디스플레이된 디스플레이 컴포넌트(106)의 화면의 위치에 대응하는 입력 컴포넌트(108)의 위치에서의 터치 제스처)을 수신하는 것에 응답하여, 컴퓨팅 디바이스(100)는 애플리케이션(112)으로부터 출력되고 오디오 믹서에서 수신되는 동일한 오디오 데이터를 프로세싱함으로써 미디어 콘텐츠(118)의 청각적 부분을 자동으로 자막화할 수 있다.

오디오 믹서는 애플리케이션(112)을 포함하여 운영 체제(110)의 실행 환경 내에서 실행되는 다양한 콘텐츠 소스로부터 출력된 모든 오디오 데이터를 수집하도록 구성된다. 오디오 믹서는 콘텐츠를 생성하는 애플리케이션 소스와 콘텐츠로부터 사운드를 생성하는 스피커 컴포넌트(104) 사이의 인터페이스를 제공한다. 오디오 믹서는 원시 오디오 데이터 바이트 스트림을 관리하고, 오디오 데이터를 분석하고, 오디오 신호가 스피커 컴포넌트(104) 또는 사용자 인터페이스 디바이스(102)의 다른 적절한 출력 컴포넌트로 출력되도록 지시하여 사운드를 생성한다.

스피커 컴포넌트(104)로 전송된 오디오 신호들로부터 모든 오디오 데이터를 무차별적으로 자막화하기보다는, 운영 체제(110)는 메타데이터에 의존하여 자막화를 위한 콘텐츠의 청각적 부분에 자동 자막을 집중시킬 수 있다. 다시 말해서, 운영 체제(110)는 메타데이터에 기초하여 "자막 가능" 오디오 데이터를 식별하고, 모든 오디오 데이터가 자막 가능으로 간주되지 않는 한 모든 오디오 데이터를 자막화하는 것을 자제할 수 있다.

메타데이터의 일부 예는 애플리케이션 소스가 오디오 데이터를 출력하는 이유를 특정하는 사용 표시자를 포함한다. 오디오 믹서는 사용 표시자를 사용하여 오디오 데이터에 관한 라우팅, 포커스 및 볼륨 결정을 제어할 수 있다. 메타데이터는 오디오/비디오 동기화를 위한 정보뿐만 아니라 사운드 재생 방법을 추가로 특정하는 다른 플래그를 포함할 수 있다.

메타데이터는 애플리케이션 소스가 재생하고 있는 것을 특정하는 콘텐츠 유형(예를 들어, 음악, 영화, 음성, 음향, 알 수 없음)을 포함할 수 있다. 콘텐츠 유형은 콘텐츠의 일반적인 카테고리(예를 들어, 한 유형의 영화 스트림라이닝 서비스 및 다른 유형의 음악 스트리밍 서비스)를 표현할 수 있다. 오디오 믹서는 일부 오디오 사후 프로세싱을 선택적으로 구성하고 유형 식별자에서 다른 설정을 조정할 수 있다. 유형 식별자는 오디오 데이터가 영화 또는 텔레비전 프로그램과 함께 제공되는 사운드 트랙을 위한 것일 때 영화 유형을 특정할 수 있다. 유형 식별자는 콘텐츠가 노래(예를 들어, 사운드 트랙일 필요는 없음)인 경우 음악 유형 식별자를 특정할 수 있고, 유형 식별자는 콘텐츠가 발화된 오디오인 경우 음성 식별자(예를 들어, 뉴스 방송, 비디오 또는 전화 통화)를 표시할 수 있다. 다른 예로서, 콘텐츠 유형은 오디오 데이터가 사용자 액션(예를 들어, 키 클릭을 나타내는 비프음 또는 음향 효과) 또는 이벤트(예를 들어, 게임 중 보너스 달성을 위한 소리)를 수행하는데 사용되는 알림, 경고 또는 사운드를 위한 것인 경우 음향을 표시할 수 있다.

콘텐츠 유형에 의존하는 오디오 믹서 이외에, 운영 체제(110)는 메타데이터에서 선택적으로 발견되는 콘텐츠 유형 식별자에 기초하여 자막화를 위한 오디오 데이터를 식별한다. 예를 들어, 운영 체제(110)는 영화, 음악 또는 스피치 유형의 오디오 데이터를 자동으로 자막화하지만, 정의되지 않거나 다른 방식으로 정의된 일부 음향 유형 오디오 데이터 또는 다른 오디오 데이터에 대해서는 그렇지 않다. 이러한 방식으로, 운영 체제(110)는 콘텐츠 유형을 사용하여 오디오 데이터가 오디오를 필요로 하는 자막을 가질 가능성이 있는지 또는 오디오 데이터가 자막화용이 아닌 다른 사운드를 나타내는지를 결정할 수 있다.

미디어 콘텐츠(118)와 연관된 오디오 데이터의 유형이 자막화를 위한 것이라는 결정에 응답하여, 운영 체제(110)는 콘텐츠(118)의 청각적 부분의 설명을 결정한다. 예를 들어, 운영 체제(110)는 청각적 콘텐츠의 설명을 자막으로서 생성하도록 트레이닝된 기계 학습 모델(예를 들어, 종단 간 재귀 신경 네트워크 변환기 자동 음성 인식 모델)을 실행할 수 있다. 기계 학습 모델은 발화된 오디오의 전사를 포함하여 사운드의 설명을 학습하는데 적합한 모든 유형의 모델일 수 있다. 그러나, 운영 체제(110)에 의해 사용되는 기계 학습 모델은 크기가 더 작고 덜 복잡할 수 있는데, 기계 학습 모델은 특정 유형의 콘텐츠로부터 사운드 및 발화된 오디오를 식별하기 위해 트레이닝될 필요가 있기 때문이다. 기계 학습 모델은 오디오 믹서로 전송되는 모든 오디오 데이터를 프로세싱할 필요는 없으며 자막화를 위한 콘텐츠를 포함할 가능성이 있는 특정 오디오 데이터만 프로세싱한다. 이와 달리 원격 프로세싱 기능과 콘텐츠의 원격 업로드가 필요한 다른 자막화 시스템은 프라이버시를 위험에 빠뜨리고 편의를 희생한다.

운영 체제(110)는 기계 학습 모델로부터 설명을 수신하고 그 설명을 사용자에게 디스플레이한다. 설명은 발화된 대화나 노래의 전사를 포함할 수 있다. 설명은 사운드에 대한 컨텍스트를 식별하거나 스피커, 가수, 또는 개별 배우 또는 공연자를 식별할 수 있다. 설명은 예를 들어, 개의 오디오가 검출될 때 "개 짖는 소리" 또는 꽝닫는 문의 오디오를 위한 "도어 닫힘"과 같은 소리 설명을 포함할 수 있다.

애플리케이션 사용자 인터페이스(116) 내에 미디어 콘텐츠(118)의 시각적 부분을 디스플레이하는 동안, 운영 체제(110)는 콘텐츠의 청각적 부분에 대한 설명을 디스플레이하기 위해 출력한다. 예를 들어, 운영 체제(110)는 지속적 엘리먼트(120)를 애플리케이션 사용자 인터페이스(116)의 상단에 나타나는 사용자 인터페이스(114)의 오버레이 및 사용자 인터페이스(114)의 다른 그래픽 엘리먼트로서 제시할 수 있다. 사용자는 지속적 엘리먼트(120)를 조작하여 디스플레이 스크린의 다른 영역으로 이동하거나 엘리먼트의 크기를 확대 또는 축소하여 추가 또는 더 적은 자막을 보여줄 수 있다.

스피커에 대한 입력으로서 생성된 오디오 신호와 달리 원본 오디오 데이터에 의존함으로써, 운영 체제(110)의 기계 학습 모델은 원래 콘텐츠 소스(예: 애플리케이션(112))에서 의도된 대로 미디어 콘텐츠(118)의 사운드를 보다 정확하게 표현하는 자막을 생성할 수 있다. 또한, 기계 학습 모델을 사용하기 전에 오디오 데이터가 자막화를 위한 것인지의 여부를 결정함으로써, 운영 체제(110)는 자막화를 위해 아무것도 포함하지 않는 것을 포함하여 애플리케이션(112)에 의해 출력되는 모든 오디오 데이터를 과분석하는 자원을 낭비하는 것을 피한다. 이는 컴퓨팅 디바이스(110)가 보다 효율적이고 더 작고 및/또는 덜 복잡한 기계 학습 모델을 실행할 수 있게 한다. 이와 같이, 기계 학습 모델은 오디오 데이터를 생성하는 컴퓨팅 디바이스(110)로부터 로컬로 자동 음성 인식 및 자동 사운드 분류 기법을 수행하여 프라이버시 및 오프라인 편의성을 향상시킬 수 있다. 따라서, 컴퓨팅 디바이스(110)는 자동 자막 시스템에 대한 사용자 만족도를 최소한으로 증가시킬 수 있는 방식으로 시스템 레벨 오디오를 자동 자막화할 수 있다. 의료적 도움이 필요한 사용자는 이러한 방식으로 오디오 데이터를 자동으로 자막화하는 컴퓨팅 디바이스(110)에 대한 액세스를 통해 삶의 질이 향상될 수 있다.

도 2는 오디오 데이터를 자동 자막화하도록 구성된 컴퓨팅 디바이스(200)를 나타내는 다른 개념도이다. 컴퓨팅 디바이스(200)는 컴퓨팅 디바이스(100)의 예이며, 일부 추가 세부 사항을 가진다. 도 2에 도시된 바와 같이, 컴퓨팅 디바이스(200)는 모바일폰(100-1), 랩톱 컴퓨터(100-2), 텔레비전/디스플레이(100-3), 데스크톱 컴퓨터(100-4), 태블릿 디바이스100-5), 컴퓨터 시계(100-6) 또는 다른 웨어러블 디바이스 또는 차량에 설치된 컴퓨팅 시스템(100-7)일 수 있다.

도 1에 도시된 각각의 컴포넌트 외에, 컴퓨팅 디바이스(200)는 하나 이상의 프로세서(202), 컴퓨터 판독가능 매체(204), 하나 이상의 센서(210), 하나 이상의 입/출력(I/O) 디바이스(212) 및 하나 이상의 통신 디바이스(214)를 포함한다. 컴퓨터 판독가능 매체(212)는 프로세서(102)에 의해 실행될 때 애플리케이션(112) 및 운영 체제(110)를 실행하는 명령어를 포함한다.

프로세서(202)는 하나 이상의 컨트롤러, 마이크로 컨트롤러, 프로세서, 마이크로 프로세서, 하드웨어 프로세서, 하드웨어 프로세싱 유닛, 디지털 신호 프로세서, 그래픽 프로세서, 그래픽 프로세싱 유닛 등의 임의의 조합을 포함할 수 있다. 프로세서(202)는 컴퓨터 프로세서 실행가능 명령어를 프로세싱하여 컴퓨팅 디바이스(200)의 동작을 제어하는 통합 프로세서 및 메모리 서브시스템(예를 들어, SoC로 구현됨)일 수 있다.

센서(210)는 물리적 동작 환경에서 기능하면서 컴퓨팅 디바이스의 물리적 동작 환경 및/또는 컴퓨팅 디바이스(200)의 특성을 나타내는 컨텍스트 정보를 획득한다. 센서(210)의 예는 움직임 센서, 온도 센서, 위치 센서, 근접 센서, 주변 광 센서, 수분 센서, 압력 센서 등을 포함한다. 운영 체제(110)는 센서(210)에 의해 획득된 센서 정보에 따라 컴퓨팅 디바이스(200)의 동작을 조정할 수 있다.

입/출력 디바이스(212)는 디바이스, 데이터 네트워크(예를 들어, 메시 네트워크, 외부 네트워크 등) 및 다른 디바이스 사이의 연결 및/또는 통신 링크를 제공하는 데이터 네트워크 인터페이스를 포함하는 컴퓨팅 디바이스(200) 및 다른 디바이스 및 주변 장치에 대한 연결을 제공한다. 입력/출력 디바이스(212)는 컴퓨팅 디바이스(200)를 임의의 유형의 컴포넌트, 주변 장치 및/또는 액세서리 디바이스에 연결하는데 사용될 수 있다. 입력/출력 디바이스(212)는 또한 컴퓨팅 디바이스(200)에 대한 사용자 입력뿐만 아니라 임의의 유형의 통신 데이터, 임의의 콘텐츠 및/또는 데이터 소스로부터 수신된 오디오, 비디오 및/또는 이미지 데이터뿐만 아니라 임의의 유형의 데이터, 미디어 콘텐츠 및/또는 입력이 수신될 수 있는 데이터 입력 포트를 포함한다.

통신 디바이스(214)는 애플리케이션(112)과 같은 컴퓨팅 디바이스(200) 상에서 실행되는 임의의 유형의 미디어 콘텐츠와 같은 디바이스 데이터(506)의 유선 및/또는 무선 통신을 가능하게 한다. 통신 디바이스(214)는 또한 셀룰러 전화 통신 및/또는 네트워크 데이터 통신을 위한 송수신기를 포함할 수 있다.

컴퓨터 판독가능 매체(204)는 컴퓨팅 디바이스(200)에 실행가능 명령어(예를 들어, 펌웨어, 복구 펌웨어, 소프트웨어, 애플리케이션, 모듈, 프로그램, 기능 등) 및 상기 명령어의 실행을 지원하는 데이터(예를 들어, 사용자 데이터, 동작 데이터)의 영구 및 비영구적 저장을 제공하도록 구성된다. 컴퓨터 판독가능 매체(204)의 예는 휘발성 메모리 및 비휘발성 메모리, 고정 및 제거 가능 미디어 디바이스 및 실행 가능한 명령어 및 지원 데이터를 유지하는 임의의 적절한 메모리 디바이스 또는 전자 데이터 저장소를 포함한다. 컴퓨터 판독가능 매체(204)는 다양한 메모리 디바이스 구성의 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 플래시 메모리 및 다른 유형의 저장 메모리의 다양한 구현을 포함할 수 있다. 컴퓨터 판독 가능 매체(204)는 전파 신호를 배제한다. 컴퓨터 판독 가능 매체(204)는 솔리드 스테이트 드라이브(SSD) 또는 하드 디스크 드라이브(HDD) 일 수 있다. 도 2의 예에서 컴퓨터 판독 가능 매체(204)는 애플리케이션(112) 및 운영 체제(110)를 포함한다.

컴퓨팅 디바이스(200)의 운영 체제(110)는 오디오 믹서(206) 및 자막 모듈(208)을 포함한다. 오디오 믹서(206) 및 자막 모듈(208)은 운영 체제(110)의 특수 하드웨어 또는 소프트웨어 컴포넌트로서 구현될 수 있다. 다른 예들에서, 오디오 믹서(206) 또는 자막 모듈(208)은 운영 체제(110)에 로컬로 설치된 시스템 플러그인 또는 추가 애드온 서비스로서 운영 체제(110)와 별도로 구현될 수 있다.

오디오 믹서(206)는 운영 체제(110)에 의해 제공되는 운영 환경 내에서 실행되는 애플리케이션에 의해 생성된 오디오 데이터를 통합하도록 구성된다. 오디오 믹서(206)는 애플리케이션(112)과 같은 애플리케이션으로부터의 오디오 스트림을 결합하고, 스피커 컴포넌트(206)로부터 결합되어 출력될 때 오디오 스트림으로 인코딩된 사운드를 재생하는 오디오 출력 신호를 생성한다. 오디오 믹서(206)는 다른 방식, 예를 들어 초점, 의도 및 볼륨을 제어하는 방식으로 오디오 신호를 조정할 수 있다.

자막 모듈(208)은 오디오 믹서(206)에 의해 수신된(예를 들어, 바이트 스트림으로서) 원시 형태의 오디오 데이터를 자동으로 자막화하도록 구성된다. 자막화를 위해 모든 사후-혼합 오디오 신호를 프로세싱하는 대신에, 자막 모듈(208)은 자막화에 적합한 오디오 믹서(206)에서 수신된 오디오 데이터의 개별적인 사전-혼합된 스트림을 식별한다. 예를 들어, 자막 모듈(208)은 시스템 비프음 및 링과 같은 통지 또는 음향 유형 오디오 데이터가 아닌 발화된 오디오 유형 오디오 데이터를 자동으로 자막화할 수 있다. 자막 모듈(208)은 오디오 믹서(206)에 의해 수신된 바이트 스트림에 필터를 적용하여 자막화에 적합한 유형의 오디오 데이터를 식별할 수 있다. 자막 모듈(208)은 기계 학습 모델을 사용하여 자막을 위해 식별된 오디오 데이터에 의해 표현되는 사운드의 설명을 결정한다.

도 3은 오디오 데이터를 자동 자막화하도록 구성된 컴퓨팅 디바이스의 기계 학습 모델을 나타내는 개념도이다. 기계 학습 모델(300)은 자막 모듈(208)의 일부일 수 있다. 즉, 자막 모델(208)은 오디오 데이터를 반드시 사운드로 변환하지 않고도 코딩된 오디오 데이터를 청각적 콘텐츠의 상세한 설명 또는 캡션으로 자동 변환하는 기계 학습 모델(300)을 포함할 수 있다. 컴퓨팅 디바이스(200)는 오디오 데이터(312)에서 발견된 콘텐츠의 청각적 부분의 설명(318)을 결정하기 위해 자막 모듈(208)을 실행하는 부분으로서 기계 학습 모델(300)을 실행할 수 있다. 기계 학습 모델(300)은 오디오 데이터(312)에 응답하여 설명(318)을 제공하는 단일 모델로 결합된 하나 이상의 유형의 기계 학습 모델을 포함할 수 있다.

기계 학습 모델(300)은 추론을 수행하도록 구성되고; 기계 학습 모델(300)은 입력으로서 오디오 데이터(312)를 수신하고, 오디오 데이터(312)로부터 기계 학습 모델(300)에 의해 결정된 사운드의 설명(318)(예를 들어, 자막)을 출력 데이터로서 제공하도록 트레이닝된다. 오디오 데이터(312)에 포함된 임의의 주석(즉, 주석이 달린 데이터) 외에, 오디오 데이터(312)는 자막을 위해 주석이 달리지 않은 주석이 없는 데이터를 포함할 수 있다. 기계 학습 모델(300)을 사용하여 추론을 수행함으로써, 자막 모듈(208)은 오디오 데이터(312)를 로컬적으로 그리고 운영 체제(110)의 안전한 엔클레이브 내에서 프로세싱하여 사용자 프라이버시 및 보안을 보장한다.

기계 학습 모델(300)은 다양한 유형의 기계 학습 모델 중 하나 이상이거나 이를 포함할 수 있다. 또한, 기계 학습 모델(300)을 트레이닝하는데 사용되는 본 명세서에 설명된 기계 학습 기법은 쉽게 상호 교환 가능하고 결합 가능할 수 있다. 특정 예시적 기법들이 설명되었지만, 많은 다른 기술이 존재하고 본 개시의 양태와 함께 사용될 수 있다. 기계 학습 모델(300)은 분류, 회귀, 클러스터링, 이상 탐지, 추천 생성 및/또는 다른 작업을 수행할 수 있다.

기계 학습 모델(300)은 지도 학습 기법을 사용하여 트레이닝될 수 있다. 예를 들어, 기계 학습 모델(300)은 대응하는 오디오 데이터 예로부터 추론된 설명의 예를 포함하는 트레이닝 데이터 세트에 기초하여 트레이닝될 수 있다. 기계 학습 모델(300)은 비지도 학습 기법을 사용하여 트레이닝될 수도 있다.

기계 학습 모델(300)은 하나 이상의 인공 신경 네트워크("신경 네트워크"의 유형)이거나 이를 포함할 수 있다. 신경 네트워크로서, 기계-학습 모델(300)은 뉴런 또는 퍼셉트론(perceptron)으로 지칭되는 연결되거나 완전 연결되지 않은 노드 그룹을 포함할 수 있다. 신경 네트워크로서, 기계 학습 모델(300)은 하나 이상의 레이어로 구성될 수 있으며, 일부 경우에 "심층" 네트워크로서 구성될 때 다중 레이어를 포함할 수 있다. 심층 네트워크로서, 기계 학습 모델(300)은 입력 레이어, 출력 레이어, 입력 레이어와 출력 레이어 사이에 위치한 하나 이상의 히든 레이어를 포함할 수 있다.

기계 학습 모델(300)은 하나 이상의 순환 신경 네트워크이거나 이를 포함할 수 있다. 예를 들어, 기계-학습된 모델은 종단간 순한-신경-네트워크-트랜스듀서 자동 음성 인식 모델로서 구현될 수 있다. 예시적 순환 신경 네트워크는 장단기(LSTM) 순환 신경 네트워크; 게이트 순환 단위; 양방향 순환 신경 네트워크; 연속 시간 순환 신경 네트워크; 신경 이력 압축기; 에코 상태 네트워크; 엘만 네트워크; 조단 네트워크; 재귀 신경 네트워크; 홉필드 네트워크; 완전 순환 네트워크; 시퀀스 대 시퀀스 구성을 포함한다.

순환 신경 네트워크의 노드 중 적어도 일부가 사이클을 형성할 수 있다. 순환 신경 네트워크로 구성된 경우, 기계 학습 모델(300)은 고유한 순차적 특성을 갖는 오디오 데이터(312)와 같이 본질적으로 순차적인 입력 데이터를 프로세싱하는데 특히 유용할 수 있다. 순환 신경 네트워크는 순환 또는 지시된 사이클 노드 연결의 사용을 통해 입력 데이터 시퀀스의 이전 부분에서 입력 데이터 시퀀스의 후속 부분으로 정보를 전달하거나 유지할 수 있다. 예를 들어, 기계 학습 모델(300)은 이전 부분과 후속 부분 사이의 순환적 또는 지시된 주기적 노드 연결의 사용을 통해 오디오 데이터(312)의 이전 부분으로부터 오디오 데이터(312)의 후속 부분으로 정보를 전달하거나 유지할 수 있다.

정의에 의해, 오디오 데이터(312)는 순차적이며 시계열 데이터(예를 들어, 사운드 데이터 대 시간)를 포함할 수 있다. 순환 신경 네트워크로서, 기계 학습 모델(300)은 오디오 데이터(312)의 자막을 생성하기 위해 발화된 데이터 및 비-발화된, 그러나 관련된 사운드를 검출 또는 예측하기 위해 시간에 따라 오디오 데이터(312)를 분석할 수 있다. 보다 구체적으로, 오디오 데이터(312)로부터의 순차 사운드는(예를 들어, 자연어 프로세싱, 음성 검출 또는 프로세싱을 위해) 문장에서 발화된 단어를 표시할 수 있다.

기계 학습 모델(300)은 하나 이상의 컨볼루션 신경 네트워크이거나 이를 포함할 수 있다. 컨볼루션 신경 네트워크는 학습된 필터 또는 커널을 사용하여 입력 데이터에 대해 컨볼루션을 수행하는 하나 이상의 컨볼루션 레이어를 포함할 수 있다. 컨볼루션 신경 네트워크는 스틸 이미지 또는 비디오와 같은 이미지 입력 데이터를 분석할 때와 같은 시각적 문제를 진단하는데 유용하다고 알려져 있다. 그러나, 컨볼루션 신경 네트워크는 또한 순차 오디오 데이터(312)로부터 자막을 생성할 때와 같이 사운드 데이터의 자연어 프로세싱에도 적용될 수 있다.

기계 학습 모델(300)은 기계 학습을 사용하여 입력 데이터로서 오디오 데이터(312)를 수신하고 이에 응답하여 설명(318)을 출력 데이터로서 제공하도록 트레이닝될 수 있다. 입력 데이터는 오디오 데이터의 다양한 유형, 형식 또는 변형이 포함할 수 있다. 예로서, 다양한 구현예에서, 오디오 데이터(312)는 애플리케이션으로부터 오디오 믹서로 전달되는 원시의 사전 혼합된 오디오 바이트 스트림 데이터를 포함할 수 있고, 오디오 데이터(312)는 또한 프로세싱된 바이트 스트림 데이터를 포함할 수 있다.

오디오 데이터(312)의 수신에 응답하여, 기계 학습 모델(300)은 설명(318)을 제공할 수 있다. 출력 데이터는 출력 데이터의 다양한 유형, 형식 또는 변형을 포함할 수 있다. 예로서, 다양한 구현예에서, 출력 데이터는 디스플레이되고 있는 시각적 콘텐츠에 대응하는 청각적 콘텐츠의 설명을 포함할 수 있다.

기계 학습 모델(300)은 오프라인 방식 또는 온라인 방식으로 트레이닝될 수 있다. 오프라인 트레이닝(배치 학습이라고도 함)에서, 기계 학습 모델(300) 모델은 정적 트레이닝 데이터 세트 전체에 대해 트레이닝되며, 온라인 학습에서, 기계 학습 모델(300)은 가용하게 된 새로운 트레이닝 데이터로서 계속 트레이닝(또는 재-트레이닝)된다(예: 기계 학습 모델(300)이 추론을 수행하는데 사용되는 동안). 예를 들어, 기계 학습 모델(300)은 초기에 청각적 콘텐츠(예를 들어, 영화 자막)에 이미 적용된 자막을 복제하도록 트레이닝될 수 있다. 기계 학습 모델(300)이 오디오 데이터(312)의 설명을 추론하기 위해 사용됨에 따라, 오디오 데이터(312)의 설명 및 대응하는 부분은 기계 학습 모델(300)에 새로운 트레이닝 데이터로 다시 제공되어, 기계 학습 모델(300)이 계속 설명을 개선하게 할 수 있다. 사용자는 기계 학습 모델(300)에 입력을 제공하여 특정 설명에 오류가 있는 것으로 플래그를 지정할 기회를 제공받을 수 있다. 설명이 잘못될 수 있다는 신호는 또한 미래 예측을 개선하기 위해 기계 학습 모델(300)을 트레이닝하는데 사용될 수 있다.

자막 모듈(208)의 일부로서, 기계 학습 모델(300)은 운영 체제(110)의 일부일 수 있고, 따라서 자동 자막을 위해 오디오 데이터를 안전하고 개인적으로 프로세싱하기 위해 안전한 엔클레이브에 포함될 수 있다. 운영 체제(110)와 인터렉션하는 애플리케이션은 기계 학습 모델(300)과 인터렉션하여 설명(318)으로 오디오 데이터(312)를 프로세싱할 수 있다. 예를 들어, 애플리케이션(112)은 애플리케이션 프로그래밍 인터페이스(API)(예를 들어, 모든 애플리케이션에 대한 공통의 공용 API)를 사용하여 운영 체제(110)를 통해 모델(300)과 통신할 수 있다.

도 4는 오디오 데이터를 자동 자막화하도록 구성된 컴퓨팅 디바이스의 예시적 동작(400)을 나타내는 흐름도이다. 도 1 및 도 2의 컴퓨팅 디바이스(100 또는 200)는 동작(400)을 수행할 수 있다. 동작(400)은 도 4에 도시된 것과 추가 또는 더 적은 작업을 포함하여 다른 순서로 수행될 수 있다. 도(400)는 컴퓨팅 디바이스(200)의 컨텍스트에서 아래에 기술된다.

402에서, 컴퓨팅 디바이스(200)는 자동 자막을 수행하기 위해 개인 데이터를 이용하는 것에 대한 동의를 얻는다. 예를 들어, 컴퓨팅 디바이스(200)는 컴퓨팅 디바이스(200)가 오디오 데이터를 사용하기 위해 컴퓨팅 디바이스(200)의 사용자로부터 명시적 허가를 수신한 후에 오디오 데이터만을 사용하여 자막을 생성할 수 있다.

404에서, 컴퓨팅 디바이스(200)는 애플리케이션의 그래픽 사용자 인터페이스를 디스플레이한다. 예를 들어, 컴퓨팅 디바이스(200)는 디스플레이 컴포넌트(108)가 사용자 인터페이스(114)를 제시하고 애플리케이션 사용자 인터페이스(116)를 보여주도록 지시할 수 있다.

404에서, 컴퓨팅 디바이스(200)는 콘텐츠의 청각적 부분을 포함하는 애플리케이션으로부터 오디오 데이터를 획득한다. 예를 들어, 애플리케이션(112)은 미디어 콘텐츠(118)를 렌더링하고 재생할 수 있다. 자막을 제공하기 위해, 예를 들어, 미디어 콘텐츠(118)가 주석이 달린 자막을 포함하지 않는 경우, 자막 모듈(208)은 오디오 데이터가 오디오 믹서(206)에서 수신될 때 애플리케이션(112)으로부터 출력되는 오디오 데이터를 추출할 수 있다.

406에서, 컴퓨팅 디바이스(200)는 오디오 데이터가 캡션에 적합한지 여부를 결정한다. 예를 들어, 자막 모듈(208)은 알림 사운드 및 콘텐츠에 수반되는 다른 유형의 사운드와 같이 자막이 필요하지 않은 유형의 오디오 데이터를 필터링할 수 있다. 자막 모듈(208)은 오디오 데이터에 내장된 메타데이터에서 발견된 유형 식별자에 기초하여 오디오 데이터가 자막을 위한 것인지 여부를 결정한다. 자막 모듈(208)은 오디오 데이터에 포함된 주석(사전 생성된 캡션)을 나타내는 메타데이터에 기초하여 오디오 데이터가 자막을 위한 것인지를 결정한다. 오디오 데이터가 이미 자막을 가지고 있다는 결정에 응답하여, 자막 모듈(208)은 자동 자막을 수행하는 것을 포기하고 설명 내에 미리 채워진 자막을 디스플레이할 수 있다.

운영 체제(110) 및 오디오 믹서(206)는 애플리케이션이 출력에 할당할 수 있는 다양한 유형의 오디오 데이터를 정의할 수 있다. 컴퓨팅 디바이스(200)에서 실행되는 다른 애플리케이션과 마찬가지로, 애플리케이션(112)은 API를 사용하여 오디오 데이터를 오디오 믹서(206)에 출력한다. API는 예를 들어, 오디오 믹서(206)가 데이터로부터 결정된 오디오 출력을 정확하게 믹싱 및 분배하는 것을 돕기 위해 메타데이터 내에 오디오 데이터 유형을 지정하기 위한 파라미터를 포함할 수 있다. 자막 모듈(208)은 오디오 데이터 유형에 의존하여 사운드를 전달하는 대신 메타데이터에서 선택적으로 발견되는 유형 식별자를 사용하여 자막화 수행 여부를 빠르고 쉽게 결정할 수 있다. 구체적으로, 자막 모듈(208)은 오디오 데이터가 자막화될 수 있는지를 결정하기 위해 특정 유형의 오디오 데이터, 특정 포맷, 지속 기간, 또는 오디오 데이터의 다른 품질 및 특성을 키잉할 수 있다. 자막화에 적합한 일부 유형의 오디오 데이터는 영화 유형 오디오 데이터, 음악 유형 오디오 데이터 및 음성 유형 오디오 데이터가 포함한다. 대조적으로, 사운드는 콘텐츠를 전달하기 위한 것이 아니라 이벤트 또는 사용자 액션을 의미하기 때문에, 음향 유형 오디오 데이터 및 기타 정의되지 않은 오디오 데이터 유형은 자막화에 적합하지 않을 수 있다.

오디오 데이터가 자막용이 아닌 경우, 414에서, 컴퓨팅 디바이스(200)는 콘텐츠의 시각적 부분을 디스플레이한다. 예를 들어, 컴퓨팅 디바이스(200)는 미디어 콘텐츠(118)를 디스플레이 컴포넌트(108)에 디스플레이할 수 있다.

그러나, 408에서, 컴퓨팅 디바이스(200)는 오디오 데이터가 자막화를 위한 것이라고 결정하면, 컴퓨팅 디바이스(200)는 사용자에 의해 자동 자막이 선택되는지 여부에 기초하여 데이터를 자동으로 자막화할지 여부를 결정한다. 예를 들어, 414에서, 사용자가 사용자 인터페이스(114) 또는 운영 체제(110)의 설정 메뉴에서 자동 자막을 활성화하지 않은 경우, 컴퓨팅 디바이스(200)는 오디오 데이터를 자동으로 자막화하는 것을 억제하고 대신 설명 자막을 생성하지 않고 콘텐츠의 시각적 부분을 디스플레이한다. 사용자가 설정 메뉴 등으로부터 적절한 옵션을 선택함으로써 자동 자막을 가능하게 한 경우, 410에서, 자막 모듈(208)은 기계 학습 모델을 사용하여 콘텐츠의 청각적 부분에 대한 설명을 결정한다. 예를 들어, 자막 모듈(208)은 애플리케이션(112)과 같은 애플리케이션으로부터 출력되는 원시 오디오 데이터를 취하고 오디오 데이터로부터 발화된 단어 및 비발화된 사운드를 식별하기 위해 트레이닝된 순환 신경 네트워크에 기초한 종단간 자동 음성 인식을 실행하여 발화된 단어를 적힌 단어로 궁극적으로 전사하고 발화된 사운드를 자막으로 디스플레이하기 위한 사운드의 적힌 설명으로 전환할 수 있다.

자막 모듈(208)은 컴퓨팅 디바이스(200)의 컨텍스트에 기초하여 종단간 자동 음성 인식 모델을 편향하는 것을 포함하여 다양한 방식으로 대화 내용의 기록 및 사운드의 설명의 정확성을 향상시킬 수 있다. 예를 들어, 자막 모듈(208)은 콘텐츠의 시각적 부분 또는 화면에 디스플레이된 다른 정보에 기초하여 모델을 편향할 수 있다. 예를 들어, 가청 내레이션을 포함하는 프레젠테이션(예를 들어, 슬라이드 쇼)의 청각적 부분에 대한 설명을 생성할 때, 종단간 자동 음성 인식 모델은 프레젠테이션의 슬라이드에 포함된 텍스트 또는 이미지의 일부를 사용하여 편향되어 설명을 생성함으로써 설명의 정확성을 향상시킨다. 자막 모델(208)은 기계 학습 모델을 편향하기 위해 위치 정보 및 컴퓨팅 디바이스(200) 상에서 실행되는 다른 애플리케이션에 관한 정보와 같은 다른 유형의 컨텍스트 정보를 사용할 수 있다.

412에서, 컴퓨팅 디바이스(200)는 설명을 디스플레이한다. 예를 들어, 자막 모듈(208)은 기계 학습 모델(300)이 애플리케이션(112)으로부터 원시 오디오 스트림을 수신함에 따라 생성되는 설명의 표시를 출력할 수 있다.

컴퓨팅 디바이스(200)는 일부 경우에 설명을 디스플레이하기 전에 설명의 일부를 번역할 수 있다. 예를 들어, 자막 모듈(208)은 운영 체제(110)로부터 사용자의 선호 언어를 결정하고, 선택적으로 설명을 생성하는 동안 오디오 콘텐츠를 번역하여, 설명의 텍스트가 오디오 콘텐츠의 원래 언어가 아닌 사용자의 선호 언어로 작성되도록 할 수 있다. 이러한 방식으로, 예를 들어, 일본의 사용자는 콘텐츠의 오디오가 중국어 또는 영어와 같은 다른 언어로 기록되더라도, 일본어 또는 다른 선호 언어로 청각적 콘텐츠의 설명을 볼 수 있다.

414에서, 컴퓨팅 디바이스(200)는 콘텐츠의 시각적 부분을 설명과 동시에 디스플레이한다. 운영 체제(110)는 디스플레이를 위해 출력되는 미디어 콘텐츠(118)의 청각적 부분의 설명을 판독하기 위해, 사용자가 애플리케이션 사용자 인터페이스 위로 이동할 수 있는 지속적 그래픽 엘리먼트로 설명을 포맷할 수 있다.

도 5a 내지 5h는 오디오 데이터를 자동 자막화하는 컴퓨팅 디바이스의 예시적 사용자 인터페이스를 도시하는 각각의 스크린샷이다. 도 5a 내지 5h는 컴퓨팅 디바이스(200)의 맥락에서 연속적으로 설명된다.

도 5a에서, 컴퓨팅 디바이스(200)는 사용자 인터페이스(114)를 디스플레이 컴포넌트(108)에 디스플레이한다. 사용자 인터페이스(114)는 운영 체제(110)와 연관되고 애플리케이션(112)에 의해 제어되는 애플리케이션 사용자 인터페이스(116)를 도시한다. 애플리케이션 사용자 인터페이스(116) 내에서, 애플리케이션(112)은 미디어 콘텐츠(118)를 포함한다.

도 5b는 설정 메뉴(502)를 보여주기 위해 사용자 입력을 수신한 것에 응답한 사용자 인터페이스(114)의 스크린샷이다. 도 5b의 예에서, 설정 메뉴(502)는 볼륨 제어, 경고 설정(504), 음소거 제어 등을 조정하기 위한 오디오 설정 메뉴이다. 또한, 설정 메뉴 아래에, 컴퓨팅 디바이스(200)는 자막-제어 엘리먼트(122A)를 디스플레이한다. 컴퓨팅 디바이스(200)는 자막-제어 엘리먼트(122A)의 사용자 선택을 검출한 것에 응답하여 오디오 데이터를 자동으로 캡션하기 위한 사용자 입력을 결정한다. 예를 들어, 도 5c는 선택에 응답하여 자막-제어 엘리먼트(122A)를 교체한 자막-제어 엘리먼트(122B)를 도시한다.

일부 경우에, 자막-제어 엘리먼트(122B)의 선택을 수신한 것에 응답하여, 컴퓨팅 디바이스(200)는 컴퓨팅 디바이스(200) 상의 콘텐츠의 청각적 부분을 자막화하는 것을 자동으로 중단한다. 이러한 방식으로, 제어 엘리먼트(122A 및 122B)는 사용자에게 자동 자막을 신속하게 시작 및 중지할 수 있는 능력을 제공한다.

도 5d에 도시된 바와 같이, 선택에 응답하여, 컴퓨팅 디바이스는 기계 학습 모델을 사용하여 애플리케이션(112)으로부터 출력된 오디오 데이터를 자동으로 자막화한다. 컴퓨팅 디바이스(200)는 출력과 연관된 신뢰 레벨을 포함하는 자막 모듈(208)로부터의 출력에 기초하여 미디어 콘텐츠(118)의 청각적 부분에 대한 설명을 생성한다.

운영 체제(110)는 디스플레이 컴포넌트(108)가 운영 체제(110)가 사용자 인터페이스(114) 내에 포함하는 지속적 엘리먼트(506) 내에 설명을 디스플레이하게 할 수 있다. 일부 경우에, 운영 체제(110)는 스피커 컴포넌트(106)(예를 들어, 스피커, 헤드폰 잭, 또는 컴퓨팅 디바이스(200)의 다른 사운드 시스템)를 사용하여 콘텐츠의 청각적 부분을 출력하는 것을 억제하면서 지속적 엘리먼트(506)를 디스플레이할 수 있다. 다른 자막 시스템과 달리, 컴퓨팅 시스템(200)은 청각적 사운드를 생성하지 않고 콘텐츠를 자막화할 수 있다. 다른 경우에, 운영 체제(110)는 스피커 컴포넌트(106)(예를 들어, 스피커, 헤드폰 잭, 또는 컴퓨팅 디바이스(200)의 다른 사운드 시스템)를 사용하여 콘텐츠의 청각적 부분을 동시에 출력하면서 보청기 기능을 제공하고 지속적 엘리먼트(506)를 디스플레이할 수 있다.

5E의 예에서, 컴퓨팅 디바이스(200)는 지속적 엘리먼트(506)가 사용자 인터페이스(114)의 제1 위치에서 사용자 인터페이스(114)의 제2 위치로 이동하여, 지속적 엘리먼트(506)가 어떻게 미디어 콘텐츠(118)와 분리되고 구별되는지를 설명한다. 컴퓨팅 디바이스(200)의 사용자는 사용자 인터페이스의 제1 위치에 대응하는 입력 컴포넌트(110)의 위치에서 제스처를 제공하고, 사용자 인터페이스(114)의 제2 위치에 대응하는 입력 컴포넌트의 다른 위치로 입력을 드래그할 수 있다. 컴퓨팅 디바이스(200)는 지속적 엘리먼트(506)가 제스처와 함께 이동하게 할 수 있다.

이러한 방식으로 도 5e는 지속적 엘리먼트(506)와 연관된 사용자 입력을 수신하는 것에 응답하여, 컴퓨팅 디바이스(200)가 지속적 엘리먼트를 애플리케이션 사용자 인터페이스(116) 및 사용자 인터페이스(114)의 제1 부분으로부터 멀어지도록하여 애플리케이션 사용자 인터페이스(116) 및 사용자 인터페이스(114)의 제2 상이한 부분을 가릴 수 있음을 도시한다. 이것은 사용자가 오디오 데이터가 자막화되고 있고 사용자 인터페이스(114)의 상단에 지속적으로 디스플레이되는 동안 사용자가 멀티 태스킹, 예를 들어 사용자 인터페이스(116) 내에 디스플레이된 콘텐츠를 스크롤할 수 있게 할 수 있다.

5F의 예에서, 컴퓨팅 디바이스(200)는 지속적 엘리먼트(506)를 제1 크기에서 제2(더 크거나 더 작은) 크기로 확대하여, 지속적 엘리먼트(506)가 어떻게 커스터마이징될 수 있는지를 설명한다. 컴퓨팅 디바이스(200)의 사용자는 지속적 컴포넌트(506)에 대응하는 입력 컴포넌트(110)의 위치에서 제스처를 제공하여 지속적 컴포넌트를 신장시키거나 지속적 컴포넌트를 축소시킬 수 있다. 일부 경우에, 지속적 엘리먼트(506)와 연관된 사용자 입력을 수신하는 것에 응답하여, 컴퓨팅 디바이스(200)는 지속적 엘리먼트(506)의 크기를 수정하여 콘텐츠의 청각적 부분으로부터 생성된 이전 또는 후속 설명을 디스플레이할 수 있다. 이러한 방식으로, 컴퓨팅 디바이스(200)는 사용자 입력(예를 들어, 제스처)에 대한 크기의 변화에 따라 지속적 엘리먼트(506)가 크기를 변경하게 하고, 결과적으로 특정 시간에 지속적 엘리먼트(506)에 얼마나 많은 설명이 포함되는지를 조정한다.

도 5g에 도시된 바와 같이, 지속적 엘리먼트(506)에 디스플레이되는 콘텐츠의 청각적 부분의 설명은 콘텐츠의 청각적 부분의 상이한 부분에 대해 발화된 또는 비발화된 소스를 식별하는 텍스트를 포함한다. 예를 들어, 지속적 엘리먼트(506)는 자막 모듈(208)의 기계 학습 모델이 사자로부터 나오는 큰 포효하는 소리를 식별했음을 나타낸다. 비발화된 오디오를 나타내는 텍스트가 콘텐츠의 청각적 부분으로부터의 발화된 오디오의 전사와 함께 지속적 엘리먼트(506)에 또한 포함된다. 예를 들어, 미디어 콘텐츠(118)에서의 뉴스 리포터 대화의 전사는 사자의 포효의 표시 안밖에 디스플레이되어, 미디어 콘텐츠(118)의 자막을 따라가기 쉽게 제공한다.

일반적으로, 컴퓨팅 디바이스(200)는 지속적 엘리먼트(506) 내의 설명의 일부로서 잡음에 대한 설명 및 잡음에 대한 소스의 표시를 포함할 수 있다. 잡음은 동물원으로부터의 동물 소음, 환경적 소스로부터의 환경 소음 등을 포함할 수 있다. 자막 모듈(208)의 기계 학습 모델은 오디오 데이터로부터 발화된 및 비발화된 오디오를 식별하고 컴퓨팅 디바이스(200)의 사용자가 청각적 콘텐츠를 이해하기에 충분한 설명으로 오디오를 설명하도록 트레이닝된다.

제1절. 컴퓨팅 디바이스에서 콘텐츠의 청각적 부분을 자동으로 자막화하기 위한 방법으로서, 상기 컴퓨팅 디바이스의 오디오 믹서로부터, 상기 컴퓨팅 디바이스에서 실행되는 애플리케이션으로부터 출력된 오디오 데이터를 획득하는 단계, 상기 오디오 데이터는 콘텐츠의 청각적 부분을 나타내는 데이터를 포함하며; 상기 오디오 데이터로부터, 상기 오디오 데이터가 자막화에 적합한 유형인지 여부를 결정하는 단계; 상기 오디오 데이터가 자막화에 적합한 유형이라고 결정함에 응답하여, 상기 콘텐츠의 청각적 부분의 설명을 결정하는 단계; 및 상기 콘텐츠의 시각적 부분을 디스플레이하는 동안, 상기 콘텐츠의 청각적 부분의 설명을 디스플레이하기 위해 출력하는 단계를 포함하는, 방법.

제2절. 제1절에 있어서, 상기 콘텐츠의 청각적 부분을 나타내는 데이터는 메타데이터가 아니며, 상기 오디오 데이터는 메타데이터를 더 포함하고, 상기 오디오 데이터가 자막화에 적합한 유형인지 여부를 결정하는 단계는 상기 오디오 데이터가 자막화에 적합한 유형인지 여부를 메타데이터로부터 결정하는 것을 포함하는, 방법.

제3절. 제1절 및 제2절에 있어서, 상기 콘텐츠의 청각적 부분의 설명은 상기 콘텐츠의 청각적 부분으로부터의 발화된 오디오의 전사를 포함하는, 방법.

제4절. 제1절 내지 제3절 중 어느 하나에 있어서, 상기 콘텐츠의 청각적 부분의 설명은 상기 콘텐츠의 청각적 부분으로부터의 비-발화된 오디오의 설명을 포함하는, 방법.

제5절. 제4절에 있어서, 상기 비-발화된 오디오는 특정한 소스로부터의 소음을 포함하고, 상기 특정한 소스로부터의 소음의 설명은 상기 특정한 소스의 표시를 포함하는, 방법.

제6절. 제5절에 있어서, 상기 소음은 동물 소스로부터의 동물 소음을 포함하거나 상기 소음은 동물이 아닌 소스로부터의 환경 소음을 포함하는, 방법.

제7절. 제1절 내지 제6절 중 어느 하나에 있어서, 상기 콘텐츠의 청각적 부분의 설명을 결정하는 단계는, 상기 컴퓨팅 디바이스에 의해, 상기 콘텐츠의 청각적 부분의 설명을 결정하기 위해 상기 오디오 데이터로부터 설명을 결정하도록 트레이닝된 기계 학습 모델을 실행하는 것을 포함하는, 방법.

제8절. 제7절에 있어서, 상기 기계 학습 모델은 종단 간 순환 신경 네트워크 트랜스듀서 자동 음성 인식 모델을 포함하는, 방법.

제9절. 제1절 내지 제8절 중 어느 하나에 있어서, 상기 콘텐츠의 청각적 부분을 나타내는 데이터는 자막화를 위해 주석이 달리지 않은 주석이 없는 데이터를 포함하는, 방법.

제10절. 컴퓨팅 디바이스에서 콘텐츠의 청각적 부분을 자동으로 자막화하기 위한 방법으로서, 상기 컴퓨팅 디바이스에 의해, 상기 컴퓨팅 디바이스에서 실행되는 애플리케이션의 그래픽 사용자 인터페이스를 디스플레이하는 단계; 상기 그래픽 사용자 인터페이스가 디스플레이되는 동안 상기 애플리케이션으로부터 오디오 데이터 출력을 획득하는 단계, 상기 오디오 데이터는 상기 콘텐츠의 청각적 부분을 표시하는 데이터를 포함하며; 상기 오디오 데이터로부터, 상기 오디오 데이터가 자동 자막화에 적합한 유형인지 여부를 결정하는 단계; 상기 오디오 데이터가 자동 자막화에 적합한 유형이라고 결정함에 응답하여, 상기 콘텐츠의 청각적 부분의 설명을 결정하는 단계; 및 상기 애플리케이션의 그래픽 사용자 인터페이스에 콘텐츠의 시각적 부분을 디스플레이하는 동안, 상기 콘텐츠의 청각적 부분의 설명을 상기 애플리케이션의 그래픽 사용자 인터페이스와 별개의 지속적 엘리먼트로서 디스플레이하기 위해 출력하는 단계를 포함하는, 방법.

제11절. 제10절에 있어서, 상기 설명은 상기 콘텐츠의 청각적 부분으로부터 추출된 발화된 오디오의 전사 또는 상기 콘텐츠의 청각적 부분으로부터 추출된 비-발화된 오디오를 나타내는 텍스트 중 적어도 하나를 포함하는, 방법.

제12절. 제10절 내지 제11절 중 어느 하나에 있어서, 상기 콘텐츠의 청각적 부분을 나타내는 데이터는 메타데이터가 아니며, 상기 오디오 데이터는 메타데이터를 더 포함하고, 상기 오디오 데이터가 자막화에 적합한 유형인지 여부를 결정하는 단계는 상기 오디오 데이터가 자막화에 적합한 유형인지 여부를 메타데이터로부터 결정하는 것을 포함하는, 방법.

제13절. 제10절 내지 제12절 중 어느 하나에 있어서, 상기 설명은 상기 콘텐츠의 청각적 부분의 상이한 부분에 대한 인간 및 비-인간 소스를 식별하는 텍스트를 포함하는, 방법.

제14절. 제10절 내지 제13절 중 어느 하나에 있어서, 지속적 엘리먼트와 연관된 사용자 입력을 수신하는 것에 응답하여, 지속적 엘리먼트의 크기를 수정하여 콘텐츠의 청각적 부분으로부터 생성된 이전 또는 후속 설명을 디스플레이하는 단계를 더 포함하는, 방법.

제15절. 제10절 내지 제14절 중 어느 하나에 있어서, 상기 지속적 엘리먼트는 상기 애플리케이션의 그래픽 사용자 인터페이스의 제1 부분을 가리면서 디스플레이하기 위해 출력되며, 상기 방법은: 상기 지속적 엘리먼트와 연관된 사용자 입력을 수신하는 것에 응답하여, 상기 애플리케이션의 그래픽 사용자 인터페이스의 제2 부분을 가리기 위해 상기 애플리케이션의 그래픽 사용자 인터페이스의 제1 부분으로부터 멀어지게 상기 지속적 엘리먼트를 이동하는 단계를 더 포함하는, 방법.

제16절. 컴퓨팅 디바이스에서 콘텐츠의 청각적 부분을 자동으로 자막화하기 위한 방법으로서, 상기 컴퓨팅 디바이스에서 실행되는 애플리케이션으로부터 오디오 데이터를 자동적으로 자막화하기 위해 사용자 입력을 수신하는 단계; 상기 사용자 입력을 수신하는 것에 응답하여, 상기 컴퓨팅 디바이스에서 실행되는 애플리케이션으로부터 출력된 오디오 데이터를 획득하는 단계, 상기 오디오 데이터는 콘텐츠의 청각적 부분을 나타내는 데이터를 포함하며; 상기 오디오 데이터로부터, 상기 오디오 데이터가 자막화에 적합한 유형인지 여부를 결정하는 단계; 상기 오디오 데이터가 자막화에 적합한 유형이라고 결정함에 응답하여, 상기 콘텐츠의 청각적 부분의 설명을 결정하는 단계; 및 상기 콘텐츠의 청각적 부분의 설명을 상기 콘텐츠의 시각적 부분과 별개이고 애플리케이션의 그래픽 사용자 인터페이스와 별개인 지속적 엘리먼트로서 디스플레이하기 위해 출력하는 단계를 포함하는, 방법.

제17절. 제16절에 있어서, 상기 콘텐츠의 청각적 부분을 나타내는 데이터는 메타데이터가 아니며, 상기 오디오 데이터는 메타데이터를 더 포함하고, 상기 오디오 데이터가 자막화에 적합한 유형인지 여부를 결정하는 단계는 상기 오디오 데이터가 자막화에 적합한 유형인지 여부를 메타데이터로부터 결정하는 것을 포함하는, 방법.

제18절. 제16절 또는 제17절 중 어느 하나에 있어서, 상기 오디오 데이터를 자동적으로 자막화하기 위해 사용자 입력을 수신하는 단계는: 상기 컴퓨팅 디바이스의 오디오 설정 메뉴 내에서 자막-제어 엘리먼트를 디스플레이하는 단계; 및 상기 자막-제어 엘리먼트의 사용자 선택을 검출하는 것에 응답하여, 상기 오디오 데이터를 자동적으로 자막화하기 위해 사용자 입력을 수신하는 단계를 포함하는, 방법.

제19절. 제18절에 있어서, 자막-제어 엘리먼트의 후속 선택을 수신하는 것에 응답하여, 상기 컴퓨팅 디바이스 상의 콘텐츠의 청각적 부분을 자막화하는 것을 자동으로 중단하는 단계를 더 포함하는, 방법.

제20절. 제16절 내지 제19절 중 어느 하나에 있어서, 상기 콘텐츠의 청각적 부분의 설명을 출력하는 단계는 스피커, 헤드폰 잭 또는 컴퓨팅 디바이스의 다른 사운드 시스템을 사용하여 상기 콘텐츠의 청각적 부분을 출력하는 것을 억제하면서 설명을 출력하는 단계를 포함하는, 방법.

제21절. 제16절 내지 제19절 중 어느 하나에 있어서, 상기 콘텐츠의 청각적 부분의 설명을 출력하는 단계는 스피커, 헤드폰 잭 또는 컴퓨팅 디바이스의 다른 사운드 시스템을 사용하여 콘텐츠의 청각적 부분을 출력하는 동안 설명을 출력하는 단계를 포함하는, 방법.

제22절. 제1절 내지 제21절 중 어느 하나에 있어서, 오디오 데이터의 설명을 결정하기 위해 기계 학습 모델을 트레이닝하는 단계를 더 포함하고, 상기 설명을 결정하는 단계는 상기 설명을 결정하기 위해 상기 기계 학습 모델을 사용하는 단계를 포함하는, 방법.

제23절. 제22절에 있어서, 상기 기계 학습 모델을 트레이닝하는 단계는 이전에 자막화된 콘텐츠의 오디오로부터 이전에 자막화된 콘텐츠에 내정된 자막을 추론하기 위해 기계 학습 모델을 구성하도록 이전에 자막화된 콘텐츠를 사용하는 단계를 포함하는, 방법.

제24절. 제22절에 있어서, 상기 기계 학습 모델을 트레이닝하는 단계는 상기 설명을 상기 기계 학습 모델에 대한 트레이닝 입력으로서 사용하는 단계를 포함하는, 방법.

제25절. 제1절 내지 제24절 중 어느 하나의 방법을 수행하도록 구성된 적어도 하나의 프로세서를 포함하는, 컴퓨팅 디바이스.

제26절. 제1절 내지 제24절 중 어느 하나의 방법을 수행하기 위한 수단을 포함하는, 시스템.

제27절. 명령어들을 포함하는 컴퓨터 판독가능 저장 매체로서, 상기 명령어들은 실행될 때, 컴퓨팅 디바이스의 적어도 하나의 프로세서로 하여금 제1절 내지 제24절 중 어느 하나의 방법을 수행하게 하는, 컴퓨터 판독가능 저장 매체.

본 개시의 다양한 바람직한 실시예가 전술한 설명에서 설명되고 도면에 도시되었지만, 본 개시는 이에 제한되지 않고 다음의 청구항의 범위 내에서 실시하도록 다양하게 구현될 수 있음을 명백하게 이해해야 한다. 상기 설명으로부터, 다양한 수정들이 본 발명의 정신과 범위로부터 벗어나지 않고 이루어질 수 있다는 것이 이해될 것이다.

Claims

컴퓨터로 구현되는 방법으로서,
컴퓨팅 디바이스의 프로세서에 의해, 상기 컴퓨팅 디바이스의 오디오 믹서로부터, 상기 컴퓨팅 디바이스에서 실행되는 애플리케이션으로부터 출력된 오디오 데이터를 획득하는 단계, 상기 오디오 데이터는 콘텐츠의 청각적 부분을 나타내는 데이터를 포함하며, 상기 오디오 데이터는 메타데이터를 더 포함하고, 상기 메타데이터는 상기 애플리케이션이 재생하고 있는 것을 특정하는 상기 오디오 데이터의 콘텐츠 유형을 포함하며, 상기 콘텐츠 유형은 상기 콘텐츠의 카테고리를 포함하며;
상기 오디오 데이터의 콘텐츠 유형을 식별하기 위해 상기 메타데이터를 분석하는 단계;
상기 프로세서에 의해, 상기 오디오 데이터를 사용하여, 상기 오디오 데이터가 상기 콘텐츠 유형에 기초하여 자막화되어야 하는지 여부를 결정하는 단계;
상기 오디오 데이터가 자막화되어야 한다고 결정함에 응답하여, 상기 프로세서에 의해, 상기 콘텐츠의 청각적 부분의 설명을 결정하는 단계; 및
상기 프로세서에 의해, 상기 콘텐츠의 청각적 부분의 설명 및 상기 콘텐츠의 시각적 부분을 디스플레이하기 위해 출력하는 단계를 포함하는, 방법.
청구항 1에 있어서, 상기 콘텐츠의 청각적 부분의 설명은 상기 콘텐츠의 청각적 부분으로부터의 발화된 오디오의 전사를 포함하는, 방법.
청구항 1에 있어서, 상기 콘텐츠의 청각적 부분의 설명은 상기 콘텐츠의 청각적 부분으로부터의 비-발화된 오디오의 설명을 포함하는, 방법.
청구항 3에 있어서, 상기 비-발화된 오디오는 특정한 소스로부터의 소음을 포함하고, 상기 특정한 소스로부터의 소음의 설명은 상기 특정한 소스의 표시를 포함하는, 방법.
청구항 4에 있어서,
상기 소음은 동물 소스로부터의 동물 소음을 포함하거나
상기 소음은 동물이 아닌 소스로부터의 환경 소음을 포함하는, 방법.
청구항 1에 있어서, 상기 콘텐츠의 청각적 부분의 설명을 결정하는 단계는, 상기 컴퓨팅 디바이스의 프로세서에 의해, 상기 콘텐츠의 청각적 부분의 설명을 결정하기 위해 상기 오디오 데이터로부터 설명을 결정하도록 트레이닝된 기계 학습 모델을 실행하는 것을 포함하는, 방법.
청구항 6에 있어서, 상기 기계 학습 모델은 종단 간 순환 신경 네트워크 트랜스듀서 자동 음성 인식 모델을 포함하는, 방법.
청구항 1에 있어서, 상기 콘텐츠의 청각적 부분을 나타내는 데이터는 자막화를 위해 주석이 달리지 않은 데이터를 포함하는, 방법.
청구항 1에 있어서, 상기 설명은 상기 콘텐츠의 청각적 부분으로부터 추출된 비-발화된 오디오를 나타내는 텍스트를 포함하는, 방법.
청구항 1에 있어서, 상기 설명은 상기 콘텐츠의 청각적 부분의 상이한 부분에 대한 인간 및 비-인간 소스를 식별하는 텍스트를 포함하는, 방법.
청구항 1에 있어서, 상기 콘텐츠의 청각적 부분의 설명을 출력하는 단계는 상기 프로세서에 의해, 상기 콘텐츠의 시각적 부분과 상기 애플리케이션의 그래픽 사용자 인터페이스와 별개의 지속적 그래픽 엘리먼트로서 상기 콘텐츠의 청각적 부분의 설명을 디스플레이하기 위해 출력하는 것을 포함하는, 방법.
청구항 11에 있어서,
상기 프로세서에 의해, 지속적 그래픽 엘리먼트와 연관된 사용자 입력을 수신하는 것에 응답하여, 상기 콘텐츠의 청각적 부분으로부터 생성된 이전 또는 후속 설명을 디스플레이하기 위해 상기 지속적 그래픽 엘리먼트의 크기를 수정하는 단계를 더 포함하는, 방법.
컴퓨팅 디바이스로서, 상기 컴퓨팅 디바이스는 청구항 1 내지 12 중 어느 한 항에 기재된 방법을 수행하도록 구성된 적어도 하나의 프로세서를 포함하는, 컴퓨팅 디바이스.
명령어를 포함하는 컴퓨터 판독가능 저장 매체로서, 상기 명령어는 실행될 때, 컴퓨팅 디바이스의 프로세서로 하여금 청구항 1 내지 12 중 어느 한 항에 기재된 방법을 수행하게 하는, 컴퓨터 판독가능 저장 매체.
삭제