KR20180103125A

KR20180103125A - 비디오 콘텐츠에서의 윈드 노이즈들의 필터링

Info

Publication number: KR20180103125A
Application number: KR1020187023466A
Authority: KR
Inventors: 엘라드 에반; 아렌 잔센; 소우리쉬 차우드후리
Original assignee: 구글 엘엘씨
Priority date: 2016-05-05
Filing date: 2016-12-29
Publication date: 2018-09-18
Also published as: EP3403262A1; US10356469B2; CN108604451B; WO2017192180A1; JP6755324B2; US20170324990A1; US9838737B2; KR102138185B1; JP2019518229A; US20180084301A1; CN108604451A; EP3403262B1

Abstract

본 구현예들은 비디오 콘텐츠에서 윈드 노이즈들을 필터링하는 것에 대해 개시하고 있다. 이 방법은, 오디오 컴포넌트 및 비디오 컴포넌트를 포함하는 비디오 콘텐츠를 수신하는 단계, 프로세싱 디바이스에 의해, 오디오 컴포넌트의 세그먼트에서 윈드 노이즈 아티팩트의 발생을 검출하는 단계, 윈드 노이즈 아티팩트의 지속기간 및 윈드 노이즈 아티팩트의 강도를 식별하는 단계, 프로세싱 디바이스에 의해, 윈드 노이즈 아티팩트의 식별된 지속기간 및 강도에 기반하여 윈드 노이즈 대체 동작을 선택하는 단계, 및 프로세싱 디바이스에 의해, 선택된 윈드 노이즈 대체 동작을 오디오 컴포넌트의 세그먼트에 적용하여 세그먼트로부터 윈드 노이즈 아티팩트를 제거하는 단계를 포함한다.

Description

비디오 콘텐츠에서의 윈드 노이즈들의 필터링

본 개시내용은 콘텐츠 공유 플랫폼 분야에 관한 것이며, 특히 비디오 콘텐츠에서의 윈드 노이즈들(wind noises)을 필터링하는 것에 관한 것이다.

많은 콘텐츠 공유 웹사이트들은 이용자들이 공개 및 비공개 디스플레이를 위해 이미지들 및 비디오들을 게시할 수 있게 한다. 최근의 기술 발전들로 인해 또한 이용자들이 자신의 시각적 콘텐츠를 캡처하고 공유하는 것이 점점 더 편리해졌다. 예를 들어, 하나 이상의 고품질 디지털 카메라, 풍부한 저장 공간 및 모바일 광대역을 갖는 스마트폰들은 이용자들이 거의 모든 곳에서 자신의 비디오들을 기록하고 공유할 수 있게 한다. 그러나, 야외에서 기록된 비디오들은 그 환경에 의해 생성된 왜곡들에 민감할 수 있다. 공통적인 원인은 윈드 노이즈이며, 이로 인해 오디오 신호의 불쾌한 클립핑(clipping)이 발생하여 이용자 경험이 크게 저하된다.

다음은 본 개시내용의 일부 양태들의 기본적인 이해를 제공하기 위한 본 개시내용의 단순화된 요약이다. 이 요약은 본 개시내용에 대한 광범위한 개요는 아니다. 이것은 본 개시내용의 핵심적이거나 중대한 요소들을 식별하기 위해 의도된 것도 아니고, 본 개시내용의 특정한 구현예들의 임의의 범위 또는 청구항들의 임의의 범위를 기술하기 위해 의도된 것도 아니다. 이것의 유일한 목적은 이후에 제시되는 더 상세한 설명에 대한 서문으로서 본 개시내용의 일부 개념들을 단순화된 형태로 제시하기 위한 것이다.

본 개시내용의 일 양태에서, 이 방법은 오디오 컴포넌트 및 비디오 컴포넌트를 포함하는 수신된 비디오 콘텐츠로부터 오디오 컴포넌트를 추출하는 단계, 프로세싱 디바이스에 의해, 오디오 컴포넌트의 세그먼트에서 윈드 노이즈 아티팩트의 발생을 검출하는 단계, 윈드 노이즈 아티팩트의 지속기간 및 윈드 노이즈 아티팩트의 강도를 식별하는 단계, 프로세싱 디바이스에 의해, 윈드 노이즈 아티팩트의 식별된 지속기간 및 강도에 기반하여 적어도 하나의 윈드 노이즈 대체 동작을 선택하는 단계, 및 프로세싱 디바이스에 의해, 선택된 윈드 노이즈 대체 동작(들)을 오디오 컴포넌트의 세그먼트에 적용하여 세그먼트로부터 윈드 노이즈 아티팩트를 제거하는 단계를 포함한다. 일 구현예에서, 프로세싱 디바이스는 복수의 상이한 윈드 노이즈 대체 동작들로부터 적어도 하나의 윈드 노이즈 대체 동작을 선택한다. 일 구현예에서, 이 방법은 비디오 콘텐츠를 수신하는 단계를 더 포함할 수 있다.

일 구현예에서, 윈드 노이즈 대체 동작은 세그먼트를 둘러싸는 오디오 컴포넌트의 다른 세그먼트들로부터 추출된 오디오 신호의 보간으로 세그먼트를 채우는(in-fill) 것을 포함한다. 추가적으로 또는 대안적으로, 윈드 노이즈 대체 동작은 세그먼트를 필터링하여 세그먼트로부터 윈드 노이즈 아티팩트를 제거하는 것을 포함할 수 있다. 추가적으로 또는 대안적으로, 윈드 노이즈 대체 동작은 세그먼트를 무음(silence)으로 대체하는 것을 포함할 수 있다. 추가적으로 또는 대안적으로, 윈드 노이즈 대체 동작은 윈드 노이즈 아티팩트를 오디오 컴포넌트의 다른 세그먼트로부터 추출된 오디오 신호로 대체하는 것을 포함할 수 있다. 추가적으로 또는 대안적으로, 윈드 노이즈 대체 동작은 오디오 컴포넌트를 상이한 오디오 컴포넌트로 대체하는 것을 포함할 수 있다.

다른 구현예에서, 이용자는 상이한 오디오 컴포넌트를 선택할 수 있도록 프롬프팅된다. 또한, 이 방법에서 적어도 하나의 윈드 노이즈 대체 동작을 선택하는 단계는, 윈드 노이즈 아티팩트의 식별된 지속기간 및 식별된 강도로부터 복수의 신호들을 유도하는 단계, 유도된 신호들을 임계값들의 대응하는 세트에 매핑하는 단계, 및 유도된 신호들에 매핑된 임계값들의 세트에 대응하는 적어도 하나의 윈드 노이즈 대체 동작을 선택하는 단계를 더 포함할 수 있다.

또한, 유도된 신호들은 윈드 노이즈 아티팩트의 하나 이상의 주파수 및 윈드 노이즈 아티팩트에 대응하는 신호 대 노이즈비를 포함할 수 있다. 또한, 이 방법에서 윈드 노이즈 아티팩트의 지속기간을 식별하는 단계는 윈드 노이즈 아티팩트에 의해 영향 받는 오디오 컴포넌트의 백분율을 식별하는 단계를 더 포함할 수 있다. 일 구현예에서, 기계 학습은 윈드 노이즈 아티팩트의 발생을 검출하는데 이용된다. 다른 구현예에서, 심층 학습(deep learning)은 윈드 노이즈 아티팩트의 발생을 검출하는데 이용된다. 또한, 스펙트로그램 분석은 윈드 노이즈 아티팩트의 발생을 검출하는데 이용될 수 있다.

본 개시내용의 다른 양태에서, 시스템은 메모리, 및 이 메모리에 결합된 프로세싱 디바이스를 포함하며, 이 프로세싱 디바이스는 본 명세서에서 설명되는 임의의 양태 또는 구현예에 따른 방법을 수행하도록 구성된다.

본 개시내용의 다른 양태에서, (이 양태가 이에 제한되는 것은 아니지만, 비일시적 기계 판독가능한 저장 매체일 수 있는) 기계 판독가능한 저장 매체는 실행될 때, 프로세싱 디바이스로 하여금 본 명세서에서 설명되는 임의의 양태 또는 구현예에 따른 방법을 포함하는 동작들을 수행하게 하는 명령어들을 저장한다. 본 개시내용의 다른 양태에서, 컴퓨터 프로그램 제품은 컴퓨터에 의해 프로그램이 실행될 때, 컴퓨터로 하여금 본 명세서에서 설명되는 임의의 양태 또는 구현예에 따른 방법을 수행하게 하는 명령어들을 포함한다.

본 명세서에서 설명되는 다양한 구현예들 및 전술한 방법의 동작들을 수행하기 위한 컴퓨팅 디바이스들이 개시된다. 본 명세서에서 설명되는 다양한 구현예들 및 전술한 방법과 연관된 동작들을 수행하기 위한 명령어들을 저장하는 컴퓨터 판독가능한 매체가 또한 개시된다. 일 양태 또는 구현예의 맥락에서 설명되는 특징들이 다른 양태들 또는 구현예들의 특징들과 결합될 수 있는 식으로 구현예들이 결합될 수 있음을 이해할 것이다. 특히, 다양한 구현예들에 대해 전술하였지만, 전술한 특징들은 구현예들의 특징들의 하나 이상의 조합에 결합되어 추가 구현예를 제공할 수 있음을 이해할 것이다.

본 개시내용은 첨부 도면들에서, 제한으로서가 아니라 예로서 도시된다.
도 1은 본 개시내용의 구현예들이 구현될 수 있는 예시적인 네트워크 아키텍처를 도시하는 블록도이다.
도 2는 본 개시내용의 구현예에 따른 오디오 조정 시스템의 블록도이다.
도 3은 일 구현예에 따라 비디오 콘텐츠에서의 윈드 노이즈들을 필터링하는 방법을 도시하는 흐름도이다.
도 4는 일 구현예에 따라 비디오 콘텐츠에서의 윈드 노이즈들을 필터링하는 다른 방법을 도시하는 흐름도이다.
도 5는 일 구현예에 따른 컴퓨터 시스템의 하나의 구현을 도시하는 블록도이다.

본 개시내용의 양태들 및 구현예들은 비디오 콘텐츠에서 윈드 노이즈들을 필터링하는 것에 관한 것이다. 일 구현예에서, 윈드 노이즈 조정 시스템은 콘텐츠 공유 플랫폼의 이용자 비디오들에서 자동화된 윈드 노이즈 검출 및 윈드 노이즈의 교정/대체를 제공한다. 이용자가 콘텐츠 공유 플랫폼에 비디오를 기록 및/또는 업로드할 때, 윈드 노이즈 조정 시스템은 비디오 콘텐츠의 오디오 컴포넌트를 자동으로 분석하여 윈드 노이즈(즉, 윈드 노이즈 아티팩트들)의 임의의 발생들을 식별한다. 임의의 검출된 윈드 노이즈에 대해, 윈드 노이즈가 발생하는 오디오 세그먼트를 식별하는 데이터, 윈드 노이즈의 강도 및 지속기간, 및 식별된 윈드 노이즈를 갖는 오디오 세그먼트의 주위 오디오 컨텍스트(즉, 검출된 윈드 노이즈를 포함하는 식별된 오디오 세그먼트 이전 및/또는 이후의 다른 세그먼트들의 미리 결정된 시간 간격)는 윈드 노이즈 대체 동작의 유형을 결정하여 식별된 윈드 노이즈를 갖는 오디오 세그먼트에 적용하는데 이용된다. 윈드 노이즈 대체 동작은 윈드 노이즈 오디오 세그먼트를 스펙트로그램 또는 주위 오디오 신호의 보간으로 채우고, 오디오 세그먼트로부터 윈드 노이즈를 필터링하고, 오디오 세그먼트를 비디오 또는 무음으로부터 비-클립핑된 백그라운드 노이즈의 추정치로 대체하거나, 또는 (이용자에게의 프롬프팅 후에) 비디오의 전체 오디오 파일을 백그라운드 음악 또는 다른 오디오 트랙으로 대체하는 것을 포함할 수 있다.

윈드 노이즈 저감을 위한 기존의 솔루션들은 윈드 노이즈의 특성들에 기반한 윈드 노이즈 대체에 대한 다양한 접근법들의 이용을 제공하지 않는다. 이전의 윈드 노이즈 저감 솔루션들은 오디오 신호를 동시에 기록하는 여러 마이크로폰들에 의존하였고 이러한 다중 기록들을 이용하여 부적합한 백그라운드 노이즈를 줄였다. 다른 접근법은 그 환경을 경쟁 소스로 모델링하고 소스 분리 기술을 이용하여 윈드 노이즈를 필터링하였다. 그러나, 윈드 노이즈는 클립핑(즉, 신호를 최대 진폭으로 전송)으로 이어질 수 있으며, 이는 기존의 솔루션들의 적용을 배제하는 파괴적인 변형이다. 본 개시내용의 구현예들은 검출된 윈드 노이즈의 특성들에 기반하여 다양한 윈드 노이즈 대체 동작들의 이용을 제공하며, (클립핑을 포함하는) 윈드 노이즈의 검출 및 대체는 비디오의 생성 및/또는 콘텐츠 공유 플랫폼에의 업로드시에 자동으로 수행된다. 이와 같이, 구현예들은 모바일 디바이스들 상에 기록되고/되거나 콘텐츠 공유 플랫폼에 업로드되는 비디오들로부터 윈드 노이즈 아티팩트들을 자동으로 제거하여 콘텐츠 공유 플랫폼에 대한 전반적인 이용자 경험을 향상시킨다.

간소화 및 간략화를 위해 본 개시내용은 흔히 비디오들을 참조한다. 그러나, 본 개시내용의 교시는 일반적으로 미디어 아이템들에 적용되며, 예를 들어 비디오, 오디오, 텍스트, 이미지들, 프로그램 명령어들 등을 포함하는 다양한 유형들의 콘텐츠 또는 미디어 아이템들에 적용될 수 있다.

도 1은 본 개시내용의 일 구현예에 따른 예시적인 시스템 아키텍처(100)를 도시한다. 이 시스템 아키텍처(100)는, 클라이언트 디바이스들(110A 내지 110Z), 네트워크(105), 데이터 저장소(106), 콘텐츠 공유 플랫폼(120), 및 서버(130)를 포함한다. 일 구현예에서, 네트워크(105)는, 공중 네트워크(예를 들어, 인터넷), 사설 네트워크(예를 들어, 로컬 영역 네트워크(LAN), 또는 광역 네트워크(WAN)), 유선 네트워크(예를 들어, 이더넷 네트워크), 무선 네트워크(예를 들어, 802.11 네트워크 또는 Wi-Fi 네트워크), 셀룰러 네트워크(예를 들어, 롱 텀 에볼루션(LTE) 네트워크), 라우터들, 허브들, 스위치들, 서버 컴퓨터들, 및/또는 이들의 조합을 포함할 수 있다. 일 구현예에서, 데이터 저장소(106)는 메모리(예를 들어, 랜덤 액세스 메모리), 캐시, 드라이브(예를 들어, 하드 드라이브), 플래시 드라이브, 데이터베이스 시스템, 또는 데이터를 저장할 수 있는 다른 유형의 컴포넌트 또는 디바이스일 수 있다. 데이터 저장소(106)는 복수의 컴퓨팅 디바이스들(예를 들어, 복수의 서버 컴퓨터들)에 또한 걸쳐 있을 수 있는 복수의 저장 컴포넌트들(예를 들어, 복수의 드라이브들 또는 복수의 데이터베이스들)을 또한 포함할 수 있다.

클라이언트 디바이스들(110A 내지 110Z)은 개인용 컴퓨터들(PC들), 랩톱들, 휴대폰들, 스마트폰들, 태블릿 컴퓨터들, 넷북 컴퓨터들, 네트워크 접속 텔레비전들 등과 같은 컴퓨팅 디바이스들을 각각 포함할 수 있다. 일부 구현예들에서, 클라이언트 디바이스(110A 내지 110Z)는 또한 "이용자 디바이스들"로서 지칭될 수 있다. 각각의 클라이언트 디바이스는 미디어 뷰어(111)를 포함한다. 일 구현예에서, 미디어 뷰어들(111)은 이미지들, 비디오들, 웹 페이지들, 문서들 등과 같은 콘텐츠를 이용자들이 볼 수 있게 하는 애플리케이션들일 수 있다. 예를 들어, 미디어 뷰어(111)는 웹 서버에 의해 서빙되는 콘텐츠(예를 들어, 하이퍼 텍스트 마크업 언어(HTML) 페이지들과 같은 웹 페이지들, 디지털 미디어 아이템들 등)에 액세스하고, 이를 검색하고, 프리젠테이션하고/하거나 내비게이션할 수 있는 웹 브라우저일 수 있다. 미디어 뷰어(111)는 콘텐츠(예를 들어, 웹 페이지, 미디어 뷰어)를 이용자에게 렌더링하고, 표시하고/하거나 프리젠테이션할 수 있다. 미디어 뷰어(111)는 또한, 웹 페이지(예를 들어, 온라인 상인에 의해 판매되는 제품에 관한 정보를 제공할 수 있는 웹 페이지)에 임베딩되는 임베디드 미디어 플레이어(예를 들어, Flash® 플레이어 또는 HTML5 플레이어)를 표시할 수 있다. 다른 예에서, 미디어 뷰어(111)는 이용자들이 디지털 미디어 아이템들(예를 들어, 디지털 비디오들, 디지털 이미지들, 전자 책들 등)을 보는 것을 허용하는 독립형 애플리케이션(예를 들어, 모바일 애플리케이션 또는 앱)일 수 있다. 본 개시내용의 양태들에 따르면, 미디어 뷰어(111)는 이용자들이 콘텐츠 공유 플랫폼 상에서 공유하기 위해 콘텐츠를 기록, 편집 및/또는 업로드하기 위한 콘텐츠 공유 플랫폼 애플리케이션일 수 있고, 비디오 콘텐츠에서의 윈드 노이즈들의 필터링을 구현한다.

미디어 뷰어들(111)은 서버(130) 및/또는 콘텐츠 공유 플랫폼(120)에 의해 클라이언트 디바이스들(110A 내지 110Z)에 제공될 수 있다. 예를 들어, 미디어 뷰어들(111)은 콘텐츠 공유 플랫폼(120)에 의해 제공되는 웹 페이지들에 임베딩되는 임베디드 미디어 플레이어들일 수 있다. 다른 예에서, 미디어 뷰어들(111)은 서버(130)로부터 다운로드되는 애플리케이션들일 수 있다.

일반적으로, 일 구현예에서 콘텐츠 공유 플랫폼(120)에 의해 수행되는 것으로 설명되는 기능들은 또한, 적합한 경우 다른 구현예들에서 클라이언트 디바이스들(110A 내지 110Z) 상에서 수행될 수 있다. 또한, 특정한 컴포넌트에 기인한 기능은 함께 동작하는 상이한 또는 복수의 컴포넌트들에 의해 수행될 수 있다. 콘텐츠 공유 플랫폼(120)은 또한, 적합한 애플리케이션 프로그래밍 인터페이스들을 통하여 다른 시스템들 또는 디바이스들에 제공되는 서비스로서 액세스될 수 있고, 따라서 웹사이트들에서의 이용으로 제한되지 않는다.

일 구현예에서, 콘텐츠 공유 플랫폼(120)은 이용자에게 미디어 아이템들로의 액세스를 제공하고/하거나 이용자에게 미디어 아이템들을 제공하는데 이용될 수 있는, 하나 이상의 컴퓨팅 디바이스(예를 들어, 랙마운트 서버, 라우터 컴퓨터, 서버 컴퓨터, 개인용 컴퓨터, 메인프레임 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 데스크톱 컴퓨터 등), 데이터 저장소들(예를 들어, 하드 디스크들, 메모리들, 데이터베이스들), 네트워크들, 소프트웨어 컴포넌트들, 및/또는 하드웨어 컴포넌트들일 수 있다. 예를 들어, 콘텐츠 공유 플랫폼(120)은, 이용자로 하여금 미디어 아이템들을 소비하고, 업로드하고, 검색하고, 찬성하고("좋아하고"), 싫어하고/하거나 그에 대해 코멘트하는 것을 허용할 수 있다. 콘텐츠 공유 플랫폼(120)은 또한, 이용자에게 미디어 아이템들로의 액세스를 제공하는데 이용될 수 있는 웹사이트(예를 들어, 웹페이지) 또는 애플리케이션 백엔드 소프트웨어를 포함할 수 있다.

본 개시내용의 구현예들에서, "이용자"는 단일 개체로서 표현될 수 있다. 그러나, 본 개시내용의 다른 구현예들은 "이용자"가 한 세트의 이용자들 및/또는 자동화된 소스에 의해 제어되는 엔티티인 것을 포괄한다. 예를 들어, 소셜 네트워크에서의 커뮤니티로서 연합된 개별 이용자들의 세트가 "이용자"로 고려될 수 있다. 다른 예에서, 자동화된 소비자는, 콘텐츠 공유 플랫폼(120)의, 토픽 채널과 같은 자동화된 수집 파이프라인(automated ingestion pipeline)일 수 있다.

콘텐츠 공유 플랫폼(120)은 복수의 채널들(예를 들어, 채널 A 내지 채널 Z)을 포함할 수 있다. 채널은 공통 소스로부터 이용가능한 데이터 콘텐츠 또는 공통 토픽, 테마, 및 실체를 갖는 데이터 콘텐츠일 수 있다. 데이터 콘텐츠는 이용자에 의해 선택되는 디지털 콘텐츠, 이용자에 의해 이용가능하게 된 디지털 콘텐츠, 이용자에 의해 업로드된 디지털 콘텐츠, 콘텐츠 제공자에 의해 선택되는 디지털 콘텐츠, 브로드캐스터에 의해 선택되는 디지털 콘텐츠 등일 수 있다. 예를 들어, 채널 X는 비디오 Y 및 비디오 Z를 포함할 수 있다. 채널은 채널 상에서 액션들을 수행할 수 있는 이용자인 소유자와 연관될 수 있다. 소유자가 채널 상에서 디지털 콘텐츠를 이용가능하게 하는 것, 소유자가 다른 채널과 연관된 디지털 콘텐츠를 선택하는 것(예를 들어, 좋아하는 것(liking)), 소유자가 다른 채널과 연관된 디지털 콘텐츠에 대해 코멘트하는 것 등과 같은 소유자의 액션들에 기반하여 상이한 활동들이 채널과 연관될 수 있다. 채널과 연관된 활동들은 채널에 대한 활동 피드로 수집될 수 있다. 채널의 소유자가 아닌 이용자들은 그들이 관심 있어 하는 하나 이상의 채널을 구독할 수 있다. "구독하기"라는 개념은 또한 "좋아하기", "팔로잉", "친구 추가" 등으로 지칭될 수 있다.

이용자가 채널을 구독하면, 이용자에게는 채널의 활동 피드로부터의 정보가 제시될 수 있다. 이용자가 복수의 채널들을 구독하는 경우, 이용자가 구독하는 각각의 채널에 대한 활동 피드는 신디케이트된(syndicated) 활동 피드에 결합될 수 있다. 신디케이트된 활동 피드로부터의 정보가 이용자에게 제시될 수 있다. 채널들은 자체 피드들을 가질 수 있다. 예를 들어, 콘텐츠 공유 플랫폼 상에서 채널의 홈 페이지로 내비게이션할 때, 그 채널에 의해 생성된 피드 아이템들이 채널 홈 페이지 상에서 보여질 수 있다. 이용자들은, 적어도 이용자가 구독하는 채널들 전부로부터의 콘텐츠 아이템들의 서브세트로 구성된 피드인 신디케이트된 피드를 가질 수 있다. 신디케이트된 피드들은 또한 이용자가 구독하지 않는 채널들로부터의 콘텐츠 아이템들을 포함할 수 있다. 예를 들어, 콘텐츠 공유 플랫폼(120) 또는 다른 소셜 네트워크들은 추천된 콘텐츠 아이템들을 이용자의 신디케이트된 피드에 삽입할 수 있거나, 또는 이용자의 관련된 접속과 연관되는 콘텐츠 아이템들을 신디케이트된 피드에 삽입할 수 있다.

각각의 채널은 하나 이상의 미디어 아이템(121)을 포함할 수 있다. 미디어 아이템(121)의 예들로는, 디지털 비디오, 디지털 영화들, 디지털 사진들, 디지털 음악, 웹사이트 콘텐츠, 소셜 미디어 업데이트들, 전자 책들, 전자 잡지들, 디지털 신문들, 디지털 오디오 책들, 전자 저널들, 웹 블로그들, RSS(real simple syndication) 피드들, 전자 만화책들, 소프트웨어 애플리케이션 등이 있을 수 있지만, 이것으로만 제한되지는 않는다. 일부 구현예들에서, 미디어 아이템(121)은 콘텐츠 아이템으로도 지칭된다.

미디어 아이템(121)은 인터넷 및/또는 모바일 디바이스 애플리케이션을 통해 소비될 수 있다. 간결성과 단순성을 위해, 본 문서 전체에 걸쳐 미디어 아이템(121)의 예로서 온라인 비디오(이하에서는 비디오로도 지칭됨)가 이용된다. 본 명세서에서 이용되는 "미디어, "미디어 아이템", "온라인 미디어 아이템", "디지털 미디어", "디지털 미디어 아이템", "콘텐츠" 및 "콘텐츠 아이템"은 디지털 미디어 아이템을 엔티티에 제시하도록 구성된 소프트웨어, 펌웨어 또는 하드웨어를 이용하여 실행 또는 로딩될 수 있는 전자 파일을 포함할 수 있다. 일 구현예에서, 콘텐츠 공유 플랫폼(120)은 데이터 저장소(106)를 이용하여 미디어 아이템들(121)을 저장할 수 있다.

일 구현예에서, 서버(130)는 하나 이상의 컴퓨팅 디바이스(예를 들어, 랙마운트 서버, 서버 컴퓨터 등)일 수 있다. 일 구현예에서, 서버(130)는 콘텐츠 공유 플랫폼(120)에 포함될 수 있다. 서버(130)는 오디오 조정 시스템(140)을 포함할 수 있다. 오디오 조정 시스템(140)은 본 개시내용의 구현예들에서 이용자 콘텐츠에서의 윈드 노이즈들의 필터링을 가능하게 한다. 일부 구현예들에서, 클라이언트 디바이스(110A 내지 110Z)는 이용자 콘텐츠에서의 윈드 노이즈들의 필터링을 가능하게 하는 클라이언트측 오디오 조정 시스템(115)을 포함할 수 있다. 클라이언트측 오디오 조정 시스템(115)은 서버(130)의 오디오 조정 시스템(140)과 독립적으로 본 개시내용의 구현예들을 수행할 수 있거나, 또는 오디오 조정 시스템(140)과 관련하여 동작할 수 있다. 이하의 설명이 본 개시내용의 구현예들을 수행하는 오디오 조정 시스템(140)과 관련될 수 있지만, 오디오 조정 시스템(140)의 기능은 클라이언트 디바이스(110A 내지 110Z)에서의 클라이언트측 오디오 조정 시스템(115)에 의해서만 및/또는 이와 관련하여 유사하게 수행될 수 있다는 것을 이해해야 한다.

일 구현예에서, 이용자 콘텐츠는 비디오를 포함할 수 있다. 비디오는 모션 장면을 나타내는 순차 이미지 프레임들의 세트이다. 예를 들어, 일련의 순차 이미지들을 연속적으로 캡처하거나 나중에 재구성하여 애니메이션을 생성할 수 있다. 비디오 콘텐츠는 아날로그, 디지털, 2차원 및 3차원 비디오를 포함하지만 이에 제한되지 않는 다양한 포맷들로 제시될 수 있다. 또한, 비디오 콘텐츠는 영화, 비디오 클립들 또는 차례로 표시될 애니메이션 이미지들의 임의의 세트를 포함할 수 있다. 또한, 비디오 콘텐츠는 비디오 컴포넌트 및 오디오 컴포넌트를 포함하는 비디오 파일에 저장될 수 있다. 비디오 컴포넌트는 비디오 코딩 포맷(예를 들어, H.264, H.264 MPEG-4 Part 2 등)의 비디오 데이터를 지칭할 수 있다. 오디오 컴포넌트는 오디오 코딩 포맷(예를 들어, 고급 오디오 코딩(AAC), MP3 등)의 오디오 데이터를 지칭할 수 있다.

콘텐츠 공유 플랫폼(120)의 이용자들은 기상 조건들을 고려하지 않고 야외에서 자신의 디바이스들(예를 들어, 카메라 폰들)(110A-Z)에 비디오들을 기록할 수 있는 아마추어들을 포함할 수 있다. 예를 들어, 궂은 날씨, 해변, 스키 등의 모험 스포츠들 중에 기록된 비디오들은 흔히 윈드 상태들로 인한 노이즈의 영향을 받기 쉽다. 오디오 조정 시스템(140)은 비디오 콘텐츠를 분석하여 그 비디오 콘텐츠에 대한 자동화된 윈드 노이즈 검출 및 교정을 제공할 수 있다. 오디오 조정 시스템(140)은 비디오 콘텐츠의 오디오 컴포넌트(오디오 파일, 오디오 스트림, 오디오 신호, 청각 정보 등으로도 지칭됨)를 분석하여 오디오 컴포넌트에서 윈드 노이즈 아티팩트의 발생을 검출할 수 있다. 윈드 노이즈 아티팩트는 청각 정보의 캡처(예를 들어, 오디오 컴포넌트를 포함하는 비디오의 기록) 중에 윈드의 발생에 의해 도입된 청각 정보(예를 들어, 오디오 컴포넌트)의 인식 또는 표현에서의 오류 또는 이상을 지칭할 수 있다. 검출된 윈드 노이즈 아티팩트들의 특성들에 따라, 오디오 조정 시스템(140)은 오디오 컴포넌트에서 검출된 윈드 노이즈 아티팩트를 교정 및/또는 대체하기 위해 이용할 윈드 노이즈 대체 동작을 선택한다.

일 구현예에서, 오디오 조정 시스템(140)에 의해 이용되는 윈드 노이즈 대체 동작은 검출된 윈드 노이즈 아티팩트의 방향 및 강도에 따라 변할 수 있다. 일 구현예에서, 윈드 노이즈 대체 동작들은, 윈드 노이즈 아티팩트를 오디오 컴포넌트의 주위 세그먼트들로부터 추출된 오디오 신호들의 보간으로 채우고, 윈드 노이즈 아티팩트를 무음으로 대체하고, 윈드 노이즈 아티팩트를 오디오 컴포넌트의 주위 세그먼트들로부터 추출된 오디오 세그먼트로 대체하거나, 또는 전체 오디오 컴포넌트를 상이한 오디오 컴포넌트로 대체하는 것을 포함할 수 있지만 이에 제한되지는 않는다.

일부 구현예들에서, 서버(130)의 오디오 조정 시스템(140)은 본 개시내용의 구현예들을 제공하기 위해 콘텐츠 공유 플랫폼(120)과 상호작용할 수 있다. 오디오 조정 시스템(140) 및 그 특정한 기능들에 대한 추가적인 설명은 도 2와 관련하여 아래에서 보다 상세히 설명된다.

본 개시내용의 구현예들이 콘텐츠 공유 플랫폼들 및 콘텐츠 공유 플랫폼 상의 콘텐츠 아이템의 소셜 네트워크 공유를 촉진하는 것의 견지에서 논의되지만, 구현예들은 또한 일반적으로 이용자들 간의 접속들을 제공하는 임의의 유형의 소셜 네트워크에 적용될 수 있다. 본 개시내용의 구현예들은 이용자들에게 채널 구독들을 제공하는 콘텐츠 공유 플랫폼들에 제한되지 않는다.

본 명세서에서 논의된 시스템들이 이용자들에 대한 개인 정보를 수집하거나 또는 개인 정보를 이용할 수 있는 상황들에서, 이용자들에게는, 콘텐츠 공유 플랫폼(120)이 이용자 정보(예를 들어, 이용자의 소셜 네트워크, 소셜 액션들 또는 활동들, 직업, 이용자의 선호들 또는 이용자의 현재 위치에 대한 정보)를 수집하는지를 제어하거나, 또는 이용자와 더 관련성이 있을 수 있는 콘텐츠 서버로부터 콘텐츠를 수신할지 및/또는 어떻게 수신할지를 제어하는 기회가 제공될 수 있다. 또한, 특정한 데이터는 그것이 저장되거나 이용되기 전에 하나 이상의 방식으로 처리될 수 있어, 개인적으로 식별가능한 정보가 제거된다. 예를 들어, 이용자의 아이덴티티가 처리될 수 있어 어떠한 개인적으로 식별가능한 정보도 이용자에 대해 결정될 수 없거나, 이용자의 지리적 위치가 위치 정보가 획득되는 곳(이를테면, 시(city), 우편 번호(ZIP code), 또는 도(state) 수준)으로 일반화될 수 있어, 이용자의 특정한 위치가 결정될 수 없다. 따라서, 이용자는, 이용자에 관해 정보가 어떻게 수집되고 콘텐츠 공유 플랫폼(120)에 의해 어떻게 이용될지에 대한 제어를 할 수 있다.

도 2는 본 개시내용의 일 구현예에 따른 오디오 조정 시스템(140)을 도시하는 블록도이다. 앞서 논의한 바와 같이, 오디오 조정 시스템(140)은 단일 소셜 네트워크와 상호작용할 수 있거나, 복수의 소셜 네트워크들 중에서 이용(예를 들어, 다른 제3자 소셜 네트워크들에 의해 이용되는 콘텐츠 공유 플랫폼의 서비스로서 제공)될 수 있다. 일 구현예에서, 오디오 조정 시스템(140)은 오디오 분석 모듈(210), 윈드 노이즈 검출 모듈(220), 오디오 대체 동작 선택 모듈(230) 및 오디오 조정 모듈(240)을 포함한다. 일반성을 잃지 않고 오디오 조정 시스템(140)에 더 많거나 더 적은 수의 컴포넌트들이 포함될 수 있다. 예를 들어, 모듈들 중 2개가 결합하여 단일 모듈이 될 수 있거나, 또는 모듈들 중 하나가 2개 이상의 모듈로 분리될 수 있다. 일 구현예에서, 모듈들 중 하나 이상은 상이한 컴퓨팅 디바이스들 상에(예를 들어, 상이한 서버 컴퓨터들에, 단일 클라이언트 디바이스 상에, 또는 복수의 클라이언트 디바이스들 중에 분산되어, 기타 등등으로) 상주할 수 있다. 또한, 모듈들 중 하나 이상은 상이한 콘텐츠 공유 플랫폼들, 제3자 소셜 네트워크들, 및/또는 외부 서버들 상에 상주할 수 있다.

오디오 조정 시스템(140)은 데이터 저장소(106)에 통신 결합된다. 예를 들어, 오디오 조정 시스템(140)은 네트워크를 통해(예를 들어, 도 1에 도시된 바와 같이 네트워크(105)를 통해) 데이터 저장소(106)에 결합될 수 있다. 다른 예에서, 데이터 저장소(106)는 오디오 조정 시스템(140)이 상주하는 서버에 직접 결합될 수 있다(예를 들어, 서버(130)에 직접 결합될 수 있다). 데이터 저장소(106)는, 메모리(예를 들어, 랜덤 액세스 메모리), 캐시, 드라이브(예를 들어, 하드 드라이브), 플래시 드라이브, 데이터베이스 시스템, 또는 데이터를 저장할 수 있는 다른 유형의 컴포넌트 또는 디바이스일 수 있다. 데이터 저장소(106)는 복수의 컴퓨팅 디바이스들(예를 들어, 복수의 서버 컴퓨터들)에 또한 걸쳐 있을 수 있는 복수의 저장 컴포넌트들(예를 들어, 복수의 드라이브들 또는 복수의 데이터베이스들)을 또한 포함할 수 있다. 데이터 저장소(106)는 콘텐츠 아이템 데이터(290), 임시 오디오 데이터(291) 및 오디오 교정 데이터(292)를 포함한다.

위에서 논의한 바와 같이, 오디오 조정 시스템(140)은 본 개시내용의 구현예들에서 이용자 콘텐츠에서의 윈드 노이즈들의 필터링을 가능하게 한다. 일 구현예에서, 이용자 콘텐츠는 비디오 콘텐츠로서 본 명세서에 언급되는 비디오를 포함할 수 있다. 비디오 콘텐츠는 데이터 저장소(106)에 콘텐츠 아이템 데이터(290)로서 저장될 수 있다. 오디오 조정 시스템(140)의 오디오 분석 모듈(210)은 오디오 컴포넌트 및 비디오 컴포넌트를 식별하기 위해 비디오 콘텐츠를 분석하는 로직을 포함할 수 있다. 오디오 컴포넌트는 오디오 코딩 포맷으로 표현되는 비디오 콘텐츠의 오디오 데이터일 수 있다.

그 다음, 식별된 오디오 컴포넌트는 윈드 노이즈 검출 모듈(220)에 제공될 수 있다. 윈드 노이즈 검출 모듈(220)은 오디오 컴포넌트에서 윈드 노이즈 아티팩트의 발생을 검출하는 로직을 포함한다. 위에서 논의한 바와 같이, 윈드 노이즈 아티팩트는 오디오 컴포넌트에 의해 표현된 오디오 정보의 캡처 동안 윈드의 발생에 의해 도입되는 오디오 컴포넌트의 인식 또는 표현에서의 오류 또는 이상을 지칭할 수 있다. 오디오 컴포넌트에서의 윈드 노이즈의 발생들을 검출하기(예를 들어, 이상한 불연속들을 찾기) 위해 윈드 노이즈 검출 모듈(220)에 의해 다양한 동작들이 구현될 수 있다.

일 구현예에서, 윈드 노이즈 검출 모듈(220)은 오디오 컴포넌트의 스펙트로그램을 생성할 수 있다. 스펙트로그램은 주파수들이 시간 또는 몇몇 다른 변수에 따라 변할 때 오디오 컴포넌트에서 발생하는 주파수들을 시각적으로 표현한 것이다. 오디오 컴포넌트의 스펙트로그램은 분석되고 처리되어 오디오 컴포넌트가 윈드 노이즈 아티팩트를 나타내는 임의의 주파수들을 포함하는지 여부를 식별할 수 있다. 예를 들어, 윈드 노이즈는 많은 양의 저주파수 성분을 가지고 있으며, 일반적으로 스펙트로그램의 저주파수 영역들에서 발생한다.

다른 구현예에서, 윈드 노이즈 검출 모듈(220)은 오디오 컴포넌트에서 윈드 노이즈 아티팩트들을 식별하기 위해 기계 학습 기술들을 구현할 수 있다. 기계 학습은 분석 모델 구축을 자동화하는 데이터 분석 방법이다. 데이터로부터 반복적으로 학습하는 알고리즘들을 이용하면, 기계 학습을 통해 컴퓨팅 디바이스들이 어디를 봐야할지 명시적으로 프로그래밍될 필요 없이 숨겨진 통찰력을 찾을 수 있다. 예를 들어, 비디오들의 트레이닝 세트 및 윈드 노이즈 아티팩트들의 존재에 관한 트레이닝 세트에서의 각각의 비디오의 분류는 비디오들(또는 그 오디오 컴포넌트들)의 특성들과 이러한 비디오들에 제공되는 분류들 간의 대응을 유도하는 분류기에 제공될 수 있다. 분류기가 비디오들의 트레이닝 세트를 이용하여 트레이닝되면, 분류기는 새로운 비디오들을 처리하고, 이들이 윈드 노이즈 아티팩트들을 포함하는지 여부를 결정하며, 이러한 아티팩트들을 포함하는 비디오 세그먼트들을 식별할 수 있다.

일 구현예에서, 심층 학습으로 지칭되는 기계 학습의 한 부분은 오디오 컴포넌트에서의 윈드 노이즈 아티팩트들을 식별하는데 이용될 수 있다. 심층 학습(심층 구조화 학습, 계층적 학습 또는 심층 기계 학습이라고도 지칭됨)은 복잡한 구조들을 갖거나 아니면 복수의 비선형 변형들로 구성된 복수의 프로세싱 계층들을 이용하여 데이터에서 높은 수준의 추상화들을 모델링하려고 시도하는 알고리즘 세트에 기반한다. 심층 학습은 또한 데이터의 학습 표현들에 기반한 보다 광범위한 부류의 기계 학습 기술들의 일부로서 설명될 수 있다. 심층 학습은 주어진 오디오 컴포넌트에서 발생하는 오디오 이벤트(예를 들어, 윈드 노이즈)의 클래스들을 설명할 수 있는 다양한 오디오 이벤트 검출 접근법들을 개발하는데 이용될 수 있다. 그 다음, 윈드 노이즈 검출 모듈(220)은 오디오 컴포넌트에서의 윈드 노이즈 아티팩트들의 발생들을 식별하기 위해, 개발된 오디오 이벤트 검출 접근법들을 구현할 수 있다.

전술한 기술들 중 하나 이상을 이용하여, 윈드 노이즈 검출 모듈(220)은 윈드 노이즈 아티팩트가 검출된 오디오 컴포넌트의 세그먼트(예를 들어, 부분, 클립 및/또는 서브세트)를 식별한다. 일부 구현예들에서, 2개 이상의 세그먼트가 윈드 노이즈 검출 모듈(220)에 의해 식별될 수 있다. 윈드 노이즈 검출 모듈(220)은 또한 식별된 세그먼트에 대응하는 특성들을 제공할 수 있다. 세그먼트의 특성들은 오디오 컴포넌트 내의 세그먼트를 정의하는 시작 및 종료 시간 마커들, 세그먼트의 시간 길이, 세그먼트에서 발생하는 주파수들 및/또는 세그먼트의 진폭 중 하나 이상을 포함할 수 있지만 이에 제한되지는 않는다. 일 구현예에서, 오디오 세그먼트의 특성들은 데이터 저장소(106)의 임시 오디오 데이터(291)에 저장될 수 있다.

오디오 대체 동작 선택 모듈(230)은 윈드 노이즈 검출 모듈(220)이 윈드 노이즈 아티팩트의 발생을 검출한 각각의 세그먼트에 대해 식별된 특성들을 수신할 수 있다. 일부 구현예들에서, 식별된 세그먼트 자체는 세그먼트에 대해 식별된 특성들에 부가하여 윈드 노이즈 검출 모듈(220)에 의해 제공될 수 있다. 다른 구현예들에서, 식별된 세그먼트는 어떠한 연관된 특성들도 없이 윈드 노이즈 검출 모듈(220)에 의해 제공된다. 윈드 노이즈 검출 모듈(220)은 또한 세그먼트에 대한 주위 오디오 컨텍스트(즉, 식별된 오디오 세그먼트 이전 및/또는 이후의 다른 세그먼트들의 미리 결정된 시간 간격)에 대응하는 데이터를 제공할 수 있다. 추가적인 구현예에서, 윈드 노이즈 검출 모듈(220)은 또한 식별된 오디오 컴포넌트에 대응하는 비디오 컴포넌트의 세그먼트를 제공할 수 있다.

일 구현예에서, 검출된 윈드 노이즈 아티팩트들의 특성들에 따라, 오디오 대체 동작 선택 모듈(230)은 오디오 컴포넌트의 세그먼트에서 검출된 윈드 노이즈 아티팩트를 교정 및/또는 대체하는데 이용될 윈드 노이즈 대체 동작을 선택한다. 일 구현예에서, 윈드 노이즈 대체 동작들은, 윈드 노이즈 아티팩트를 오디오 컴포넌트의 주위 세그먼트들로부터 추출된 오디오 신호의 보간으로 채우고, 오디오 세그먼트를 필터링/세정하여 윈드 노이즈 아티팩트를 제거하고, 오디오 세그먼트를 비디오로부터 비-클립핑된 백그라운드 노이즈의 추정치로 대체하고, 윈드 노이즈 아티팩트를 무음으로 대체하며, 오디오 컴포넌트를 상이한 오디오 컴포넌트로 대체하는 것을 포함할 수 있지만 이에 제한되지는 않는다.

일 구현예에서, 오디오 대체 동작 선택 모듈(230)에 의해 선택된 윈드 노이즈 대체 동작은 세그먼트의 식별된 특성들에 따라 변할 수 있다. 오디오 대체 동작 선택 모듈(230)은 윈드 노이즈 검출 모듈(220)에 의해 제공된 오디오 컴포넌트 세그먼트의 특성들로부터 유도된 신호들에 대응하는 임계값들을 유지할 수 있다. 이러한 임계값들은 적용되는 윈드 노이즈 대체 동작을 결정하는데 이용된다.

예를 들어, 신호들은, 예를 들어 윈드 노이즈 아티팩트의 하나 이상의 주파수 및 윈드 노이즈 아티팩트에 대응하는 신호 대 노이즈비에 의해 측정된 윈드 노이즈 아티팩트의 지속기간 및 강도에 대응할 수 있다. 이러한 신호들은, 함께 취해질 때, 검출된 윈드 노이즈가 오디오 컴포넌트 세그먼트뿐만 아니라 전체 오디오 컴포넌트에 얼마나 파괴적인지에 대한 추정치(예를 들어, 영향 받는 비디오의 백분율)를 제공할 수 있다. 임계값들은 이용자 만족 연구들(예를 들어, 어떤 임계값들이 가장 높은 이용자 만족을 초래했는지를 결정하는 것)에 기반하여 오디오 대체 동작 선택 모듈(230)에 의해 설정될 수 있다.

일 구현예에서, 식별된 오디오 세그먼트로부터 유도된 신호들이 임계값들의 제1 미리 결정된 세트를 만족시킬 때, 윈드 노이즈 아티팩트를 채우는 오디오 대체 동작은 오디오 대체 동작 선택 모듈(230)에 의해 선택될 수 있다. 윈드 노이즈 아티팩트를 채우는 것은 윈드 노이즈 아티팩트를 세그먼트 및/또는 오디오 컴포넌트에서 비-클립핑된 백그라운드 오디오의 추정치로 대체하는 것을 포함한다. 윈드 노이즈 아티팩트를 대체하는 것은 오디오의 파괴된 섹션 내에서 (예를 들어, 주위 오디오 컨텍스트를 이용하여) 오디오의 파괴된 섹션 외부에서 발생하는 오디오 텍스처를 복제하는 것을 포함할 수 있다. 오디오 텍스처는 오디오 컴포넌트의 주위 오디오 컨텍스트(예를 들어, 다른 세그먼트들)로부터 추출된 스펙트로그램 및/또는 오디오 신호의 보간을 결정함으로써 복제될 수 있다. 이 경우, 다른 세그먼트들로부터의 주위 오디오 컨텍스트가 식별된 오디오 세그먼트에 이용될 수 있다. 일부 구현예들에서, 윈드 노이즈 아티팩트를 채우는 것은 식별된 오디오 세그먼트에서 (윈드 노이즈 아티팩트의) 주파수 도메인의 길이가 짧고/짧거나 식별된 오디오 세그먼트에서의 주파수 도메인 내에 음성 단어들이 없거나 거의 없을 때 오디오 대체 동작으로서 선택될 수 있다.

다른 구현예에서, 식별된 오디오 세그먼트로부터의 유도된 신호들이 임계값들의 제2 미리 결정된 세트를 만족시킬 때, 오디오 신호를 필터링 및/또는 세정하는 오디오 대체 동작은 오디오 대체 동작 선택 모듈(230)에 의해 선택될 수 있다. 오디오 신호를 필터링하는 동작은 세그먼트 내의 기본 오디오 신호를 복구하는 것을 목표로 한다. 동적 노이즈 제한기(dynamic noise limiter: DNL), 동적 노이즈 저감(dynamic noise reduction: DNR), 시간-주파수 필터들, 다른 특수 목적 노이즈 저감 프로그램들 등을 포함하지만 이에 제한되지는 않는 다양한 필터링 기술들이 이용될 수 있다. 일부 구현예들에서, 오디오 신호의 필터링 및/또는 세정은 식별된 오디오 세그먼트의 주파수 도메인의 폭 및 강도가 높지(예를 들어, 오디오 세그먼트에서 극단적 및/또는 파괴적 윈드 노이즈를 나타내지) 않을 때 오디오 대체 동작으로서 선택될 수 있다.

추가적인 구현예에서, 식별된 오디오 세그먼트로부터의 유도된 신호들이 임계값들의 제3 미리 결정된 세트를 만족시킬 때, 오디오 대체 동작 선택 모듈(230)에 의해 윈드 노이즈 아티팩트를 무음으로 대체하는 오디오 대체 동작이 선택될 수 있다. 무음으로 대체하는 동작은 오디오 세그먼트의 진폭을 0으로 조정하는 것을 포함할 수 있다. 오디오 세그먼트에서의 윈드 노이즈 아티팩트를 무음으로 대체하는 것은, 주파수 도메인의 길이, 폭 및 강도가 윈드 노이즈 아티팩트가 긴 시간 간격 동안 파괴적이고 확장된다는 것을 나타내는 경우에 오디오 대체 동작으로서 선택될 수 있다. 다른 구현예들에서, 오디오 세그먼트에서의 윈드 노이즈 아티팩트를 무음으로 대체하는 것은, 주파수 도메인의 길이가 짧지만, 그 폭 및 강도가 세그먼트에서 오디오 컴포넌트의 파괴를 나타내는 경우에 오디오 대체 동작으로서 선택될 수 있다. 또한, 윈드 노이즈 아티팩트를 무음으로 대체하는 것은 윈드 노이즈 아티팩트가 파괴적이며, 채우는 것이 실행가능한 대체 옵션이 아닌(예를 들어, 음성 단어들이 주위 오디오 컨텍스트에 있는) 경우에 오디오 대체 동작으로서 선택될 수 있다.

일 구현예에서, 식별된 오디오 세그먼트로부터의 유도된 신호들이 임계값들의 제4 미리 결정된 세트를 만족시킬 때, 윈드 노이즈 아티팩트를 비디오로부터 비-클립핑된 백그라운드 노이즈의 추정치로 대체하는 오디오 대체 동작은 오디오 대체 동작 선택 모듈(230)에 의해 선택될 수 있다. 비디오로부터 비-클립핑된 백그라운드 노이즈의 추정치로 대체하는 동작은 윈드 노이즈 아티팩트를 대체하기 위해 주위 오디오 세그먼트들(예를 들면, 식별된 오디오 세그먼트에 시간적으로 근접함)을 비-클립핑된 백그라운드 노이즈로서 이용하는 것을 포함할 수 있다. 오디오 세그먼트에서의 윈드 노이즈 아티팩트를 비-클립핑된 백그라운드 노이즈의 추정치로 대체하는 것은 주파수 도메인의 길이가 짧지만, 그 폭 및 강도가 세그먼트에서 오디오 컴포넌트의 파괴를 나타내는 경우에 오디오 대체 동작으로서 선택될 수 있다.

다른 구현예에서, 식별된 오디오 세그먼트로부터의 유도된 신호들이 임계값들의 제5 미리 결정된 세트를 만족시킬 때, 윈드 노이즈 아티팩트를 상이한 오디오 컴포넌트로 대체하는 오디오 대체 동작은 오디오 대체 동작 선택 모듈(230)에 의해 선택될 수 있다. 상이한 오디오 컴포넌트로 대체하는 동작은 전체 오디오 컴포넌트를 백그라운드 음악 트랙으로 대체하는 것을 포함할 수 있다. 일 구현예에서, 이용자는 대체물로서 이용하기 위해 자신이 선호하는 오디오 컴포넌트를 선택할 수 있도록 프롬프팅될 수 있다. 오디오 세그먼트에서의 윈드 노이즈 아티팩트를 상이한 오디오 컴포넌트로 대체하는 것은, 주파수 도메인의 길이, 폭 및 강도가 윈드 노이즈 아티팩트가 긴 시간 간격 동안 파괴적이고 확장된다는 것을 나타내는 경우에(예를 들어, 채우기/보간에 이용될 수 있는 오디오 컴포넌트의 양호한 세그먼트가 남아 있지 않은 경우에) 오디오 대체 동작으로서 선택될 수 있다.

적합한 윈드 노이즈 대체 동작이 선택되면, 오디오 조정 모듈(240)은 윈드 노이즈 대체 동작을 오디오 세그먼트에 적용하여 윈드 노이즈 아티팩트를 오디오 세그먼트로부터 제거한다. 일 구현예에서, 오리지널 오디오 세그먼트 및 교정된 오디오 세그먼트는 데이터 저장소(106)의 오디오 교정 데이터(292)에 저장될 수 있다. 그 다음, 오디오 조정 모듈(240)은 데이터 저장소(106)의 콘텐츠 아이템 데이터(290)에서 비디오의 일부로서 저장될 업데이트된 오디오 컴포넌트를 제공할 수 있다.

도 3은 본 개시내용의 일부 구현예들에 따라 비디오 콘텐츠에서 윈드 노이즈를 필터링하는 방법(300)을 도시하는 흐름도이다. 이 방법(300)은, 하드웨어(예를 들어, 회로, 전용 로직, 프로그래머블 로직, 마이크로코드 등), 소프트웨어(예를 들어, 하드웨어 시뮬레이션을 수행하기 위해 프로세싱 디바이스에서 실행되는 명령어들), 또는 이들의 조합을 포함하는 프로세싱 로직에 의해 수행될 수 있다.

설명의 단순성을 위해, 본 개시내용의 방법들은 일련의 행동들로서 묘사 및 설명된다. 그러나, 본 개시내용에 따른 행동들은 다양한 순서들로 및/또는 동시에, 및 본 명세서에 제시 및 설명되지 않은 다른 행동들과 함께 발생할 수 있다. 더욱이, 개시된 주제에 따른 방법들을 구현하기 위해 모든 예시된 행동들이 요구되는 것이 아닐 수도 있다. 또한, 관련 기술분야의 통상의 기술자는 방법들이 이벤트들 또는 상태도를 통해 일련의 상호관련된 상태들로서 대안적으로 표현될 수 있다는 점을 이해하고 인식할 것이다. 또한, 본 명세서에 개시된 방법들은 이러한 방법들을 컴퓨팅 디바이스들에 전송 및 전달하는 것을 용이하게 하기 위해 제조 물품 상에 저장될 수 있다는 점을 인식해야 한다. 본 명세서에서 사용되는 "제조 물품"이라는 용어는 임의의 컴퓨터 판독가능한 디바이스 또는 저장 매체로부터 액세스할 수 있는 컴퓨터 프로그램을 포괄하는 것으로 의도된다. 일 구현예에서, 방법(300)은 도 2에 도시된 바와 같이 오디오 조정 모듈(140)에 의해 수행될 수 있다.

방법(300)은 오디오 컴포넌트 및 비디오 컴포넌트를 포함하는 비디오 콘텐츠가 수신되는 블록(302)에서 시작한다. 그 다음, 블록(304)에서, 윈드 노이즈 아티팩트의 발생이 오디오 컴포넌트의 세그먼트에서 검출된다. 일 구현예에서, 위에서 논의한 바와 같이, 윈드 노이즈 아티팩트는 몇 가지 예를 들어 스펙트로그램 분석, 기계 학습 또는 심층 학습을 통해 검출될 수 있다. 그 다음, 블록(306)에서, 윈드 노이즈 아티팩트의 지속기간 및 강도가 식별될 수 있다.

이어서, 블록(308)에서, 윈드 노이즈 아티팩트의 식별된 지속기간 및 강도에 기반하여 윈드 노이즈 대체 동작이 선택된다. 일 구현예에서, 오디오 세그먼트에 대응하는 하나 이상의 신호는 윈드 노이즈 아티팩트의 지속기간 및 강도로부터 유도될 수 있다. 신호들은 윈드 노이즈 아티팩트의 주파수 도메인의 길이, 주파수 도메인의 폭 및 주파수 도메인의 강도 중 하나 이상을 포함할 수 있다. 그 다음, 이들 신호들은 맵핑된 임계값들에 대응하는 윈드 노이즈 대체 동작을 결정하기 위해 각각의 신호에 대한 임계값들에 매핑될 수 있다. 윈드 노이즈 동작들은 윈드 노이즈 아티팩트를 오디오 컴포넌트의 주위 세그먼트들로부터 추출된 오디오 신호의 보간으로 채우고, 오디오 세그먼트를 필터링/세정하여 윈드 노이즈 아티팩트를 제거하고, 윈드 노이즈 아티팩트를 무음으로 대체하고, 윈드 노이즈 아티팩트를 비디오로부터 비-클립핑된 백그라운드 노이즈의 추정치로 대체하며, 오디오 컴포넌트를 상이한 오디오 컴포넌트로 대체하는 것을 포함할 수 있지만 이에 제한되지는 않는다.

마지막으로, 블록(310)에서, 선택된 윈드 노이즈 대체 동작이 오디오 컴포넌트의 세그먼트에 적용된다. 선택된 윈드 노이즈 대체 동작은 오디오 컴포넌트의 오디오 세그먼트로부터 윈드 노이즈 아티팩트들을 제거하는데 이용된다.

윈드 노이즈 아티팩트를 갖는 둘 이상의 오디오 세그먼트가 블록(304)에서 식별되면, 윈드 노이즈 아티팩트를 갖는 각각의 식별된 오디오 세그먼트는 블록들(406-410)에 따라 프로세싱될 수 있다.

도 4는 본 개시내용의 일 구현예에 따라 비디오 콘텐츠에서 윈드 노이즈를 필터링하기 위한 다른 방법(400)을 도시하는 흐름도이다. 이 방법(400)은, 하드웨어(예를 들어, 회로, 전용 로직, 프로그래머블 로직, 마이크로코드 등), 소프트웨어(예를 들어, 하드웨어 시뮬레이션을 수행하기 위해 프로세싱 디바이스 상에서 실행되는 명령어들) 또는 이들의 조합을 포함하는 프로세싱 로직에 의해 수행될 수 있다. 일 구현예에서, 방법(400)은 도 2에 도시된 바와 같이 오디오 조정 모듈(140)에 의해 수행될 수 있다.

방법(400)은 비디오 콘텐츠가 수신되는 블록(402)에서 시작한다. 그 다음, 블록(404)에서, 오디오 컴포넌트가 비디오 콘텐츠로부터 추출된다. 블록(406)에서, 윈드 노이즈 아티팩트를 갖는 오디오 세그먼트를 식별하기 위해 오디오 컴포넌트가 분석된다. 일 구현예에서, 윈드 노이즈 아티팩트는 몇 가지 예를 들어 스펙트로그램 분석, 기계 학습 또는 심층 학습을 통해 검출될 수 있다. 그 다음, 블록(408)에서, 오디오 세그먼트의 특성들이 결정된다. 일 구현예에서, 이러한 특성들은 오디오 세그먼트에서 윈드 노이즈 아티팩트의 지속기간 및 강도를 포함할 수 있다.

이어서, 블록(410)에서, 식별된 특성들에 기반하여 윈드 노이즈 대체 동작이 선택된다. 일 구현예에서, 오디오 세그먼트에 대응하는 하나 이상의 신호는 윈드 노이즈 아티팩트의 특성들로부터 유도될 수 있다. 신호들은, 예를 들어 윈드 노이즈 아티팩트의 하나 이상의 주파수 및/또는 윈드 노이즈 아티팩트에 대응하는 신호 대 노이즈비에서 측정된 바와 같이 윈드 노이즈 아티팩트의 지속기간 및 강도를 포함할 수 있다. 그 다음, 이들 신호들은 맵핑된 임계값들에 대응하는 윈드 노이즈 대체 동작을 결정하기 위해 각각의 신호에 대한 임계값들에 매핑될 수 있다. 윈드 노이즈 동작들은 윈드 노이즈 아티팩트를 오디오 컴포넌트의 주위 세그먼트들로부터 추출된 오디오 신호의 보간으로 채우고, 오디오 세그먼트를 필터링/세정하여 윈드 노이즈 아티팩트를 제거하고, 윈드 노이즈 아티팩트를 무음으로 대체하고, 윈드 노이즈 아티팩트를 비디오로부터 비-클립핑된 백그라운드 노이즈의 추정치로 대체하며, 오디오 컴포넌트를 상이한 오디오 컴포넌트로 대체하는 것을 포함할 수 있지만 이에 제한되지는 않는다.

블록(412)에서, 선택된 윈드 노이즈 대체 동작이 오디오 컴포넌트의 세그먼트에 적용된다. 선택된 윈드 노이즈 대체 동작은 오디오 세그먼트로부터 윈드 노이즈 아티팩트를 제거하는데 이용된다. 마지막으로, 블록(414)에서, 수정된 오디오 컴포넌트는 비디오 콘텐츠의 일부로서 저장된다.

윈드 노이즈 아티팩트를 갖는 둘 이상의 오디오 세그먼트가 블록(406)에서 식별되면, 윈드 노이즈 아티팩트를 갖는 각각의 식별된 오디오 세그먼트는 블록들(408-414)에 따라 프로세싱될 수 있다.

도 5는, 기계로 하여금 본 명세서에서 논의된 방법론들 중 임의의 하나 이상을 수행하게 하기 위한 명령어 세트가 실행될 수 있는 예시적 형태의 컴퓨터 시스템(500) 내의 기계의 도식적 표현을 나타낸다. 대안적인 구현예들에서, 기계는 LAN(local area network), 인트라넷, 엑스트라넷, 또는 인터넷에서 다른 기계들에 접속(예를 들어, 네트워킹)될 수 있다. 기계는 클라이언트-서버 네트워크 환경에서 서버 또는 클라이언트 기계의 자격으로 또는 피어-투-피어(또는 분산형) 네트워크 환경에서 피어 기계로서 동작할 수 있다. 기계는 개인용 컴퓨터(PC), 태블릿 PC, 셋톱 박스(STB), PDA(Personal Digital Assistant), 셀룰러 전화기, 웹 어플라이언스, 서버, 네트워크 라우터, 스위치 또는 브리지, 또는 그 기계에 의해 취해질 액션들을 지정하는 명령어들의 세트(순차적 또는 다른 식)를 실행할 수 있는 임의의 기계일 수 있다. 또한, 단일 기계만이 예시되지만, 용어 "기계"는 또한 본 명세서에서 논의된 방법론들 중 임의의 하나 이상을 수행하기 위한 명령어들의 세트(또는 복수의 세트들)를 개별적으로 또는 함께 실행하는 기계들의 임의의 집합을 포함하도록 취해질 것이다. 일 구현예에서, 컴퓨터 시스템(500)은 도 1 및 도 2와 관련하여 설명된 바와 같이 오디오 조정 시스템(140)을 실행하는, 서버(102)와 같은 서버를 나타낼 수 있다.

예시적인 컴퓨터 시스템(500)은 버스(530)를 통해 서로 통신하는, 프로세싱 디바이스(502), 메인 메모리(504)(예를 들어, 판독 전용 메모리(ROM), 플래시 메모리, 동적 랜덤 액세스 메모리(DRAM), 예컨대 동기식 DRAM(SDRAM) 또는 램버스 DRAM(RDRAM), 기타 등등), 정적 메모리(506)(예를 들어, 플래시 메모리, 정적 랜덤 액세스 메모리(SRAM), 기타 등등), 및 데이터 저장 디바이스(518)를 포함한다. 본 명세서에서 설명되는 다양한 버스들을 통하여 제공되는 신호들 중 임의의 신호들을 다른 신호들과 시간 다중화하여 하나 이상의 공통 버스를 통하여 제공할 수 있다. 추가적으로, 회로 컴포넌트들 또는 블록들 사이의 상호접속은 버스들 또는 단일 신호 라인들로서 도시될 수 있다. 버스들 각각은 대안적으로 하나 이상의 단일 신호 라인일 수 있고, 단일 신호 라인들 각각은 대안적으로 버스들일 수 있다.

프로세싱 디바이스(502)는 예컨대, 마이크로프로세서, 중앙 프로세싱 유닛 등과 같은 하나 이상의 범용 프로세싱 디바이스를 나타낸다. 보다 구체적으로, 프로세싱 디바이스는 CISC(complex instruction set computing) 마이크로프로세서, RISC(reduced instruction set computer) 마이크로프로세서, VLIW(very long instruction word) 마이크로프로세서, 또는 다른 명령어 세트들을 구현하는 프로세서, 또는 명령어 세트들의 조합을 구현하는 프로세서들일 수 있다. 프로세싱 디바이스(902)는 또한 ASIC(application specific integrated circuit), FPGA(field programmable gate array), DSP(digital signal processor), 네트워크 프로세서 등과 같은 하나 이상의 특수 목적 프로세싱 디바이스일 수 있다. 프로세싱 디바이스(502)는 본 명세서에서 논의된 동작들과 단계들을 수행하기 위한 프로세싱 로직(526)을 실행하도록 구성된다.

컴퓨터 시스템(500)은 네트워크 인터페이스 디바이스(508)를 더 포함할 수 있다. 컴퓨터 시스템(500)은 비디오 디스플레이 유닛(510)(예를 들어, 액정 디스플레이(LCD) 또는 CRT(cathode ray tube)), 영숫자 입력 디바이스(512)(예를 들어, 키보드), 커서 제어 디바이스(514)(예를 들어, 마우스), 및 신호 생성 디바이스(516)(예를 들어, 스피커)를 또한 포함할 수 있다.

데이터 저장 디바이스(518)는 본 명세서에서 설명되는 기능들의 방법론들 중 임의의 하나 이상을 구현하는 명령어들(522)의 하나 이상의 세트(예를 들어, 소프트웨어)가 저장되는 컴퓨터 판독가능한 저장 매체(528)(기계 판독가능한 저장 매체로도 지칭됨)를 포함할 수 있다. 명령어들(522)은 또한 컴퓨터 시스템(500)에 의해 실행되는 동안 메인 메모리(504) 및/또는 프로세싱 디바이스(502) 내에 완전히 또는 적어도 부분적으로 상주할 수 있고, 메인 메모리(504) 및 프로세싱 디바이스(502)는 기계 판독가능한 저장 매체를 또한 구성한다. 명령어들(722)은 네트워크 인터페이스 디바이스(508)를 통해 네트워크(520) 상에서 추가로 전송되거나 수신될 수 있다.

또한, 컴퓨터 판독가능한 저장 매체(528)는 본 명세서에서 설명되는 바와 같이 비디오 콘텐츠에서 윈드 노이즈들을 필터링하는 방법을 수행하기 위한 명령어들을 저장하는데 이용될 수 있다. 예시적인 구현예에서는 컴퓨터 판독가능한 저장 매체(528)가 단일의 매체인 것으로 도시되어 있지만, "기계 판독가능한 저장 매체"라는 용어는 명령어들의 하나 이상의 세트를 저장하는 단일의 매체 또는 복수의 매체들(예를 들어, 중앙집중형 또는 분산형 데이터베이스 및/또는 연관된 캐시들 및 서버들)을 포함하는 것으로 간주되어야 한다. 기계 판독가능한 매체는 기계(예를 들어, 컴퓨터)에 의해 판독가능한 형태의 정보(예를 들어, 소프트웨어, 프로세싱 애플리케이션)를 저장하기 위한 임의의 메커니즘을 포함한다. 기계 판독가능한 매체는 자기 저장 매체(예를 들어, 플로피 디스켓); 광 저장 매체(예를 들어, CD-ROM); 광자기 저장 매체; 판독 전용 메모리(ROM); 랜덤 액세스 메모리(RAM); 소거가능한 프로그래머블 메모리(예를 들어, EPROM 및 EEPROM); 플래시 메모리; 또는 전자 명령어들을 저장하는데 적합한 다른 유형의 매체를 포함할 수 있지만 이에 제한되지는 않는다.

앞선 설명은 본 개시내용의 여러 구현예들에 대한 양호한 이해를 제공하기 위하여, 구체적인 시스템들, 컴포넌트들, 방법들, 및 기타 등등의 예들과 같은 다수의 구체적인 세부사항들을 개시하고 있다. 그러나, 본 개시내용의 적어도 일부 구현예들은 이러한 구체적인 세부사항들 없이도 실시될 수 있음은 관련 기술분야의 통상의 기술자에게 명백할 것이다. 다른 경우들에서, 본 개시내용을 불필요하게 모호하게 하는 것을 피하기 위해 잘 알려진 컴포넌트들 또는 방법들은 상세히 설명되지 않거나 간단한 블록도 포맷으로 제시된다. 따라서, 개시된 구체적인 세부사항들은 예시적인 것에 불과하다. 특정한 구현예들은 이러한 예시적인 세부사항들로부터 달라질 수 있고 그럼에도 본 개시내용의 범위 안에 있는 것으로 고려될 수 있다.

본 명세서 전반에 걸쳐 "일 구현예" 또는 "구현예"에 대한 참조는 구현예와 관련하여 설명된 특정한 특징, 구조 또는 특성이 적어도 하나의 구현예에 포함됨을 의미한다. 따라서, 본 명세서 전반에 걸쳐 다양한 곳들에서 "일 구현예에서" 또는 "구현예에서"라는 문구의 표현이 반드시 동일한 구현예 모두를 지칭하는 것은 아니다. 또한, "또는"이라는 용어는 독점적인 "또는"보다는 포괄적인 "또는"을 의미하는 것으로 의도된다.

본 명세서의 방법들의 동작들은 특정한 순서로 도시되고 설명되어 있지만, 각각의 방법의 동작들의 순서는 특정한 동작들이 반대의 순서로 수행될 수 있거나 또는 특정한 동작이, 적어도 부분적으로, 다른 동작들과 동시에 수행될 수 있도록 변경될 수 있다. 다른 구현예에서, 별개의 동작들의 하위 동작들 또는 명령어들이 간헐적인 및/또는 교호적인 방식으로 수행될 수 있다.

Claims

방법으로서,
오디오 컴포넌트 및 비디오 컴포넌트를 포함하는 비디오 콘텐츠를 수신하는 단계;
프로세싱 디바이스에 의해, 상기 오디오 컴포넌트의 세그먼트에서 윈드 노이즈 아티팩트의 발생을 검출하는 단계;
상기 윈드 노이즈 아티팩트의 지속기간 및 상기 윈드 노이즈 아티팩트의 강도를 식별하는 단계;
상기 프로세싱 디바이스에 의해, 상기 윈드 노이즈 아티팩트의 적어도 식별된 지속기간 및 강도에 기반하여 윈드 노이즈 대체 동작을 선택하는 단계; 및
상기 프로세싱 디바이스에 의해, 선택된 윈드 노이즈 대체 동작을 상기 오디오 컴포넌트의 상기 세그먼트에 적용하여 상기 세그먼트로부터 상기 윈드 노이즈 아티팩트를 제거하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 윈드 노이즈 대체 동작은 상기 세그먼트를 둘러싸는 상기 오디오 컴포넌트의 다른 세그먼트들로부터 추출된 오디오 신호의 보간으로 상기 세그먼트를 채우는(in-fill) 것을 포함하는 방법.
제항에 있어서,
상기 윈드 노이즈 대체 동작은 상기 세그먼트를 필터링하여 상기 세그먼트로부터 상기 윈드 노이즈 아티팩트를 제거하는 것을 포함하는 방법.
제항에 있어서,
상기 윈드 노이즈 대체 동작은 상기 세그먼트를 무음(silence)으로 대체하는 것을 포함하는 방법.
제항에 있어서,
상기 윈드 노이즈 대체 동작은 상기 윈드 노이즈 아티팩트를 상기 오디오 컴포넌트의 다른 세그먼트로부터 추출된 오디오 신호로 대체하는 것을 포함하는 방법.
제항에 있어서,
상기 윈드 노이즈 대체 동작은 상기 오디오 컴포넌트를 상이한 오디오 컴포넌트로 대체하는 것을 포함하는 방법.
제6항에 있어서,
이용자는 상기 상이한 오디오 컴포넌트를 선택할 수 있도록 프롬프팅되는 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 윈드 노이즈 대체 동작을 선택하는 단계는,
상기 윈드 노이즈 아티팩트의 식별된 지속기간 및 식별된 강도로부터 복수의 신호들을 유도하는 단계;
유도된 신호들을 임계값들의 대응하는 세트에 매핑하는 단계; 및
상기 유도된 신호들에 매핑된 상기 임계값들의 세트에 대응하는 상기 윈드 노이즈 대체 동작을 선택하는 단계를 더 포함하는 방법.
제8항에 있어서,
상기 유도된 신호들은 상기 윈드 노이즈 아티팩트의 하나 이상의 주파수 및 상기 윈드 노이즈 아티팩트에 대응하는 신호 대 노이즈비를 포함하는 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
기계 학습은 상기 윈드 노이즈 아티팩트의 발생을 검출하는데 이용되는 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,
심층 학습(deep learning)은 상기 윈드 노이즈 아티팩트의 발생을 검출하는데 이용되는 방법.
제1항 내지 제11항 중 어느 한 항에 있어서,
스펙트로그램 분석은 상기 윈드 노이즈 아티팩트의 발생을 검출하는데 이용되는 방법.
시스템으로서,
메모리; 및
상기 메모리에 결합된 프로세싱 디바이스
를 포함하며, 상기 프로세싱 디바이스는,
비디오 콘텐츠로부터 오디오 컴포넌트를 추출하고,
상기 오디오 컴포넌트를 분석하여 상기 오디오 컴포넌트의 세그먼트에서 윈드 노이즈 아티팩트의 발생을 식별하고,
상기 세그먼트의 특성들을 식별하고,
식별된 특성들에 기반하여 윈드 노이즈 대체 동작을 선택하며,
상기 세그먼트에 대한 선택된 윈드 노이즈 대체 동작의 적용을 통해 상기 세그먼트로부터 상기 윈드 노이즈 아티팩트를 제거하기 위한 것인 시스템.
제13항에 있어서,
상기 윈드 노이즈 대체 동작은 상기 세그먼트를 둘러싸는 상기 오디오 컴포넌트의 다른 세그먼트들로부터 추출된 오디오 신호의 보간으로 상기 세그먼트를 채우는 것을 포함하는 시스템.
제13항 또는 제14항에 있어서,
상기 윈드 노이즈 대체 동작은 상기 세그먼트를 필터링하여 상기 세그먼트로부터 상기 윈드 노이즈 아티팩트를 제거하는 것을 포함하는 시스템.
제13항 내지 제15항 중 어느 한 항에 있어서,
상기 윈드 노이즈 대체 동작은 상기 윈드 노이즈 아티팩트를 상기 오디오 컴포넌트의 다른 세그먼트로부터 추출된 오디오 신호로 대체하는 것을 포함하는 시스템.
제13항 내지 제16항 중 어느 한 항에 있어서,
상기 윈드 노이즈 대체 동작은 상기 세그먼트를 무음으로 대체하는 것을 포함하는 시스템.
제13항 내지 제17항 중 어느 한 항에 있어서,
상기 윈드 노이즈 대체 동작은 상기 오디오 컴포넌트를 상이한 오디오 컴포넌트로 대체하는 것을 포함하는 시스템.
제13항 내지 제18항 중 어느 한 항에 있어서,
상기 세그먼트의 특성들은 상기 윈드 노이즈 아티팩트의 지속기간 및 상기 윈드 노이즈 아티팩트의 강도를 포함하는 시스템.
제13항 내지 제19항 중 어느 한 항에 있어서,
상기 프로세싱 디바이스는,
식별된 특성들로부터 복수의 신호들을 유도하고,
유도된 신호들을 임계값들의 대응하는 세트에 매핑하며,
상기 유도된 신호들에 매핑된 상기 임계값들의 세트에 대응하는 상기 윈드 노이즈 대체 동작을 선택함으로써, 상기 윈드 노이즈 대체 동작을 선택하도록 구성되는 시스템.
명령어들을 저장하는 비일시적 기계 판독가능한 저장 매체로서,
상기 명령어들은, 실행될 때, 프로세싱 디바이스로 하여금,
비디오 콘텐츠로부터 오디오 컴포넌트를 추출하고,
상기 프로세싱 디바이스에 의해, 상기 오디오 컴포넌트의 세그먼트에서 윈드 노이즈 아티팩트의 발생을 검출하고,
상기 프로세싱 디바이스에 의해, 상기 윈드 노이즈 아티팩트의 특성들을 식별하고,
상기 프로세싱 디바이스에 의해, 상기 윈드 노이즈 아티팩트의 식별된 특성들에 기반하여 윈드 노이즈 대체 동작을 선택하고,
선택된 윈드 노이즈 대체 동작을 상기 오디오 컴포넌트의 상기 세그먼트에 적용하여 상기 세그먼트로부터 상기 윈드 노이즈 아티팩트를 제거하고 수정된 오디오 컴포넌트를 생성하고,
상기 수정된 오디오 컴포넌트를 상기 비디오 콘텐츠와 결합하며,
상기 프로세싱 디바이스에 의해, 상기 비디오 콘텐츠를 콘텐츠 공유 플랫폼에 전송하는 것을 포함하는 동작들을 수행하게 하는, 비일시적 기계 판독가능한 저장 매체.
제21항에 있어서,
상기 윈드 노이즈 대체 동작은 상기 세그먼트를 둘러싸는 상기 오디오 컴포넌트의 다른 세그먼트들로부터 추출된 오디오 신호의 보간으로 상기 세그먼트를 채우는 것을 포함하는 비일시적 기계 판독가능한 저장 매체.
제21항 또는 제22항에 있어서,
상기 윈드 노이즈 대체 동작은 상기 세그먼트를 필터링하여 상기 세그먼트로부터 상기 윈드 노이즈 아티팩트를 제거하는 것을 포함하는 비일시적 기계 판독가능한 저장 매체.
제21항 내지 제23항 중 어느 한 항에 있어서,
상기 윈드 노이즈 대체 동작은 상기 세그먼트를 무음으로 대체하는 것을 포함하는 비일시적 기계 판독가능한 저장 매체.
제21항 내지 제24항 중 어느 한 항에 있어서,
상기 윈드 노이즈 대체 동작은 상기 윈드 노이즈 아티팩트를 상기 오디오 컴포넌트의 다른 세그먼트로부터 추출된 오디오 신호로 대체하는 것을 포함하는 비일시적 기계 판독가능한 저장 매체.
제21항 내지 제25항 중 어느 한 항에 있어서,
상기 윈드 노이즈 대체 동작은 상기 오디오 컴포넌트를 상이한 오디오 컴포넌트로 대체하는 것을 포함하는 비일시적 기계 판독가능한 저장 매체.