KR102065994B1

KR102065994B1 - 오디오 콘텐츠에 포함된 음성 트리거를 인식하여 다른 오디오 콘텐츠를 매칭하는 방법

Info

Publication number: KR102065994B1
Application number: KR1020190032755A
Authority: KR
Inventors: 서장원
Original assignee: 보보인터내셔널 주식회사
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2020-01-15

Abstract

본 발명은 오디오 콘텐츠의 스크립트에 포함된 음성 트리거를 인식하여 다른 오디오 콘텐츠를 매칭하여 재생시키는 방법에 관한 발명입니다.
제1오디오 콘텐츠의 음성을 스크립트를 변환하되, 그 스크립트에 포함되어 있는 음성 트리거를 이용하여 별도의 데이터베이스로 관리되고 있는 제2오디오 콘텐츠를 매칭해낼 수 있습니다. 본 발명은 제1오디오 콘텐츠의 재생을 잠시 중단한 다음에 제2오디오 콘텐츠를 재생시키고 다시 트리거 시점에서 제1오디오 콘텐츠를 재생하는 방법을 구현합니다. 종래에는 서로 다른 두 개의 오디오 콘텐츠를 매칭시키려면 오디오 파일을 제작하는 시점에서 오디오 편집기를 이용하여 수작업으로 하나의 오디오 파일을 생성하는 수밖에 없었습니다. 하지만 본 발명을 통해서 제1오디오 콘텐츠가 이미 하나의 독립된 음성 파일로 제작된 다음에도 다채롭게 오디오 파일을 재구성할 수 있는 장점이 있습니다. 오디오 콘텐츠에 상당히 자유롭고 유연하게 광고를 추가할 수 있음은 물론입니다.

Description

오디오 콘텐츠에 포함된 음성 트리거를 인식하여 다른 오디오 콘텐츠를 매칭하는 방법{THE METHOD OF MATCHING AN AUDIO CONTENTS WITH THE OTHER AUDIO CONTENTS USING SOUND TRIGGERS}

본 발명은 오디오 콘텐츠 기술에 관하며, 특히 오디오 콘텐츠의 생성, 통합, 분리, 변형, 배포 등의 방법에 관한다.

모바일 디바이스의 보편적인 공급과 소프트웨어 및 정보통신 기술의 비약적인 발전으로 말미암아 모든 포맷의 콘텐츠가 언제 어디에서든지 자유롭게 소비된다. 사람들은 다른 일을 중단한 채 몰입해서 콘텐츠를 소비할 수 있다. 대체로 시청각을 이용하여 콘텐츠를 보거나 시각을 고정하면서 인터랙티브한 행동이 의도된 콘텐츠는 다른 일을 중단하면서 그 콘텐츠에 몰입해야 한다. 대표적으로 동영상 콘텐츠가 그러하고 텍스트로 전달되는 정보성 콘텐츠가 그러하며 게임 콘텐츠도 포함된다.

그러나 사용자가 다른 일을 하면서 콘텐츠를 소비하는 경우도 있다. 시각과 청각을 분리하고, 청각의 집중도를 약간 누그러뜨리며 콘텐츠를 소비하는 경우라 하겠다. 또한 편리함을 추구하려는 인간의 게으른 본성이 사용자에게 작용되기도 한다. 특별히 다른 일을 하지 않더라도 감각을 모두 사용해서 적극적으로 콘텐츠를 소비하는 것이 귀찮다거나 불편하다거나 하다는 것이다. 대표적으로 팟캐스트가 그러하고 오디오북이 그러하다. 사용자는 오디오 콘텐츠를 청취하되 다른 일에 시각을 사용할 수 있음은 물론이다. 그러나 다른 일에 시각을 사용하지 않고 콘텐츠에 몰입할 수도 있으며, 그런 경우에는 대체로 그 오디오 콘텐츠를 특히 좋아하는 팬인 경우가 많다.

네트워크를 통해 대중에게 배포되는 오디오 콘텐츠는 녹음실에서 편집하는 과정을 거쳐 제작된다. 편집자가 일일이 들어야 하며, 음향편집을 수작업으로 해야 하는 단점이 있었다. 오디오 콘텐츠에 광고를 삽입하는 데 특별한 어려움도 존재했다. 무엇이든 재생되면 사용자의 청각을 독점하기 때문이다. 화면의 일부를 사용하는 배너/팝업 광고가 불가능했다. 또한 콘텐츠와 연관된 광고를 하기도 어려웠다. 오디오 콘텐츠가 어떤 의미로 진행되고 있는지 알기 어렵기 때문이다. 그래서 오디오 파일을 제작하는 편집과정에서 광고를 삽입하는 시점을 수작업으로 결정해야 하는 어려움이 있었고, 또한 콘텐츠의 성격상 일단 제작되면 콘텐츠의 재생이 종료되기 전까지 다른 콘텐츠를 중간에 삽입하는 것이 불가능한 경우도 많았다.

본 발명의 발명자는 어떻게 하면 오디오 콘텐츠에 청취자의 거부감을 초래하지 않은 채 다른 콘텐츠를 삽입할 수 있을지, 또한 동시에 어떻게 하면 오디오 콘텐츠 분야에서 새로운 비즈니스 모델을 만들어낼 수 있을지를 오랫동안 연구하고 실험했다. 수많은 오디오 콘텐츠를 제작하고 편집한 끝에 드디어 본 발명을 완성하기에 이르렀다.

선행기술문헌: 대한민국 공개특허공보 제10-2015-0038375호

발명의 목적은 어떤 오디오 콘텐츠와 그 오디오 콘텐츠의 성격과 다른 색다른 오디오 콘텐츠를 오디오 콘텐츠의 스크립트를 이용하여 효과적으로 매칭하는 방법을 제공함에 있다. 이를 통해서 한편으로는 오디오 콘텐츠를 다채롭고 유연하게 관리할 수 있도록 하고, 다른 한편으로 새로운 비즈니스 모델을 오디오 콘텐츠 분야에 구현할 수 있는 기술적 기반을 마련하고자 한다.

한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론 할 수 있는 범위 내에서 추가적으로 고려될 것이다.

위와 같은 목적을 달성하기 위한 본 발명의 제1국면은 오디오 콘텐츠에 포함된 음성 트리거를 인식하여 다른 오디오 콘텐츠를 매칭하여 재생시키는 방법으로서:

STT(Speech To Text) 머신이 제1오디오 파일에서 스크립트를 자동으로 생성하고,

상기 제1오디오 파일이 사용자 디바이스의 플레이어를 통해 재생되는 동안에,

오디오 매칭 모듈의 트리거 파인더가 상기 스크립트에 미리 등록되어 있는 음성 트리거를 발견하면, 상기 오디오 매칭 모듈의 오디오 콜러가 미리 저장되어 있는 제2오디오 콘텐츠 데이터베이스에 저장되어 있는 제2오디오 파일을 호출하고

오디오 콘텐츠 매니저가 상기 제1오디오 파일의 재생을 트리거 시점에서 중단시키고, 상기 제2오디오 파일을 재생시킨 다음에, 상기 트리거 시점에서 중단된 상기 제1오디오 파일을 이어서 재생시키는 단계를 포함하는 것을 특징으로 한다.

본 발명의 제2국면은 오디오 콘텐츠에 포함된 음성 트리거를 인식하여 다른 오디오 콘텐츠를 매칭하여 재생시키는 방법으로서:

오디오 콘텐츠 서비스를 운영하는 서비스 서버에서 제1오디오 파일을 제작하는 단계;

상기 제1오디오 파일이 사용자 디바이스의 플레이어를 통해 재생되는 동안에, 오디오 매칭 모듈의 트리거 파인더가 제1오디오 파일의 스크립트에 미리 등록되어 있는 상기 오디오 트리거를 발견하면, 상기 오디오 매칭 모듈의 오디오 콜러가 미리 저장되어 있는 제2오디오 콘텐츠 데이터베이스에 저장되어 있는 제2오디오 파일을 호출하는 단계; 및

본 발명의 제3국면은 오디오 콘텐츠에 포함된 음성 트리거를 인식하여 광고 콘텐츠를 매칭하여 재생시키는 방법으로서:

STT(Speech To Text) 머신이 오디오 콘텐츠에서 스크립트를 자동으로 생성하고,

상기 오디오 콘텐츠가 사용자 디바이스의 플레이어를 통해 재생되는 동안에,

광고 매칭 모듈의 트리거 파인더가 상기 스크립트에 미리 등록되어 있는 음성 트리거를 발견하면, 상기 광고 매칭 모듈의 광고 콘텐트 콜러가 미리 저장되어 있는 광고 콘텐츠 데이터베이스에 저장되어 있는 광고 콘텐트를 호출하고,

오디오 콘텐츠 매니저가 상기 오디오 콘텐츠의 재생을 트리거 시점에서 중단시키고, 상기 광고 콘텐트를 재생시킨 다음에, 상기 트리거 시점에서 중단된 상기 오디오 콘텐츠를 이어서 재생시키는 단계를 포함하는 것을 특징으로 하는 오디오 콘텐츠에 포함된 음성 트리거를 인식하여 광고 콘텐츠를 매칭하여 재생시키는 방법.

본 발명의 제4국면은 오디오 콘텐츠에 포함된 음성 트리거를 인식하여 광고 콘텐츠를 매칭하여 재생시키는 방법으로서:

오디오 콘텐츠 서비스를 운영하는 서비스 서버에서 오디오 콘텐츠를 제작하는 단계; 및

상기 오디오 콘텐츠가 사용자 디바이스의 플레이어를 통해 재생되는 동안에, 광고 매칭 모듈의 트리거 파인더가 상기 오디오 콘텐츠의 스크립트에 미리 등록되어 있는 광고 트리거를 발견하면, 상기 광고 매칭 모듈의 광고 콘텐트 콜러가 미리 저장되어 있는 광고 콘텐츠 데이터베이스에 저장되어 있는 광고 콘텐트를 호출하는 단계; 및

오디오 콘텐츠 매니저가 상기 오디오 콘텐츠의 재생을 트리거 시점에서 중단시키고, 상기 광고 콘텐트를 재생시킨 다음에, 상기 트리거 시점에서 중단된 상기 오디오 콘텐츠를 이어서 재생시키는 단계를 포함하는 것을 특징으로 한다.

본 발명에 따르면, 제1오디오 콘텐츠와 그 제1오디오 콘텐츠의 성격과 다른 색다른 제2오디오 콘텐츠를 제1오디오 콘텐츠의 스크립트를 이용하여 효과적으로 매칭할 수 있게 된다.

제1오디오 콘텐츠의 음성을 스크립트를 변환하되, 그 스크립트에 포함되어 있는 음성 트리거를 이용하여 별도의 데이터베이스로 관리되고 있는 제2오디오 콘텐츠를 매칭해낼 수 있다. 종래에는 서로 다른 두 개의 오디오 콘텐츠를 매칭시키려면 오디오 파일을 제작하는 시점에서 오디오 편집기를 이용하여 수작업으로 하나의 오디오 파일을 생성하는 수밖에 없었다. 하지만 본 발명을 통해서 제1오디오 콘텐츠가 이미 하나의 독립된 음성 파일로 제작된 다음에도 다채롭게 오디오 파일을 재구성할 수 있는 장점이 있다. 오디오 콘텐츠에 상당히 자유롭고 유연하게 광고를 추가할 수 있음은 물론이다.

한편, 여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.

도 1은 본 발명의 바람직한 어느 실시예에 따른 개략적인 시스템 구성의 예를 나타낸다.
도 2는 본 발명의 바람직한 어느 실시예에 따라, STT 머신(150)과 오디오 매칭 모듈(140)의 기능을 개념적으로 나타내는 도면이다.
도 3은 본 발명의 정신에서 서로 매칭된 제1오디오 파일(117)과 제2오디오 파일(127)이 어떤 연관성을 갖는지를 개략적으로 나타내는 도면이다.
도 4는 오디어 플레이어에서 재생되는 오디오 파일 관점에서 도 3을 다시 설명한다. 도 4(a)는 오디오 파일 관점, 도 4(b)는 음성을 듣는 사용자 관점이 되겠다.
도 5는 본 발명의 바람직한 어느 실시예에 따른 방법의 전체 프로세스를 개략적으로 나타내었다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.

이하, 도면을 참조하여 본 발명의 다양한 실시예가 안내하는 본 발명의 구성과 그 구성으로부터 비롯되는 효과에 대해 살펴본다. 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

도 1은 본 발명의 바람직한 어느 실시예에 따른 시스템 구성을 개략적으로 나타내었다. 서비스 서버(100)가 웹 혹은 앱 기반의 플랫폼을 통해 오디오 콘텐츠를 제공한다. 사용자 디바이스(10, 20)는 통신망을 통해 서비스 서버(100)의 플랫폼에 접속하여 오디오 콘텐츠를 재생한다. 여기서 말하는 오디오 콘텐츠 플랫폼이라 함은 어떤 시스템이든 사용자가 접근 가능하게 오디오 콘텐츠가 목록으로 업로드되어 있는 시스템을 뜻한다. 서비스 서버(100)가 오디오 콘텐츠의 플랫폼을 직접 운영하는 시스템이든 제3자가 플랫폼을 운영하되 서비스 서버(100)가 그 플랫폼가 제공하는 오디오 콘텐츠에 상이한 오디오 콘텐츠를 매칭하는 시스템이든, 유료이든 무료이든, 오디오 콘텐츠가 웹을 통해 제공되는 시스템이든 앱을 통해 제공되는 시스템이든 불문한다.

본 명세서에서 <오디오 콘텐츠>라 함은 오디오 파일 포맷으로 제공되고 그런 포맷의 파일을 사용자 디바이스의 플레이어에서 재생되는 콘텐츠를 뜻한다. 예컨대 팟캐스트 형태로 제공되는 오디오 콘텐츠, 오디오 북 형태로 제공되는 오디오 콘텐츠, 콘텐츠의 특징이 음성에 있는 각종 강연, 녹음, 뉴스, 정보 전달 목적으로 제작된 오디오 클립 등 다양한 종류의 오디오 콘텐츠를 포함한다.

본 발명의 바람직한 어떤 실시예에서 서비스 서버(100)는 오디오 콘텐츠를 제공하고 플랫폼을 관리한다. 본 발명의 바람직한 다른 실시예에서 서비스 서버(100)은 제3자가 운영하는 오디오 콘텐츠에 다른 오디오 콘텐츠를 매칭하는 시스템을 제공하고 관리한다.

하나 이상의 하드웨어/소프트웨어 장비를 포함하며, 1개 이상의 서버 장치로 구성될 수 있다. 본 발명의 주요한 요소들은 서비스 서버(100) 안에서 구성되고 시스템으로 구조화될 수 있다. 도시되어 있지 않지만, 서비스 서버(100)는 데이터를 저장하는 저장장치, 인코더 등 데이터를 처리하는 각종 처리장치들, 데이터를 송수신하는 통신모듈 등을 포함할 수 있다.

본 발명의 바람직한 어떤 실시예에 있어서, 서비스 서버(100)는 여러 개의 데이터베이스를 갖는다. 데이터베이스(110)에는 다수의 오디오 콘텐츠가 기록되어 있다. 데이터베이스(110)에 기록되어 있는 오디오 콘텐츠를 편의상 <제1오디오 파일>이라고 명명하자. 또한 데이터베이스(120)에는 제1오디오 파일과는 다른 오디오 파일이 있다. 이것을 <제1오디오 파일>과는 구별되는 콘텐츠이므로 <제2오디오 파일>이라고 칭하자. 도시되어 있지 않지만 서비스 서버(100)는 기타 다수의 데이터베이스를 추가적으로 보유할 수 있다. 사용자 정보 데이터베이스, 로그 데이터베이스, 과금 데이터베이스 등이 그러하다.

본 명세서에서 제1오디오 파일(이는 편의상 제1오디오 콘텐츠로 표현될 수도 있다)은 주된 오디오 콘텐츠에 관한다. 제2오디오 파일(편의상 제2오디오 콘텐츠로 표현돼도 좋다)은 부수적인 오디오 콘텐츠를 말한다. 예를 들어 제1오디오 파일이 "오디오 북"이라면, 제2오디오 파일은 광고 콘텐트라고나 혹은 별도로 저장된 저자/편집자의 주석일 수 있다. 제1오디오 파일과 제2오디오 파일이 어떤 연관성을 가지며, 어떻게 긴밀하게 구조화되는지는 본 발명에서 핵심적인 사항이므로 이하에서 다시 자세히 설명될 것이다.

오디오 콘텐츠 매니저(130)는 오디오 파일의 전송, 재생, 중단 등의 이벤트를 관리한다. 오디오 매칭 모듈(140)은 제1오디오 파일과 제2오디오 파일을 매칭한다. STT(Speech To Text) 머신(150)은 제1오디오 파일의 음성(speech)을 자동으로 인식해서 텍스트로 변환하여 오디오 파일의 스크립트를 생성하는 소프트웨어 장비이다. 오디오 콘텐츠 매니저(130) 및 오디오 매칭 모듈(140)은 서비스 서버(100)의 오디오 제어부의 기능을 수행한다.

이제 이들 요소들이 본 발명에서 어떻게 기능하는지 살펴보자.

도 2(a)는 도시되어 있는 것처럼, STT 머신(150)은 제1오디오 파일(111)의 음성을 텍스트로 변환하여 스크립트(115)를 생성한다. STT 머신(150)을 구성하는 알고리즘 자체는 공지의 기술이므로 자세한 설명은 생략한다. 본 발명에서 특히 중요한 요소는 스크립트(115)에 제2오디오 파일을 호출하는 트리거가 포함되어 있다는 점이다. 즉, 이 트리거가 스크립트(115)에 없다면 제2오디오 파일은 호출되지 않는다. 어떤 실시예에 있어서 상기 STT 머신(150)은 서버 측에 구성될 수 있다. 또한 다른 실시예에서는 사용자 디바이스 측에 소프트웨어 모듈로 구성될 수 있다.

본 발명의 바람직한 어느 실시예에서는 제1오디오 파일(111)에는 음성 트리거가 포함되도록 구성될 수 있다. 예컨대 제1오디오 파일(111)에 "잠시 쉬었다 오지요.", "저자의 주석이 있습니다. 주석을 잠시 들어보겠습니다.", "광고를 듣겠습니다.", "음악을 한번 들어보지요." 등의 음성이 제작 시에 미리 녹음되어 있는 것이다. 그러면 스크립트(115)에 대응하는 텍스트가 기록되는데, 그것이 음성 트리거로 기능한다. 본 발명에서 음성 트리거의 기능(오디오 플레이어 관점)은, 이하에서 다시 설명되는 것처럼, 제1오디오 파일(111)의 재생을 중단하고, 제2오디오 콘텐츠 데이터베이스(120)에 있는 제2오디오 파일이 재생되도록 하는 것이다. 또한 오디오 매칭 모듈(140)의 관점에서는 음성 트리거가 검출됨으로써 제2오디오 콘텐츠 데이터베이스(120)에서 제2오디오 파일이 호출되도록 한다.

위와 같은 실시예에서는 제1오디오 파일(111)을 생성하기 위한 녹음 시점에서, 제1오디오 파일과는 별도로 제작하는 제2오디오 파일의 미리 염두에 두면서, 음성 녹음을 실행하여 제1오디오 파일을 제작하게 된다.

본 발명의 바람직한 다른 실시예에서는 생성된 스크립트(115)에 오디오 트리거를 미리 부가할 수 있다. 이 실시예에서 제1오디오 파일과 제2오디오 파일의 필연적인 관계는 제1오디오 파일의 녹음 시점에서 정해지는 것이 아니라 스크립트에서 비로소 결정된다.

본 발명의 바람직한 또 다른 실시예에서는 별도의 시스템으로 존재하는 서비스 서버의 오디오 매칭 모듈(140)에서 트리거 텍스트가 미리 등록되어 있고, 트리거 파인더가 해당 트리거 텍스트와 매칭되는 텍스트를 검색하도록 할 수 있다. 즉, 제1오디오 파일의 오디오 트리거는 오디오 매칭 모듈(140)의 트리거 텍스트에 의해 역으로 정의되는 것이다. 이 실시예에 따르면 제1오디오 콘텐츠 시스템은 제2오디오 콘텐츠 시스템에 대해 더욱 큰 자유도를 갖는다. 이러한 자유도는 서비스 서버가 오디오 매칭 모듈 및 제2오디오 콘텐츠 시스템만 관리하고 운영할 수 있으므로 비즈니스 모델을 확립하는 데 유리하다. 상기 트리거 텍스트는, 예를 들자면, 앞에서 살펴본 것처럼, "잠시 쉬었다 오지요.", "저자의 주석이 있습니다. 주석을 잠시 들어보겠습니다.", "광고를 듣겠습니다.", "음악을 한번 들어보지요." 등의 스크립트 텍스트를 형태소 분석할 수 있는 텍스트로 사전에 테이블로 등록되어 관리될 것이다.

도 2(b)를 보자. 오디오 매칭 모듈(140)에는 트리거 파인더(141)와 오디오 콜러(143)가 포함될 수 있다. 트리거 파인더(141)는 스크립트(115)에 포함되어 있는 트리거를 검출해 낸다. 한편, 트리거 파인더(141)는 트리거를 더욱 확실하게 인식하고 검출하기 위해서 형태소 분석을 포함한 소정의 언어처리모듈을 포함할 수 있다.

트리거 파인더(141)가 트리거를 검출하면, 오디오 콜러(143)가 제2오디오 콘텐츠 데이터베이스(120)에 저장되어 있는 제2오디오 파일을 호출한다. 그런 다음에 어떤 일이 일어날까?

도 3이 이를 알기 쉽게 개념적으로 설명한다. 도 3은 본 발명의 바람직한 어느 실시예의 제1오디오 파일(117)과, 이 제1오디오 파일(117)과 매칭되는 제2오디오 파일(127)의 관계를 개념적으로 나타낸다. 이 개념 설명을 위해서 도 3은 오디오 플레이어(50)라는 요소를 가져온다.

지금 제1오디오 파일(117)이 오디오 플레이어(50)를 통해 재생 중이다. 그러므로 사용자는 제1오디오 콘텐츠를 듣고 있다. 그런데 위에서 설명한 것처럼, 제1오디오 파일(117)의 스크립트에서 오디오 트리거가 검출되었을 때, 오디오 매칭 모듈(140)은 오디오 콘텐츠 매니저(130)와 통신하여 제2오디오 파일(127)의 재생을 요청한다.

그리고 오디오 콘텐츠 매니저(130)는 제1오디오 파일(117)의 재생을 중단한 다음, 미리 준비된 제2오디오 파일(127)을 오디오 플레이어(50)로 내보낸다. 제1오디오 파일(117)에서 제2오디오 파일(127)로 재생되는 파일이 변경되지만, 오디오 출력이 중단되는 것은 아니다. 예컨대 오디오 플레이어 인디케이터(51)는 계속 진행 중에 있으며, 재생 중임을 나타내는 정지 콘트롤러는 그대로 표시될 수 있다(오디오 출력이 중단된 상태라면 재생 콘트롤러가 화면상에 표시될 것이다).

본 발명의 방법에 따르면, 도 4(a)에 나타난 것처럼, 제1오디오 파일(117a)이 재생되다가, 트리거가 발견되어 제2오디오 파일(127a)이 호출된 시점("트리거 시점")에서 제1오디오 파일(117a)의 재생을 중단하고, 호출된 제2오디오 파일(127a)을 재생한다. 그다음 제2오디오 파일(127a)의 재생이 종료되면, 다시 중단된 제1오디오 파일(117a)을 트리거 시점부터 재생한다.

그럼에도 사용자 디바이스의 오디오 플레이어 관점에서는 아무런 조작을 하지 않았음에도 하나의 오디오 파일(119)이 계속 재생되는 것처럼 보이는 효과를 거둔다. 도 4(b)가 그것을 개념적으로 나타냈다. 더욱이 하나의 오디오 파일(119)처럼 구성하더라도, 제2오디오 파일이 별개의 데이터베이스로 관리되기 때문에 제1오디오 파일(117a)와 결합되는 제2오디오 파일(127a)을, 제1오디오 파일과 무관하게, 용이하게 변경할 수 있는 장점이 있다. 제2오디오 파일(127a)을 상황에 따라 스케줄링할 수 있으므로 더욱 흥미로운 오디오 콘텐츠 구성 및 활용이 가능해지는 것이다.

도 5는 본 발명의 바람직한 어느 실시예에 따른 오디오 콘텐츠에 포함된 음성 트리거를 인식하여 오디오 콘텐츠를 매칭하여 재생시키는 방법의 전체 프로세스를 개략적으로 나타내었다.

STT 머신이 제1오디오 파일에서 스크립트를 생성한다(S100). 전술한 바와 같이 어떤 실시예에서는 음성 녹음을 할 때에 오디오 트리거로 기능하는 음성을 발화하고, 그 음성에 대응하는 스크립트 텍스트가 오디오 트리거로 미리 등록된다. 바람직한 다른 실시예에서는 STT 머신에 의해 생성된 스크립트에 오디오 트리거를 미리 삽입할 수 있다. 바람직한 또 다른 실시예에서는 오디오 매칭 모듈에서 별도로 등록되어 있는 트리거 텍스트에 의해 스크립트에서 사후 정의될 수 있다.

따라서 상기 S200 단계는 오디오 콘텐츠 서비스를 운영하는 서비스 서버에서 제1오디오 파일의 스크립트에 오디오 트리거를 삽입하여 제작하는 단계로 이해될 수도 있지만, 제2오디오 파일을 제공하는 서비스 서버(즉 본 발명의 명세서에서 서비스 서버는 실시예에 따라 이중적인 의미로 쓰였음을 유의해 주기를 바란다)에서 사후에 스트립트에 있는 어떤 텍스트가 오디오 트리거로 정의되고 탐색되는 단계로 이해될 수도 있다. 어쨌든 스크립트에는 오디오 트리거가 있다.

이렇게 스크립트가 생성된 제1오디오 파일이 사용자 디바이스의 플레이어를 통해 재생된다(S110).

제1오디오 파일이 재생되는 동안에, 서비스 서버 오디오 매칭 모듈의 트리거 파인더가 제1오디오 파일의 스크립트에 미리 등록되어 있는 상기 오디오 트리거를 검출한다(S120).

그러면 오디오 매칭 모듈의 오디오 콜러가 제2오디오 콘텐츠 데이터베이스에 미리 저장되어 있는 제2오디오 파일을 호출한다(S130).

이처럼 제1오디오 파일의 스크립트에서 오디오 트리거가 발견되고, 이에 따라 오디오 트리거에 대응하는 제2오디오 파일이 특정되어 호출되는 경우, 오디오 콘텐츠 매니저는 제1오디오 파일의 재생을 트리거 시점에서 중단시키고, 제2오디오 파일을 재생시킨다(S140).

다음으로 제2오디오 파일의 재생이 종료되면, 다시 트리거 시점에서 중단된 제1오디오 파일을 이어서 재생시킨다(S150).

본 발명의 바람직한 어느 실시예에 있어서, 상기 S140 단계 및 상기 S150 단계는 서비스 서버의 오디오 콘텐츠 매니저가 실행하는 것이 좋다. 그러나 바람직한 다른 실시예에서는 사용자 디바이스에 설치된 애플리케이션에서 상기 단계들을 실행할 수 있다. 그 경우 사용자 디바이스에 설치된 애플리케이션은 서비스 서버와 실시간으로 통신하여야 한다. 오디오 매칭 모듈도 애플리케이션의 모듈로 구성할 수 있다. 이 경우 사용자 디바이스의 메모리에 제1오디오 파일 및/또는 제2오디오 파일을 저장해 놓고서 사용자 디바이스의 프로세서가 오디오 트리거의 검출을 기반으로 제1오디오 파일과 제2오디오 파일을 매칭하면서 오디오 플레이어의 재생을 도 4(a)와 같이 절환할 수도 있다.

본 발명은 다양한 시나리오로 구체화될 수 있을 것이다. 또한 그 구성은 당업자에게 용이하고 자명한 수준으로 변형되어 실시될 수 있음도 물론이다. 지금껏 설명한 "오디오 매칭 모듈"을 "광고 매칭 모듈"로 그 기능을 구체화하여 적용할 수 있고, 그렇다면 "오디오 콜러"는 "광고 콘텐트 콜러"의 기능을 수행하게 된다.

예컨대, STT(Speech To Text) 머신이 전술한 바와 같이 오디오 콘텐츠에서 스크립트를 자동으로 생성한다. 미리 음성 파일의 스크립트를 생성할 수도 있으며 실시간으로 음성을 텍스트로 변환하면서 스크립트를 생성할 수도 있다.

그런 다음 오디오 콘텐츠가 사용자 디바이스의 플레이어를 통해 재생되는 동안에, 광고 매칭 모듈의 트리거 파인더가 상기 스크립트에 있는 음성 트리거를 발견하게 되고, 그러면 광고 매칭 모듈의 광고 콘텐트 콜러가 미리 저장되어 있는 광고 콘텐츠 데이터베이스에 저장되어 있는 광고 콘텐트를 호출함으로써 오디오 콘텐츠와 광고 콘텐트를 매칭할 수 있다.

이처럼 오디오 콘텐츠와 광고 콘텐트가 매칭되면, 오디오 콘텐츠 매니저가 오디오 콘텐츠의 재생을 트리거 시점에서 중단시키고, 이어서 매칭된 광고 콘텐트를 재생시킨 다음에, 광고 콘텐트의 재생이 종료되면 트리거 시점에서 중단된 상기 오디오 콘텐츠를 이어서 재생시킬 수 있다.

실제 오디오 콘텐츠의 음성 트리거는 오디오를 청취하는 사용자로 하여금 광고가 출력될 것임을 예상케 함으로써 광고에 대한 심리적인 거부감을 없앨 수 있다. 또한 이런 음성 트리거를 이용하여 다양한 광고를 스케줄링하거나 선별하거나 변경하면서 다양한 음성광고를 실행할 수 있는 효과를 거둔다. 그러므로 새로운 비즈니스 모델을 오디오 콘텐츠에 적용할 수 있게 되는 것이다. 이러한 효과는 종래에는 존재하지 않았다.

광고를 듣기 싫다면 플레이어에 설치된 콘트롤러를 이용해서 거부의사를 입력할 수 있고, 광고 거부 이벤트에 대응하여 오디오 콘텐츠 매니저는 광고 콘텐트의 출력을 중지시키고 중단된 오디오 콘텐츠를 트리거 시점에서 다시 재생하는 것이 가능하다.

또 다른 시나리오를 생각할 수 있다. 오디오 북에 광고 트리거를 삽입할 수 있고, 그런 광고 트리거를 통해 광고의 출력을 사용자가 예상할 수 있으며, 그 예상한 대로 적의로 매칭된 광고 콘텐트를 오디오 북 청취자에게 제공할 수 있다. 예를 들어 고전 전집에 속한 "오만과 편견" 오디오 북을 듣다가 잠시 휴식 시간을 이용하여 해당 고전 전집의 신간을 홍보하는 음성 광고를 내보낼 수 있게 된다. 이러한 방식의 오디오 북은 지금껏 존재하지 않았다.

위와 같은 실시예들에서 본 발명은, 광고를 효과적으로 매칭하여 오디오 콘텐츠의 재생 시점과 광고 파일의 재생 시점이 분명하게 분별되어 설정되도록 한다.

또한 본 발명의 방법을 통해 오디오 콘텐츠를 제작하고 제공하는 사업자에게 더 나은 수익을 거둘 수 있는 광고 비즈니스 모델을 제공할 수 있다. 광고를 예상하지 못했는데 듣고 있는 콘텐츠의 재생이 중단되고 갑자기 광고가 나오면 불쾌해진다. 이런 문제 때문에 오디오 콘텐츠에 광고 모델을 결합하기가 어려웠다. 광고를 예상하고 그것을 수용할 심리상태에 있다면 광고를 들으면서 음성을 듣느라 집중했던 마음을 릴렉스할 수 있다. 그러므로 오디오 콘텐츠에 광고 모델을 결합하는 것이 아주 불가능한 일은 아니다. 하지만 일일이 수작업으로 광고를 편집한다면 오디오 콘텐츠마다 일일이 광고 삽입 작업을 해야 하기 때문에 광고 모델을 실행하는 데 투자되는 비용이 너무 커진다. 그러므로 미래에 제작될 광고 콘텐츠는 현재의 오디오 콘텐츠에 결합되는 것은, 오디오 콘텐츠를 다시 제작하지 않는 한, 불가능했다. 본 발명은 이러한 현실적인 문제를 일거에 해결했다.

참고로, 본 발명의 일 실시예에 따른 오디오 콘텐츠에 포함된 음성 트리거를 인식하여 오디오 콘텐츠를 매칭하여 재생시키는 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다

본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명이 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims

STT(Speech To Text) 머신이 제1오디오 파일에서 스크립트를 자동으로 생성하고,
상기 제1오디오 파일이 사용자 디바이스의 플레이어를 통해 재생되는 동안에,
오디오 매칭 모듈의 트리거 파인더가 상기 스크립트에 미리 등록되어 있는 음성 트리거를 발견하면, 상기 오디오 매칭 모듈의 오디오 콜러가 미리 저장되어 있는 제2오디오 콘텐츠 데이터베이스에 저장되어 있는 제2오디오 파일을 호출하고
오디오 콘텐츠 매니저가 상기 제1오디오 파일의 재생을 트리거 시점에서 중단시키고, 상기 제2오디오 파일을 재생시킨 다음에, 상기 트리거 시점에서 중단된 상기 제1오디오 파일을 자동으로 이어서 재생시키는 단계를 포함하는 것을 특징으로 하는 오디오 콘텐츠에 포함된 음성 트리거를 인식하여 다른 오디오 콘텐츠를 매칭하여 재생시키는 방법.
오디오 콘텐츠 서비스를 운영하는 서비스 서버에서 제1오디오 파일의 스크립트를 제작하거나 사용자 디바이스에서 상기 제1오디오 파일의 스크립트를 제작하는 단계;
상기 제1오디오 파일이 사용자 디바이스의 플레이어를 통해 재생되는 동안에, 오디오 매칭 모듈의 트리거 파인더가 상기 스크립트에 미리 등록되어 있는 오디오 트리거를 발견하면, 상기 오디오 매칭 모듈의 오디오 콜러가 미리 저장되어 있는 제2오디오 콘텐츠 데이터베이스에 저장되어 있는 제2오디오 파일을 호출하는 단계; 및
오디오 콘텐츠 매니저가 상기 제1오디오 파일의 재생을 트리거 시점에서 중단시키고, 상기 제2오디오 파일을 재생시킨 다음에, 상기 트리거 시점에서 중단된 상기 제1오디오 파일을 자동으로 이어서 재생시키는 단계를 포함하는 것을 특징으로 하는 오디오 콘텐츠에 포함된 음성 트리거를 인식하여 다른 오디오 콘텐츠를 매칭하여 재생시키는 방법.
STT(Speech To Text) 머신이 오디오 콘텐츠에서 스크립트를 자동으로 생성하고,
상기 오디오 콘텐츠가 사용자 디바이스의 플레이어를 통해 재생되는 동안에,
광고 매칭 모듈의 트리거 파인더가 상기 스크립트에 미리 등록되어 있는 음성 트리거를 발견하면, 상기 광고 매칭 모듈의 광고 콘텐트 콜러가 미리 저장되어 있는 광고 콘텐츠 데이터베이스에 저장되어 있는 광고 콘텐트를 호출하고,
오디오 콘텐츠 매니저가 상기 오디오 콘텐츠의 재생을 트리거 시점에서 중단시키고, 상기 광고 콘텐트를 재생시킨 다음에, 상기 트리거 시점에서 중단된 상기 오디오 콘텐츠를 자동으로 이어서 재생시키는 단계를 포함하는 것을 특징으로 하는 오디오 콘텐츠에 포함된 음성 트리거를 인식하여 광고 콘텐츠를 매칭하여 재생시키는 방법.
오디오 콘텐츠 서비스를 운영하는 서비스 서버에서 오디오 콘텐츠의 스크립트를 제작하거나 사용자 디바이스에서 상기 오디오 콘텐츠의 스크립트를 제작하는 단계; 및
상기 오디오 콘텐츠가 사용자 디바이스의 플레이어를 통해 재생되는 동안에, 광고 매칭 모듈의 트리거 파인더가 상기 스크립트에 미리 등록되어 있는 광고 트리거를 발견하면, 상기 광고 매칭 모듈의 광고 콘텐트 콜러가 미리 저장되어 있는 광고 콘텐츠 데이터베이스에 저장되어 있는 광고 콘텐트를 호출하는 단계; 및
오디오 콘텐츠 매니저가 상기 오디오 콘텐츠의 재생을 트리거 시점에서 중단시키고, 상기 광고 콘텐트를 재생시킨 다음에, 상기 트리거 시점에서 중단된 상기 오디오 콘텐츠를 자동으로 이어서 재생시키는 단계를 포함하는 것을 특징으로 하는 오디오 콘텐츠에 포함된 음성 트리거를 인식하여 광고 콘텐츠를 매칭하여 재생시키는 방법.