KR20240042964A

KR20240042964A - 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법

Info

Publication number: KR20240042964A
Application number: KR1020220121903A
Authority: KR
Inventors: 신동윤
Original assignee: 주식회사 네오툰
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2024-04-02
Also published as: WO2024071553A1

Abstract

본 발명에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법은, 관리서버의 음성처리부가, 사용자가 본인이 소유한 사용자 단말기를 통해 입력한 음성 명령을 주파수 신호 형태의 음성데이터로 수신하는 (a)단계, 상기 음성처리부가 상기 관리서버에 설치된 음성-텍스트 변환 프로그램에 상기 (a)단계에서 수신한 음성데이터를 입력하여 텍스트데이터 형태로 변환하는 (b)단계, 상기 관리서버의 텍스트처리부가 상기 (b)단계에서 변환된 텍스트데이터의 핵심 키워드를 분석하는 (c)단계, 상기 텍스트처리부가 상기 (c)단계에서 분석된 상기 텍스트데이터의 핵심 키워드를, 상기 관리서버의 데이터베이스에 저장된 복수 개의 영상데이터 각각에 미리 라벨링된 라벨 키워드와 매칭하여 기 설정된 선정기준에 따라 송출할 영상데이터를 선정하는 (d)단계 및 상기 관리서버의 영상처리부가 상기 (d)단계에서 선정된 영상데이터를 상기 데이터베이스로부터 추출하여 상기 사용자 단말기에 송출하는 (e)단계를 포함한다.

Description

음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법{Selection and Transmission Method of Related Video Data through Keyword Analysis of Voice Commands}

본 발명은 영상데이터 선정 및 송출방법에 관한 것으로서, 보다 상세하게는 음성 명령의 키워드 분석을 통해 관련도가 높은 영상데이터를 선정하고, 이를 송출하는 방법에 관한 것이다.

최근에는 스마트폰의 보급으로 인해 사용자의 음성을 수집하고, 이를 통해 그 내용을 문서화하는 STT(Sount to Text) 기술이 다양한 목적으로 사용되고 있다.

이와 같은 STT 기술은 사용자가 별도의 입력 수단 또는 사용자 단말기를 통해 자체적으로 제공되는 입력 수단 등을 통해 텍스트를 입력하는 과정을 전면 생략할 수 있으며, 사용자로 하여금 편리함을 느끼게 해 주는 장점이 있다.

다만, STT 기술 자체의 인식률 및 정확도는 어느 정도 이상의 수준으로 올라왔다고 할 수 있으나, 이와 같은 STT 기술을 활용하여 사용자의 언어를 통해 의도를 파악하고 그 의도에 적합한 대응을 수행하는 것은 별개의 문제로서, 언어의 방대한 조합과 사용자 별 언어 습관 등은 이를 더욱 어렵게 만드는 요소이다.

최근에는 음성인식을 통해 사용자가 대화하듯이 기계에게 특정 명령을 수행하도록 하는 AI 기기들이 보급되어 있으나, 이들은 잦은 동작 오류로 인해 아직까지도 만족도가 크게 떨어지고 있다.

따라서 이와 같은 문제점들을 해결하기 위한 방법이 요구된다.

한국공개특허 제10-2020-0048701호

본 발명은 상술한 종래 기술의 문제점을 해결하기 위하여 안출된 발명으로서, STT(Sount to Text) 기술을 통해 사용자의 음성 명령을 텍스트화하고, 이에 대한 키워드 분석을 통해 높은 정확도로 사용자의 의도를 파악하여 관련도가 높은 영상데이터를 자동으로 선정한 후 사용자에게 제공할 수 있도록 하는 서비스를 제공하기 위한 목적을 가진다.

본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기한 목적을 달성하기 위한 본 발명의 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법은, 관리서버의 음성처리부가, 사용자가 본인이 소유한 사용자 단말기를 통해 입력한 음성 명령을 주파수 신호 형태의 음성데이터로 수신하는 (a)단계, 상기 음성처리부가 상기 관리서버에 설치된 음성-텍스트 변환 프로그램에 상기 (a)단계에서 수신한 음성데이터를 입력하여 텍스트데이터 형태로 변환하는 (b)단계, 상기 관리서버의 텍스트처리부가 상기 (b)단계에서 변환된 텍스트데이터의 핵심 키워드를 분석하는 (c)단계, 상기 텍스트처리부가 상기 (c)단계에서 분석된 상기 텍스트데이터의 핵심 키워드를, 상기 관리서버의 데이터베이스에 저장된 복수 개의 영상데이터 각각에 미리 라벨링된 라벨 키워드와 매칭하여 기 설정된 선정기준에 따라 송출할 영상데이터를 선정하는 (d)단계 및 상기 관리서버의 영상처리부가 상기 (d)단계에서 선정된 영상데이터를 상기 데이터베이스로부터 추출하여 상기 사용자 단말기에 송출하는 (e)단계를 포함한다.

이때 상기 (a)단계 이전에는, 상기 텍스트처리부가 상기 데이터베이스에 저장된 복수 개의 영상데이터 각각에 라벨 키워드를 라벨링하는 (pre)단계가 더 수행될 수 있다.

그리고 상기 (pre)단계는, 상기 텍스트처리부가 임의의 영상데이터에 대해 예측되는 워딩을 입력받는 (pre-1)단계, 상기 텍스트처리부가 상기 (pre-1)단계에서 입력된 워딩에 대해 다양한 문장구조를 도출하는 (pre-2)단계 및 상기 텍스트처리부가 상기 (pre-2)단계에서 도출된 다양한 문장구조를 취합하여 해당 영상데이터에 라벨링을 수행하는 (pre-3)단계를 포함할 수 있다.

여기서 상기 (pre-2)단계는, 상기 텍스트처리부가 상기 (pre-1)단계에서 입력된 워딩에 대해 어절 별로 구분되는 기본 문장구조를 도출하는 (pre-2-1)단계, 상기 텍스트처리부가 상기 기본 문장구조에서 어절 구분을 생략한 형태의 제1변형 문장구조를 도출하는 (pre-2-2)단계 및 상기 텍스트처리부가 상기 기본 문장구조에서 어미를 다양하게 변형한 복수 개의 제2변형 문장구조를 도출하는 (pre-2-3)단계 중 적어도 어느 하나 이상을 포함할 수 있다.

또한 상기 (pre-2)단계는, 상기 텍스트처리부가 상기 기본 문장구조에서 핵심부만을 추출하여 단순화한 제3변형 문장구조를 도출하는 (pre-2-4)단계를 더 포함할 수 있다.

그리고 상기 (a)단계 이전에는, 상기 음성처리부가 사용자의 음성 명령을 입력받기 위한 음성입력서비스를 상기 사용자 단말기에 제공하는 (ex)단계가 더 수행될 수 있다.

이때 상기 (ex)단계에서, 상기 음성처리부는 제한된 시간 내에 음성 명령이 입력되도록 상기 음성입력서비스의 음성 입력시간에 제한을 설정할 수 있다.

한편 상기 (d)단계에서, 상기 텍스트처리부는 상기 데이터베이스 내에 상기 핵심 키워드와 매칭되는 라벨 키워드가 존재하지 않는 것으로 판단된 경우, 상기 데이터베이스에 별도로 저장된 매칭 실패 대응용 영상데이터를 송출할 영상데이터로 선정할 수 있다.

또한 상기 (e)단계 이후에는, 상기 관리서버의 통계분석부가, 기 설정된 기간 동안 복수 회 진행된 상기 (a)단계 내지 상기 (e)단계의 과정에서 사용된 핵심 키워드들의 사용 횟수를 기산하는 (f-1)단계, 상기 통계분석부가 상기 (f-1)단계에 의해 기산된 복수 개의 핵심 키워드 중 사용 횟수가 기 설정된 기준횟수 이상인 상위 핵심 키워드를 도출하는 (f-2)단계 및 상기 영상처리부가 상기 (f-2)단계에서 도출된 상위 핵심 키워드에 대해 새로운 영상데이터를 입력받아 상기 데이터베이스에 저장하는 (f-3)단계를 포함하는 (f)단계가 더 수행될 수 있다.

더불어 상기 (e)단계 이후에는, 상기 관리서버의 통계분석부가, 선호하는 핵심 키워드에 대한 설문입력서비스를 복수 개의 사용자 단말기에 제공하는 (g-1)단계, 상기 통계분석부가 상기 (g-1)단계 이후 복수 개의 사용자 단말기로부터 전송된 설문데이터를 취합하는 (g-2)단계, 상기 통계분석부가 상기 설문데이터를 분석하여, 선호하는 것으로 선택된 횟수가 기 설정된 기준횟수 이상인 상위 핵심 키워드를 도출하는 (g-3)단계 및 상기 영상처리부가 상기 (g-3)단계에서 도출된 상위 핵심 키워드에 대해 새로운 영상데이터를 입력받아 상기 데이터베이스에 저장하는 (g-4)단계를 포함하는 (g)단계가 더 수행될 수 있다.

상기한 과제를 해결하기 위한 본 발명의 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법은, 사용자의 음성 명령을 텍스트데이터로 변환한 후 이에 대한 핵심 키워드를 정밀하게 분석하여 사용자의 의도를 파악하고, 데이터베이스에 저장된 다양한 영상데이터 중 관련도가 높은 영상데이터를 매칭하여 자동으로 선정한 후 제공할 수 있도록 함에 따라 사용자에게 편리함과 높은 만족감을 느낄 수 있도록 하는 장점을 가진다.

특히 본 발명은 영상데이터에 대한 다양한 키워드 라벨링 기법을 통해 그 정확도를 크게 높이고, 데이터 로깅 및 사용자 설문 조사 등과 같은 후속 작업을 통해 지속적인 보완을 수행할 수 있다.

본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법의 각 과정을 나타낸 도면;
도 2는 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법을 수행하기 위한 시스템의 각 구성요소들을 개념적으로 나타낸 도면;
도 3은 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법에 있어서, (a)단계 이전에 수행되는 각 과정을 나타낸 도면;
도 4는 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법에 있어서, 영상데이터에 라벨 키워드를 라벨링하는 (pre)단계의 세부 과정을 나타낸 도면;
도 5는 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법에 있어서, 다양한 문장구조 도출을 위한 (pre-2)단계의 세부 과정을 나타낸 도면;
도 6은 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법에 있어서, 데이터 로깅 과정을 통해 업데이트 과정을 수행하는 (f)단계의 세부 과정을 나타낸 도면; 및
도 7은 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법에 있어서, 사용자 설문 조사를 통해 업데이트 과정을 수행하는 (g)단계의 세부 과정을 나타낸 도면이다.

본 명세서에서, 어떤 구성요소(또는 영역, 층, 부분 등)가 다른 구성요소 "상에 있다", "연결된다", 또는 "결합된다"고 언급되는 경우에 그것은 다른 구성요소 상에 직접 배치/연결/결합될 수 있거나 또는 그들 사이에 제3의 구성요소가 배치될 수도 있다는 것을 의미한다.

동일한 도면부호는 동일한 구성요소를 지칭한다. 또한, 도면들에 있어서, 구성요소들의 두께, 비율, 및 치수는 기술적 내용의 효과적인 설명을 위해 과장된 것이다.

"및/또는"은 연관된 구성들이 정의할 수 있는 하나 이상의 조합을 모두 포함한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

또한, "아래에", "하측에", "위에", "상측에" 등의 용어는 도면에 도시된 구성들의 연관관계를 설명하기 위해 사용된다. 상기 용어들은 상대적인 개념으로, 도면에 표시된 방향을 기준으로 설명된다.

다르게 정의되지 않는 한, 본 명세서에서 사용된 모든 용어 (기술 용어 및 과학 용어 포함)는 본 발명이 속하는 기술 분야의 당업자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 또한, 일반적으로 사용되는 사전에서 정의된 용어와 같은 용어는 관련 기술의 맥락에서 의미와 일치하는 의미를 갖는 것으로 해석되어야 하고, 이상적인 또는 지나치게 형식적인 의미로 해석되지 않는 한, 명시적으로 여기에서 정의된다.

"포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 도면을 참조하여 본 발명의 실시예를 상세히 설명하도록 한다.

본 발명에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법은 저장매체에 저장된 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출용 프로그램이 설치된 관리서버 및 각 사용자 단말기를 통해 수행되는 것으로서, 관리서버 및 사용자 단말기의 프로세서에 의해 구동될 수 있다.

그리고 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출용 프로그램은 디스플레이 모듈 등 영상 출력장치를 통해 출력될 수 있으며, 관리서버의 단말기, 사용자가 소유한 모바일 단말기 등에서 시각화된 그래픽 유저 인터페이스를 통해 가시적인 정보를 제공할 수 있다.

특히 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출용 프로그램이 저장된 저장매체는 이동식 디스크나 통신망을 이용하여 관리서버 및 사용자 단말기에 설치될 수 있으며, 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출용 프로그램은 관리서버 및 사용자 단말기가 다양한 기능적 수단으로 운용되도록 할 수 있다.

즉 본 발명은 소프트웨어에 의한 정보 처리가 하드웨어를 통해 구체적으로 실현된다.

이하, 첨부된 도 1 내지 도 7을 참조하여 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법에 대해서 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법의 각 과정을 나타낸 도면이다.

그리고 도 2는 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법을 수행하기 위한 시스템의 각 구성요소들을 개념적으로 나타낸 도면으로, 이하 설명에 있어서 각 구성요소에 할당된 부호는 본 도면을 기준으로 한다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법은 (a)단계 내지 (e)단계를 포함한다.

(a)단계는, 관리서버(100)의 음성처리부(110)가, 사용자가 본인이 소유한 사용자 단말기(10)를 통해 입력한 음성 명령을 주파수 신호 형태의 음성데이터로 수신하는 과정이다.

즉 본 단계에서 사용자는 스마트폰 등과 같은 사용자 단말기(10)의 마이크를 통해 음성 명령을 입력하게 되며, 이는 사용자 단말기(10) 내에서 주파수 신호 형태의 음성데이터로 변환된 후 관리서버(100) 측으로 전송된다. 이에 따라 관리서버(100)는 해당 음성데이터를 수신할 수 있다.

다음으로 (b)단계는, 음성처리부(110)가 관리서버(100)에 설치된 음성-텍스트 변환 프로그램에 (a)단계에서 수신한 음성데이터를 입력하여 텍스트데이터 형태로 변환하는 과정이다.

이와 같은 (b)단계는 이후 수행될 후속 과정에서 키워드 매칭을 수행할 수 있도록 음성데이터를 텍스트화하는 과정이며, 이를 위해 관리서버(100)에 설치된 음성-텍스트 변환 프로그램, 즉 STT(Sount to Text) 기술이 적용된 프로그램을 통해 음성데이터의 텍스트화를 진행할 수 있다.

이때 사용되는 음성-텍스트 변환 프로그램은 공지의 STT 프로그램일 수 있으며, 또는 향후 개발될 STT 프로그램 등 제한없이 다양한 프로그램이 적용될 수 있다.

그리고 (c)단계는, 관리서버(100)의 텍스트처리부(120)가 (b)단계에서 변환된 텍스트데이터의 핵심 키워드를 분석하는 과정이다.

본 과정은 사용자의 음성 명령에 대한 의도를 파악할 수 있도록 사용자의 발화 내용에서 핵심 키워드를 분석하는 과정으로서, 핵심 키워드는 다양한 분석 기준을 통해 추출될 수 있다.

또한 (d)단계는 텍스트처리부(120)가 (c)단계에서 분석된 텍스트데이터의 핵심 키워드를, 관리서버(100)의 데이터베이스(105)에 저장된 복수 개의 영상데이터 각각에 미리 라벨링된 라벨 키워드와 매칭하고, 기 설정된 선정기준에 따라 송출할 영상데이터를 선정하는 과정이다.

즉 데이터베이스(105)에는 다양한 영상데이터가 저장될 수 있으며, 텍스트처리부(120)는 이와 같은 다양한 영상데이터 중에서 사용자의 핵심 키워드와 가장 높은 관련도를 가지는 영상데이터를 선정하게 된다.

이를 위해 데이터베이스(105)에 저장된 영상데이터에는 전술한 (c)단계에서 분석된 핵심 키워드와의 매칭을 위한 라벨 키워드가 미리 부여될 수 있으며, 이와 같은 라벨 키워드의 부여 과정에 대해서는 후술하도록 한다.

또한 본 과정에서는 검색 시 검색어인 핵심 키워드와 매칭될 결과값인 라벨 키워드를 바이트(Byte) 단위로 쪼개서 시퀀스 매칭과 같은 함수식으로 계산하였을 때의 유사도에 따라 영상데이터를 선정할 수 있다.

이때 영어와 숫자 한 글자는 1byte, 한국어 한 글자는 2byte로 취급될 수 있으며, 매칭될 결과값의 바이트 수를 분모로, 일치하는 단어의 바이트 수를 분자로 하여 매칭 유사도를 결정할 수 있다.

이와 같은 시퀀스 매칭 방식은 다른 방식들에 비해 유사도를 분석했을 때 가장 높은 유사도를 가진다는 장점을 가질 수 있다.

그리고 (e)단계는 관리서버(100)의 영상처리부(130)가 (d)단계의 과정에 의해 선정된 영상데이터를 데이터베이스(105)로부터 추출하여, 사용자 단말기(10)에 송출하는 과정이다.

본 과정에 의해 사용자는 자신이 발화하여 입력한 음성 명령에 대한 피드백으로서 가장 적절한 영상데이터를 사용자 단말기(10)를 통해 제공받을 수 있다.

즉 본 발명은 사용자의 음성 명령을 텍스트데이터로 변환한 후 이에 대한 핵심 키워드를 정밀하게 분석하여 사용자의 의도를 파악하고, 데이터베이스(105)에 저장된 다양한 영상데이터 중 관련도가 높은 영상데이터를 매칭하여 자동으로 선정한 후 제공할 수 있도록 함에 따라 사용자에게 편리함과 높은 만족감을 느낄 수 있도록 한다.

이하에서는 전술한 (d)단계에서 영상데이터에 라벨링을 부여하는 과정에 대해 자세히 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법에 있어서, (a)단계 이전에 수행되는 각 과정을 나타낸 도면이다.

도 3에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법은 (a)단계 이전에 수행되는 (pre)단계 및 (ex)단계를 포함할 수 있다.

(pre)단계는 관리서버(100)의 텍스트처리부(120)가 데이터베이스(105)에 저장된 복수 개의 영상데이터 각각에 라벨 키워드를 사전 라벨링하는 과정이며, (ex)단계는 음성처리부(110)가 사용자의 음성 명령을 입력받기 위한 음성입력서비스를 사용자 단말기에 제공하는 과정이다.

즉 본 실시예는 (pre)단계 및 (ex)단계 각각을 수행하여 사용자의 음성 명령에 대해 매칭되는 영상데이터의 관련도를 크게 향상시킬 수 있다.

그리고 도 4는 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법에 있어서, 영상데이터에 라벨 키워드를 라벨링하는 (pre)단계의 세부 과정을 나타낸 도면이다.

도 4에 도시된 바와 같이, (pre)단계는 세부적으로 (pre-1)단계 내지 (pre-3)단계를 포함한다.

(pre-1)단계는, 관리서버(100)의 텍스트처리부(120)가 임의의 영상데이터에 대해 예측되는 워딩을 입력받는 과정이다.

본 단계에서는 관리자가 임의의 영상데이터를 선정하기 위해 사용자가 어떠한 음성 명령을 입력할 것인지를 예측하여 다양한 문장을 구성하게 되며, 텍스트처리부(120)는 이와 같은 워딩을 입력받는다.

예컨대, 임의의 영상데이터가 특정 인물이 자신이 좋아하는 음식에 대해 설명하는 영상데이터라고 가정하였을 때, 사용자가 입력할 음성 명령의 워딩은 "좋아하는 음식이 뭐야?"와 같은 문장일 수 있다.

이와 같은 경우 텍스트 처리부(120)는 우선 "좋아하는 음식이 뭐야?"의 문장 그대로를 입력받아 저장하게 된다.

다음으로, (pre-2)단계는 텍스트처리부(120)가 (pre-1)단계에서 입력된 워딩에 대해 다양한 문장구조를 도출하는 과정이다.

본 단계에서는 (pre-1)단계에서 입력된 본래의 워딩에 대해, 변형 가능성이 있는 다양한 문장구조를 도출하여 생성하고, 이를 해당 워딩과 관련된 워딩으로서 저장하게 된다.

예컨대, 전술한 바와 같이 (pre-1)단계에서 입력된 워딩이 "좋아하는 음식이 뭐야?"와 같은 문장이라고 할 경우, 변형 가능성이 있는 문장은 "좋아하는 음식이 뭐니?", "좋아하는 음식은?", "좋아하는 음식 알려줘" 등일 수 있다.

즉 (pre-2)단계에서는 다양한 변형 문장을 도출하여 모든 가능성을 커버할 수 있도록 함에 따라 영상데이터의 매칭 적합도를 보다 높일 수 있도록 한다.

한편 도 5는 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법에 있어서, 다양한 문장구조 도출을 위한 (pre-2)단계의 세부 과정을 나타낸 도면이다.

도 5에 도시된 바와 같이, (pre-2)단계는 다양한 문장구조 도출을 위한 세부 과정으로서 (pre-2-1)단계 내지 (pre-2-4)단계를 포함할 수 있다.

(pre-2-1)단계는, 텍스트처리부(120)가 (pre-1)단계에서 입력된 워딩에 대해 어절 별로 구분되는 기본 문장구조를 도출하는 과정이다.

기본 문장구조는, 사용자가 입력한 음성 명령 그대로에 해당하는 문장구조를 의미하는 것으로, "좋아하는 음식이 뭐야?"와 같이 사용자의 발화 그대로를 어절 별로 구분한 것이다.

(pre-2-2)단계는, 텍스트처리부(120)가 기본 문장구조에서 어절 구분을 생략한 형태의 제1변형 문장구조를 도출하는 과정이다.

제1변형 문장구조는, 사용자가 입력한 음성 명령 그대로에 해당하는 기본 문장구조에서 띄어쓰기를 고려하지 않도록 변형된 문장구조를 의미하는 것으로, , "좋아하는음식이뭐야?"와 같이 어절이 생략된 형태를 가진다.

이와 같은 제1변형 문장구조는 음성 명령을 어절 별로 구분했을 때 발생할 수 있는 오류를 보완할 수 있도록 하기 위한 것이다.

(pre-2-3)단계는, 텍스트처리부(120)가 기본 문장구조에서 어미를 다양하게 변형한 복수 개의 제2변형 문장구조를 도출하는 과정이다.

제2변형 문장구조는, 사용자가 입력한 음성 명령 그대로에 해당하는 기본 문장구조에서 다양하게 변형되며, 동일한 의미를 가지는 문장구조를 도출하는 과정이다.

이와 같은 제2변형 문장구조는, "좋아하는 음식이 뭐니?", "좋아하는 음식은?", "좋아하는 음식 알려줘" 등일 수 있다. 즉 본 단계는 가능한 한 많은 수의 제2변형 문장구조를 도출하여 저장할 경우 매칭 오류를 그에 비례하여 감소시킬 수 있다.

(pre-2-4)단계는, 텍스트처리부(120)가 기본 문장구조에서 핵심부만을 추출하여 단순화한 제3변형 문장구조를 도출하는 과정이다.

제3변형 문장구조는, 사용자가 입력한 음성 명령 그대로에 해당하는 기본 문장구조를 최대한 명확하며 단순한 문장 또는 단어 형태로 변형된 문장구조를 의미하는 것으로, "좋아하는 음식"과 같은 핵심부만을 남기고 부가적인 단어들을 생략한 형태일 수 있다.

이상과 같이, 본 발명은 기본 문장구조로부터 변형된 다양한 변형 문장구조들을 도출하여 저장함에 따라, 다양한 발화 및 돌발 상황에 유연하게 대응할 수 있게 된다.

다음으로, (pre-3)단계는 텍스트처리부(120)가 (pre-2)단계에서 도출된 다양한 문장구조를 취합하여 해당 영상데이터에 라벨링을 수행하는 과정이다.

즉 본 단계에서는 기본 문장구조, 제1변형 문장구조, 제2변형 문장구조 및 제3변형 문장구조 등 도출된 다양한 문장구조를 취합하여 영상데이터에 라벨 키워드로서 등록하는 과정이 이루어진다.

이와 같은 (pre)단계와 별도로 수행되는 (ex)단계는, 음성처리부(110)가 사용자의 음성 명령을 입력받기 위한 음성입력서비스를 사용자 단말기에 제공하는 과정이다.

그리고 본 과정에서, 음성처리부(110)는 제한된 시간 내에 음성 명령이 입력되도록 음성입력서비스의 음성 입력시간에 제한을 설정하는 방식을 가질 수 있다.

이와 같이 하는 이유는 전술한 (pre-2-4)단계와 일맥상통하는 것으로, 입력 시간을 제한함으로써 음성입력서비스를 이용하는 질문자가 스스로 단순하고 명확한 형태의 문장구조로 질문하도록 유도하기 위한 것이다.

즉 사용자로 하여금 입력 시간에 제한이 있다는 것을 인지하도록 하여 가능한 짧고 핵심만을 전달하는 단어로 구성된 문장을 음성 명령으로서 입력받게 되고, 이는 영상데이터의 매칭 오류를 현저히 저감시킬 수 있다.

그리고 이를 위해 사용자 단말기(10)의 디스플레이에는, 음성입력 시작 순간부터 아이콘 형태의 타이머가 표시되도록 할 수 있으며, 사용자는 이를 통해 잔여 시간을 인지할 수 있다.

이때 사용자가 음성 입력을 마친 뒤 잔여시간이 존재할 경우를 대비하여, 사용자가 직접 입력이 가능한 입력 종료 버튼을 별도로 제공할 수 있으며, 또는 시간이 부족할 경우 입력이 가능한 시간 연장 버튼을 별도로 제공할 수도 있다.

한편 전술한 (d)단계, 즉 핵심 키워드와 라벨 키워드를 매칭하고, 기 설정된 선정기준에 따라 송출할 영상데이터를 선정하는 과정에서, 텍스트처리부(120)는 데이터베이스(105) 내에 핵심 키워드와 매칭되는 라벨 키워드가 존재하지 않는 것으로 판단된 경우, 데이터베이스(105)에 별도로 저장된 매칭 실패 대응용 영상데이터를 송출할 영상데이터로 선정하는 방식이 적용될 수 있다.

이는 다양하게 준비된 라벨 키워드가 존재함에도 불구하고 음성 명령의 핵심 키워드와 정확히 대응되는 라벨 키워드가 존재하지 않을 경우, 미리 준비된 매칭 실패 대응용 영상데이터를 송출하여 전혀 관련이 없는 영상데이터가 송출되는 것을 방지할 수 있도록 하기 위한 것이다.

예컨대, 매칭 실패 대응용 영상데이터는 "미안해.. 그건 내가 조금 더 생각해보고 다음에 다시 대답해 줄게!"와 같은 음성이 송출되는 영상데이터일 수 있으며, 이는 사용자에게 전혀 관련이 없는 영상데이터가 송출되어 서비스의 신뢰도를 떨어뜨리는 것을 방지할 수 있도록 한다.

또한 본 발명이 유료로 서비스되는 경우, 매칭 실패 대응용 영상데이터에 대해서는 별도의 과금을 수행하지 않는 것으로 설정할 수 있다.

그리고 본 발명은, (d)단계에서 텍스트처리부(120)에 의해 데이터베이스(105) 내에 핵심 키워드와 매칭되는 라벨 키워드가 존재하지 않는 것으로 판단된 경우, 완전히 일치하지는 않더라도 관련도가 높을 것으로 예측되는 후보 영상데이터를 복수 개 선정하여 사용자 단말기(10) 측에 썸네일 형태로 제공할 수 있다.

이때 사용자 단말기(10)에는 "죄송해요. 원하시는 영상을 선택해 주시겠어요? 더 공부할게요."와 같은 양해 메시지를 함께 송출하여 사용자가 느낄 수 있는 불편함을 최대한 해소하도록 할 수 있다.

이에 따라 사용자가 사용자 단말기(10)를 통해 복수 개의 후보 영상데이터 중 자신이 원하는 영상데이터를 재생하게 될 경우, 텍스트처리부(120)는 이를 학습하여 이후 영상데이터 선정 알고리즘에 반영할 수 있다.

그리고 본 발명은 데이터 로깅 및 사용자 설문 조사 등과 같은 후속 작업을 통해 지속적인 보완을 수행할 수 있는 방안을 제시할 수 있다.

구체적으로 전술한 (e)단계 이후 수행되는 (f)단계에서는 데이터 로깅 과정을 통해 업데이트 과정을 수행하게 되며, (g)단계는 사용자 설문 조사를 통해 업데이트 과정을 수행하게 된다.

먼저 도 6은 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법에 있어서, 데이터 로깅 과정을 통해 업데이트 과정을 수행하는 (f)단계의 세부 과정을 나타낸 도면이다.

도 6에 도시된 바와 같이, (f)단계는 (f-1)단계 내지 (f-3)단계를 포함할 수 있다.

(f-1)단계는, 관리서버(100)의 통계분석부(140)가, 기 설정된 기간 동안 복수 회 진행된 (a)단계 내지 (e)단계의 과정에서 사용된 핵심 키워드들의 사용 횟수를 기산하는 과정이다.

그리고 (f-2)단계는 통계분석부(140)가 (f-1)단계에 의해 기산된 복수 개의 핵심 키워드 중 사용 횟수가 기 설정된 기준횟수 이상인 상위 핵심 키워드를 도출하는 과정이다.

즉 본 과정들은 본 발명을 통해 구현된 서비스를 제공하는 과정에서 사용된 각각의 핵심 키워드가 사용된 횟수를 기록하여, 사용 빈도가 높은 핵심 키워드가 어떤 것인지를 도출하기 위한 것이다.

다음으로 (f-3)단계는, 영상처리부(130)가 (f-2)단계에서 도출된 상위 핵심 키워드에 대해 새로운 영상데이터를 입력받아 데이터베이스(105)에 저장하는 과정으로, 사용 빈도가 높은 핵심 키워드에 대해서는 영상데이터를 더욱 보강하여 풍부한 컨텐츠를 보유할 수 있도록 한다.

또한 도 7은 본 발명의 일 실시예에 따른 음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법에 있어서, 사용자 설문 조사를 통해 업데이트 과정을 수행하는 (g)단계의 세부 과정을 나타낸 도면이다.

도 7에 도시된 바와 같이, (g)단계는 (g-1)단계 내지 (g-3)단계를 포함할 수 있다.

(g-1)단계는 관리서버(100)의 통계분석부(140)가, 선호하는 핵심 키워드에 대한 설문입력서비스를 복수 개의 사용자 단말기(10)에 제공하는 과정이며, (g-2)단계는 통계분석부(140)가 (g-1)단계 이후 복수 개의 사용자 단말기(10)로부터 전송된 설문데이터를 취합하는 과정이다.

즉 본 과정들에서는 관리자가 제작한 설문입력서비스를 사용자 단말기(10) 측에 제공한 후, 사용자가 사용자 단말기(10)를 통해 내용을 입력한 설문데이터를 전송받아 취합하게 된다.

그리고 (g-3)단계에서는 통계분석부(140)가 설문데이터를 분석하여, 선호하는 것으로 선택된 횟수가 기 설정된 기준횟수 이상인 상위 핵심 키워드를 도출하며, (g-4)단계에서는 영상처리부(130)가 (g-3)단계에서 도출된 상위 핵심 키워드에 대해 새로운 영상데이터를 입력받아 데이터베이스(105)에 저장하는 과정이 이루어진다.

즉 (g-3)단계는 통계분석부(140)가 설문데이터를 통해 선호도가 높은 것으로 판단되는 상위 핵심 키워드를 도출하는 과정이며, (g-4)단계는 사용 빈도가 높은 핵심 키워드에 대해 영상데이터를 더욱 보강하여 풍부한 컨텐츠를 보유할 수 있도록 한다.

한편 본 발명은 사용자에게 영상데이터를 송출한 이후, 사용자 영상데이터 시청 뒤 느끼는 위화감을 수치로 입력할 수 있도록 하는 위화감 측정용 아이콘 세트를 추가적으로 제공할 수 있다.

예컨대, 통계분석부(140)는 사용자가 영상데이터의 적합도 측면에서 느끼는 위화감을 1~5단계로 각각의 아이콘을 제공할 수 있다.

그리고 사용자는 해당 영상데이터가 매우 적절한 것이었을 경우 1단계를 선택하여 입력을 수행할 수 있으며, 반대로 매우 적절하지 않은 것이었을 경우 5단계를 선택하여 입력을 수행할 수 있다.

그리고 3단계는 보통의 위화감을 느꼈을 경우, 2단계 내지 4단계는 그 사이 정도의 위화감을 느꼈을 경우 선택하여 입력을 수행할 수 있다.

그리고 통계분석부(140)는 이후 이와 같은 위화감 설문 데이터를 취합하여 사용자가 상황에 따라 느끼는 단계 별 위화감을 분석하여 향후 보다 적절한 영상데이터를 제공하기 위한 근거로 사용할 수 있다.

구체적으로, 향후 동일 사용자가 동일한 조건 하에서 위화감을 보다 적게 느끼는 것으로 입력한 경우, 이는 적절하게 학습이 이루어져 영상데이터 송출 알고리즘이 바람직한 방향으로 업데이트되고 있음을 확인할 수 있기 때문에 현재와 같은 학습 과정을 유지할 수 있다.

반대로 향후 동일 사용자가 동일한 조건 하에서 위화감을 보다 많이 느끼거나 동일하게 느끼는 것으로 입력한 경우, 이는 적절하게 학습이 이루어지고 있지 않아 영상데이터 송출 알고리즘이 바람직하지 않은 방향으로 업데이트되고 있음을 확인할 수 있기 때문에 현재와 같은 학습 과정을 버리고 새로운 학습 알고리즘을 통해 업데이트를 수행하도록 할 수 있다.

이상과 같이 본 발명에 따른 바람직한 실시예를 살펴보았으며, 앞서 설명된 실시예 이외에도 본 발명이 그 취지나 범주에서 벗어남이 없이 다른 특정 형태로 구체화될 수 있다는 사실은 해당 기술에 통상의 지식을 가진 이들에게는 자명한 것이다. 그러므로, 상술된 실시예는 제한적인 것이 아니라 예시적인 것으로 여겨져야 하고, 이에 따라 본 발명은 상술한 설명에 한정되지 않고 첨부된 청구항의 범주 및 그 동등 범위 내에서 변경될 수도 있다.

10: 사용자 단말기
100: 관리서버
105: 데이터베이스
110: 음성처리부
120: 텍스트처리부
130: 영상처리부
140: 통계분석부

Claims

관리서버의 음성처리부가, 사용자가 본인이 소유한 사용자 단말기를 통해 입력한 음성 명령을 주파수 신호 형태의 음성데이터로 수신하는 (a)단계;
상기 음성처리부가 상기 관리서버에 설치된 음성-텍스트 변환 프로그램에 상기 (a)단계에서 수신한 음성데이터를 입력하여 텍스트데이터 형태로 변환하는 (b)단계;
상기 관리서버의 텍스트처리부가 상기 (b)단계에서 변환된 텍스트데이터의 핵심 키워드를 분석하는 (c)단계;
상기 텍스트처리부가 상기 (c)단계에서 분석된 상기 텍스트데이터의 핵심 키워드를, 상기 관리서버의 데이터베이스에 저장된 복수 개의 영상데이터 각각에 미리 라벨링된 라벨 키워드와 매칭하여 기 설정된 선정기준에 따라 송출할 영상데이터를 선정하는 (d)단계; 및
상기 관리서버의 영상처리부가 상기 (d)단계에서 선정된 영상데이터를 상기 데이터베이스로부터 추출하여 상기 사용자 단말기에 송출하는 (e)단계;
를 포함하는,
음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법.
제1항에 있어서,
상기 (a)단계 이전에는,
상기 텍스트처리부가 상기 데이터베이스에 저장된 복수 개의 영상데이터 각각에 라벨 키워드를 라벨링하는 (pre)단계가 더 수행되는,
음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법.
제2항에 있어서,
상기 (pre)단계는,
상기 텍스트처리부가 임의의 영상데이터에 대해 예측되는 워딩을 입력받는 (pre-1)단계;
상기 텍스트처리부가 상기 (pre-1)단계에서 입력된 워딩에 대해 다양한 문장구조를 도출하는 (pre-2)단계; 및
상기 텍스트처리부가 상기 (pre-2)단계에서 도출된 다양한 문장구조를 취합하여 해당 영상데이터에 라벨링을 수행하는 (pre-3)단계;
를 포함하는,
음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법.
제3항에 있어서,
상기 (pre-2)단계는,
상기 텍스트처리부가 상기 (pre-1)단계에서 입력된 워딩에 대해 어절 별로 구분되는 기본 문장구조를 도출하는 (pre-2-1)단계;
상기 텍스트처리부가 상기 기본 문장구조에서 어절 구분을 생략한 형태의 제1변형 문장구조를 도출하는 (pre-2-2)단계; 및
상기 텍스트처리부가 상기 기본 문장구조에서 어미를 다양하게 변형한 복수 개의 제2변형 문장구조를 도출하는 (pre-2-3)단계;
중 적어도 어느 하나 이상을 포함하는,
음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법.
제4항에 있어서,
상기 (pre-2)단계는,
상기 텍스트처리부가 상기 기본 문장구조에서 핵심부만을 추출하여 단순화한 제3변형 문장구조를 도출하는 (pre-2-4)단계를 더 포함하는,
음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법.
제1항에 있어서,
상기 (a)단계 이전에는,
상기 음성처리부가 사용자의 음성 명령을 입력받기 위한 음성입력서비스를 상기 사용자 단말기에 제공하는 (ex)단계가 더 수행되는,
음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법.
제6항에 있어서,
상기 (ex)단계에서,
상기 음성처리부는 제한된 시간 내에 음성 명령이 입력되도록 상기 음성입력서비스의 음성 입력시간에 제한을 설정하는,
음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법.
제1항에 있어서,
상기 (d)단계에서,
상기 텍스트처리부는 상기 데이터베이스 내에 상기 핵심 키워드와 매칭되는 라벨 키워드가 존재하지 않는 것으로 판단된 경우, 상기 데이터베이스에 별도로 저장된 매칭 실패 대응용 영상데이터를 송출할 영상데이터로 선정하는,
음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법.
제1항에 있어서,
상기 (e)단계 이후에는,
상기 관리서버의 통계분석부가, 기 설정된 기간 동안 복수 회 진행된 상기 (a)단계 내지 상기 (e)단계의 과정에서 사용된 핵심 키워드들의 사용 횟수를 기산하는 (f-1)단계;
상기 통계분석부가 상기 (f-1)단계에 의해 기산된 복수 개의 핵심 키워드 중 사용 횟수가 기 설정된 기준횟수 이상인 상위 핵심 키워드를 도출하는 (f-2)단계; 및
상기 영상처리부가 상기 (f-2)단계에서 도출된 상위 핵심 키워드에 대해 새로운 영상데이터를 입력받아 상기 데이터베이스에 저장하는 (f-3)단계;
를 포함하는 (f)단계가 더 수행되는,
음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법.
제1항에 있어서,
상기 (e)단계 이후에는,
상기 관리서버의 통계분석부가, 선호하는 핵심 키워드에 대한 설문입력서비스를 복수 개의 사용자 단말기에 제공하는 (g-1)단계;
상기 통계분석부가 상기 (g-1)단계 이후 복수 개의 사용자 단말기로부터 전송된 설문데이터를 취합하는 (g-2)단계;
상기 통계분석부가 상기 설문데이터를 분석하여, 선호하는 것으로 선택된 횟수가 기 설정된 기준횟수 이상인 상위 핵심 키워드를 도출하는 (g-3)단계; 및
상기 영상처리부가 상기 (g-3)단계에서 도출된 상위 핵심 키워드에 대해 새로운 영상데이터를 입력받아 상기 데이터베이스에 저장하는 (g-4)단계;
를 포함하는 (g)단계가 더 수행되는,
음성 명령의 키워드 분석을 통한 관련 영상데이터 선정 및 송출방법.