KR102350359B1 - 음성 인식 알고리즘을 이용한 영상 편집 방법 - Google Patents

음성 인식 알고리즘을 이용한 영상 편집 방법 Download PDF

Info

Publication number
KR102350359B1
KR102350359B1 KR1020210079155A KR20210079155A KR102350359B1 KR 102350359 B1 KR102350359 B1 KR 102350359B1 KR 1020210079155 A KR1020210079155 A KR 1020210079155A KR 20210079155 A KR20210079155 A KR 20210079155A KR 102350359 B1 KR102350359 B1 KR 102350359B1
Authority
KR
South Korea
Prior art keywords
image
information
voice
words
text
Prior art date
Application number
KR1020210079155A
Other languages
English (en)
Inventor
배관호
Original Assignee
노마드웍스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노마드웍스 주식회사 filed Critical 노마드웍스 주식회사
Priority to KR1020210079155A priority Critical patent/KR102350359B1/ko
Application granted granted Critical
Publication of KR102350359B1 publication Critical patent/KR102350359B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 영상의 음성을 인식하는 영상 편집 방법을 제공할 수 있다.
일 실시예에 따른 서버에 의해 수행되는 영상 편집 방법은 외부 서버로부터 영상 정보를 획득하는 단계; 상기 영상 정보의 음성 정보를 획득하는 단계, 상기 음성 정보에 포함된 단어를 인식하는 단계, 상기 인식한 단어에 기초하여 상기 음성 정보에 포함된 음성을 문자로 변환하는 단계 및 상기 영상 정보에 대응되는 영상에 상기 문자를 표시한 최종 영상을 생성하는 단계를 포함할 수 있다.

Description

음성 인식 알고리즘을 이용한 영상 편집 방법{A method of video editing using speech recognition algorithm}
본 발명은 음성 인식 알고리즘을 통해 영상의 음성을 인식하여 이를 자막으로 표시하는 방법에 관한 발명이다.
최근 인터넷 서비스 중 가장 많은 비중을 차지하고 있는 것이 인터넷 방송 및 멀티미디어 원격교육, 화상채팅, 화상회의, 주변관찰 등 인터넷을 이용한 실시간 멀티미디어 전송 서비스이다. 이와 같이 인터넷을 이용한 여러 종류의 서비스가 제공되고 MPEG 기술과 스트리밍 처리 기술의 향상으로 그 응용분야 역시 점차 확대되고 있다. 그러나 현재의 인터넷 서비스는 위와 같은 서비스 중 각각의 독립된 기능을 제공하는 시스템만 개발되고 있는 실정이며, 하나 이상의 다용도로 서비스 할 수 있는 시스템의 연구 및 개발은 미진한 실정이다.
또한 최근 10년 사이 딥러닝 기술의 발전으로 인공지능(AI)의 성능은 크게 향상되었으며 관련 기술의 적용 범위도 여러 영역으로 확대되고 있다. 그러나 한국어교육에서의 이러한 최신기술 활용에 대한 연구는 미흡한 편이다. 따라서 본 연구에서는 TTS 시스템으로 제작한 음원의 교육적 활용 가능성을 탐색하고자 하였다. 우선 학습자를 대상으로 듣기 평가를 실시한 결과 전문 성우에 의해 녹음한 음원과 TTS 프로그램을 이용한 음원에는 유의미한 점수 차이가 없었다. 둘째, 한국어 교사를 대상으로 평가를 실시하였다. ‘발음’은 전반적으로 양호한 것으로 평가되었다. ‘억양 및 강세’는 화자의 감정을 비롯한 맥락 상황에 맞게 정교화 될 필요가 있으며 ‘시간 요인’은 대체적으로 자연스럽게 받아들여질 수 있으나 일부 문장에 대해서 어색하다고 지적했다. 셋째, STT 프로그램을 통해 제작한 음원의 정확도를 분석한 결과 96%로 음원의 발음은 대체로 명확하다고 평가할 수 있다. 종합적으로 TTS 시스템으로 제작한 음원을 평가한 결과 한국어교육 현장에서의 교육적 활용 가능성에 대해 긍정적으로 평가할 수 있다. 그러나 향후 TTS 프로그램의 활용 범위를 확대하기 위해서는 음원이 보다 실제성과 자연성을 확보할 수 있도록 지속적인 성능 개선 노력이 요구된다.
특히 최근 비대면 미팅 등이 활발해지면서, 음성을 번역하여 이를 활용하는 방법에 대한 연구가 활발하게 진행되고 있는 실정이다.
본 발명은 영상의 음성을 인식하는 영상 편집 방법을 제공할 수 있다.
일 실시예에 따른 서버에 의해 수행되는 영상 편집 방법은 외부 서버로부터 영상 정보를 획득하는 단계; 상기 영상 정보의 음성 정보를 획득하는 단계; 상기 음성 정보에 포함된 단어를 인식하는 단계; 상기 인식한 단어에 기초하여 상기 음성 정보에 포함된 음성을 문자로 변환하는 단계; 및 상기 영상 정보에 대응되는 영상에 상기 문자를 표시한 최종 영상을 생성하는 단계;를 포함할 수 있다.
상기 인식한 단어에 기초하여 상기 음성 정보에 포함된 음성을 문자로 변환하는 단계는, 상기 음성 정보에 포함된 음성 중 미리 정해진 제1 단어들에 대응하는 음성을 인식하는 단계; 및 상기 미리 정해진 제1 단어들 중 적어도 하나를 포함하는 문장의 음성을 문자로 변환하는 단계;를 포함할 수 있다.
상기 음성 정보에 포함된 음성 중 미리 정해진 제1 단어들에 대응하는 음성을 인식하는 단계는, 사용자로부터 입력 받은 미리 정해진 제2 단어들을 저장하는 단계; 제2 외부 서버로부터 상기 미리 정해진 제2 단어들의 유사어 및 동의어를 획득하는 단계; 상기 유사어 및 동의어에 기초하여 상기 미리 정해진 제1 단어들을 결정하는 단계; 상기 미리 정해진 제 1단어들에 대응하는 음성을 인식하는 단계;를 포함할 수 있다.
상기 영상 정보에 대응되는 영상에 상기 문자를 표시한 최종 영상을 생성하는 단계는, 사용자가 설정한 영상 부가 내용을 상기 영상 정보에 대응되는 영상에 함께 표시하는 단계;를 포함할 수 있다.
상기 영상 편집 방법은, 상기 영상 정보는 상기 영상이 촬영 일자 및 상기 영상 주제 정보를 포함하고, 상기 영상 정보에 대응되는 영상에 상기 문자를 표시한 최종 영상을 생성하는 단계는, 상기 촬영 일자 및 상기 영상 주제 정보에 포함되는 주제 명칭을 상기 영상 정보에 대응되는 영상의 좌상측에 상기 촬영 일자, 상기 주제 명칭 순으로 표시하는 단계;를 포함할 수 있다.
본 발명은 기계학습을 통해 영상 속 인물의 음성을 인식하여 정확한 정보를 제공할 수 있다.
본 발명은 공공기관의 영상에 포함된 다양한 단어를 인식하여 수요자에게 정확한 정보를 제공하고 편리성을 향상시킬 수 있다.
다양한 실시예들에 대한 이해를 돕기 위해 상세한 설명의 일부로 포함된, 첨부 도면은 다양한 실시예들을 제공하고, 상세한 설명과 함께 다양한 실시예들의 기술적 특징을 설명한다.
도 1은 일 실시예에 의한 프로세서의 동작을 예시한 도면이다.
도 2는 일 실시예에 의한 영상 정보에 대응하는 영상에 문자를 함께 표시한 동작을 예시한 도면이다.
도 3은 일 실시예에 의한 최종 영상을 만드는 동작을 예시한 도면이다.
도 4는 일 실시예에 의한 미리 정해진 제1 단어들에 대응하는 음성을 인식하여 문자로 변환하는 동작을 예시한 도면이다.
도 5는 일 실시예에 의한 영상 부가 내용을 표시한 최종 영상을 도시한 도면이다.
도 6은 일 실시예에 의한 시력에 문제가 없는 고객을 위한 최종 영상을 도시한 도면이다.
도 7은 일 실시예에 의한 시력에 문제가 있는 고객을 위한 최종 영상을 도시한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. “및/또는”이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 일 실시예에 의한 서버에 속한 프로세서의 동작을 예시한 도면이다. 도 1을 구체적으로 살펴보면 적어도 하나의 프로세서(110)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예들에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(120) 및 저장 장치(160) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(120)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중 하나일 수 있고, 저장 장치(160)는, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD), 솔리드 스테이트 드라이브(SSD), 또는 각종 메모리 카드(예를 들어, micro SD 카드) 등일 수 있다.
또한, 서버(100)는, 서버에 포함될 수 있으며, 무선 네트워크를 통해 통신을 수행하는 송수신 장치(transceiver)(130)를 포함할 수 있다. 또한, 서버(100)는 입력 인터페이스 장치(140), 출력 인터페이스 장치(150), 저장 장치(160) 등을 더 포함할 수 있다. 서버(100)에 포함된 각각의 구성 요소들은 버스(bus)(170)에 의해 연결되어 서로 통신을 수행할 수 있다.
도 2는 일 실시예에 의한 영상 정보에 대응하는 영상에 문자를 함께 표시한 동작을 예시한 도면이다.
도 2를 구체적으로 살펴보면, 영상 편집 방법은 서버에 의해 수행될 수 있다. 서버는 외부 서버로부터 영상 정보를 획득할 수 있다. 영상 정보는 청문회나 공청회 등의 법 개정, 시행규칙 개정 또는 토론 등 다양한 공공 기관의 영상을 포함할 수 있다. 서버는 영상 정보의 음성 정보를 획득하고, 음성 정보에 포함된 단어를 인식할 수 있다. 이때 공공영상에 한하지 않고 보편적인 영상들도 포함될 수 있다. 이때 음성 정보에 포함된 단어를 인식하는 것은 통상적으로 사용되는 자연어 처리 기술을 이용할 수 있다.
자연어 처리(NLP)에는 자연어 분석, 자연어 이해, 자연어 생성 등의 기술이 사용된다. 자연어 분석은 그 정도에 따라 형태소 분석(morphological analysis), 통사 분석(syntactic analysis), 의미 분석(semantic analysis) 및 화용(話用) 분석(pragmatic analysis)의 4가지로 나눌 수 있으며, 이외에도 다양한 방식이 이용될 수 있다. 자연어 분석은 그 정도에 따라 형태소 분석(morphological analysis), 통사 분석(syntactic analysis), 의미 분석(semantic analysis) 및 화용 분석(pragmatic analysis)으로 나눌 수 있다. 여기서 토큰화(Tokenization) 작업이 이용될 수 있다. 작업 과정에서 형태소/품사 분석기를 통해 문장에서 명사, 동사 등 체언과 같이 핵심 의미를 나타내는 부분과 조사, 어미와 같은 기능을 나타내는 부분을 잘 잘라 주고 어근을 복원함으로써 입력 값을 정규화 할 수 있다.
자연어 이해는 컴퓨터가 자연어로 주어진 입력에 따라 동작하게 하는 기술이며, 자연어 생성은 동영상이나 표의 내용 등을 사람이 이해할 수 있는 자연어로 변환하는 기술일 수 있다.
자연어 처리는 대량의 말뭉치 (corpus) 데이터를 활용하는 기계 학습 기반 및 통계적 자연어 처리 기법이 이용될 수 있으며, 심층 기계 학습(deep learning) 기술이 기계 번역 및 자연어 생성 등에 적용될 수 있다.
자연어 처리 기술로 인식한 단어에 기초하여 음성 정보에 포함된 음성을 문자로 변환하고, 영상 정보에 대응되는 영상에 문자를 표시한 최종 영상(1)을 생성할 수 있다. 최종 영상(1)은 영상에서 화자가 발언한 소리를 문자로 변환하여 이를 영상에 표시한 영상일 수 있다.
이때 화자가 발언한 소리를 인식하여 문자로 변환하여 이를 표시할 때 해당 문자는 최종 영상(1)의 하단에 위치하도록 설정할 수 있으며, 이에 한하지 않고 사용자의 설정에 따라 다양한 위치에 표시되도록 설정할 수 있다.
또한 최종 영상(1)에는 촬영 일자 및 공청회의 이름에 해당하는 주제 정보에 해당하는 내용이 좌측 상단에 표시될 수 있다.
촬영 일자 및 공청회의 이름 정보인 주제 정보는 제3 외부서버로부터 획득할 수 있다. 제3 외부서버는 정부 또는 공공 기관에서 영상에 대응하는 회의, 공청회 또는 다양한 공공 발표 등이 예정된 시간 정보 및 주제 정보를 포함할 수 있다. 서버는 제3 외부서버로부터 해당 예정된 시간 정보 및 주제 정보를 획득할 수 있으며, 획득한 예정된 시간 정보 및 주제 정보에 기초하여 최종 영상(1)의 좌상측 영역(9)에 표시할 수 있다. 이때 영상을 촬영한 카메라의 촬영 시간을 참고하여 좌상측 영역(9)의 촬영 시간에 반영할 수도 있다. 이때 촬영 시간은 물리적으로 카메라로 촬영한 시간을 의미할 수 있으며, 후술하는 촬영 일자는 최종 영상(1)에 표시되는 영상이 촬영된 날짜 문자를 의미할 수 있다. 또한, 영상을 촬영한 카메라의 촬영 시간과 예정된 시간 정보를 비교하여 카메라의 촬영 시간 또는 예정된 시간 정보에 포함된 시간 중 우선적으로 좌상측 영역(9)에 표시할 내용을 설정할 수도 있다. 영상 주제 정보는 영상의 주제와 관련된 내용을 포함할 수 있다. 이때 촬영 일자 및 영상 주제 정보에 포함되는 주제 명칭을 영상의 좌상측 영역(9)에 촬영 일자, 주제 명칭 순으로 표시하여 최종 영상(1)을 생성할 수 있다. 이때 도 2에서는 촬영 일자가 주제 명칭의 상단에 표시되었지만, 사용자의 설정에 따라서 좌측을 시작점으로 하여 일렬로 순서대로 표시될 수도 있다.
일 실시예로 최종 영상(1)의 우상측 영역에 스피커 표시의 아이콘이 표시될 수 있으며, 소리 정보에 포함된 소리의 크기에 비례하여 스피커 표시의 아이콘의 크기가 커지거나 작아지는 동작이 실시간으로 표시할 수 있다. 즉, 음성 크기에 따라 아이콘 크기를 조절하는 아이콘을 최종 영상(1)의 우상측 영역에 표시할 수 있다. 이는 음소거로 영상을 시청하는 이용자를 위함일 수 있다.
일 실시예로 음성을 문자로 변환한 후, 변환한 문자를 표시할 때는 최종 영상(1)의 중앙 하단 영역(10)에 표시되도록 설정할 수 있다. 이때 후술하듯, 영상 부가 내용은 중앙 하단 영역(10) 중, 소리를 인식하여 변환한 문자의 하단의 영역에 표시하도록 설정할 수 있다.
도 3은 일 실시예에 의한 최종 영상을 만드는 동작을 예시한 도면이다. 도 3을 구체적으로 살펴보면, 서버는 외부 서버로부터 영상 정보를 획득하고, 영상 정보의 음성 정보를 획득하고, 음성 정보에 포함된 단어를 인식하고, 인식한 단어에 기초하여 음성 정보에 포함된 음성을 문자로 변환하고, 영상 정보에 대응되는 영상에 문자를 표시한 최종 영상을 생성할 수 있다.
즉, 서버는 외부 서버로부터 영상 정보를 획득(301)할 수 있고, 영상 정보의 음성 정보를 획득(302)할 수 있으며, 음성 정보에 포함된 단어를 인식(303)할 수 있고, 인식한 단어에 기초하여 음성 정보에 포함된 음성을 문자로 변환하고 영상 정보에 대응되는 영상에 문자를 표시(304)한 최종 영상을 생성할 수 있다.
도 4는 일 실시예에 의한 미리 정해진 제1 단어들에 대응하는 음성을 인식하여 문자로 변환하는 동작을 예시한 도면이다. 도 4를 구체적으로 살펴보면, 서버는, 음성 정보에 포함된 음성 중 미리 정해진 제1 단어들에 대응하는 음성을 인식할 수 있고, 미리 정해진 제1 단어들 중 적어도 하나를 포함하는 문장의 음성을 문자로 변환할 수 있다. 미리 정해진 제1 단어들은 사용자의 설정에 의할 수 있으며, 미리 정해진 제2 단어에 기초하여 결정할 수도 있다.
일 실시예로 서버는 사용자로부터 미리 정해진 제2 단어들을 입력 받을 수 있다. 입력 받은 미리 정해진 제2 단어들을 서버에 저장할 수 있다. 이때 미리 정해진 제2 단어는 '개정, 시행' 등의 개정과 관련된 단어들로 설정될 수 있다. 미리 정해진 제1 단어의 유의어 및 동의어로 사용자에 의해 설정될 수 있다. 미리 정해진 유사치는 사용자의 설정에 의할 수 있다.
이때 유의어 및 동의어는 제2 외부 서버로부터 획득할 수 있다. 유의어 및 동의어 중 서버는 사용자가 설정한 기준에 의해 미리 정해진 제1 단어를 결정할 수 있다.
일 실시예로 미리 정해진 제2 단어인 '시행'에 대응하는 미리 정해진 제1 단어로 '실행, 시작'등의 단어가 미리 정해진 제1 단어로 결정되도록 서버가 결정할 수 있다. 이때 서버가 미리 정해진 제2 단어들 각각과 유사한 미리 정해진 제1 단어들을 결정하는 것 외에도, 사용자의 설정에 의해 미리 정해진 제2 단어들과 미리 정해진 제1 단어들이 정해질 수도 있다.
미리 정해진 유사치에 대한 데이터 값은 외부 서버로부터
이때 일 실시예로 음성 정보에 포함된 음성과 미리 정해진 제1 단어들에 대응하는 음성을 비교하여 인식하는 방법 외에도, 음성 정보에 포함된 음성을 전부 인식한 후, 인식한 단어와 미리 정해진 제1 단어들을 비교한 후, 미리 정해진 제1 단어가 속한 문장만을 문자로 변환하는 방법을 사용할 수 있으며, 이는 사용자의 설정에 의할 수 있다. 즉 소리 정보에 포함된 소리를 모두 인식한 후, 단어끼리 비교할 수도 있으며, 소리 정보에 포함된 소리 중 특정 단어가 포함된 소리만을 인식하도록 설정할 수도 있다.
즉, 서버는 음성 정보에 포함된 음성 중 미리 정해진 제1 단어들에 대응하는 음성을 인식(401)할 수 있고, 미리 정해진 제1 단어들 중 적어도 하나를 포함하는 문자의 음성을 문자로 변환(402)할 수 있다.
도 5는 일 실시예에 의한 영상 부가 내용을 표시한 최종 영상을 도시한 도면이다. 도 5를 구체적으로 살펴보면, 서버는 사용자가 설정한 영상 부가 내용을 표시하여 상기 최종 영상(1)을 생성할 수 있다. 영상 부가 내용은 중앙 하단 영역 중, 소리를 인식하여 변환한 문자의 하단의 영역에 표시하도록 설정할 수 있다. 영상 정보는 영상이 촬영 일자 및 영상 주제 정보를 포함할 수 있다. 또한 영상 부가 내용은 영상 정보에서 언급한 내용 중 법 개정, 정책 개정 정보, 해당 개정에 대한 내용을 저장하여 개시하고 있는 사이트의 링크 및 해당 개정 내용과 관련이 있는 사이트 주소 등을 포함할 수 있다. 이때 개정 내용과 관련이 있는 내용은 사용자의 설정에 의해 다양할 수 있다. 이때 도 5와 같이 소리를 인식하여 변환한 문자가 표시되는 중앙 하단 영역(11)의 하측 중 좌측 영역(12)에 법 개정 관련 사이트를 표시되도록 할 수 있고, 소리를 인식하여 변환한 문자가 표시되는 중앙 하단 영역(11) 하측 중 우측 영역(13)에 법 개정에 대한 구체적인 내용이 표시되도록 최종 영상(1)을 생성할 수 있다. 이때 좌측 영역과 우측 영역의 내용에 들어갈 내용은 사용자의 설정에 의할 수 있다. 또한 두 영역이 도 5와 같이 양 옆에 위치하는 것이 아닌, 상 하로 배치되도록 설정할 수도 있으며, 상황에 따라서 양 영역이 아닌 하나의 영역만 배치되도록 설정할 수도 있다.
일 실시예로 개정이 부동산에 관한 것이라면 부동산과 관련된 다양한 사이트들이 개정 내용과 관련이 있는 사이트일 수 있다.
일 실시예로 영상 부가 내용은 제3 외부 서버로부터 획득하여 사용자의 설정에 의한 정보를 의미할 수 있다. 이는 법개정 내용, 법 개정 시행 년도 내용, 추가된 내용에 대한 부연 설명 내용 등을 포함할 수 있다.
이때 이용자의 구독 정보에 기초하여 관심사를 수치화 한 후, 특정 수치 이상의 영상에 대한 내용을 이용자의 사용자 단말로 알람 문자를 전송하도록 할 수 있다.
이때 이용자의 구독 정보에 기초하여 관심사를 수치화 하는 것은 다음과 같은 수학식 1에 의할 수 있다.
Figure 112021070322337-pat00001
S는 이용자의 구독 정보에 기초하여 관심사를 수치화 한 값을 의미할 수 있다. b는 이용자가 관심 있는 분야의 개수를 의미할 수 있다. b가 나타내는 변수는 부동산 분야, 금융 분야, 원자재 분야, 도로교통법 분야 중 다양하게 설정될 수 있다. 이때 a에 대응하는 각 분야가 속하는지 판단하기 위해 영상 속에 포함된 단어에 기초하여 분야를 분류할 수 있다.
일 실시예로 영상에서 부동산, 집값, 월세, 전세 등의 부동산과 관련된 정보가 나온다면 해당 단어가 속한 문장을 인식하고, 해당 단어와 같이 시행 년도, 시행 일, 금액, 액수, 기간 등의 단어가 같이 나온다면 이는 해당 부동산 분야의 개정 영역을 포함할 수 있기에 변수로서 고려할 수 있다. 즉 b는 영상 속에서 음성을 인식하여 내용을 판단 후, 해당 내용을 분야별로 분류하면서 해당 수치들을 모두 더하기 위한 분야의 개수를 의미할 수 있다.
Ta는 a에 대응하는 분야에 있어서의 가중치를 의미할 수 있다. 즉, 이용자는 처음 설정시 가장 관심있는 분야부터 순차적으로 선택할 수 있으며, 가장 관심있는 분야가 가장 높은 가중치가 되도록 설정할 수 있다. 이때 가중치는 미리 테이블링 되어 있을 수 있다. Qa는 해당 분야에서 시행 년도가 현재 시점으로부터 얼마나 떨어져 있는지 나타내는 즉 시행 년도까지 남은 기간을 의미할 수 있다. 기간이 짧게 남을수록 더 급한 개정이기에 이에 대한 대비를 위해 더욱 더 빠른 대처가 필요할 수 있다. 따라서 기간이 짧을수록 수치는 더 높게 나오도록 설정될 수 있다.
Wa는 a에 대응하는 분야에서 개정이 금액과 관련된 경우 미리 테이블링 된 금액 지수를 의미할 수 있다. 일 실시예로 부동산 정책과 관련된 개정에서 양도세율이 변한다고 얘기가 된다면 이는 금액과 관련된 내용으로서 높은 수치가 부여될 수 있으며, 어떤 개정이 금액과 관련되지 않은 내용이라면 낮은 가중치가 부여될 수 있다. 이때 금액과 관련된 내용인지 판단하기 위해서는 영상에 포함된 소리 정보 중, 금액, 원, 화폐 단위와 관련된 내용, 세율, 또는 끝이 '세'로 끝나는 단어들의 경우 금액으로 인식되도록 설정할 수 있다. 금액이 들어간 경우에는 수치를 3으로, 아닌 경우 1로 두는 등 사용자의 설정에 따라 Wa값을 미리 테이블링 할 수 있다.
이때 Wa는 사용자 설정에 따라서 금액이 아닌 다른 변수로 설정될 수 있다. 일 실시예로 Wa는 a 분야의 개정 내용에 있어서 특정 값의 단순 퍼센트 변화에 대응하는 값이 들어가도록 설정할 수도 있으며, 또 다른 실시예로 개정 내용에 있어서 시간의 변화나, 인원 수 제한의 변화, 특정 활동의 변화, 특정 공간에서의 제약 변화, 업무 변화, 출근일 변화 등 다양한 변수가 설정될 수 있으며, 이러한 다양한 예시들을 모두 고려하여 수치화 할 수도 있다.
또한, 서버는 이용자들의 구독 정보를 획득할 수 있다. 구독한 이용자들의 정보를 획득하고, 구독 정보에 포함된 이용자의 관심 분야, 개정 내용 시행 날짜, 개정된 내용 중 시간에 관한 정보나 금액에 관한 정보 등 이용자가 관심 있는 내용들을 획득할 수 있다.
도 6은 일 실시예에 의한 시력에 문제가 있는 고객을 위한 최종 영상을 도시한 도면이다. 도 7은 일 실시예에 의한 시력에 문제가 없는 고객을 위한 최종 영상을 도시한 도면이다. 도 6 및 도 7을 구체적으로 살펴보면, 최종 영상(1)에는 좌상측 영역(9)에 촬영일자 및 주제 명칭이 표시될 수 있다. 또한 도 6과 도 7 각각에 영상 정보의 소리 정보를 인식하여 인식한 내용을 문자로 표시할 수 있다. 도 6은 시력이 좋지 않거나, 근시 또는 원시가 있는 경우, 또는 나이가 일정 수준 이상인 이용자를 위한 자막(14)으로 편집한 최종 영상(1)일 수 있다. 이용자의 구독 정보를 획득할 때 시력 정보, 특이 정보, 요청 정보 및 연령 정보를 획득하여 자막의 크기를 조정할 수 있다.
도 6의 경우 시력적으로 문제가 있는 이용자를 위한 자막(14)으로 비교적 크게 자막을 설정할 수 있으며, 도 7의 경우 시력에 문제가 없는 이용자를 위한 자막(15)으로 비교적 작게 자막이 나타나도록 표시할 수 있다.
기계 학습일 이용 시 딥 러닝 모델을 이용할 수 있으며 머신 러닝 모델을 이용하여 수행할 수 있다. 이때 학습 데이터 셋은 외부의 다양한 서버에서 획득한 다양한 음성 정보 및 단어 정보를 학습 데이터 셋으로 포함할 수 있으며, 지도 학습 방식이 이용될 수 있다. 이때, 딥 러닝 모델 모듈은 DNN(deep neural network) 알고리즘을 이용할 수 있다. 기재된 바에 국한되지 않고, 합성곱 신경망(CNN, Convoultional Neural Network), 순환 신경망(RNN, Recurrent Neural Network), 제한 볼츠만 머신(RBM, Restricted Boltzmann Machine), 심층 신뢰 신경망(DBN, Deep Belief Network) 알고리즘들이 이용될 수 있으며, 각각의 알고리즘들은 주지의 기술이므로 설명은 생략한다.
본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능 매체의 예에는 롬(ROM), 램(RAM), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
또한, 상술한 방법 또는 장치는 그 구성이나 기능의 전부 또는 일부가 결합되어 구현되거나, 분리되어 구현될 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
1: 최종 영상

Claims (5)

  1. 서버에 의해 수행되는 영상 편집 방법에 있어서,
    외부 서버로부터 영상 정보를 획득하는 단계;
    상기 영상 정보의 음성 정보를 획득하는 단계;
    상기 음성 정보에 포함된 단어를 인식하는 단계;
    상기 인식한 단어에 기초하여 상기 음성 정보에 포함된 음성을 문자로 변환하는 단계; 및
    상기 영상 정보에 대응되는 영상에 상기 문자를 표시한 최종 영상을 생성하는 단계;를 포함하고,
    상기 인식한 단어에 기초하여 상기 음성 정보에 포함된 음성을 문자로 변환하는 단계는,
    상기 음성 정보에 포함된 음성 중 미리 정해진 제1 단어들에 대응하는 음성을 인식하는 단계; 및
    상기 미리 정해진 제1 단어들 중 적어도 하나를 포함하는 문장의 음성을 문자로 변환하는 단계;를 포함하고,
    상기 음성 정보에 포함된 음성 중 미리 정해진 제1 단어들에 대응하는 음성을 인식하는 단계는,
    사용자로부터 입력 받은 제2 단어들을 저장하는 단계;
    상기 제2 단어들을 기반으로 제2 외부 서버로부터 상기 제2 단어들의 유사어 및 동의어를 획득하는 단계;
    상기 유사어 및 동의어에 기초하여 상기 미리 정해진 제1 단어들을 결정하는 단계; 및
    상기 미리 정해진 제1 단어들에 대응하는 음성을 인식하는 단계;를 포함하고,
    상기 영상 정보에 대응되는 영상에 상기 문자를 표시한 최종 영상을 생성하는 단계는,
    사용자가 설정한 영상 부가 내용을 표시하여 상기 최종 영상을 생성하는 단계;를 포함하고,
    상기 미리 정해진 제1 단어들은 '개정'을 포함하고,
    상기 영상 부가 내용은 상기 제1 단어들 중 적어도 하나를 포함하는 문장을 기반으로 도출되는 개정 사항에 관한 사이트의 링크 정보를 포함하고,
    상기 영상 정보는 상기 영상의 촬영 일자 및 상기 영상의 주제 정보를 포함하고,
    상기 영상 정보에 대응되는 영상에 상기 문자를 표시한 최종 영상을 생성하는 단계는,
    상기 촬영 일자 및 상기 주제 정보에 포함되는 주제 명칭을 상기 영상 정보에 대응되는 영상의 좌상측 영역에 상기 촬영 일자 및 상기 주제 명칭 순으로 표시하여 상기 최종 영상을 생성하는 단계;를 더 포함하고,
    상기 최종 영상은 상기 영상의 우상측 영역에 스피커 아이콘이 더 표시되고,
    상기 스피커 아이콘은 상기 음성 정보에 따른 소리의 크기에 비례하여 크기가 커지거나 작아지고,
    이용자의 관심 분야에 관한 정보를 포함하는 구독 정보를 획득하는 단계;
    상기 구독 정보를 기반으로 상기 영상 정보에 대하여 이용자의 관심사를 수치화하는 단계; 및
    상기 수치화한 값이 특정 수치 이상일 경우, 상기 영상 정보에 대한 내용을 포함하는 알림 문자를 상기 이용자의 단말로 전송하는 단계를 더 포함하고,
    상기 이용자의 연령 정보를 획득하는 단계; 및
    상기 연령 정보를 기반으로 상기 최종 영상에 표시되는 상기 문자의 크기를 조정하는 단계를 더 포함하는,
    영상 편집 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
KR1020210079155A 2021-06-18 2021-06-18 음성 인식 알고리즘을 이용한 영상 편집 방법 KR102350359B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210079155A KR102350359B1 (ko) 2021-06-18 2021-06-18 음성 인식 알고리즘을 이용한 영상 편집 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210079155A KR102350359B1 (ko) 2021-06-18 2021-06-18 음성 인식 알고리즘을 이용한 영상 편집 방법

Publications (1)

Publication Number Publication Date
KR102350359B1 true KR102350359B1 (ko) 2022-01-12

Family

ID=79339567

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210079155A KR102350359B1 (ko) 2021-06-18 2021-06-18 음성 인식 알고리즘을 이용한 영상 편집 방법

Country Status (1)

Country Link
KR (1) KR102350359B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102422844B1 (ko) * 2022-01-25 2022-07-20 주식회사 고래상어 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160087573A (ko) * 2015-01-14 2016-07-22 삼성전자주식회사 원본 컨텐츠와 연계된 편집 영상의 생성 및 디스플레이
KR20190137359A (ko) * 2018-06-01 2019-12-11 네이버 주식회사 동영상 서비스 제공 방법 및 이를 이용하는 서비스 서버
KR20200121603A (ko) * 2019-04-16 2020-10-26 삼성전자주식회사 텍스트를 제공하는 전자 장치 및 그 제어 방법.

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160087573A (ko) * 2015-01-14 2016-07-22 삼성전자주식회사 원본 컨텐츠와 연계된 편집 영상의 생성 및 디스플레이
KR20190137359A (ko) * 2018-06-01 2019-12-11 네이버 주식회사 동영상 서비스 제공 방법 및 이를 이용하는 서비스 서버
KR20200121603A (ko) * 2019-04-16 2020-10-26 삼성전자주식회사 텍스트를 제공하는 전자 장치 및 그 제어 방법.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102422844B1 (ko) * 2022-01-25 2022-07-20 주식회사 고래상어 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법

Similar Documents

Publication Publication Date Title
US11500917B2 (en) Providing a summary of a multimedia document in a session
Yeomans et al. The politeness Package: Detecting Politeness in Natural Language.
US7860705B2 (en) Methods and apparatus for context adaptation of speech-to-speech translation systems
US10770062B2 (en) Adjusting a ranking of information content of a software application based on feedback from a user
Klaylat et al. Emotion recognition in Arabic speech
US10210867B1 (en) Adjusting user experience based on paralinguistic information
KR20190108523A (ko) 음성신호 기반 인공지능을 이용한 감정분석을 제공하는 감성일기 서비스 제공 서버 및 방법
US10685644B2 (en) Method and system for text-to-speech synthesis
US11756567B2 (en) Autocreation of conversational image representation
Remael et al. From translation studies and audiovisual translation to media accessibility: Some research trends
US9922644B2 (en) Analysis of professional-client interactions
KR20210095609A (ko) 회의록 열람 문서 생성 방법 및 그 장치
KR102350359B1 (ko) 음성 인식 알고리즘을 이용한 영상 편집 방법
Skowron et al. Automatic identification of character types from film dialogs
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
Candido Junior et al. CORAA ASR: a large corpus of spontaneous and prepared speech manually validated for speech recognition in Brazilian Portuguese
Zhang et al. Investigating the effects of phonological neighbours on word retrieval and phonetic variation in word naming and picture naming paradigms
KR102422844B1 (ko) 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법
KR20210009266A (ko) 음성 인식 기반의 세일즈 대화 분석 방법 및 장치
Markl Language variation, automatic speech recognition and algorithmic bias
Pamolango Types and functions of fillers used by the female teacher and lecturer in Surabaya
Remael et al. From Translation Studies and audiovisual translation to media accessibility
Meiselwitz Social Computing and Social Media. Design, Human Behavior and Analytics: 11th International Conference, SCSM 2019, Held as Part of the 21st HCI International Conference, HCII 2019, Orlando, FL, USA, July 26-31, 2019, Proceedings, Part I
Tamba The Translation Technique English to Indonesia on the Directive Speech Act of “Toy Story 2” Movie”.
JP2022159632A (ja) 学習方法、及びコンテンツ再生装置

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant