KR102430020B1 - 단말기 및 그것의 동작 방법 - Google Patents

단말기 및 그것의 동작 방법 Download PDF

Info

Publication number
KR102430020B1
KR102430020B1 KR1020190097398A KR20190097398A KR102430020B1 KR 102430020 B1 KR102430020 B1 KR 102430020B1 KR 1020190097398 A KR1020190097398 A KR 1020190097398A KR 20190097398 A KR20190097398 A KR 20190097398A KR 102430020 B1 KR102430020 B1 KR 102430020B1
Authority
KR
South Korea
Prior art keywords
voice
host
terminal
text
user
Prior art date
Application number
KR1020190097398A
Other languages
English (en)
Other versions
KR20210017708A (ko
Inventor
안상일
홍주영
정용욱
Original Assignee
주식회사 하이퍼커넥트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 하이퍼커넥트 filed Critical 주식회사 하이퍼커넥트
Priority to KR1020190097398A priority Critical patent/KR102430020B1/ko
Priority to EP20189677.6A priority patent/EP3772732A1/en
Priority to JP2020134046A priority patent/JP2021028715A/ja
Priority to US16/987,111 priority patent/US11615777B2/en
Publication of KR20210017708A publication Critical patent/KR20210017708A/ko
Priority to JP2022103809A priority patent/JP2022137114A/ja
Application granted granted Critical
Publication of KR102430020B1 publication Critical patent/KR102430020B1/ko
Priority to US18/183,860 priority patent/US20230215418A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41407Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/611Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for multicast or broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Digital Computer Display Output (AREA)

Abstract

단말기는 방송 채널을 통해 단말기의 사용자가 호스트인 실시간 방송이 시작되면, 두 개의 영역으로 분할되고, 두 개의 영역 중 하나의 영역이 호스트에게 할당되는 디스플레이, 호스트의 음성을 수신하는 입출력 인터페이스, 방송 채널에 입장한 적어도 한 명 이상의 게스트 중 특정 게스트의 단말기로부터 적어도 하나 이상의 아이템 중 선택된 하나의 아이템 및 특정 텍스트를 수신하는 통신 인터페이스, 및 특정 텍스트를 호스트의 음성 또는 특정 게스트의 음성으로 변환한 음성 메시지를 생성하는 프로세서를 포함할 수 있다.

Description

단말기 및 그것의 동작 방법{MOBILE AND OPERATING METHOD THEREOF}
기재된 실시 예는 보다 효과적으로 텍스트를 음성으로 변환하는 단말기 및 그것의 동작 방법에 관한 것이다.
통신 기술이 발전되고 전자 장치가 소형화됨에 따라 개인용 단말기가 일반 소비자에게 널리 보급되고 있다. 특히 최근에는 스마트폰 또는 스마트 태블릿과 같은 휴대용 개인 단말기가 널리 보급되고 있다. 단말기의 대부분은 통신 기능을 포함하고 있다. 사용자는 단말기를 이용하여 인터넷에서 검색을 수행하거나 다른 사용자와 메시지를 주고받을 수 있다.
또한, 소형 카메라 기술, 소형 마이크 기술, 소형 디스플레이 기술 및 소형 스피커 기술의 발전에 따라 스마트폰과 같은 대부분의 단말기에는 카메라, 마이크, 디스플레이 및 스피커가 포함되어 있다. 사용자는 단말기를 이용하여 음성을 녹음하거나 음성이 포함된 동영상을 촬영할 수 있다. 사용자는 단말기에 포함된 스피커를 통해 녹음된 음성을 확인하거나 디스플레이를 통해 촬영된 동영상을 확인할 수 있다.
사용자는 단말에 의해 현재 녹음되고 있는 음성 또는 현재 촬영되고 있는 동영상을 실시간으로 적어도 한 명 이상의 다른 사용자에게 전송할 수 있다. 적어도 한 명 이상의 다른 사용자는 단말기를 통해 다른 사용자의 단말에 의해 현재 촬영되고 있는 동영상 또는 음성을 실시간으로 확인할 수 있다.
기재된 실시 예에 따르면 보다 효과적으로 실시간 방송을 수행할 수 있는 단말기 및 그것의 동작 방법이 제공될 수 있다.
또한, 실시 예에 따르면 실시간 방송 서비스를 통해 인간 관계를 확장할 수 있는 단말기, 및 그것의 동작 방법이 제공될 수 있다.
본 발명의 실시예에 따른 방송 채널을 통해 실시간 방송을 수행할 수 있는 서비스를 제공하는 단말기의 동작 방법은 방송 채널을 통해 단말기의 사용자가 호스트인 실시간 방송이 시작되는 단계, 실시간 방송이 시작되면, 단말기의 디스플레이가 두 개의 영역으로 분할되고, 두 개의 영역 중 하나의 영역이 호스트에게 할당되는 단계, 실시간 방송 중 호스트의 음성을 인식하는 단계, 방송 채널에 입장한 적어도 한 명 이상의 게스트 중 특정 게스트의 단말기로부터 적어도 하나 이상의 아이템 중 선택된 하나의 아이템 및 특정 텍스트를 수신하는 단계, 특정 텍스트를 호스트의 음성 또는 특정 게스트의 음성으로 변환한 음성 메시지를 생성하는 단계, 및 음성 메시지를 출력하는 단계를 포함할 수 있다.
몇몇 실시예로서, 단말기의 동작 방법은 특정 텍스트를 호스트의 음성으로 변환한 음성 메시지를 생성하기 위한 알고리즘을 준비하는 단계를 더 포함할 수 있다.
몇몇 실시예로서, 특정 텍스트를 호스트의 음성으로 변환한 음성 메시지를 생성하는 단계는 호스트의 음성 및 특정 텍스트를 알고리즘에 적용하여 음성 메시지를 생성할 수 있다.
몇몇 실시예로서, 특정 텍스트를 호스트의 음성으로 변환한 음성 메시지를 생성하기 위한 알고리즘을 준비하는 단계는 복수의 음성과 복수의 텍스트, 그리고 복수의 텍스트 각각을 복수의 음성으로 변환한 복수의 음성 메시지 사이의 상관관계에 대해 학습된, 학습 모델을 준비할 수 있다.
몇몇 실시예로서, 단말기의 동작 방법은 호스트의 음성으로부터 음성 특징들을 추출하는 단계, 추출된 음성 특징들을 기반으로 비교 음성을 생성하는 단계, 호스트의 음성 및 비교 음성을 비교하는 단계, 및 비교 결과에 따라 음성 특징들을 저장하는 단계를 더 포함할 수 있다.
몇몇 실시예로서, 호스트의 음성 및 비교 음성을 비교하는 단계는 호스트의 음성 및 비교 음성 사이의 샘플링 값의 오차를 계산하고, 비교 결과에 따라 음성 특징들을 저장하는 단계는 오차가 기준값 이하인 경우, 음성 특징들을 저장할 수 있다.
몇몇 실시예로서, 특정 텍스트를 호스트의 음성으로 변환한 음성 메시지를 생성하는 단계는 특정 텍스트 및 음성 특징들을 기반으로 음성 메시지를 생성할 수 있다.
몇몇 실시예로서, 적어도 하나 이상의 아이템은 서비스 내에서 재화적 가치를 가질 수 있다.
몇몇 실시예로서, 단말기의 동작 방법은 방송 채널에 입장한 적어도 한 명 이상의 게스트 중 제1 게스트가 방송에 직접 참여하는 단계, 및 디스플레이의 두 개의 영역 중 호스트에게 할당된 영역을 제외한 다른 영역이 제1 게스트에게 할당되는 단계를 더 포함할 수 있다.
본 발명의 실시예에 따른 단말기는 방송 채널을 통해 단말기의 사용자가 호스트인 실시간 방송이 시작되면, 두 개의 영역으로 분할되고, 두 개의 영역 중 하나의 영역이 호스트에게 할당되는 디스플레이, 호스트의 음성을 수신하는 입출력 인터페이스, 방송 채널에 입장한 적어도 한 명 이상의 게스트 중 특정 게스트의 단말기로부터 적어도 하나 이상의 아이템 중 선택된 하나의 아이템 및 특정 텍스트를 수신하는 통신 인터페이스, 및 특정 텍스트를 호스트의 음성 또는 특정 게스트의 음성으로 변환한 음성 메시지를 생성하는 프로세서를 포함할 수 있다.
몇몇 실시예로서, 프로세서는 복수의 음성과 복수의 텍스트, 그리고 복수의 텍스트 각각을 복수의 음성으로 변환한 복수의 음성 메시지 사이의 상관관계에 대해 학습된, 학습 모델을 준비하고, 호스트의 음성 및 특정 텍스트를 학습 모델에 적용하여 음성 메시지를 생성할 수 있다.
몇몇 실시예로서, 단말기는 학습 모델을 저장하는 메모리를 더 포함할 수 있다.
몇몇 실시예로서, 프로세서는 호스트의 음성으로부터 음성 특징들을 추출하고, 추출된 음성 특징들을 기반으로 비교 음성을 생성하고, 호스트의 음성 및 비교 음성을 비교하고, 비교 결과에 따라, 특정 텍스트 및 음성 특징들을 기반으로 음성 메시지를 생성할 수 있다.
몇몇 실시예로서, 디스플레이는 방송 채널에 입장한 적어도 한 명 이상의 게스트 중 제1 게스트가 방송에 직접 참여하는 경우, 디스플레이의 두 개의 영역 중 호스트에게 할당된 영역을 제외한 다른 영역이 제1 게스트에게 할당될 수 있다.
기재된 실시 예에 따른 단말기, 및 그것의 동작 방법은 보다 효과적으로 실시간 방송을 수행할 수 있다.
또한, 실시 예에 따른 단말기, 및 그것의 동작 방법은 실시간 방송 서비스를 통해 인간 관계를 확장할 수 있다.
도 1은 본 발명의 실시예에 따른 전자 장치가 동작하는 환경을 나타내는 시스템 구성도이다.
도 2는 본 발명의 실시예에 따른 단말기의 구성을 나타내는 블록도이다.
도 3은 본 발명의 실시예에 따른 단말기에서 실시간 방송 어플리케이션을 실행하는 방법을 보여주는 도면이다.
도 4는 본 발명의 다른 실시예에 따른 단말기에서 실시간 방송 어플리케이션을 실행하는 방법을 보여주는 도면이다.
도 5는 본 발명의 또 다른 실시예에 따른 단말기에서 실시간 방송 어플리케이션을 실행하는 방법을 보여주는 도면이다.
도 6은 본 발명의 실시예에 따른 단말기에서 텍스트를 음성 메시지로 변환하는 방법을 보여주기 위한 순서도이다.
도 7은 본 발명의 다른 실시예에 따른 단말기에서 텍스트를 음성 메시지로 변환하는 방법을 보여주기 위한 순서도이다.
도 8은 본 발명의 실시예에 따른 단말기의 프로세서를 보여주는 도면이다.
도 9는 본 발명의 다른 실시예에 따른 단말기의 프로세서를 보여주는 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
비록 "제1" 또는 "제2" 등이 다양한 구성요소를 서술하기 위해서 사용되나, 이러한 구성요소는 상기와 같은 용어에 의해 제한되지 않는다. 상기와 같은 용어는 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용될 수 있다. 따라서, 이하에서 언급되는 제1구성요소는 본 발명의 기술적 사상 내에서 제2구성요소일 수도 있다.
본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소 또는 단계가 하나 이상의 다른 구성요소 또는 단계의 존재 또는 추가를 배제하지 않는다는 의미를 내포한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통으로 이해될 수 있는 의미로 해석될 수 있다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
도 1은 본 발명의 실시예에 따른 전자 장치가 동작하는 환경을 나타내는 시스템 구성도이다.
도 1을 참조하면, 복수의 전자 장치(100~300)가 동작하는 시스템 환경은 서버(400) 및 복수의 전자 장치(100~300)를 포함할 수 있다. 예를 들어, 복수의 전자 장치(100~300)가 동작하는 환경은 적어도 하나 이상의 서버를 포함할 수 있다.
복수의 전자 장치(100~300) 각각은 서버(400)를 매개로 연결될 수 있다. 본 발명의 설명의 편의를 위해, 도 1에서 세 개의 전자 장치가 도시되어 있다. 하지만, 전자 장치의 개수는 세 개로 한정되지 않는다. 복수의 전자 장치(100~300) 각각은 데스크탑 컴퓨터, 랩 탑 컴퓨터, 스마트폰, 스마트 태블릿, 스마트 워치, 이동 단말기, 디지털 카메라, 웨어러블 디바이스(wearable device), 또는 휴대용 전자기기 중 하나로써 구현될 수 있다. 복수의 전자 장치(100~300) 각각은 프로그램 또는 애플리케이션을 실행할 수 있다.
복수의 전자 장치(100~300) 각각은 통신망에 연결될 수 있다. 복수의 전자 장치(100~300) 각각은 통신망을 통해 서로 연결되거나 서버(400)와 연결될 수 있다. 복수의 전자 장치(100~300) 각각은 서로 연결된 다른 장치에 데이터를 출력하거나 다른 장치로부터 데이터를 수신할 수 있다.
복수의 전자 장치(100~300) 각각에 연결된 통신망은 유선 통신망, 무선 통신망, 또는 복합 통신망을 포함할 수 있다. 통신망은 3G, LTE, 또는 LTE-A 등과 같은 이동 통신망을 포함할 수 있다. 통신망은 와이파이(Wi-Fi), UMTS/GPRS, 또는 이더넷(Ethernet) 등과 같은 유선 또는 무선 통신망을 포함할 수 있다. 통신망은 마그네틱 보안 출력(MST, Magnetic Secure Transmission), RFID(Radio Frequency Identification), NFC(Near Field Communication), 지그비(ZigBee), Z-Wave, 블루투스(Bluetooth), 저전력 블루투스(BLE, Bluetooth Low Energy), 또는 적외선 통신(IR, InfraRed communication) 등과 같은 근거리 통신망을 포함할 수 있다. 통신망은 근거리 네트워크(LAN, Local Area Network), 도시권 네트워크(MAN, Metropolitan Area Network), 또는 광역 네트워크(WAN, Wide Area Network) 등을 포함할 수 있다.
복수의 전자 장치(100~300) 사이에 다양한 형태의 통신 세션이 수립될 수 있다. 예를 들어, 복수의 전자 장치(100~300)는 서로 메시지, 파일, 음성 데이터, 영상, 또는 동영상 등을 주고받을 수 있다. 예를 들어, 복수의 전자 장치(100~300)는 TCP(Transmission Control Protocol), UDP(User Datagram Protocol), 또는 WebRTC(Web Real-Time Communication) 등을 이용하여 실시간 방송을 수행할 수 있다.
몇몇 실시예로서, 복수의 전자 장치(100~300)에는 실시간 방송을 수행 또는 시청할 수 있는 애플리케이션이 설치되어 있을 수 있다. 복수의 전자 장치(100~300) 중 제1 전자 장치(100)의 사용자는 애플리케이션을 통해 실시간 방송을 수행하기 위한 방송 채널을 생성할 수 있다.
그리고, 복수의 전자 장치(100~300) 중 제2 및 제3 전자 장치(200, 300) 각각의 사용자는 애플리케이션을 통해 제1 단말기(100)의 사용자가 생성한 방송 채널에 입장할 수 있다. 제2 및 제3 전자 장치(200, 300) 각각의 사용자는 제1 단말기(100)의 사용자가 진행하는 방송을 실시간으로 시청할 수 있다.
몇몇 실시예로서, 제2 전자 장치(200)의 사용자 및 제3 전자 장치(300)의 사용자 중 적어도 한 명은 제1 단말기(100)의 사용자가 생성한 방송에 참여하여 함께 실시간 방송을 진행할 수 있다. 복수의 전자 장치(100~300)의 디스플레이를 통해 표시되는 두 개로 분할된 화면은 각각 제1 전자 장치(100)의 사용자 및 2 전자 장치(200)의 사용자 및 제3 전자 장치(300)의 사용자 중 방송에 참여한 사용자에게 할당될 수 있다.
서버(400)는 복수의 전자 장치(100~300)가 서로 통신을 수행할 수 있도록 연결시킬 수 있다. 예를 들어, 서버(400)는 복수의 전자 장치(100~300)가 실시간 방송 채널을 형성 및 참여할 수 있도록 실시간 방송 서비스를 제공할 수 있다.
이하에서, 발명의 설명의 편의를 위해, 전자 장치 및 단말기는 동일한 의미로 사용될 수 있다.
도 2는 본 발명의 실시예에 따른 단말기의 구성을 나타내는 블록도이다. 도 2를 참조하면, 제1 단말기(100)는 입출력 인터페이스(110), 디스플레이(120), 메모리(130), 통신 인터페이스(140), 및 프로세서(150)를 포함할 수 있다. 도 1에 도시된 제2 단말기(200) 및 제3 단말기(300) 각각은 제1 단말기(100)와 유사 또는 동일하게 구현될 수 있다.
입출력 인터페이스(110)는 외부로부터 신호를 수신할 수 있다. 입출력 인터페이스(110)는 제1 단말기(100)의 사용자로부터 신호를 수신할 수 있다. 또한, 입출력 인터페이스(110)는 외부 장치로부터 신호를 수신할 수 있다. 입출력 인터페이스(110)는 예를 들어, 마이크, 카메라, 키보드, 마우스, 트랙볼, 터치스크린, 버튼, 스위치, 센서, 네트워크 인터페이스, 또는 기타 입력 장치 등을 포함할 수 있다. 입출력 인터페이스(110)는 입출력 인터페이스(110)에 포함된 마이크를 통해 외부로부터 음성을 수신할 수 있다.
또한, 입출력 인터페이스(110)는 입출력 인터페이스(110)에 포함된 카메라(미도시)로부터 촬영된 이미지 또는 영상을 수신하거나, 단말기(100)의 사용자로부터 제스처를 수신할 수 있다.
입출력 인터페이스(110)는 디스플레이(120)를 포함할 수 있다. 예를 들어, 디스플레이(120)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diode), 또는 PDP(Plasma Display Panel) 등의 평판 표시 장치를 포함할 수 있다. 디스플레이(120)는 곡면 디스플레이 또는 플렉서블 디스플레이(flexible display)를 포함할 수 있다. 디스플레이(120)는 터치스크린을 포함할 수 있다. 디스플레이(120)가 터치스크린을 포함하는 경우, 디스플레이(120)는 제1 단말기(100)의 사용자로부터 터치 입력을 수신할 수 있다.
디스플레이(120)는 데이터를 표시할 수 있다. 또는, 디스플레이(120)는 프로세서(150)에 의해 수행된 연산 결과를 표시할 수 있다. 또는, 디스플레이(120)는 메모리(130)에 저장된 데이터를 표시할 수 있다. 디스플레이(120)는 입출력 인터페이스(110)를 통해 수신되는 데이터 또는 통신 인터페이스(140)에 의해 수신된 데이터를 표시할 수 있다.
몇몇 실시 예로서, 제1 단말기(100)에서 실시간 방송 어플리케이션이 실행되는 경우, 디스플레이(120)는 제1 단말기(100)의 사용자의 영상을 출력할 수 있다. 또한, 통신 인터페이스(140)를 통해 제2 단말기(200)의 사용자의 영상 또는 제3 단말기(300)의 사용자의 영상이 수신되는 경우, 디스플레이(120)는 제1 단말기(100)의 사용자의 영상과 함께 제2 단말기(200)의 사용자의 영상 또는 제3 단말기(300)의 사용자의 영상을 출력할 수 있다.
몇몇 실시예로서, 디스플레이(120)는 제1 단말기(100)의 사용자로부터 특정 입력을 수신할 수 있다. 특정 입력은 적어도 하나 이상의 아이템 중에서 하나의 아이템을 선택하는 입력 또는 특정 텍스트를 기입하는 입력일 수 있다. 예를 들어, 아이템은 어플리케이션 내에서 재화적 가치를 가질 수 있다. 어플리케이션의 사용자들은 아이템을 구매하고, 구매한 아이템을 서로 선물할 수 있다.
몇몇 실시 예로서, 제1 단말기(100)에서 실시간 방송 어플리케이션이 실행되는 경우, 입출력 인터페이스(110)는 소리를 출력할 수 있다. 입출력 인터페이스(110)는 입출력 인터페이스(110)를 통해 수신된 소리, 또는 통신 인터페이스(140)를 통해 제2 단말기(200) 또는 제3 단말기(300)로부터 수신된 소리를 출력할 수 있다. 예를 들어, 입출력 인터페이스(110)는 스피커(미도시)를 포함할 수 있다.
몇몇 실시 예로서, 제1 단말기(100)에서 실시간 방송 어플리케이션이 실행되는 경우, 입출력 인터페이스(110)는 제1 단말기(100)의 사용자로부터 수신된 프로필 정보 또는 사용자 입력을 수신할 수 있다. 예를 들어, 사용자의 프로필 정보는 단말기(100)의 사용자의 사진, 취미 정보, 성별 정보, 국가 정보 또는 나이 정보 중 적어도 하나를 포함할 수 있다. 또한, 사용자의 프로필 정보는 사용자에 의해 촬영된 비디오를 더 포함할 수 있다. 그리고, 사용자 입력은 단말기(100)의 사용자로부터 수신되는 터치 입력일 수 있다.
메모리(130)는 데이터를 저장할 수 있다. 메모리(130)는 입출력 인터페이스(110)로부터 수신된 음성 데이터, 이미지 데이터 또는 사용자의 프로필 정보를 저장할 수 있다. 그리고, 메모리(130)는 프로세서(150)에 의해 수행된 연산 결과를 저장할 수 있다. 예를 들어, 메모리(130)는 프로세서(150)에 의해 인코딩된 음성을 저장할 수 있다. 메모리(130)는 통신 인터페이스(140)를 통해 외부에 출력할 데이터를 저장하거나 통신 인터페이스(140)를 통해 외부로부터 수신된 데이터를 저장할 수 있다.
메모리(130)는 소프트웨어 또는 프로그램을 저장할 수 있다. 예를 들어, 메모리(130)는 애플리케이션, 애플리케이션 프로그래밍 인터페이스(API) 등과 같은 프로그램 및 다양한 종류의 데이터를 저장할 수 있다. 메모리(130)는 프로세서(150)에 의해 실행 가능한 명령어들을 저장할 수 있다.
메모리(130)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 하나를 포함할 수 있다. 메모리(130)는 예를 들어, 플래시(flash) 메모리, ROM(Read Only Memory), RAM(Random Access Memory), EEROM(Electrically Erasable ROM), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 하드디스크 드라이브(HDD, Hard Disk Drive), 또는 레지스터(register) 중 적어도 하나를 포함할 수 있다. 메모리(130)는 예를 들어, 파일 시스템, 데이터베이스, 또는 임베디드 데이터베이스 등을 포함할 수 있다.
통신 인터페이스(140)는 단말기(100)의 외부에 데이터를 출력하거나 외부로부터 데이터를 수신할 수 있다. 통신 인터페이스(140)는 서버(400) 또는 외부 장치에 데이터를 출력할 수 있다. 통신 인터페이스(140)는 서버(400) 및 외부 장치로부터 데이터를 수신할 수 있다. 통신 인터페이스(140)는 프로세서(150)에 의해 수행된 연산 결과를 외부에 출력할 수 있다.
몇몇 실시 예로서, 제1 단말기(100)에서 실시간 방송 어플리케이션이 실행되는 경우, 통신 인터페이스(140)는 제2 단말기(200) 또는 제3 단말기(300)로부터 영상 또는 음성을 수신할 수 있다.
또한, 통신 인터페이스(140)는 제1 단말기(100)의 사용자로부터 선택된 아이템 또는 특정 텍스트를 제2 단말기(200) 또는 제3 단말기(300)에 전송할 수 있다. 또는, 통신 인터페이스(140)는 특정 텍스트를 제2 단말기(200) 또는 제3 단말기(300)로부터 아이템 또는 특정 텍스트를 수신할 수 있다.
통신 인터페이스(140)는 예를 들어, 3G 모듈, LTE 모듈, LTE-A 모듈, Wi-Fi 모듈, 와이기그(WiGig) 모듈, UWB(Ultra Wide Band) 모듈, 또는 랜카드 등과 같은 원거리용 네트워크 인터페이스를 포함할 수 있다. 또한, 통신 인터페이스(140)는 마그네틱 보안 출력(MST) 모듈, 블루투스 모듈, NFC 모듈, RFID 모듈, 지그비(ZigBee) 모듈, Z-Wave 모듈, 또는 적외선 모듈 등과 같은 근거리용 네트워크 인터페이스를 포함할 수 있다. 또한, 통신 인터페이스(140)는 기타 네트워크 인터페이스를 포함할 수 있다.
프로세서(150) 또는 프로세서(150)에 포함된 구성 요소들 각각은 소프트웨어(software) 또는 하드웨어(hardware) 형태로 구현될 수 있다. 예시적으로, 소프트웨어는 기계코드, 펌웨어 코드(firmware code), 임베디드 코드(embedded code), 및 애플리케이션(application) 등과 같은 프로그램 실행 명령어들로써 구현될 수 있다. 하드웨어는 전기 전자 회로, 프로세서, 컴퓨터, 압력 센서, 관성 센서, MEMS(microelectromechanical system), 수동 소자들, 또는 그것들의 조합일 수 있다.
프로세서(150)는 단말기(100)의 동작을 제어할 수 있다. 프로세서(150)는 단말기(100)에 포함된 각각의 구성요소와 서로 연결될 수 있고, 단말기(100)에 포함된 각각의 구성요소의 동작을 제어할 수 있다. 프로세서(150)는 입출력 인터페이스(110)에 의해 수신된 신호에 대한 응답으로, 단말기(100)의 동작을 제어할 수 있다.
몇몇 실시 예로서, 제1 단말기(100)가 호스트 단말기로서 실시간 방송 어플리케이션이 실행하는 경우, 프로세서(150)는 입출력 인터페이스(110)를 통해 수신되는 제1 단말기(100)의 사용자의 음성을 인식할 수 있다. 그리고, 통신 인터페이스(140)를 통해 특정 텍스트가 수신되는 경우, 프로세서(150)는 특정 텍스트를 제1 단말기(100)의 사용자의 음성으로 변환한 음성 메시지를 생성하기 위해 준비할 수 있다.
몇몇 실시예로서, 프로세서(150)는 준비된 학습 모델을 이용하여 특정 텍스트를 제1 단말기(100)의 사용자의 음성으로 변환한 음성 메시지를 생성할 수 있다. 다른 실시 예로서, 프로세서(150)는 제1 단말기(100)의 사용자의 음성으로부터 특징들을 추출하고, 추출된 특징들을 이용하여 특정 텍스트를 제1 단말기(100)의 사용자의 음성으로 변환한 음성 메시지를 생성할 수 있다.
복수의 단말기(100~300) 및 서버(400)의 자세한 동작 방법은 도 3 내지 도 9를 참조하여 설명될 수 있다.
도 3은 본 발명의 실시예에 따른 단말기에서 실시간 방송 어플리케이션을 실행하는 방법을 보여주는 도면이다.
도 1 내지 도 3을 참조하면, 제1 단말기(100)의 사용자는 실시간 방송 어플리케이션을 실행할 수 있다. 제1 단말기(100)의 사용자는 실시간 방송 어플리케이션을 통해 방송 채널을 생성할 수 있다. 제1 단말기(100)의 사용자는 방송 채널을 통해 실시간으로 음성 방송 또는 영상 방송을 수행할 수 있다.
몇몇 실시예로서, 제1 단말기(100)의 사용자가 방송 채널을 생성하고 입장하면, 제1 단말기(100)의 디스플레이(120)는 두 개의 영역들(121, 122)로 분할될 수 있다. 두 개의 영역들(121, 122) 중 제1 영역(121)은 제1 단말기(100)의 사용자에게 할당될 수 있다.
몇몇 실시예로서, 제1 단말기(100)의 사용자가 음성 방송을 수행하는 경우, 제1 영역(121)에는 제1 단말기(100)의 사용자가 설정한 프로필 사진이 표시될 수 있다. 만약 제1 단말기(100)의 사용자가 영상 방송을 수행하는 경우, 제1 영역(121)에는 제1 단말기(100)의 사용자가 촬영하는 영상이 표시될 수 있다.
몇몇 실시예로서, 제1 단말기(100)의 사용자가 생성한 방송 채널에 제2 단말기(200)의 사용자 및 제3 단말기(300)의 사용자가 입장할 수 있다. 제2 단말기(200)의 사용자 및 제3 단말기(300)의 사용자는 제1 단말기(100)의 사용자가 진행하는 방송을 게스트로서 방청할 수 있다.
몇몇 실시예로서, 제2 단말기(200)의 사용자 및 제3 단말기(300)의 사용자 중 적어도 한 명은 방송에 직접 참여할 수 있다. 만약, 제2 단말기(200)의 사용자가 방송에 직접 참여한다면, 두 개의 영역들(121, 122) 중 제2 영역(122)은 제2 단말기(200)의 사용자에게 할당될 수 있다.
몇몇 실시예로서, 제2 단말기(200)의 사용자가 음성 방송을 수행하는 경우, 제2 영역(122)에는 제2 단말기(200)의 사용자가 설정한 프로필 사진이 표시될 수 있다. 만약 제2 단말기(200)의 사용자가 영상 방송을 수행하는 경우, 제2 영역(122)에는 제2 단말기(200)의 사용자가 촬영하는 영상이 표시될 수 있다.
제2 단말기(200)의 사용자가 방송에 직접 참여한다면, 제1 단말기(100)의 사용자 및 제2 단말기(200)의 사용자는 함께 방송을 진행할 수 있다. 그리고, 제3 단말기(300)의 사용자는 제1 단말기(100)의 사용자 및 제2 단말기(200)의 사용자가 진행하는 방송을 방청할 수 있다.
도 4는 본 발명의 다른 실시예에 따른 단말기에서 실시간 방송 어플리케이션을 실행하는 방법을 보여주는 도면이다.
도 3 및 도 4를 참조하면, 제2 단말기(200)의 사용자 또는 제3 단말기(300)의 사용자는 방송 중에 제1 단말기(100)의 사용자에게 아이템을 선물해줄 수 있다. 예를 들어, 아이템은 어플리케이션 내에서 재화적 가치를 가질 수 있다. 어플리케이션의 사용자들은 아이템을 구매하고, 구매한 아이템을 서로 선물할 수 있다.
몇몇 실시예로서, 제2 단말기(200)의 사용자 또는 제3 단말기(300)의 사용자는 아이템 선물 아이콘(10)을 터치할 수 있다. 아이템 선물 아이콘(10)은 디스플레이의 일부 영역에 표시될 수 있다. 제2 단말기(200)의 사용자 또는 제3 단말기(300)의 사용자가 아이템 선물 아이콘(10)을 선택하면, 아이콘 팝업 창(20)이 표시될 수 있다.
몇몇 실시예로서, 아이콘 팝업 창(11)에는 적어도 하나 이상의 아이템들(21~23)이 표시되고, 제2 단말기(200)의 사용자 또는 제3 단말기(300)의 사용자는 적어도 하나 이상의 아이템들(21~23) 중 하나의 아이템을 선택할 수 있다. 예를 들어, 적어도 하나 이상의 아이템들(21~23) 각각은 서로 다른 재화적 가치를 가질 수 있다.
제2 단말기(200)의 사용자 또는 제3 단말기(300)의 사용자는 적어도 하나 이상의 아이템들(21~23) 중 하나의 아이템을 선택할 수 있다. 몇몇 실시예로서, 제2 단말기(200)의 사용자 또는 제3 단말기(300)의 사용자는 선택한 아이템과 함께 특정 텍스트를 함께 전송할 수 있다. 예를 들어, 제2 단말기(200)의 사용자 또는 제3 단말기(300)의 사용자는 ‘반가워요’ 라는 텍스트를 입력할 수 있다. 제2 단말기(200)의 사용자 또는 제3 단말기(300)의 사용자는 선택한 아이템과 함께 ‘반가워요’라는 메시지를 제1 단말기(100)의 사용자에게 전송할 수 있다.
다른 실시예로서, 제1 단말기(100)의 사용자 또는 제3 단말기(300)의 사용자는 방송 중에 제2 단말기(200)의 사용자에게 아이템을 선물해줄 수 있다. 제2 단말기(200)의 사용자 또는 제3 단말기(300)의 사용자는 적어도 하나 이상의 아이템들(21~23) 중 하나의 아이템을 선택할 수 있고, 제1 단말기(100)의 사용자 또는 제3 단말기(300)의 사용자는 선택한 아이템과 함께 특정 텍스트를 함께 전송할 수 있다.
도 5는 본 발명의 또 다른 실시예에 따른 단말기에서 실시간 방송 어플리케이션을 실행하는 방법을 보여주는 도면이다.
도 3 내지 도 5를 참조하면, 제1 단말기(100)의 사용자 또는 제2 단말기의 사용자에게 선택된 아이템과 함께 전송된 특정 텍스트는 음성 메시지로 변환되어 출력될 수 있다.
몇몇 실시예로서, 특정 텍스트는 특정 사용자의 목소리를 이용하여 음성 메시지로 변환될 수 있다. 좀 더 구체적으로, 제2 단말기(200)의 사용자 또는 제3 단말기들(300) 중 어느 하나의 사용자가 제1 단말기(100)의 사용자에게 전송한 특정 텍스트인 경우, 특정 텍스트는 제1 단말기(100)의 사용자의 목소리를 이용하여 음성 메시지로 변환될 수 있다.
또는, 제1 단말기(100)의 사용자 또는 제3 단말기들(300) 중 어느 하나의 사용자가 제2 단말기(200)의 사용자에게 전송한 특정 텍스트인 경우, 특정 텍스트는 제2 단말기(200)의 사용자의 목소리를 이용하여 음성 메시지로 변환될 수 있다.
또는, 특정 텍스트는 특정 텍스트를 전송한 사용자의 목소리를 이용하여 음성 메시지로 변환될 수 있다. 즉, 제2 단말기(200)의 사용자가 제1 단말기(100)의 사용자에게 전송한 특정 텍스트인 경우, 특정 텍스트는 제2 단말기(200)의 사용자의 목소리를 이용하여 음성 메시지로 변환될 수 있다.
도 2를 참조하면, 특정 텍스트 및 특정 사용자의 음성을 사용하여 음성 메시지를 생성하는 동작은 제1 단말기(100) 또는 제2 단말기(200)의 프로세서(150)에서 수행될 수 있다. 몇몇 실시예로서, 프로세서(150)는 준비된 학습 모델을 이용하여 음성 메시지를 생성할 수 있다. 프로세서(150)가 준비된 학습 모델을 이용하여 음성 메시지를 생성하는 방법은 도 6을 참조하여 설명될 수 있다.
다른 실시예로서, 프로세서(150)는 특정 음성의 특징들을 추출하고, 추출된 특징들을 이용하여 음성 메시지를 생성할 수 있다. 프로세서(150)가 특정 음성의 특징들을 이용하여 음성 메시지를 생성하는 방법은 도 7을 참조하여 설명될 수 있다.
몇몇 실시예로서, 제1 단말기(100)의 사용자의 목소리를 이용하여 특정 텍스트를 음성 메시지로 변환하는 경우, 제1 단말기(100)의 프로세서(150)에서 변환이 수행될 수 있다. 그리고, 생성된 음성 메시지는 제2 단말기(200) 및 제3 단말기(300)에 전송될 수 있다.
다른 실시예로서, 제2 단말기(200)의 사용자의 목소리를 이용하여 특정 텍스트를 음성 메시지로 변환하는 경우, 제2 단말기(200)의 프로세서(150)에서 변환이 수행될 수 있다. 그리고, 생성된 음성 메시지는 제1 단말기(100) 및 제3 단말기(300)에 전송될 수 있다.
도 6은 본 발명의 실시예에 따른 단말기에서 텍스트를 음성 메시지로 변환하는 방법을 보여주기 위한 순서도이다.
도 2 내지 도 6을 참조하면, S110 단계에서, 제1 단말기(100)의 사용자는 실시간 방송 채널을 개설하고, 방송을 시작할 수 있다. 좀 더 구체적으로, 실시간 방송 어플리케이션을 통해 방송 채널을 생성할 수 있다. 제1 단말기(100)의 사용자는 방송 채널을 통해 실시간으로 음성 방송 또는 영상 방송을 수행할 수 있다.
S120 단계에서, 제1 단말기(100)의 프로세서(150)는 특정 사용자의 음성을 인식할 수 있다. 예를 들어, 특정 사용자는 제1 단말기(100)의 사용자일 수 있다. 몇몇 실시예로서, 제1 단말기(100)의 프로세서(150)는 방송 중에 입출력 인터페이스(110)로 수신되는 제1 단말기(100)의 사용자의 음성을 인식할 수 있다. 좀 더 구체적으로, 프로세서(150)는 입출력 인터페이스(110)로 입력되는 오디오 데이터 중 제1 단말기(100)의 사용자의 음성을 인식하여 추출할 수 있다.
S130 단계에서, 제1 단말기(100)는 통신 인터페이스(140)를 통해 실시간 제1 단말기(100)의 사용자가 개설한 실시간 방송 채널에 입장한 게스트로부터 아이템 및 특정 텍스트를 수신할 수 있다. 몇몇 실시 예로서, 실시간 방송 채널에 적어도 한 명 이상의 게스트가 참여할 수 있고, 그 중 특정 게스트로부터 아이템 및 특정 텍스트를 수신할 수 있다. 수신된 아이템 및 특정 텍스트는 프로세서(150)로 전달될 수 있다.
S140 단계에서, 제1 단말기(100)의 프로세서(150)는 특정 텍스트를 특정 사용자의 음성으로 변환된 음성 메시지를 생성하기 위한 알고리즘을 준비할 수 있다. 예를 들어, 준비된 알고리즘은 특정 텍스트를 특정 사용자의 음성을 이용하여 음성 메시지로 변환하기 위해 이용되는 데이터 인식 모델일 수 있다. 데이터 인식 모델은 인공 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예를 들면, 학습 모델은 DNN(Deep Neural Network), RNN(Recurrent Neural Network), 및 BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 데이터 인식 모델로서 사용될 수 있으나, 이에 한정되지 않는다.
준비된 학습 모델은 특정 텍스트를 특정 음성으로 변환된 음성 메시지를 생성하기 위한 학습 모델 일 수 있다. 음성 메시지를 생성하기 위한 학습 모델은 복수의 음성과 복수의 텍스트, 그리고 복수의 텍스트 각각을 복수의 음성으로 변환한 음성 메시지 사이의 상관관계에 대해 학습된 결과일 수 있다.
예를 들어, 제1 단말기(100)의 프로세서(150)는 특정 음성과 특정 텍스트, 그리고 특정 텍스트를 특정 음성으로 변환한 음성 메시지 사이의 상관관계를 학습할 수 있다. 단말기(100)는 학습 결과에 기초하여 인공 신경망을 훈련하여, 학습 모델을 생성할 수 있다.
다른 예로서, 단말기(100)는 서버(400)로부터 음성 메시지를 생성하기 위한 학습 모델을 수신할 수 있다. 이와 같은 경우, 서버(400)가 특정 음성과 특정 텍스트, 그리고 특정 텍스트를 특정 음성으로 변환한 음성 메시지 사이의 상관관계를 학습한 학습 모델을 생성하고, 생성된 학습 모델이 포함된 어플리케이션을 단말기(100)에 제공할 수 있다.
S150 단계에서, 제1 단말기(100)의 프로세서(150)는 알고리즘을 이용하여 음성 메시지를 생성할 수 있다. 좀 더 구체적으로, 제1 단말기(100)의 프로세서(150)는 특정 사용자의 음성 및 특정 텍스트를 알고리즘에 적용하여 음성 메시지를 생성할 수 있다. 음성 메시지는 특정 텍스트가 특정 사용자의 음성으로 변환된 결과일 수 있다.
S160 단계에서, 제1 단말기(100)는 생성된 음성 메시지를 출력할 수 있다. 좀 더 구체적으로 제1 단말기(100)는 입출력 인터페이스(110)를 통해 음성 메시지를 출력할 수 있다. 또는 제1 단말기(100)는 통신 인터페이스(140)를 통해 음성 메시지를 출력할 수 있다.
도 7은 본 발명의 다른 실시예에 따른 단말기에서 텍스트를 음성 메시지로 변환하는 방법을 보여주기 위한 순서도이다.
도 1 내지 도 5 및 도 7을 참조하면, S210 단계에서, 제1 단말기(100)의 사용자는 실시간 방송 채널을 개설하고, 방송을 시작할 수 있다. 좀 더 구체적으로, 실시간 방송 어플리케이션을 통해 방송 채널을 생성할 수 있다. 제1 단말기(100)의 사용자는 방송 채널을 통해 실시간으로 음성 방송 또는 영상 방송을 수행할 수 있다.
S220 단계에서, 제1 단말기(100)의 프로세서(150)는 특정 사용자의 음성을 인식할 수 있다. 예를 들어, 특정 사용자는 제1 단말기(100)의 사용자일 수 있다. 좀 더 구체적으로, 제1 단말기(100)의 프로세서(150)는 방송 중에 입출력 인터페이스(110)로 수신되는 제1 단말기(100)의 사용자의 음성을 인식할 수 있다. 또한, 제1 단말기(100)의 사용자의 음성은 메모리(130)에 저장될 수 있다.
S230 단계에서, 제1 단말기(100)의 프로세서(150)는 기준 시간 이상 특정 사용자의 음성이 인식되면, 음성의 특징들을 추출할 수 있다. 예를 들어, 음성 특징들은 음성 고유의 억양, 주파수 대역, 포먼트(formant) 및 피치(pitch) 등을 의미할 수 있다. 즉, 음성 특징들은 해당 음성을 만들어 낼 수 있는 음성의 고유 특징을 의미할 수 있다.
S240 단계에서, 제1 단말기(100)의 프로세서(150)는 추출된 음성 특징들을 기반으로 비교 음성을 생성할 수 있다. 그리고, S250 단계에서, 제1 단말기(100)의 프로세서(150)는 특정 사용자의 음성과 생성된 비교 음성을 비교할 수 있다.
S260 단계에서, 제1 단말기(100)의 프로세서(150)는 비교결과에 따라 음성 특징들을 메모리(130)에 저장할 수 있다. 몇몇 실시예로서, 특정 사용자의 음성과 비교 음성 사이의 오차가 기준값 이하이면, 프로세서(150)는 음성 특징들을 메모리에 저장할 수 있다. 예를 들어, 오차는 특정 사용자의 음성 및 비교 음성 사이의 샘플링 값들의 차이를 통해 계산될 수 있다. 특정 사용자의 음성 및 비교 음성 사이의 오차를 계산하는 방법은 이에 한정되지 않고, 다양한 방법을 이용하여 계산될 수 있다.
몇몇 실시예로서, 음성 인식 중 노이즈가 제1 단말기(100)의 사용자의 음성으로 인식되는 경우, 추출된 음성 특징들을 이용하여 생성된 비교 음성은 제1 단말기(100)의 사용자의 음성과 오차가 클 수 있다. 따라서, 음성 특징들을 이용하여 제1 단말기(100)의 사용자의 음성과 유사한 음성을 생성하기 위해서, 프로세서(150)는 음성 특징들을 이용하여 비교 음성을 생성하고, 제1 단말기(100)의 사용자의 음성과 비교 음성을 비교하는 과정을 수행할 수 있다.
S270 단계에서, 제1 단말기(100)는 통신 인터페이스(140)를 통해 실시간 제1 단말기(100)의 사용자가 개설한 실시간 방송 채널에 입장한 게스트로부터 아이템 및 특정 텍스트를 수신할 수 있다. 몇몇 실시 예로서, 실시간 방송 채널에 적어도 한 명 이상의 게스트가 참여할 수 있고, 그 중 특정 게스트로부터 아이템 및 특정 텍스트를 수신할 수 있다. 수신된 아이템 및 특정 텍스트는 프로세서(150)로 전달될 수 있다.
S280 단계에서, 제1 단말기(100)의 프로세서(150)는 특정 텍스트 및 음성 특징들을 기반으로 음성 메시지를 생성하여 출력할 수 있다. 몇몇 실시예로서, 프로세서(150)는 음성 특징들을 기반으로 생성된 음성 메시지는 특정 사용자의 음성과 유사 또는 동일할 수 있다. 제1 단말기(100)는 입출력 인터페이스(110)를 통해 음성 메시지를 출력할 수 있다. 또는 제1 단말기(100)는 통신 인터페이스(140)를 통해 음성 메시지를 출력할 수 있다.
도 8은 본 발명의 실시예에 따른 단말기의 프로세서를 보여주는 도면이다.
도 1, 도 2, 도 6 및 도 8을 참조하면, 제1 단말기(100)의 프로세서(150)는 음성 인식부(151), 및 모델 적용부(153)를 포함할 수 있다. 도 1에 도시된 제2 단말기(200) 및 제3 단말기(300) 각각은 제1 단말기(100)와 유사 또는 동일하게 구현될 수 있다.
음성 인식부(151)는 방송 중에 제1 단말기(100)의 입출력 인터페이스(110)로 입력되는 오디오 데이터 중 제1 단말기(100)의 사용자의 음성을 인식하여 추출할 수 있다. 몇몇 실시예로서, 음성 인식부(151)는 입력된 오디오 데이터를 분석하여 음성 구간과 비음성 구간을 구분할 수 있다. 음성 인식부(151)는 비음성 구간에 포함된 오디오 데이터를 제외하고, 음성 구간에 포함된 오디오 데이터의 음성을 인식하고, 모델 적용부(153)에 전송할 수 있다.
모델 적용부(153)는 제1 단말기(100)의 사용자의 음성 및 외부로부터 수신된 특정 텍스트를 알고리즘에 적용하여 음성 메시지를 생성할 수 있다. 몇몇 실시예로서, 음성 메시지를 생성하기 위한 학습 모델은 특정 음성과 특정 텍스트, 그리고 특정 텍스트를 특정 음성으로 변환한 음성 메시지 사이의 상관관계에 대해 학습된 결과일 수 있다.
도 9는 본 발명의 다른 실시예에 따른 단말기의 프로세서를 보여주는 도면이다.
도 1, 도 2, 도 7 및 도 9를 참조하면, 제1 단말기(100)의 프로세서(150)는 음성 인식부(152), 특징 추출부(154), 비교부(156), 및 음성 메시지 생성부(158)를 포함할 수 있다. 도 1에 도시된 제2 단말기(200) 및 제3 단말기(300) 각각은 제1 단말기(100)와 유사 또는 동일하게 구현될 수 있다.
도 9에 도시된 음성 인식부(152)는 도 8에 도시된 음성 인식부(151)와 유사 또는 동일하게 동작할 수 있다. 음성 인식부(152)는 음성 구간에 포함된 오디오 데이터의 음성을 인식하고, 특징 추출부(154)에 전송할 수 있다.
특징 추출부(154)는 제1 단말기(100)의 사용자의 음성의 특징들을 추출할 수 있다. 예를 들어, 음성 특징들은 음성 고유의 억양, 주파수 대역, 포먼트(formant) 및 피치(pitch) 등을 의미할 수 있다. 즉, 음성 특징들은 해당 음성을 만들어 낼 수 있는 음성의 고유 특징을 의미할 수 있다. 특징 추출부((154)는 추출된 음성 특징들을 이용하여 비교 음성을 생성할 수 있다. 그리고, 특징 추출부(154)는 생성된 비교 음성을 비교부(156)에 전송할 수 있다.
비교부(156)는 제1 단말기(100)의 사용자의 음성과 비교 음성을 비교할 수 있다. 비교부(156)는 비교결과에 따라 음성 특징들을 메모리(130)에 저장할 수 있다.
몇몇 실시예로서, 제1 단말기(100)의 사용자의 음성과 비교 음성 사이의 오차가 기준값 이하이면, 프로세서(150)는 음성 특징들을 메모리(130)에 저장할 수 있고, 음성 메시지 생성부(158)로 음성 특징들을 전송할 수 있다.
예를 들어, 오차는 제1 단말기(100)의 사용자의 음성과 비교 음성 사이의 샘플링 값들의 차이를 통해 계산될 수 있다. 제1 단말기(100)의 사용자의 음성과 비교 음성 사이의 오차를 계산하는 방법은 이에 한정되지 않고, 다양한 방법을 이용하여 계산될 수 있다.
만약, 제1 단말기(100)의 사용자의 음성과 비교 음성 사이의 오차가 기준값을 초과하면, 비교부(156)는 특징 추출부(154)에 피드백 신호를 전송할 수 있다. 피드백 신호가 특징 추출부(154)에 수신되면, 특징 추출부(154)는 제1 단말기(100)의 사용자의 음성에서 다시 특징들을 추출할 수 있다.
음성 메시지 생성부(158)는 특정 텍스트 및 음성 특징들을 기반으로 음성 메시지를 생성하여 출력할 수 있다.
도 1 내지 도 9를 참조하면, 본 발명의 실시 예에 따른 복수의 단말기(100~300) 각각은 보다 효과적으로 실시간 방송을 수행할 수 있다.
또한, 실시 복수의 단말기(100~300) 각각은 실시간 방송 서비스를 통해 인간 관계를 확장할 수 있는 서비스를 제공할 수 있다.
이상에서 설명된 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함할 수 있다.
또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 또는 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 통신 매체는 전형적으로 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 출력 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함할 수 있다.
이상에서 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims (24)

  1. 방송 채널을 통해 실시간 방송을 수행할 수 있는 서비스를 제공하는 호스트 단말기의 동작 방법에 있어서,
    상기 방송 채널을 통해 상기 실시간 방송을 상기 방송 채널에 입장한 복수의 게스트들의 게스트 단말기들로 송신하는 단계;
    상기 호스트의 음성을 수신하고, 상기 호스트의 음성으로부터 상기 호스트의 음성 특징을 인식하는 단계;
    상기 복수의 게스트들 중 제1 게스트의 제1 게스트 단말기로부터 상기 호스트의 음성으로 변환을 요청하는 대상인 제1 텍스트를 수신하는 단계;
    상기 호스트의 음성 특징에 기초하여, 상기 제1 텍스트가 상기 호스트의 음성으로 발화되는 제1 음성 메시지를 생성하는 단계; 및
    상기 제1 음성 메시지를 상기 복수의 게스트의 단말기로 전송하는 단계를 포함하는 단말기의 동작 방법.
  2. 제 1 항에 있어서,
    상기 제1 텍스트를 수신하는 단계는,
    상기 제1 게스트 단말기로부터 상기 제1 게스트에 의해 선택된 아이템 와 상기 제1 텍스트를 함께 수신하는 단계를 포함하고,
    상기 제1 음성 메시지를 생성하는 단계는,
    상기 제1 게스트 단말기로부터 상기 아이템과 상기 제1 텍스트가 함께 수신되면, 상기 제1 음성 메시지를 생성하는 단계를 포함하고,
    상기 아이템은, 상기 서비스 내에서 재화적 가치를 갖는, 호스트 단말기의 동작 방법.
  3. 제 1 항에 있어서,
    상기 제1 음성 메시지를 출력하는 단계를 더 포함하는, 호스트 단말기의 동작 방법.
  4. 제 1 항에 있어서,
    상기 제1 음성 메시지를 생성하는 단계는,
    복수의 음성과 복수의 텍스트, 그리고 상기 복수의 텍스트 각각을 상기 복수의 음성으로 변환한 복수의 음성 메시지 사이의 상관관계에 대해 학습된, 학습 모델을 이용하여 상기 제1 텍스트가 상기 호스트의 음성으로 발화되는 상기 제1 음성 메시지를 생성하는 단계를 포함하는, 준비하는 호스트 단말기의 동작 방법.
  5. 제 4 항에 있어서,
    상기 호스트의 음성으로부터 상기 음성 특징들을 추출하는 단계;
    상기 추출된 음성 특징들을 기반으로 비교 음성을 생성하는 단계;
    상기 호스트의 음성 및 상기 비교 음성을 비교하는 단계; 및
    상기 비교 결과에 따라 상기 음성 특징들을 저장하는 단계를 더 포함하는 호스트 단말기의 동작 방법.
  6. 제 5 항에 있어서,
    상기 호스트의 음성 및 상기 비교 음성을 비교하는 단계는,
    상기 호스트의 음성 및 상기 비교 음성 사이의 샘플링 값의 오차를 계산하고,
    상기 비교 결과에 따라 상기 음성 특징들을 저장하는 단계는,
    상기 오차가 기준값 이하인 경우, 상기 음성 특징들을 저장하는 호스트 단말기의 동작 방법.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 방송 채널을 통해 단말기의 사용자가 호스트인 실시간 방송을 출력하는 디스플레이;
    상기 호스트의 음성을 수신하는 입출력 인터페이스;
    상기 방송 채널에 입장한 복수의 게스트들의 게스트 단말기들과 통신을 수행하는 통신 인터페이스; 및
    프로세서; 및
    상기 프로세서에 의해 실행 가능한 명령어들을 저장하는 메모리를 포함하고, 상기 프로세서는, 상기 명령어들을 실행함으로써,
    상기 통신 인터페이스를 통해, 상기 복수의 게스트들 중 제1 게스트의 단말기로부터 상기 호스트의 음성으로 변환을 요청하는 제1 텍스트를 수신하고,
    상기 호스트의 음성으로부터 인식된 상기 호스트의 음성 특징에 기초하여, 상기 제1 텍스트를 상기 호스트의 음성으로 발화되는 제1 음성 메시지를 생성하고,
    상기 통신 인터페이스를 통해, 상기 제1 음성 메시지를 상기 복수의 게스트의 게스트 단말기들로 전송하고,
    상기 입출력 인터페이스를 통해, 상기 제1 음성 메시지를 출력하는, 단말기.
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 실시간 방송 서비스에서 호스트의 방송 채널을 이용하는 게스트의 게스트 단말기의 동작 방법에 있어서,
    상기 방송 채널을 통해 호스트 단말기로부터 실시간 방송을 수신하는 단계;
    상기 호스트의 음성으로 변환을 요청하는 대상인 제1 텍스트를 입력 받고, 상기 제1 텍스트를 상기 호스트 단말기로 전송하는 단계;
    상기 호스트 단말기로부터 상기 제1 텍스트가 상기 호스트의 음성으로 발화되는 제1 음성 메시지를 수신하는 단계 - 상기 제1 음성 메시지는, 상기 호스트 단말기에서 인식된 상기 호스트의 음성 특징 및 상기 제1 텍스트에 기초하여 생성됨 -; 및
    상기 제1 음성 메시지를 출력하는 단계를 포함하는, 게스트 단말기의 동작 방법.
  22. 제21항에 있어서,
    상기 게스트에 의해 선택된 아이템 와 상기 제1 텍스트를 함께 수신하는 단계; 및
    상기 아이템 및 상기 제1 텍스트를 함께 상기 호스트 단말기로 전송하는 단계를 더 포함하는, 게스트 단말기의 동작 방법.
  23. 방송 채널의 호스트의 호스트 단말기와 통신을 수행하는 통신 인터페이스;
    상기 방송 채널의 호스트의 실시간 방송을 출력하는 디스플레이;
    상기 방송 채널의 게스트로부터 상기 호스트의 음성으로 변환을 요청하는 대상인 제1 텍스트를 입력 받는 입출력 인터페이스;
    프로세서; 및
    상기 프로세서에 의해 실행 가능한 명령어들을 저장하는 메모리를 포함하고, 상기 프로세서는, 상기 명령어들을 실행함으로써,
    상기 통신 인터페이스를 통해, 상기 제1 텍스트를 상기 호스트 단말기로 전송하고, 상기 호스트 단말기로부터 상기 제1 텍스트가 상기 호스트의 음성으로 발화되는 제1 음성 메시지를 수신하고, - 상기 제1 음성 메시지는, 상기 호스트 단말기에서 인식된 상기 호스트의 음성 특징 및 상기 제1 텍스트에 기초하여 생성됨 -
    상기 입출력 인터페이스를 통해, 상기 제1 음성 메시지를 출력하는, 단말기.
  24. 호스트의 방송 채널을 통해 복수의 게스트들이 상기 호스트의 실시간 방송을 수신하는 서비스를 제공하는 방송 서비스 제공 시스템에 있어서,
    상기 복수의 게스트들 중 제1 게스트로부터 상기 호스트의 음성으로 변환을 요청하는 대상인 1 텍스트를 입력 받고 상기 제1 텍스트를 상기 호스트의 호스트 단말기로 전송하고, 상기 호스트 단말기로부터 수신한 제1 음성 메시지를 출력하는 제1 게스트 단말기;
    상기 호스트로부터 음성을 수신하고 상기 호스트의 음성으로부터 호스트의 음성 특징을 인식하고, 상기 제1 게스트 단말기로부터 상기 제1 텍스트를 수신하고, 상기 호스트의 음성 특징에 기초하여 상기 제1 텍스트가 상기 호스트의 음성으로 발화하는 상기 제1 음성 메시지를 생성하고, 상기 제1 음성 메시지를 상기 복수의 게스트들의 게스트 단말기들로 전송하는 상기 호스트 단말기; 및
    상기 호스트 단말기로부터 수신한 상기 제1 음성 메시지를 출력하는 제2 게스트 단말기를 포함하는, 방송 서비스 제공 시스템.
KR1020190097398A 2019-08-09 2019-08-09 단말기 및 그것의 동작 방법 KR102430020B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020190097398A KR102430020B1 (ko) 2019-08-09 2019-08-09 단말기 및 그것의 동작 방법
EP20189677.6A EP3772732A1 (en) 2019-08-09 2020-08-05 Terminal and operating method thereof
JP2020134046A JP2021028715A (ja) 2019-08-09 2020-08-06 端末機及びその動作方法
US16/987,111 US11615777B2 (en) 2019-08-09 2020-08-06 Terminal and operating method thereof
JP2022103809A JP2022137114A (ja) 2019-08-09 2022-06-28 端末機及びその動作方法
US18/183,860 US20230215418A1 (en) 2019-08-09 2023-03-14 Terminal and Operating Method Thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190097398A KR102430020B1 (ko) 2019-08-09 2019-08-09 단말기 및 그것의 동작 방법

Publications (2)

Publication Number Publication Date
KR20210017708A KR20210017708A (ko) 2021-02-17
KR102430020B1 true KR102430020B1 (ko) 2022-08-08

Family

ID=71950558

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190097398A KR102430020B1 (ko) 2019-08-09 2019-08-09 단말기 및 그것의 동작 방법

Country Status (4)

Country Link
US (2) US11615777B2 (ko)
EP (1) EP3772732A1 (ko)
JP (2) JP2021028715A (ko)
KR (1) KR102430020B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766473B (zh) * 2018-11-30 2019-12-24 北京达佳互联信息技术有限公司 信息交互方法、装置、电子设备及存储介质
US20230403435A1 (en) * 2022-06-08 2023-12-14 Hytto Pte, Ltd Method and system for processing information across broadcast platforms

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101632435B1 (ko) * 2015-10-20 2016-06-21 이요훈 유무선ip기반 gui를 활용한 sns 시스템 및 이를 이용한 통화 방법

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250826A (ja) * 1999-03-01 2000-09-14 Fujitsu Ltd 状態変化通知方法及び状態変化通知システム
US6804675B1 (en) * 1999-05-11 2004-10-12 Maquis Techtrix, Llc Online content provider system and method
US6571234B1 (en) * 1999-05-11 2003-05-27 Prophet Financial Systems, Inc. System and method for managing online message board
KR20000036463A (ko) * 2000-03-15 2000-07-05 한남용 인터넷을 이용한 가상현실 대화 시스템 및 방법
KR20010091677A (ko) 2000-03-17 2001-10-23 최승현 음성합성을 이용한 선택형 온라인 대화시스템의 구성 및운용방법
US7277855B1 (en) * 2000-06-30 2007-10-02 At&T Corp. Personalized text-to-speech services
US6970820B2 (en) * 2001-02-26 2005-11-29 Matsushita Electric Industrial Co., Ltd. Voice personalization of speech synthesizer
US6804647B1 (en) * 2001-03-13 2004-10-12 Nuance Communications Method and system for on-line unsupervised adaptation in speaker verification
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
JP3806030B2 (ja) 2001-12-28 2006-08-09 キヤノン電子株式会社 情報処理装置及び方法
US7685237B1 (en) * 2002-05-31 2010-03-23 Aol Inc. Multiple personalities in chat communications
US7305438B2 (en) * 2003-12-09 2007-12-04 International Business Machines Corporation Method and system for voice on demand private message chat
US20060210034A1 (en) * 2005-03-17 2006-09-21 Beadle Bruce A Enabling a user to store a messaging session entry for delivery when an intended recipient is next available
US20060235932A1 (en) * 2005-04-18 2006-10-19 International Business Machines Corporation Chat server mute capability
US20070005754A1 (en) * 2005-06-30 2007-01-04 Microsoft Corporation Systems and methods for triaging attention for providing awareness of communications session activity
KR100787890B1 (ko) * 2006-03-06 2007-12-27 주식회사 모빌리언스 인터넷 아이템의 선물 조르기를 이용한 모바일 환경의 무선결제 시스템 및 그 무선 결제 방법
US7996222B2 (en) * 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
US20080147385A1 (en) * 2006-12-15 2008-06-19 Nokia Corporation Memory-efficient method for high-quality codebook based voice conversion
JP2008185805A (ja) * 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
US7826872B2 (en) * 2007-02-28 2010-11-02 Sony Ericsson Mobile Communications Ab Audio nickname tag associated with PTT user
US8886537B2 (en) * 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice
CN101359473A (zh) * 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
KR100920174B1 (ko) * 2007-09-14 2009-10-06 주식회사 케이티 본인 음성 기반의 tts 서비스 제공 장치와 시스템 및 그방법
US8224648B2 (en) * 2007-12-28 2012-07-17 Nokia Corporation Hybrid approach in voice conversion
US20090177473A1 (en) * 2008-01-07 2009-07-09 Aaron Andrew S Applying vocal characteristics from a target speaker to a source speaker for synthetic speech
US8401849B2 (en) * 2008-12-18 2013-03-19 Lessac Technologies, Inc. Methods employing phase state analysis for use in speech synthesis and recognition
CN102474671B (zh) * 2009-08-12 2015-11-25 索尼计算机娱乐公司 信息处理系统及信息处理装置
US20120226500A1 (en) * 2011-03-02 2012-09-06 Sony Corporation System and method for content rendering including synthetic narration
EP2737480A4 (en) * 2011-07-25 2015-03-18 Incorporated Thotra SYSTEM AND METHOD FOR ACOUSTIC TRANSFORMATION
US9495450B2 (en) * 2012-06-12 2016-11-15 Nuance Communications, Inc. Audio animation methods and apparatus utilizing a probability criterion for frame transitions
KR20140120560A (ko) * 2013-04-03 2014-10-14 삼성전자주식회사 통역 장치 제어 방법, 통역 서버의 제어 방법, 통역 시스템의 제어 방법 및 사용자 단말
CA2897539C (en) * 2013-04-04 2016-05-17 James S. RAND Unified communications system and method
GB201315142D0 (en) * 2013-08-23 2013-10-09 Ucl Business Plc Audio-Visual Dialogue System and Method
US10008216B2 (en) * 2014-04-15 2018-06-26 Speech Morphing Systems, Inc. Method and apparatus for exemplary morphing computer system background
US20150379654A1 (en) * 2014-06-26 2015-12-31 Xerox Corporation Methods and systems for digitally capturing and managing attendance
US9613620B2 (en) * 2014-07-03 2017-04-04 Google Inc. Methods and systems for voice conversion
US9324318B1 (en) * 2014-10-14 2016-04-26 Nookster, Inc. Creation and application of audio avatars from human voices
CN104918124B (zh) * 2015-05-11 2017-12-08 腾讯科技(北京)有限公司 直播互动系统、信息发送方法、信息接收方法及装置
US20170171509A1 (en) * 2015-12-14 2017-06-15 Le Holdings (Beijing) Co., Ltd. Method and electronic apparatus for realizing two-person simultaneous live video
US10311855B2 (en) * 2016-03-29 2019-06-04 Speech Morphing Systems, Inc. Method and apparatus for designating a soundalike voice to a target voice from a database of voices
US10218939B2 (en) * 2016-04-14 2019-02-26 Popio Ip Holdings, Llc Methods and systems for employing virtual support representatives in connection with mutli-pane video communications
US10176819B2 (en) * 2016-07-11 2019-01-08 The Chinese University Of Hong Kong Phonetic posteriorgrams for many-to-one voice conversion
US20180063556A1 (en) * 2016-08-29 2018-03-01 YouNow, Inc. Systems and methods for providing guest broadcasting on a live stream video platform
US20180090126A1 (en) * 2016-09-26 2018-03-29 Lenovo (Singapore) Pte. Ltd. Vocal output of textual communications in senders voice
WO2018074516A1 (ja) 2016-10-21 2018-04-26 株式会社Myth 情報処理システム
WO2018074037A1 (ja) 2016-10-21 2018-04-26 株式会社Myth 情報処理システム
US10777201B2 (en) * 2016-11-04 2020-09-15 Microsoft Technology Licensing, Llc Voice enabled bot platform
KR20180059322A (ko) 2016-11-25 2018-06-04 주식회사 투스라이프 기부 금액 기반 이펙트 설정 장치 및 방법
US10403287B2 (en) * 2017-01-19 2019-09-03 International Business Machines Corporation Managing users within a group that share a single teleconferencing device
KR102136413B1 (ko) * 2017-04-06 2020-07-21 주식회사 스무디 다자간 커뮤니케이션 서비스를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
US20180316964A1 (en) * 2017-04-28 2018-11-01 K, Online Inc Simultaneous live video amongst multiple users for discovery and sharing of information
US10664524B2 (en) * 2017-09-13 2020-05-26 Facebook, Inc. Highlighting portions of a live video broadcast
EP3739572A4 (en) 2018-01-11 2021-09-08 Neosapience, Inc. METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM
US11238843B2 (en) * 2018-02-09 2022-02-01 Baidu Usa Llc Systems and methods for neural voice cloning with a few samples
US20200013422A1 (en) * 2018-07-03 2020-01-09 Ralph W. Matkin System, Method, and Apparatus for Morphing of an Audio Track
US10953332B2 (en) * 2018-12-20 2021-03-23 Roblox Corporation Online gaming platform voice communication system
US10902841B2 (en) * 2019-02-15 2021-01-26 International Business Machines Corporation Personalized custom synthetic speech
US10930263B1 (en) * 2019-03-28 2021-02-23 Amazon Technologies, Inc. Automatic voice dubbing for media content localization

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101632435B1 (ko) * 2015-10-20 2016-06-21 이요훈 유무선ip기반 gui를 활용한 sns 시스템 및 이를 이용한 통화 방법

Also Published As

Publication number Publication date
US20230215418A1 (en) 2023-07-06
US11615777B2 (en) 2023-03-28
KR20210017708A (ko) 2021-02-17
EP3772732A1 (en) 2021-02-10
JP2022137114A (ja) 2022-09-21
JP2021028715A (ja) 2021-02-25
US20210043187A1 (en) 2021-02-11

Similar Documents

Publication Publication Date Title
US11031000B2 (en) Method and device for transmitting and receiving audio data
KR102283972B1 (ko) 통신 장치, 서버 및 동작 방법
EP3525205B1 (en) Electronic device and method of performing function of electronic device
US11308955B2 (en) Method and apparatus for recognizing a voice
JP2020533696A (ja) 画像認識方法、端末及び記憶媒体
US20230215418A1 (en) Terminal and Operating Method Thereof
CN108021572B (zh) 回复信息推荐方法和装置
US11776544B2 (en) Artificial intelligence apparatus for recognizing speech of user and method for the same
US11606397B2 (en) Server and operating method thereof
CN105393302A (zh) 多级语音识别
US11393465B2 (en) Artificial intelligence apparatus for speech interaction and method for the same
KR102389996B1 (ko) 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법
WO2021008538A1 (zh) 语音交互方法及相关装置
US11416703B2 (en) Network optimization method and apparatus, image processing method and apparatus, and storage medium
KR102282963B1 (ko) 단말기, 서버 및 그것의 동작 방법
KR102312861B1 (ko) 통신 장치, 서버 및 통신 방법
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
KR20190098518A (ko) 서버 및 그것의 동작 방법
CN110047484A (zh) 一种语音识别交互方法、系统、设备和存储介质
WO2019101099A1 (zh) 视频节目识别方法、设备、终端、系统和存储介质
CN103856626A (zh) 个性声音的定制方法和装置
US20200410605A1 (en) Mobile, server and operating method thereof
KR102315211B1 (ko) 단말기 및 그것의 동작 방법
CN109102810B (zh) 声纹识别方法和装置
CN110865853A (zh) 云服务的智能操作方法和装置以及电子设备

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant