KR20210001856A - 정보 생성 방법 및 장치 - Google Patents

정보 생성 방법 및 장치 Download PDF

Info

Publication number
KR20210001856A
KR20210001856A KR1020190166708A KR20190166708A KR20210001856A KR 20210001856 A KR20210001856 A KR 20210001856A KR 1020190166708 A KR1020190166708 A KR 1020190166708A KR 20190166708 A KR20190166708 A KR 20190166708A KR 20210001856 A KR20210001856 A KR 20210001856A
Authority
KR
South Korea
Prior art keywords
information
text
user
generating
image
Prior art date
Application number
KR1020190166708A
Other languages
English (en)
Inventor
리하오 왕
잔빈 허
시캉 콩
전셩 카이
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210001856A publication Critical patent/KR20210001856A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1822Conducting the conference, e.g. admission, detection, selection or grouping of participants, correlating users to one or more conference sessions, prioritising transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1827Network arrangements for conference optimisation or adaptation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]

Abstract

본 발명의 실시예는 정보 생성 방법 및 장치를 제공하며 클라우드 컴퓨팅 분야에 관한 것이다. 상기 정보 생성 방법의 일 구체적인 실시형태는, 클라이언트로부터 인스턴트 통신 방식으로 송신한 사용자의 영상 및 음성을 수신하는 단계; 상기 영상 및 음성에 따라, 사용자 특징 정보 및 텍스트 답변 정보를 생성하는 단계; 상기 사용자 특징 정보 및 텍스트 답변 정보에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터 및 답변 음성을 생성하는 단계; 상기 제어 파라미터 및 답변 음성에 기초하여, 애니메이션 엔진으로 상기 3차원 가상 인물이미지의 영상을 생성하는 단계; 및 상기 3차원 가상 인물이미지의 영상을 인스턴트 통신 방식으로 상기 클라이언트에 전송하여 상기 클라이언트가 상기 사용자에게 보여주도록 하는 단계를 포함한다. 상기 실시형태는 클라이언트 응답 속도를 향상시킨다.

Description

정보 생성 방법 및 장치{METHOD AND APPARATUS FOR GENERATING INFORMATION}
본 발명의 실시예는 컴퓨터 기술분야에 관한 것이고, 구체적으로 정보 생성 방법 및 장치에 관한 것이다.
현 단계에서 스마트 서비스는 다양한 분야에 응용되고 있다. 예를 들면 스마트 고객 서비스, 전화응답 로봇을 응용하는 상황에서, 사용자와 사용되는 단말기 사이는 문자 다이얼로그 박스 또는 간단한 음성으로 인터랙션이 가능하다. 이러한 인터랙션 방식은 구식이고 딱딱하며 인성화 정도와 사용자 체험이 차하다. 가상 인물이미지 기술은 3차원 가상 인물이미지를 렌더링하여 스마트 서비스를 위해 더 간편한 사용 체험을 제공함으로써 사용자와 3차원 가상 인물이미지의 현장 인터랙션 의인화 정도를 향상시킨다. 기존의 가상 인물이미지 기술은 아주 높은 의인화 효과를 구비하지만, 대부분 스크립트화된 응용 상황에 멈추어져 있으며 지시된 내용에 따라 이미 설계된 동작에 대해 응답하는 정도만 가능하다. 사용자의 기분, 의도 등에 대한 해석 능력이 부족하기에 인터랙션 과정에서 사용자를 위해 제공하는 답변이 사용자의 실제 요구를 만족시키지 못한다.
본 발명은 정보 생성 방법 및 장치를 제공한다.
제1 양태에 있어서, 정보 생성 방법에 있어서, 클라이언트로부터 인스턴트 통신 방식으로 송신한 사용자의 영상 및 음성을 수신하는 단계; 상기 영상 및 음성에 따라, 사용자 특징 정보 및 텍스트 답변 정보를 생성하는 단계; 상기 사용자 특징 정보 및 텍스트 답변 정보에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터 및 답변 음성을 생성하는 단계; 상기 제어 파라미터 및 답변 음성에 기초하여, 애니메이션 엔진으로 상기 3차원 가상 인물이미지의 영상을 생성하는 단계; 및 상기 3차원 가상 인물이미지의 영상을 인스턴트 통신 방식으로 상기 클라이언트에 전송하여 상기 클라이언트가 상기 사용자에게 보여주도록 하는 단계를 포함하는 방법을 제공한다.
일부 실시예에 있어서, 상기 영상 및 음성에 따라, 사용자 특징 정보 및 텍스트 답변 정보를 생성하는 단계는, 상기 영상을 인식하여 사용자 특징 정보를 획득하고, 상기 음성을 인식하여 텍스트 정보를 획득하는 단계; 관련 정보를 획득하는 단계 - 상기 관련 정보는 과거 사용자 특징 정보 및 과거 텍스트 정보를 포함함 - ; 상기 사용자 특징 정보, 상기 텍스트 정보 및 상기 관련 정보에 기초하여, 텍스트 답변 정보를 생성하는 단계를 포함한다.
일부 실시예에 있어서, 상기 정보 생성 방법은, 상기 사용자 특징 정보 및 상기 텍스트 정보를 현재 세션에 대해 설정한 세션 정보 집합에 연관 저장하는 단계를 더 포함한다.
일부 실시예에 있어서, 상기 관련 정보를 획득하는 단계는, 상기 세션 정보 집합으로부터 관련 정보를 획득하는 단계를 포함한다.
일부 실시예에 있어서, 상기 사용자 특징 정보는 사용자 표정을 포함하고, 상기 사용자 특징 정보 및 텍스트 답변 정보에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터 및 답변 음성을 생성하는 단계는, 상기 텍스트 답변 정보에 따라 답변 음성을 생성하는 단계; 및 상기 사용자 표정 및 상기 답변 음성에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터를 생성하는 단계를 포함한다.
제2 양태에 있어서, 정보 생성 장치에 있어서, 클라이언트로부터 인스턴트 통신 방식으로 송신한 사용자의 영상 및 음성을 수신하는 수신 유닛; 상기 영상 및 음성에 따라, 사용자 특징 정보 및 텍스트 답변 정보를 생성하는 제1 생성 유닛; 상기 사용자 특징 정보 및 텍스트 답변 정보에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터 및 답변 음성을 생성하는 제2 생성 유닛; 상기 제어 파라미터 및 답변 음성에 기초하여, 애니메이션 엔진으로 상기 3차원 가상 인물이미지의 영상을 생성하는 제3 생성 유닛; 및 상기 3차원 가상 인물이미지의 영상을 인스턴트 통신 방식으로 상기 클라이언트에 전송하여 상기 클라이언트가 상기 사용자에게 보여주도록 하는 전송 유닛을 포함한다.
일부 실시예에 있어서, 상기 제1 생성 유닛은,
상기 영상을 인식하여 사용자 특징 정보를 획득하고, 상기 음성을 인식하여 텍스트 정보를 획득하는 인식 유닛; 관련 정보를 획득하는 획득 유닛 - 상기 관련 정보는 과거 사용자 특징 정보 및 과거 텍스트 정보를 포함함 - ; 상기 사용자 특징 정보, 상기 텍스트 정보 및 상기 관련 정보에 기초하여, 텍스트 답변 정보를 생성하는 정보 생성 유닛을 포함한다.
일부 실시예에 있어서, 상기 정보 생성 장치는, 상기 사용자 특징 정보 및 상기 텍스트 정보를 현재 세션에 대해 설정한 세션 정보 집합에 연관 저장하는 저장 유닛을 더 포함한다.
일부 실시예에 있어서, 상기 획득 유닛은 또한, 상기 세션 정보 집합으로부터 관련 정보를 획득한다.
일부 실시예에 있어서, 상기 사용자 특징 정보는 사용자 표정을 포함하고, 상기 제2 생성 유닛은 또한, 상기 텍스트 답변 정보에 따라 답변 음성을 생성하고; 상기 사용자 표정 및 상기 답변 음성에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터를 생성한다.
제3 양태에 있어서, 하나 또는 복수의 프로세서; 및 하나 또는 복수의 프로그램이 저장된 저장 장치를 포함하고, 상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1 양태 중 어느 한 실시예에 따른 정보 생성 방법을 구현하도록 하는 서버를 제공한다.
제4 양태에 있어서, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체로서, 상기 프로그램은 프로세서에 의해 실행될 경우, 제1 양태 중 어느 한 실시예에 따른 정보 생성 방법을 구현하는 컴퓨터 판독 가능 매체를 제공한다.
본 발명의 실시예가 제공하는 정보 생성 방법 및 장치는 우선 클라이언트로부터 인스턴트 통신 방식으로 송신한 사용자의 영상 및 음성을 수신한다. 다음, 영상 및 음성에 따라, 사용자 특징 정보 및 텍스트 답변 정보를 생성한다. 그 다음, 사용자 특징 정보 및 텍스트 답변 정보에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터 및 답변 음성을 생성한다. 그 다음, 제어 파라미터 및 답변 음성에 기초하여, 애니메이션 엔진으로 상기 3차원 가상 인물이미지의 영상을 생성한다. 마지막으로, 3차원 가상 인물이미지의 영상을 인스턴트 통신 방식으로 클라이언트에 전송하여, 클라이언트가 사용자에게 보여주도록 한다. 이로써 3차원 가상 인물이미지의 영상의 생성 및 렌더링 작업이 백엔드 서버에서 진행되어 클라이어트의 점용을 감소하고 클라이언트의 응답 속도를 향상시킨다. 아울러, 인스턴트 통신 방식으로 클라이언트와 백엔드 서버의 인터랙션을 실현하여 클라이언트와 백엔드 서버의 인터랙션의 실시간 특성을 향상시키고 클라이언트의 응답 속도를 더 향상시킨다.
아래 첨부 도면에 도시된 비제한적인 실시예의 상세한 설명에 대한 열독 및 참조를 통해 본 발명의 다른 특징, 목적 및 이점은 보다 명백해질 것이다.
도 1은 본 발명의 일 실시예가 구현될 수 있는 예시적 시스템 아키텍처이다.
도 2는 본 발명에 따른 정보 생성 방법의 일 실시예의 흐름도이다.
도 3은 본 발명에 따른 정보 생성 방법의 일 응용 상황의 모식도이다.
도 4는 본 발명에 따른 정보 생성 방법의 다른 일 실시예의 흐름도이다.
도 5는 본 발명에 따른 정보 생성 장치의 일 실시예의 구조 모식도이다.
도 6은 본 발명의 실시예에 따른 서버를 구현할 수 있는 컴퓨터 시스템의 구조 모식도이다.
이하 첨부 도면 및 실시예를 결부시켜 본 발명을 더욱 자세히 설명한다. 여기서 설명되는 구체적인 실시예는 관련 발명을 해석하기 위한 것일 뿐 본 발명은 이에 한정되지 않음을 이해할 수 있을 것이다. 이 밖에, 설명의 편의를 위해 도면에는 해당 발명과 관련된 부분만이 도시되었음을 유의해야 한다.
모순되지 않는 한 본 발명의 실시예 및 실시예 중의 특징은 서로 결합될 수 있음을 유의해야 한다. 이하 첨부 도면을 참조하고 실시예를 결부시켜 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 정보 생성 방법 또는 정보 생성 장치를 구현할 수 있는 예시적 시스템 아키텍처(100)이다.
도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 단말 기기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말 기기(101, 102, 103)와 서버(105) 사이에서 통신 링크의 매체를 제공한다. 네트워크(104)는 다양한 연결 타입을 포함할 수 있는 바, 예를 들면 유선, 무선 통신 링크 또는 광섬유 케이블 등이다.
사용자는 단말 기기(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 인터랙션 함으로써 메시지 등을 수신 또는 송신할 수 있다. 단말 기기(101, 102, 103)에는 다양한 통신 클라이언트 애플리케이션이 설치될 수 있는 바, 예를 들면 채팅 로봇 애플리케이션, 웹페이지 브라우징 애플리케이션, 쇼핑 애플리케이션, 검색 애플리케이션, 인스턴트 통신 도구 등이다.
단말 기기(101, 102, 103)는 하드웨어일 수 있고 소프트웨어일 수도 있다. 단말 기기(101, 102, 103)가 하드웨어인 경우 디스플레이 스크린, 영상 수집 기기(예를 들면 카메라), 음성 수집 장치(예를 들면 마이크) 등을 구비하는 다양한 전자 기기일 수 있으며, 스마트폰, 태블릿PC, 휴대형 랩톱 및 데스크톱 등을 포함하나 이에 한정되는 것은 아니다. 단말 기기(101, 102, 103)가 소프트웨어인 경우 상기 열거된 전자 기기에 설치될 수 있다. 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들면 분산형 서비스를 제공함)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
서버(105)는 다양한 서비스를 제공하는 서버일 수 있고, 예를 들면 단말 기기(101, 102, 103)에 표시된 3차원 가상 인물이미지를 지원하는 백엔드 서버일 수 있다. 백엔드 서버는 수신된 영상 및 음성 등 데이터에 대해 분석 등 처리를 진행하고 처리 결과(예를 들면 3차원 가상 인물이미지의 영상)를 단말 기기(101, 102, 103)에 피드백할 수 있다.
설명해야 할 것은, 서버(105)는 하드웨어 또는 소프트웨어일 수 있다. 서버(105)가 하드웨어인 경우 복수의 서버로 구성된 분산형 서버 클러스터로 구현될 수 있고, 하나의 서버로 구현될 수도 있다. 서버(105)가 소프트웨어인 경우 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들면 분산형 서비스를 제공함)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.
도 1 중의 단말 기기, 네트워크 및 서버의 개수는 예시적인 것일 뿐이며, 실시 필요에 따라 임의의 개수의 단말 기기, 네트워크 및 서버를 구비할 수 있다.
설명해야 할 것은, 본 발명의 실시예가 제공하는 정보 생성 방법은 일반적으로 서버(105)에 의해 수행되고, 상응하게, 정보 생성 장치는 일반적으로 서버(105)에 설치된다.
계속하여 도 2를 참조하면, 본 발명에 따른 정보 생성 방법의 일 실시예의 흐름도(200)이다. 상기 정보 생성 방법은 하기 단계를 포함한다.
단계(201)에서 클라이언트로부터 인스턴트 통신 방식으로 송신한 사용자의 영상 및 음성을 수신한다.
본 실시예에서, 정보 생성 방법의 수행 주체(예를 들면 도 1에 도시된 서버(105))는 유선 방식 또는 무선 방식으로 클라이언트로부터 사용자의 영상 및 음성을 수신할 수 있다. 여기서 사용자의 영상 및 음성은 클라이언트로부터 인스턴트 통신 방식으로 송신한 것일 수 있다. 예시적으로 인스턴트 통신은 실시간 통신(Real-time communication, RTC), 웹페이지 인스턴트 통신(Web Real-Time Communication, WebRTC) 등을 통해 구현될 수 있다.
일반적으로, 사용자는 단말기(예를 들면 도 1에 도시된 단말 기기(101, 102, 103))에 설치된 클라이언트를 이용하여 정보 인터랙션을 진행한다. 클라이언트는 사용자의 영상, 음성 등 정보를 실시간으로 수집하고, 수집된 영상 음성 등 정보를 인스턴트 통신 방식으로 수행 주체에 실시간으로 전송할 수 있다. 여기서 수행 주체는 클라이언트를 지원하는 백엔드 서버일 수 있다. 이로써 백엔드 서버는 사용자의 영상 및 음성 등 정보를 실시간으로 처리할 수 있다.
단계(202)에서 영상 및 음성에 따라, 사용자 특징 정보 및 텍스트 답변 정보를 생성한다.
본 실시예에서, 수행 주체는 단계(201)에서 얻은 영상 및 음성에 따라, 사용자 특징 정보 및 텍스트 답변 정보를 생성할 수 있다. 구체적으로 수행 주체는 우선 상기 영상 중의 영상 프레임에 대해 예를 들면 성별 인식, 연령 인식, 표정 인식, 자세 인식, 제스처 인식, 옷차림 식별 등 다양한 처리를 수행하여 사용자 특징 정보를 얻을 수 있다. 다음, 수행 주체는 상기 음성에 대해 다양한 처리를 수행할 수 있다. 예시적으로, 수행 주체는 우선 상기 음성에 대해 음성 인식을 진행하여 음성에 대응되는 텍스트 정보를 얻을 수 있다. 다음 수행 주체는 사용자 특징 정보 및 음성에 대응되는 텍스트 정보에 따라 텍스트 답변 정보를 생성할 수 있다. 예를 들면, 수행 주체 내에는 채팅 로봇(Chat Bot)이 운행되고 있을 수 있으며, 이로써 수행 주체는 용자 특징 정보 및 음성에 대응되는 텍스트 정보를 상기 채팅 로봇에 전송하여 상기 채팅 로봇이 텍스트 답변 정보를 피드백할 수 있다.
여기서 채팅 로봇은 대화 또는 문자 방식으로 커뮤니케이션을 진행하는 컴퓨터 프로그램으로서 사람의 대화를 모방할 수 있다. 채팅 로봇은 고객 서비스, 컨설팅 등 실용적인 목적으로 사용될 수 있다. 정보가 입력되면 채팅 로봇은, 수신된 정보 및 기설정된 답변 논리에 따라 텍스트 답변 정보를 생성한다. 이 밖에, 채팅 로봇은 기설정된 논리에 따라, 기설정된 조건을 만족할 경우 기설정된 기기에 수신된 정보를 포함하는 요청을 송신할 수 있다. 이로써 상기 기기를 사용하는 사용자(예를 들면 전문 서비스 제공자)가 요청 중의 정보에 따라 텍스트 답변 정보를 생성하고 생성된 텍스트 답변 정보를 채팅 로봇에 피드백할 수 있다.
단계(203)에서 사용자 특징 정보 및 텍스트 답변 정보에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터 및 답변 음성을 생성한다.
본 실시예에서, 수행 주체는 사용자 특징 정보 및 텍스트 답변 정보에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터 및 답변 음성을 생성할 수 있다. 구체적으로, 수행 주체는 TTS(Text To Speech, 텍스트로부터 음성)를 통해 텍스트 답변 정보를 답변 음성으로 변환시킬 수 있다. 예시적으로, 텍스트 답변 정보를 답변 음성으로 변환시키는 과정에서, 수행 주체는 사용자 특징 정보에 따라 변환되는 답변 음성의 일부 특성을 설정할 수 있는데, 예를 들면 음조, 말하는 속도, 음색(예를 들면 남자 목소리, 여자 목소리, 어린이 목소리 등)이다. 여기서 수행 주체 내에는 사용자 특징 정보와 답변 음성의 특성 사이의 대응 관계가 미리 저장되어 있을 수 있고, 예를 들면 나이가 어린 사용자에 대해서는 답변 음성의 말하는 속도를 약간 느리게 설정할 수 있다. 다음, 수행 주체는 사용자 특징 정보 및 답변 음성에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터를 생성할 수 있다. 여기서 3차원 가상 인물이미지는 애니메이션 엔진을 통해 개발된 것일 수 있고, 애니메이션 엔진은 UE4(Unreal Engine 4, 언리얼 엔진 4), Maya, Unity3D 등을 포함하나 이에 한정되는 것은 아니다. 3차원 가상 인물이미지의 구동은 일부 미리 정의된 파라미터로 제어될 수 있다. 예시적으로 수행 주체에는 사용자 특징 정보와 3차원 가상 인물이미지의 안면 표정의 대응 규칙, 및 음성과 3차원 가상 인물이미지의 입모양 변화, 신체 움직임 등의 대응 규칙 등이 미리 설정되어 있을 수 있다. 이로써 수행 주체는 사용자 특징 정보 및 답변 음성에 기초하여 3차원 가상 인물이미지의 구동 파라미터를 결정할 수 있다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 사용자 특징 정보는 사용자 표정을 포함할 수 있고, 상기 단계(203)은 구체적으로 아래와 같이 수행될 수 있다.
우선, 텍스트 답변 정보에 따라 답변 음성을 생성한다.
본 실시형태에서, 수행 주체는 TTS를 통해 텍스트 답변 정보를 답변 음성으로 변환시킬 수 있다. 예시적으로, TTS를 통해 텍스트 답변 정보를 답변 음성으로 변환시키는 과정에서, 수행 주체는 사용자 특징 정보에 따라 변환되는 답변 음성의 일부 특성을 설정할 수 있는데, 예를 들면 음조, 말하는 속도, 음색(예를 들면 남자 목소리, 여자 목소리, 어린이 목소리 등) 등이다.
다음, 사용자 표정 및 답변 음성에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터를 생성한다.
본 실시형태에서, 수행 주체는 표정 인식을 통해 사용자의 표정을 인식할 수 있는데, 예를 들면 기쁨, 화남, 놀라움, 공포, 짜증 및 슬픔 등 다양한 표정을 인식해낼 수 있다. 수행 주체는 사용자 표정 및 답변 음성에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터를 생성할 수 있다. 예시적으로 수행 주체에는 사용자 표정과 3차원 가상 인물이미지의 안면 표정의 대응 규칙, 및 음성과 3차원 가상 인물이미지의 입모양 변화, 신체 움직임 등의 대응 규칙 등이 미리 설정되어 있을 수 있다. 이로써 수행 주체는 사용자 특징 정보 및 답변 음성에 기초하여 3차원 가상 인물이미지의 구동 파라미터를 결정할 수 있다.
단계(204)에서 제어 파라미터 및 답변 음성에 기초하여, 렌더링 엔진으로 3차원 가상 인물이미지의 영상을 생성한다.
본 실시예에서, 수행 주체는 단계(203)에서 생성된 제어 파라미터 및 답변 음성을 애니메이션 엔진에 송신할 수 있다. 애니메이션 엔진은 수신된 제어 파라미터 및 답변 음성에 따라 실시간으로 3차원 가상 인물이미지의 영상(애니메이션)을 렌더링하고, 렌더링한 실시간 영상을 수행 주체에 피드백할 수 있다. 여기서 애니메이션 엔진이 렌더링한 3차원 가상 인물이미지의 영상은 음성을 포함하는 영상이다.
단계(205)에서 3차원 가상 인물이미지의 영상을 인스턴트 통신 방식으로 클라이언트에 전송하여, 클라이언트가 사용자에게 보여주도록 한다.
본 실시예에서, 수행 주체는 단계(204)에서 생성된 3차원 가상 인물이미지의 영상을 인스턴트 통신 방식으로 클라이언트에 전송하여 클라이언트가 사용자에게 보여주도록 할 수 있다.
계속하여 도 3을 참조하면, 도 3은 본 발명에 따른 정보 생성 방법의 일 응용 상황의 모식도이다. 도 3의 응용 상황에서, 서버(301)는 우선 클라이언트(302)가 인스턴트 통신 방식으로 송신한 사용자의 영상 및 음성을 수신한다. 다음, 서버(301)는 영상 및 음성에 따라, 사용자 특징 정보 및 텍스트 답변 정보를 생성한다. 그 다음, 서버(301)는 생성된 사용자 특징 정보 및 텍스트 답변 정보에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터 및 답변 음성을 생성한다. 그 다음, 서버(301)는 제어 파라미터 및 답변 음성에 기초하여, 애니메이션 엔진에 의해 3차원 가상 인물이미지의 영상을 생성한다. 마지막으로, 서버(301)는 3차원 가상 인물이미지의 영상을 인스턴트 통신 방식으로 클라이언트(302)에 전송하여 클라이언트(302)가 사용자에게 보여주도록 한다.
본 발명의 상기 실시예가 제공하는 방법은 백엔드 서버를 통해 클라이언트가 수집한 사용자의 영상 및 음성에 대해 분석 처리를 진행하여 사용자 특징 정보 및 텍스트 답변 정보를 얻고, 3차원 가상 인물이미지의 영상을 생성하며, 3차원 가상 인물이미지의 영상을 클라이언트에 전송함으로써, 이 3차원 가상 인물이미지의 영상의 생성과 렌더링 작업이 백엔드 서버에서 진행되어 클라이어트의 점용을 감소하고 클라이언트의 응답 속도를 향상시킨다. 아울러, 인스턴트 통신 방식으로 클라이언트와 백엔드 서버의 인터랙션을 실현하여 클라이언트와 백엔드 서버의 인터랙션의 실시간 특성을 향상시키고 클라이언트의 응답 속도를 더 향상시킨다.
나아가 도 4를 참조하면, 정보 생성 방법의 다른 일 실시예의 흐름도(400)이다. 상기 정보 생성 방법의 흐름(400)은 하기 단계를 포함한다.
단계(401)에서 클라이언트로부터 인스턴트 통신 방식으로 송신한 사용자의 영상 및 음성을 수신한다.
본 실시예에서, 단계(401)은 도 2에 도시된 실시예의 단계(201)과 유사하기에 여기서는 더이상 설명하지 않는다.
단계(402)에서 영상을 인식하여 사용자 특징 정보를 획득하고, 음성을 인식하여 텍스트 정보를 획득한다.
본 실시예에서, 수행 주체는 단계 (401)에서 수신된 영상 중의 영상 프레임에 대해 예를 들면 성별 인식, 연령 인식, 표정 인식, 자세 인식, 제스처 인식, 옷차림 식별 등 다양한 처리를 수행하여 사용자 특징 정보를 얻을 수 있다. 수행 주체는 또한 단계(401)에서 수신된 음성에 대해 음성 인식을 진행하여 음성에 대응되는 텍스트 정보를 얻을 수 있다.
단계(403)에서 관련 정보를 획득한다.
본 실시예에서, 수행 주체는 관련 정보를 얻을 수 있다. 여기서 관련 정보는 과거 사용자 특징 정보 및 과거 텍스트 정보를 포함할 수 있다. 여기서 과거 사용자 특징 정보 및 과거 텍스트 정보는 클라이언트가 송신한 사용자의 과거 영상 및 과거 음성에 기초하여 생성된 것일 수 있다. 여기서 사용자의 과거 영상 및 과거 음성과 단계(401)에서 수신된 사용자의 영상 및 음성 사이에는 맥락적 관계가 존재할 수 있다. 예를 들면 동일한 세션(Session)의 맥락에 속한다. 여기서 사용자가 사용하는 클라이언트와 서버(즉 수행 주체)가 인터랙션을 시작한 후 하나의 세션을 구축하게 된다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 정보 생성 방법은 사용자 특징 정보 및 텍스트 정보를 현재 세션에 대해 설정한 세션 정보 집합에 연관 저장하는 단계를 더 포함할 수 있다.
본 실시형태에서, 수행 주체는 단계(402)에서 얻은 사용자 특징 정보 및 텍스트 정보를 현재 세션에 대해 설정한 세션 정보 집합에 연관 저장할 수 있다. 실제 응용에서, 클라이언트가 수행 주체에 정보(영상, 음성 등을 포함할 수 있음)를 1번 송신할 경우, 수행 주체는 상기 정보에 세션 식별자(sessionID)가 포함되어 있는지의 여부를 판단한다. 포함하지 않으면 수행 주체는 상기 정보에 대해 하나의 세션 식별자를 생성하고 상기 세션 과정에서 생성된 다양한 정보와 상기 세션 식별자를 세션 정보 집합에 연관 저장한다. 세션 식별자를 포함하고 포함된 세션 식별자의 유효기간이 넘어가지 않았으면 상기 세션 식별자에 대응되는 세션 정보 집합을 직접 사용할 수 있는데 예를 들면 저장 정보, 획득 정보 등이다.
일부 선택 가능한 실시형태에서, 상기 단계 403은 구체적으로 세션 정보 집합에서 관련 정보를 획득할 수 있다.
본 실시형태에서, 수행 주체는 상기 세션 정보 집합에서 관련 정보를 획득할 수 있다. 예를 들면 수행 주체는 상기 세션 정보 집합에서 가장 최근 기록된 기설정 정보를 관련 정보로 획득할 수 있다.
단계(404)에서 사용자 특징 정보, 텍스트 정보 및 관련 정보에 기초하여, 텍스트 답변 정보를 생성한다.
본 실시예에서, 수행 주체는 사용자 특징 정보, 텍스트 정보 및 관련 정보에 기초하여, 텍스트 답변 정보를 생성할 수 있다. 여기서 수행 주체는 사용자 특징 정보, 텍스트 정보 및 관련 정보를 운행 중인 채팅 로봇에 전송할 수 있다. 이로써 채팅 로봇은 사용자 특징 정보, 텍스트 정보 및 관련 정보를 종합적으로 분석하여 더 정확한 텍스트 답변 정보를 생성할 수 있다.
단계(405)에서 사용자 특징 정보 및 텍스트 답변 정보에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터 및 답변 음성을 생성한다.
본 실시예에서, 단계(405)는 도 2에 도시된 실시예의 단계(203)과 유사하기에 여기서는 더이상 설명하지 않는다.
단계(406)에서 제어 파라미터 및 답변 음성에 기초하여, 애니메이션 엔진에 의해 3차원 가상 인물이미지의 영상을 생성한다.
본 실시예에서, 단계(406)은 도 2에 도시된 실시예의 단계(204)와 유사하기에 여기서는 더이상 설명하지 않는다.
단계(407)에서 3차원 가상 인물이미지의 영상을 인스턴트 통신 방식으로 클라이언트에 전송하여, 클라이언트가 사용자에게 보여주도록 한다.
본 실시예에서, 단계(407)은 도 2에 도시된 실시예의 단계(205)와 유사하기에 여기서는 더이상 설명하지 않는다.
도 4에서 볼 수 있다시피, 도 2에 대응되는 실시예와 비교하여 본 실시예에 따른 정보 생성 방법의 흐름(400)은 관련 정보를 획득하고 사용자 특징 정보, 텍스트 정보 및 관련 정보에 따라 텍스트 답변 정보를 생성하는 단계를 강조한다. 이로써 실시예에 기술된 해결수단은 사용자 특징 정보, 텍스트 정보 및 관련 정보를 종합적으로 분석할 수 있기에, 생성된 텍스트 답변 정보가 더 정확하고, 3차원 가상 인물이미지가 사용자에 대한 답변이 더 정확하며 사용자의 체험이 향상된다.
나아가 도 5를 참조하면, 상기 각 도면에 도시된 방법의 구현으로서 본 발명은 정보 생성 장치의 일 실시예를 제공하며, 상기 장치 실시예는 도 2에 도시된 방법 실시예와 대응되며 상기 장치는 구체적으로 다양한 전자 기기에 응용될 수 있다.
도 5에 도시된 바와 같이, 본 실시예에 따른 정보 생성 장치(500)는 수신 유닛(501), 제1 생성 유닛(502), 제2 생성 유닛(503), 제3 생성 유닛(504) 및 전송 유닛(505)을 포함한다. 수신 유닛(501)은 클라이언트로부터 인스턴트 통신 방식으로 송신한 사용자의 영상 및 음성을 수신한다. 제1 생성 유닛(502)은 상기 영상 및 음성에 따라, 사용자 특징 정보 및 텍스트 답변 정보를 생성한다. 제2 생성 유닛(503)은 상기 사용자 특징 정보 및 텍스트 답변 정보에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터 및 답변 음성을 생성한다. 제3 생성 유닛(504)은 상기 제어 파라미터 및 답변 음성에 기초하여, 애니메이션 엔진으로 상기 3차원 가상 인물이미지의 영상을 생성한다. 전송 유닛(505)은 상기 3차원 가상 인물이미지의 영상을 인스턴트 통신 방식으로 상기 클라이언트에 전송하여 상기 클라이언트가 상기 사용자에 보여주도록 한다.
본 실시예에서, 정보 생성 장치(500)의 수신 유닛(501), 제1 생성 유닛(502), 제2 생성 유닛(503), 제3 생성 유닛(504) 및 전송 유닛(505)의 구체적인 처리 및 그 기술적 효과는 도 2의 대응되는 실시예의 단계(201), 단계(202), 단계(203), 단계(204)및 단계(205)의 관련 설명을 참조할 수 있기에 여기서는 더이상 설명하지 않는다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 제1 생성 유닛(502)은, 상기 영상을 인식하여 사용자 특징 정보를 획득하고, 상기 음성을 인식하여 텍스트 정보를 획득하는 인식 유닛; 관련 정보를 획득하는 획득 유닛 - 상기 관련 정보는 과거 사용자 특징 정보 및 과거 텍스트 정보를 포함함 - ; 상기 사용자 특징 정보, 상기 텍스트 정보 및 상기 관련 정보에 기초하여, 텍스트 답변 정보를 생성하는 정보 생성 유닛을 포함한다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 정보 생성 장치(500)는 상기 사용자 특징 정보 및 상기 텍스트 정보를 현재 세션에 대해 설정한 세션 정보 집합에 연관 저장하는 저장 유닛(미도시)을 더 포함한다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 획득 유닛은 또한, 상기 세션 정보 집합으로부터 관련 정보를 획득한다.
본 실시예의 일부 선택 가능한 실시형태에서, 상기 사용자 특징 정보는 사용자 표정을 포함하고, 상기 제2 생성 유닛(503)은 또한, 상기 텍스트 답변 정보에 따라 답변 음성을 생성하고; 상기 사용자 표정 및 상기 답변 음성에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터를 생성한다.
하기 도 6을 참조하면 본 발명의 실시예에 따른 전자 기기(예를 들면 도 1의 서버)(600)를 구현할 수 있는 구조 모식도이다. 도 6에 도시된 전자 기기는 하나의 예시일 뿐, 본 발명의 실시예의 기능 또는 사용범위에 대한 어떠한 한정도 아니다.
도 6에 도시된 바와 같이, 전자 기기(600)는 판독 전용 메모리(ROM)(602)에 저장된 프로그램 또는 저장 장치(608)로부터 랜덤 액세스 메모리(RAM)(603)로 로딩된 프로그램에 따라 다양하고 적절한 동작 및 처리를 수행할 수 있는 처리 장치(예를들면 중앙 처리 장치, 그래픽 처리 장치 등)(601)를 포함한다. RAM(603)에는 또한 전자 기기(600)의 조작에 필요한 다양한 프로그램 및 데이터가 저장된다. 처리 장치(601), ROM(602) 및 RAM(603)은 버스(604)를 통해 서로 연결된다. 입/출력(I/O) 인터페이스(605) 역시 버스(604)에 연결된다.
일반적으로, 하기 장치는 I/O 인터페이스(605); 예를 들어 터치 스크린, 터치 패드, 키보드, 마우스, 카메라, 마이크, 가속도계, 자이로스코프 등을 포함하는 입력 장치(606); 예를 들어 액정 디스플레이(LCD), 스피커, 진동기 등을 포함하는 출력 장치(607); 예를 들어 자기 테이프, 하드 드라이버 등을 포함하는 저장 장치(608); 및 통신 장치(609)에 연결될 수 있다. 통신 장치(609)는 전자 기기(600)가 무선 또는 유선으로 다른 기기와 통신하여 데이터를 교환하도록 허용할 수 있다. 비록 도 6에서 다양한 장치를 갖는 전자 기기(600)를 나타냈지만, 모든 도시된 장치를 실시하거나 구비할 필요는 없음을 이해해야 한다. 보다 많거나 보다 적은 장치를 대체적으로 실시하거나 구비할 수 있다. 도 6에 도시된 각각의 블록은 하나의 장치를 가리키거나 필요에 따라 복수의 장치를 가리킬 수 있다.
특히, 본 발명의 실시예에 따르면, 앞에서 흐름도를 참조하여 설명한 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 발명의 실시예는 컴퓨터 판독 가능 매체에 베어링된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함한다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신 부분(609)을 통해 네트워크로부터 다운로드 및 설치될 수 있거나 및/또는 저장 장치(608)로부터 설치되거나 ROM(602)으로부터 설치될 수 있다. 컴퓨터 프로그램이 중앙 처리 장치(CPU)(601)에 의해 실행될 때, 본 발명의 방법에 한정된 상기 기능들이 수행된다.
본 발명에 기재된 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 매체 또는 이 양자의 임의의 조합일 수 있음에 유의해야 한다. 컴퓨터 판독 가능 저장 매체는, 예를 들어, 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 소자, 또는 이들의 임의의 조합 일 수 있지만, 이에 한정되지는 않는다. 컴퓨터 판독 가능 매체의 보다 구체적인 예는 하나 또는 복수의 도선을 갖는 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 및 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 이들의 임의의 적절한 조합을 포함할 수 있지만, 이에 한정되지는 않는다. 본 발명의 실시예에서, 컴퓨터 판독 가능 저장 매체는 명령 운행 시스템, 장치 또는 소자 또는 이들과 결합되어 사용될 수 있는 프로그램을 포함하거나 저장할 수 있는 임의의 타입의 매체일 수 있다. 본 발명에서, 컴퓨터 판독 가능 신호 매체는 컴퓨터 판독 가능 프로그램 코드를 베어링하는 베이스 밴드 또는 캐리어의 일부로 전파되는 데이터 신호를 포함할 수 있다. 이런 전파된 데이터 신호는 전자기 신호, 광학 신호, 또는 상기 임의의 적절한 조합을 포함하지만 이에 한정되지 않는 다양한 형태를 취할 수 있다. 컴퓨터 판독 가능 신호 매체는 또한 명령 실행 시스템, 장치 또는 소자에 사용되거나 이와 결합하여 사용하기 위한 프로그램을 전송, 전파 또는 수송할 수 있는 컴퓨터 판독 가능 매체 이외의 임의의 컴퓨터 판독 가능 매체일 수 있다. 컴퓨터 판독 가능 매체에 포함된 프로그램 코드는 전기선, 광섬유 케이블, RF(무선주파수) 등, 또는 상기의 임의의 적절한 조합을 포함하지만 이에 한정되지 않는 임의의 적절한 매체에 의해 전송될 수 있다.
상기 컴퓨터 판독 가능 매체는 상기 전자 기기에 포함될 수 있고, 상기 전자 기기에 탑재되지 않고 단독으로 존재할 수도 있다. 상기 컴퓨터 판독가능 매체에는 하나 또는 복수의 프로그램이 베어링되고, 상기 하나 또는 복수의 프로그램이 상기 전자 기기에 의해 실행될 경우 상기 전자기기는 클라이언트로부터 인스턴트 통신 방식으로 송신한 사용자의 영상 및 음성을 수신하고; 상기 영상 및 음성에 따라, 사용자 특징 정보 및 텍스트 답변 정보를 생성하며; 상기 사용자 특징 정보 및 텍스트 답변 정보에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터 및 답변 음성을 생성하고; 상기 제어 파라미터 및 답변 음성에 기초하여, 애니메이션 엔진으로 상기 3차원 가상 인물이미지의 영상을 생성하며; 상기 3차원 가상 인물이미지의 영상을 인스턴트 통신 방식으로 상기 클라이언트에 전송하여 상기 클라이언트가 상기 사용자에게 보여주도록 한다.
본 발명의 실시예에 따른 동작을 수행하기 위한 컴퓨터 프로그램 코드는 하나 또는 하나 이상의 프로그래밍 언어, 또는 그들의 조합으로 작성 될 수 있다. 상기 프로그래밍 언어는 Java, Smalltalk, C++를 비롯한 객체 지향 프로그래밍 언어와 "C" 언어 또는 유사한 프로그래밍 언어를 비롯한 기존 절차적 프로그래밍 언어를 포함한다. 프로그램 코드는 완전히 사용자의 컴퓨터에서 실행되거나, 부분적으로 사용자의 컴퓨터에서 실행되거나, 독립형 소프트웨어 패키지로서 실행되거나, 일부는 사용자의 컴퓨터에서 실행되고 일부는 원격 컴퓨터에서 실행되거나, 또는 완전히 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터의 경우 원격 컴퓨터는 LAN 또는 WAN을 포함한 모든 종류의 네트워크를 통해 사용자의 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어, 인터넷 서비스 제공 업체를 이용하여 인터넷을 통해 연결함).
도면의 흐름도 및 블록도는 본 발명의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 가능한 구현의 아키텍처, 기능 및 동작을 도시한다. 이 점에서, 흐름도 또는 블록도의 각 블록은 지정된 논리 기능을 구현하기 위한 하나 또는 하나 이상의 실행 가능한 명령을 포함하는 모듈, 프로그램 세그먼트 또는 코드의 일부를 나타낼 수 있다. 일부 대안적인 구현에서, 블록에 마크업된 기능은 또한 도면에 도시된 것과 다른 순서로 발생할 수 있음에 유의해야 한다. 예를 들어, 연속적으로 표현된 2개의 블록은 실제로 병렬로 실행될 수 있고, 관련 기능에 따라 때때로 역순으로 실행될 수도 있다. 또한, 블록도 및/또는 흐름도의 각 블록, 및 블록도 및/또는 흐름도에서 블록의 조합은 지정된 기능 또는 동작을 수행하는 전용 하드웨어 기반 시스템에서 구현될 수 있거나 전용 하드웨어와 컴퓨터 명령어를 조합하여 구현할 수도 있음에 유의해야 한다.
본 발명의 실시예들에서 설명된 유닛들은 소프트웨어 또는 하드웨어에 의해 구현될 수 있다. 설명된 유닛은 또한 프로세서에 설치될 수 있고, 예를 들어 수신 유닛, 제1 생성 유닛, 제2 생성 유닛, 제3 생성 유닛 및 전송 유닛을 포함하는 프로세서로 기술될 수도 있다. 이러한 유닛의 명칭은 경우에 따라서는 유닛 자체로 한정되지 않으며, 예를 들어, 수신 유닛은 "클라이언트로부터 인스턴트 통신 방식으로 송신한 사용자의 영상 및 음성을 수신하는 유닛"으로 기술될 수도 있다.
상기 설명은 본 발명의 바람직한 실시예 및 적용된 기술의 원리에 대한 설명일 뿐이다. 본 발명이 속하는 기술분야의 통상의 기술자들은 본 발명에 언급된 본 발명의 범위는 상기 기술적 특징의 특정 조합에 따른 기술적 해결수단에 한정되지 않으며, 동시에 본 발명의 사상을 벗어나지 않으면서 상기 기술적 특징 또는 그 균등한 특징에 대해 임의로 조합하여 형성된 다른 기술적 해결수단, 예를 들어, 상기 특징과 본 발명에 공개된(단 이에 한정되지 않음) 유사한 기능을 구비하는 기술적 특징을 서로 교체하여 형성된 기술적 해결수단을 포함함을 이해하여야 한다.

Claims (12)

  1. 정보 생성 방법에 있어서,
    클라이언트로부터 인스턴트 통신 방식으로 송신한 사용자의 영상 및 음성을 수신하는 단계;
    상기 영상 및 음성에 따라, 사용자 특징 정보 및 텍스트 답변 정보를 생성하는 단계;
    상기 사용자 특징 정보 및 텍스트 답변 정보에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터 및 답변 음성을 생성하는 단계;
    상기 제어 파라미터 및 답변 음성에 기초하여, 애니메이션 엔진으로 상기 3차원 가상 인물이미지의 영상을 생성하는 단계; 및
    상기 3차원 가상 인물이미지의 영상을 인스턴트 통신 방식으로 상기 클라이언트에 전송하여, 상기 클라이언트가 상기 사용자에게 보여주도록 하는 단계를 포함하는 정보 생성 방법.
  2. 제1항에 있어서,
    상기 영상 및 음성에 따라, 사용자 특징 정보 및 텍스트 답변 정보를 생성하는 단계는,
    상기 영상을 인식하여 사용자 특징 정보를 획득하고, 상기 음성을 인식하여 텍스트 정보를 획득하는 단계;
    관련 정보를 획득하는 단계 - 상기 관련 정보는 과거 사용자 특징 정보 및 과거 텍스트 정보를 포함함 - ;
    상기 사용자 특징 정보, 상기 텍스트 정보 및 상기 관련 정보에 기초하여, 텍스트 답변 정보를 생성하는 단계를 포함하는 정보 생성 방법.
  3. 제2항에 있어서,
    상기 정보 생성 방법은,
    상기 사용자 특징 정보 및 상기 텍스트 정보를, 현재 세션에 대해 설정한 세션 정보 집합에 연관 저장하는 단계를 더 포함하는 정보 생성 방법.
  4. 제3항에 있어서,
    상기 관련 정보를 획득하는 단계는,
    상기 세션 정보 집합으로부터 관련 정보를 획득하는 단계를 포함하는 정보 생성 방법.
  5. 제1항에 있어서,
    상기 사용자 특징 정보는 사용자 표정을 포함하고,
    상기 사용자 특징 정보 및 텍스트 답변 정보에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터 및 답변 음성을 생성하는 단계는,
    상기 텍스트 답변 정보에 따라 답변 음성을 생성하는 단계; 및
    상기 사용자 표정 및 상기 답변 음성에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터를 생성하는 단계를 포함하는 정보 생성 방법.
  6. 정보 생성 장치에 있어서,
    클라이언트로부터 인스턴트 통신 방식으로 송신한 사용자의 영상 및 음성을 수신하는 수신 유닛;
    상기 영상 및 음성에 따라, 사용자 특징 정보 및 텍스트 답변 정보를 생성하는 제1 생성 유닛;
    상기 사용자 특징 정보 및 텍스트 답변 정보에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터 및 답변 음성을 생성하는 제2 생성 유닛;
    상기 제어 파라미터 및 답변 음성에 기초하여, 애니메이션 엔진으로 상기 3차원 가상 인물이미지의 영상을 생성하는 제3 생성 유닛; 및
    상기 3차원 가상 인물이미지의 영상을 인스턴트 통신 방식으로 상기 클라이언트에 전송하여, 상기 클라이언트가 상기 사용자에게 보여주도록 하는 전송 유닛을 포함하는 정보 생성 장치.
  7. 제6항에 있어서,
    상기 제1 생성 유닛은,
    상기 영상을 인식하여 사용자 특징 정보를 획득하고, 상기 음성을 인식하여 텍스트 정보를 획득하는 인식 유닛;
    관련 정보를 획득하는 획득 유닛 - 상기 관련 정보는 과거 사용자 특징 정보 및 과거 텍스트 정보를 포함함 - ;
    상기 사용자 특징 정보, 상기 텍스트 정보 및 상기 관련 정보에 기초하여, 텍스트 답변 정보를 생성하는 정보 생성 유닛을 포함하는 정보 생성 장치.
  8. 제7항에 있어서,
    상기 정보 생성 장치는,
    상기 사용자 특징 정보 및 상기 텍스트 정보를, 현재 세션에 대해 설정한 세션 정보 집합에 연관 저장하는 저장 유닛을 더 포함하는 정보 생성 장치.
  9. 제8항에 있어서,
    상기 획득 유닛은 또한,
    상기 세션 정보 집합으로부터 관련 정보를 획득하는 정보 생성 장치.
  10. 제6항에 있어서,
    상기 사용자 특징 정보는 사용자 표정을 포함하고,
    상기 제2 생성 유닛은 또한,
    상기 텍스트 답변 정보에 따라 답변 음성을 생성하고;
    상기 사용자 표정 및 상기 답변 음성에 따라, 3차원 가상 인물이미지에 대한 제어 파라미터를 생성하는 정보 생성 장치.
  11. 하나 또는 복수의 프로세서; 및
    하나 또는 복수의 프로그램이 저장된 저장 장치를 포함하는 서버에 있어서,
    상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1항 내지 제5항 중 어느 한 항에 따른 정보 생성 방법을 구현하도록 하는 서버.
  12. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체에 있어서,
    상기 프로그램은 프로세서에 의해 실행될 경우, 제1항 내지 제5항 중 어느 한 항에 따른 정보 생성 방법을 구현하는 컴퓨터 판독 가능 매체.
KR1020190166708A 2019-06-28 2019-12-13 정보 생성 방법 및 장치 KR20210001856A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910573596.7 2019-06-28
CN201910573596.7A CN110288683A (zh) 2019-06-28 2019-06-28 用于生成信息的方法和装置

Publications (1)

Publication Number Publication Date
KR20210001856A true KR20210001856A (ko) 2021-01-06

Family

ID=68020013

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190166708A KR20210001856A (ko) 2019-06-28 2019-12-13 정보 생성 방법 및 장치

Country Status (4)

Country Link
US (1) US20200412773A1 (ko)
JP (1) JP6949931B2 (ko)
KR (1) KR20210001856A (ko)
CN (1) CN110288683A (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114268599A (zh) * 2021-12-21 2022-04-01 北京青云科技股份有限公司 即时通信连接的建立与即时通信方法、装置、设备及介质
CN115187727B (zh) * 2022-06-29 2023-06-13 北京百度网讯科技有限公司 一种虚拟面部图像的生成方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10445115B2 (en) * 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
CN104461525B (zh) * 2014-11-27 2018-01-23 韩慧健 一种可自定义的智能咨询平台生成系统
CN104681023A (zh) * 2015-02-15 2015-06-03 联想(北京)有限公司 一种信息处理方法及电子设备
US11373100B2 (en) * 2016-11-29 2022-06-28 Microsoft Technology Licensing, Llc Using various artificial intelligence entities as advertising media
US20180342095A1 (en) * 2017-03-16 2018-11-29 Motional LLC System and method for generating virtual characters
US20190095775A1 (en) * 2017-09-25 2019-03-28 Ventana 3D, Llc Artificial intelligence (ai) character system capable of natural verbal and visual interactions with a human
CN108573053B (zh) * 2018-04-24 2021-11-30 百度在线网络技术(北京)有限公司 信息推送方法、装置和系统

Also Published As

Publication number Publication date
CN110288683A (zh) 2019-09-27
US20200412773A1 (en) 2020-12-31
JP6949931B2 (ja) 2021-10-13
JP2021009670A (ja) 2021-01-28

Similar Documents

Publication Publication Date Title
KR102471202B1 (ko) 정보 생성 방법 및 장치
US11158102B2 (en) Method and apparatus for processing information
JP7225188B2 (ja) ビデオを生成する方法および装置
US11308671B2 (en) Method and apparatus for controlling mouth shape changes of three-dimensional virtual portrait
WO2022170848A1 (zh) 人机交互方法、装置、系统、电子设备以及计算机介质
CN113365146B (zh) 用于处理视频的方法、装置、设备、介质和产品
KR20210001856A (ko) 정보 생성 방법 및 장치
CN112364144A (zh) 交互方法、装置、设备和计算机可读介质
CN111312243B (zh) 设备交互方法和装置
CN109949213B (zh) 用于生成图像的方法和装置
CN107283429B (zh) 基于人工智能的控制方法、装置、系统以及终端
CN110196900A (zh) 用于终端的交互方法和装置
CN110262867A (zh) 一种基于车载系统的远程控制方法和装置
CN113327311B (zh) 基于虚拟角色的显示方法、装置、设备、存储介质
CN115222857A (zh) 生成虚拟形象的方法、装置、电子设备和计算机可读介质
CN114201043A (zh) 内容交互的方法、装置、设备和介质
JP2023551169A (ja) 何らかの音声コマンドを実行する間にar(拡張現実)ベースで周囲からの音を選択的に包含すること
CN113379879A (zh) 交互方法、装置、设备、存储介质以及计算机程序产品
CN113742473A (zh) 一种数字虚拟人交互系统及其计算传输优化方法
CN113157241A (zh) 交互设备、交互装置及交互系统
CN109635093A (zh) 用于生成回复语句的方法和装置
Diez et al. Interactive Multimodal Platform for Digital Signage
CN115393476A (zh) 有声表情的生成方法、装置和设备
CN117632109A (zh) 虚拟数字助手构建方法、装置、电子设备以及存储介质
Goncalves et al. Expressive Audiovisual Message Presenter for Mobile Devices

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application
E601 Decision to refuse application
E801 Decision on dismissal of amendment
J201 Request for trial against refusal decision
J301 Trial decision

Free format text: TRIAL NUMBER: 2021101003316; TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20211228

Effective date: 20230223

E902 Notification of reason for refusal
S601 Decision to reject again after remand of revocation