KR20210110620A - 상호작용 방법, 장치, 전자 장치 및 저장 매체 - Google Patents

상호작용 방법, 장치, 전자 장치 및 저장 매체 Download PDF

Info

Publication number
KR20210110620A
KR20210110620A KR1020217023002A KR20217023002A KR20210110620A KR 20210110620 A KR20210110620 A KR 20210110620A KR 1020217023002 A KR1020217023002 A KR 1020217023002A KR 20217023002 A KR20217023002 A KR 20217023002A KR 20210110620 A KR20210110620 A KR 20210110620A
Authority
KR
South Korea
Prior art keywords
response
interaction
customer
interactive
message
Prior art date
Application number
KR1020217023002A
Other languages
English (en)
Inventor
쯔룽 장
린 쑨
루 루
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN202010125701.3 priority Critical
Priority to CN202010125701 priority
Priority to CN202010362562.6A priority patent/CN111541908A/zh
Priority to CN202010362562.6 priority
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority to PCT/CN2020/130184 priority patent/WO2021169431A1/zh
Publication of KR20210110620A publication Critical patent/KR20210110620A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00335Recognising movements or behaviour, e.g. recognition of gestures, dynamic facial expressions; Lip-reading
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computer systems based on biological models
    • G06N3/02Computer systems based on biological models using neural network models
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Abstract

본 발명은 상호작용 방법, 장치, 전자 장치 및 저장 매체에 관한 것이다. 상기 방법은, 고객측으로부터 오는 제1 메시지를 수신하는 것; 상기 제1 메시지에 포함된 지시 내용에 기반하여 상기 지시 내용과 매칭되는 구동 데이터를 취득하는 것; 및 상기 구동 데이터를 이용하여, 상기 고객측의 디스플레이 화면을 제어하여 상기 상호작용 객체의 응답 애니메이션을 재생하도록 하는 것을 포함한다.

Description

상호작용 방법, 장치, 전자 장치 및 저장 매체
본 발명은 컴퓨터 기술분야에 관한 것으로서, 구체적으로 상호작용 방법, 장치, 전자 장치 및 저장 매체에 관한 것이다.
인터넷의 빠른 발전에 따라, 생방송이 중요한 정보 전파 방식으로 되었다. 서로 다른 관중들이 네트워크 생방송을 관람하는 시간대가 다르며, 실재 앵커는 24시간 생방송을 실행하여 서로 다른 관중의 수요를 만족시킬 수 없다. 디지털 인간을 사용하여 생방송을 실행하면 이 문제를 해결할 수 있지만, 디지털 인간 앵커와 관중 간의 상호작용 기술은 진일보의 연구와 개발이 필요하다.
본 발명의 일 방면에 의하면, 상호작용 방법을 제공하는 바, 상기 방법은, 고객측으로부터 오는 제1 메시지를 수신하는 것; 상기 제1 메시지에 포함된 지시 내용에 기반하여 상기 지시 내용과 매칭되는 구동 데이터를 취득하는 것; 및 상기 구동 데이터를 이용하여, 상기 고객측의 디스플레이 화면을 제어하여 상기 상호작용 객체의 응답 애니메이션을 재생하도록 하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 제1 메시지에 포함된 지시 내용에 기반하여 상기 지시 내용과 매칭되는 구동 데이터를 취득하는 것은, 상기 지시 내용에 대한 응답 내용을 취득하는 것 - 상기 응답 내용은 응답 텍스트를 포함함 -; 및 상기 응답 텍스트에 포함된 적어도 하나의 목표 텍스트에 기반하여, 상기 목표 텍스트와 매칭되는 상호작용 객체의 설정 동작의 제어 파라미터를 취득하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 제1 메시지에 포함된 지시 내용에 기반하여 상기 지시 내용과 매칭되는 구동 데이터를 취득하는 것은, 상기 지시 내용에 대한 응답 내용을 취득하는 것 - 상기 응답 내용은 음소 시퀀스를 포함하는 것 -; 및 상기 음소 시퀀스와 매칭되는 상기 상호작용 객체의 제어 파라미터를 취득하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 상호작용 객체의 제어 파라미터는 적어도 하나의 로컬 영역의 자세 제어 벡터를 포함하고, 상기 음소 시퀀스와 매칭되는 상호작용 객체의 제어 파라미터를 취득하는 것은,
상기 음소 시퀀스에 대하여 특성 코딩을 실행하여, 상기 음소 시퀀스에 대응되는 제1 코드 시퀀스를 취득하는 것; 상기 제1 코드 시퀀스에 기반하여 적어도 하나의 음소에 대응되는 특성 코드를 취득하는 것; 및 상기 특성 코드에 대응되는 상기 상호작용 객체의 적어도 하나의 로컬 영역의 자세 제어 벡터를 취득하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 방법은 또한, 상기 고객측으로 상기 응답 내용을 포함한 지시 정보를 송신하여, 상기 고객측이 상기 지시 정보에 기반하여 상기 응답 내용을 표시하도록 하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 구동 데이터를 이용하여, 상기 고객측을 제어하여 디스플레이 화면에 상기 상호작용 객체의 응답 애니메이션을 재생하도록 하는 것은, 상기 상호작용 객체의 구동 데이터를 상기 고객측으로 송신하여, 상기 고객측이 구동 데이터에 기반하여 응답 애니메이션을 생성하도록 하는 것; 및 상기 고객측을 제어하여 디스플레이 화면에 상기 응답 애니메이션을 재생하도록 하는 것을 포함하거나, 또는, 상기 구동 데이터에 기반하여, 상기 상호작용 객체의 가상 모델 파라미터를 조절하는 것; 및 조절 후의 가상 모델 파라미터에 기반하여, 렌더링 엔진을 이용하여 상기 상호작용 객체의 응답 애니메이션을 생성하고, 또한 상기 고객측으로 상기 응답 애니메이션을 송신하는 것을 포함한다.
본 발명의 일 방면에 의하면, 상호작용 방법을 제공하는 바, 상기 방법은,
고객측으로부터 오는 사용자 입력 조작에 응답하여, 서버로 지시 내용이 포함된 제1 메시지를 송신하는 것; 및 상기 서버가 상기 제1 메시지에 대하여 응답하는 제2 메시지에 기반하여, 상기 고객측의 디스플레이 화면에 상기 상호작용 객체의 응답 애니메이션을 재생하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 지시 내용은 텍스트 내용을 포함하며, 상기 상호작용 방법은, 상기 고객측에 상기 텍스트 내용을 표시하는 것, 및/또는 상기 텍스트 내용에 대응되는 오디오 파일을 재생하는 것을 더 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 고객측에 상기 텍스트 내용을 표시하는 것은, 상기 텍스트 내용의 불릿 스크린 정보를 생성하는 것; 및 상기 고객측의 디스플레이 화면에 상기 불릿 스크린 정보를 표시하는 것을포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 제2 메시지에 상기 지시 내용에 대한 응답 텍스트를 포함하며, 상기 방법은, 상기 고객측의 디스플레이 화면에 상기 응답 텍스트를 표시하는 것, 및/또는 상기 응답 텍스트에 대응되는 오디오 파일을 결정하고 재생시키는 것을 더 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 제2 메시지는 상기 상호작용 객체의 구동 데이터를 포함하며, 상기 서버가 상기 제1 메시지에 대하여 응답하는 제2 메시지에 기반하여, 상기 고객측의 디스플레이 화면에 상기 상호작용 객체의 응답 애니메이션을 재생하는 것은, 상기 구동 데이터에 기반하여, 상기 상호작용 객체의 가상 모델 파라미터를 조절하는 것; 및 조절 후의 가상 모델 파라미터에 기반하여, 렌더링 엔진을 이용하여 상기 상호작용 객체의 응답 애니메이션을 생성하고, 또한 상기 고객측의 디스플레이 화면에 표시하는 것을 포함하되, 상기 구동 데이터는 상기 응답 텍스트에 대응되는 음소 시퀀스와 매칭되는 상기 상호작용 객체에 사용되는 제어 파라미터, 및/또는 상기 응답 텍스트에 포함된 적어도 하나의 목표 텍스트와 매칭되는 상기 상호작용 객체에 사용되는 설정 동작의 제어 파라미터를 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 제2 메시지에 상기 상호작용 객체가 상기 지시 내용에 대하여 실행한 응답 애니메이션을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 사용자의 입력 조작은, 상기 사용자가 상기 디스플레이 화면에 표시되는 지체 조작 화면에 따라 상응한 인체 자세를 취하는 것을 포함하며, 고객측으로부터 오는 사용자 입력 조작에 응답하는 것은, 상기 인체 자세를 포함하는 사용자 행동 이미지를 취득하는 것; 상기 사용자 행동 이미지 중의 인체 자세 정보를 식별하는 것; 및 상기 인체 자세 정보에 기반하여, 상기 디스플레이 화면에 표시된 상호작용 객체가 응답을 실행하도록 하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 인체 자세 정보에 기반하여, 상기 디스플레이 화면에 표시된 상호작용 객체가 응답을 실행하도록 하는 것은, 상기 인체 자세 정보와 상기 지체 조작 화면 내의 인체 자세의 매칭도를 결정하는 것; 및 상기 매칭도에 기반하여, 상기 디스플레이 화면에 표시된 상호작용 객체를 구동시켜 응답을 실행하도록 하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 매칭도에 기반하여, 상기 상호작용 객체를 구동시켜 응답을 실행하도록 하는 것은, 상기 매칭도가 설정 조건에 도달한 경우, 상기 디스플레이 화면에 표시된 상호작용 객체가 제1 응답을 실행하도록 지시하는 것, - 상기 제1 응답은 자세가 합격되었다는 것을 나타내는 지체 동작 및/또는 음성 프롬프트를 포함함 -; 및 다음 지체 조작 화면을 표시하는 것을 포함하거나, 또는, 상기 매칭도가 설정 조건에 도달하지 못한 경우, 상기 디스플레이 화면에 표시된 상호작용 객체가 제2 응답을 실행하도록 지시하는 것, - 상기 제2 응답은 자세가 합격되지 않았다는 것을 나타내는 지체 동작 및/또는 음성 프롬프트를 포함함 -; 및 현재의 지체 조작 화면을 표시하는 것을 유지하는 것을 포함한다.
본 발명의 일 방면에 의하면, 상호작용 장치를 제공하는 바, 상기 장치는, 고객측으로부터 오는 제1 메시지를 수신하는 수신 유닛; 상기 제1 메시지에 포함된 지시 내용에 기반하여 상기 지시 내용과 매칭되는 구동 데이터를 취득하는 취득 유닛; 및 상기 구동 데이터를 이용하여, 상기 고객측의 디스플레이 화면을 제어하여 상기 상호작용 객체의 응답 애니메이션을 재생하도록 하는 구동 유닛을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 취득 유닛은, 상기 지시 내용에 대한 응답 내용을 취득하는 바, 상기 응답 내용은 응답 텍스트를 포함하며; 상기 응답 텍스트에 포함된 적어도 하나의 목표 텍스트에 기반하여, 상기 목표 텍스트와 매칭되는 상호작용 객체의 설정 동작의 제어 파라미터를 취득한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 취득 유닛은, 상기 응답 텍스트에 기반하여 상기 지시 내용에 대한 응답 내용을 취득하는 바, 상기 응답 내용은 음소 시퀀스를 포함하며; 상기 음소 시퀀스와 매칭되는 상기 상호작용 객체의 제어 파라미터를 취득한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 상호작용 객체의 제어 파라미터는 적어도 하나의 로컬 영역의 자세 제어 벡터를 포함하고, 상기 취득 유닛은, 상기 음소 시퀀스와 매칭되는 상호작용 객체의 제어 파라미터를 취득할 때, 상기 음소 시퀀스에 대하여 특성 코딩을 실행하여, 상기 음소 시퀀스에 대응되는 제1 코드 시퀀스를 취득하며; 상기 제1 코드 시퀀스에 기반하여 적어도 하나의 음소에 대응되는 특성 코드를 취득하며; 상기 특성 코드에 대응되는 상기 상호작용 객체의 적어도 하나의 로컬 영역의 자세 제어 벡터를 취득하는 데에 사용된다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 장치는 또한, 상기 고객측으로 상기 지시 내용에 대한 응답 내용을 포함한 지시 정보를 송신하여, 상기 고객측이 상기 지시 정보에 기반하여 상기 응답 내용을 표시하도록 하는 송신 유닛을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 구동 유닛은, 상기 상호작용 객체의 구동 데이터를 상기 고객측으로 송신하여, 상기 고객측이 구동 데이터에 기반하여 응답 애니메이션을 생성하도록 하며; 상기 고객측을 제어하여 디스플레이 화면에 상기 응답 애니메이션을 재생하도록 하며; 또는 상기 구동 데이터에 기반하여, 상기 상호작용 객체의 2차원 또는 3차원 가상 모델 파라미터를 조절하며; 조절 후의 2차원 또는 3차원 가상 모델 파라미터에 기반하여, 렌더링 엔진을 이용하여 상기 상호작용 객체의 응답 애니메이션을 생성하고, 또한 상기 고객측으로 상기 응답 애니메이션을 송신한다.
본 발명의 일 방면에 의하면, 상호작용 장치를 제공하는 바, 상기 장치는, 고객측으로부터 오는 사용자 입력 조작에 응답하여, 서버로 지시 내용이 포함된 제1 메시지를 송신하는 송신 유닛; 및 상기 서버가 상기 제1 메시지에 대하여 응답하는 제2 메시지에 기반하여, 상기 고객측의 디스플레이 화면에 상기 상호작용 객체의 응답 애니메이션을 재생하는 재생 유닛을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 지시 내용은 텍스트 내용을 포함하며; 상기 장치는 또한, 상기 고객측의 디스플레이 화면에 상기 텍스트 내용을 표시하며, 및/또는 상기 텍스트 내용에 대응되는 오디오 파일을 결정 및 재생하는 제1 표시 유닛을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 제1 표시 유닛은 상기 고객측에 상기 텍스트 내용을 표시할 때 사용되며, 구체적으로 상기 텍스트 내용의 불릿 스크린 정보를 생성하며; 상기 고객측의 디스플레이 화면에 상기 불릿 스크린 정보를 표시하는 데 사용된다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 제2 메시지에 상기 지시 내용에 대한 응답 텍스트를 포함하거나, 또는, 상기 고객측의 디스플레이 화면에 상기 응답 텍스트를 표시하는 것, 및/또는 상기 응답 텍스트에 대응되는 오디오 파일을 결정 및 재생시키는 제2 표시 유닛을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 제2 메시지는 상기 상호작용 객체의 구동 데이터를 포함하는 것; 및 상기 재생 유닛(602)은, 상기 구동 데이터에 기반하여, 상기 상호작용 객체의 가상 모델 파라미터를 조절하는 것; 및 조절 후의 가상 모델 파라미터에 기반하여, 렌더링 엔진을 이용하여 상기 상호작용 객체의 응답 애니메이션을 생성하고, 또한 상기 고객측의 디스플레이 화면에 표시하며; 상기 구동 데이터는 상기 지시 내용에 대한 응답 텍스트에 대응되는 음소 시퀀스와 매칭되며 상기 상호작용 객체에 사용되는 제어 파라미터, 및/또는 상기 응답 텍스트에 포함된 적어도 하나의 목표 텍스트와 매칭되는 상기 상호작용 객체의 설정 동작의 제어 파라미터를 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 제2 메시지에 상기 상호작용 객체가 상기 지시 내용에 대하여 생성하는 응답 애니메이션을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 사용자가 상기 디스플레이 화면에 표시되는 지체 조작 화면에 따라 상응한 인체 자세를 나타내는 것을 포함하거나, 또는,
상기 인체 자세를 포함하는 사용자 행동 이미지를 취득하는 것; 및 상기 사용자 행동 이미지 중의 인체 자세 정보를 식별하는 것; 및 상기 인체 자세 정보에 기반하여, 상기 디스플레이 화면에 표시된 상호작용 객체가 응답을 실행하도록 하는 것을 포함한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 생성 유닛은, 상기 인체 자세 정보와 상기 지체 조작 화면 내의 인체 자세의 매칭도를 결정하며; 상기 매칭도에 기반하여, 상기 디스플레이 화면에 표시된 상호작용 객체를 구동시켜 응답을 실행하도록 한다.
본 발명에 의해 제공되는 임의의 실시 형태와 결합하여, 상기 생성 유닛은, 상기 매칭도가 설정 조건에 도달한 경우, 상기 디스플레이 화면에 표시된 상호작용 객체가 제1 응답을 실행하도록 지시하는 바, 상기 제1 응답은 자세가 합격되었다는 것을 나타내는 지체 동작 및/또는 음성 프롬프트를 포함하며; 또한 다음 지체 조작 화면을 표시하며; 상기 매칭도가 설정 조건에 도달하지 못한 경우, 상기 디스플레이 화면에 표시된 상호작용 객체가 제2 응답을 실행하도록 지시하는 바, 상기 제2 응답은 자세가 합격되지 않았다는 것을 나타내는 지체 동작 및/또는 음성 프롬프트를 포함하며; 또한 현재의 지체 조작 화면을 표시하는 것을 유지한다.
본 발명의 일 방면에 의하면, 전자 장치를 제공하는 바, 상기 장치는 메모리, 프로세서를 포함하며, 상기 메모리는 프로세서 상에서 수행될 수 있는 컴퓨터 명령을 저장하기 위한 것이고, 상기 프로세서는 상기 컴퓨터 명령을 수행할 때 본 발명의 어느 한 실시방식에서 제공하는 상호작용 방법을 구현하기 위한 것이다.
본 발명의 일 방면에 의하면, 컴퓨터 판독 가능 기억 매체를 제공하는 바, 여기에 컴퓨터 프로그램이 저장되어 있고, 상기 프로그램이 프로세서에 기반하여 수행될 때 본 발명의 어느 한 실시방식에서 제공하는 상호작용 방법을 구현한다.
본 발명의 하나 또는 복수의 실시예를 더 명확하게 설명하기 위하여, 아래 실시예의 설명에 사용되는 도면에 대하여 간략한 설명을 실행하는 바, 하기 설명 중의 도면은 단지 본 발명의 하나 또는 복수의 실시예에 기재된 일부 실시예에 불과하며, 당업계의 기술자는 발명적 노력이 필요없이 이러한 도면에 기초하여 기타 도면을 취득할 수 있다.
도 1은 본 발명의 적어도 일 실시예에 따른 일 상호작용 방법의 흐름도이다.
도 2는 본 발명의 적어도 일 실시예에서 제공하는 상호작용 방법을 생방송 과정에 적용하는 도면이다.
도 3은 본 발명의 적어도 일 실시예에서 제공하는 자세 제어 벡터를 취득하는 방법의 흐름도이다.
도 4는 본 발명의 적어도 일 실시예에 따른 다른 일 상호작용 방법의 흐름도이다.
도 5는 본 발명의 적어도 일 실시예에 따른 일 상호작용 장치의 구조도이다.
도 6은 본 발명의 적어도 일 실시예에 따른 다른 일 상호작용 장치의 구조도이다.
도 7은 본 발명의 적어도 일 실시예에 따른 일 전자 장치의 구조도이다.
도 8은 본 발명의 적어도 일 실시예에 따른 다른 일 전자 장치의 구조도이다.
여기에서는 상세하게 예시적 실시예를 설명할 것이며, 예시는 도면에 표시되어 있다. 아래의 설명이 도면과 연관될 때, 다른 표시가 있는 외, 다른 도면 중의 같은 숫자는 같거나 유사한 요소를 표시한다. 하기 예시적 실시예에서 설명하는 실시 방식은 본 발명과 일치한 모든 실시 방식을 나타내는 것은 아니다. 반대로, 이는 단지 특허 청구 범위에 상세하게 기재된, 본 발명의 일부 방면과 일치한 장치와 방법의 예일 뿐이다.
본 발명 중의 용어 "및/또는"은 단지 관련 대상의 관련 관계를 설명하기 위한 것으로서, 세 가지 관계가 존재할 수 있다는 것을 나타내는 바, 예를 들면 A 및/또는 B는 단독으로 A가 존재하거나, 동시에 A와 B가 존재하거나, 단독으로 B가 존재하는 세 가지 상황을 표시할 수 있다. 그리고, 본 발명 중의 "적어도 한 가지"는 여러 가지 중의 어느 한 가지 또는 여러 가지 중의 적어도 두 가지의 임의의 조합을 표시하는 바, 예를 들면, A, B, C 중의 적어도 한 가지를 포함한다는 것은, A, B와 C로 구성된 집합에서 선택된 어느 하나 또는 복수의 요소를 포함한다는 것을 의미할 수 있다.
디지털 인간을 앵커로 이용하면, 임의의 시간대에 생방송을 실행할 수 있고, 또한 24시간 연속 생방송을 구현할 수 있어, 서로 다른 관중들의 생방송을 관람하는 시간에 대한 서로 다른 요구를 만족시킬 수 있다. 디지털 인간이 생방송 과정의 사용자의 상호작용 객체로서, 어떻게 사용자가 제시하는 문제에 대하여 제때에 피드백을 실행하고, 또한 어떻게 사용자와 생동하고 자연스러운 상호작용을 실행할 것인가 하는 것은 시급하게 해결해야 할 과제이다.
이를 감안하여, 본 발명에서는 일 상호작용 방안을 제공하는 바, 상기 상호작용 방안은 네트워크 생방송 등 가상의 상호작용 객체와 상호작용을 실행하는 임의의 시나리오에 적용될 수 있다.
본 발명의 실시예에서 제공하는 상호작용 방법은 단말 장치 또는 서버에 적용될 수 있고, 단말 장치는 예를 들면 고객측이 설치된 전자 장치 예를 들면 핸드폰, 태블릿 PC 등일 수 있고, 본 발명에서는 단말 장치의 형식에 대하여 제한하지 않는다. 고객측은 예를 들면 비디오 생방송 고객측일 수 있는 바, 생방송 비디오 고객측, 체감 상호작용 고객측 등을 포함한다. 서버는 상호작용 객체의 처리 능력을 제공할 수 있는 임의의 서버일 수 있다.
상호작용 객체는 사용자와 상호작용을 실행할 수 있는 임의의 상호작용 객체일 수 있는 바, 이는 가상 인물일 수 있고, 또한 가상 동물, 가상 물품, 만화 이미지 등 상호작용 기능을 구현할 수 있는 기타 가상 형상일 수 있다. 상호작용 객체는 2차원 가상 모델에 기반하여 구성할 수 있고, 또한 3차원 가상 모델에 기반하여 구성할 수 있으며, 상호작용 객체는 2차원 또는 3차원 가상 모델에 대하여 렌더링을 실행하는 것을 통하여 취득할 수 있다. 상기 사용자는 실제 인간일 수 있고, 또한 로봇일 수 있으며, 또한 기타 스마트 장치일 수도 있다. 상기 상호작용 객체와 상기 사용자 간의 상호작용 방식은 능동 상호작용 방식일 수도 있고, 또한 수동 상호작용 방식일 수도 있다.
예시적으로, 비디오 생방송 시나리오 하에서, 고객측의 디스플레이 화면에 상호작용 객체의 애니메이션을 표시할 수 있고, 사용자는 단말 장치의 고객측에서 입력 조작, 예를 들면 텍스트 입력, 음성 입력, 동작 트리거, 버튼 트리거 등 조작을 실행하여, 상호작용 객체와의 상호작용을 구현할 수 있다.
도 1은 본 발명의 적어도 한 실시예에 의한 일 상호작용 방법의 흐름도로서, 해당 상호작용 방법은 서버단에 적용될 수 있다. 도1 에 도시된 바와 같이, 상기 방법은 101 단계 ~ 103 단계를 포함한다.
101 단계에서, 고객측으로부터 오는 제1 메시지를 수신한다.
예시적으로, 상기 제1 메시지에 포함된 지시 내용은 상기 사용자가 고객측을 통하여 입력 조작을 수행하여 입력한 정보를 포함할 수 있고, 사용자의 입력 조작은 텍스트 입력 조작, 음성 입력 조작, 동작 트리거 조작, 버튼 트리거 조작 등을 포함한다. 입력된 정보는 고객측이 서버로 송신할 수 있으며; 또는 고객측이 입력된 정보를 서버에 송신할 때, 해당 입력된 정보는 직접 상기 고객측에 표시될 수 있다. 상기 제1 메시지에 포함된 지시 내용의 형식은 텍스트, 음성, 이미지(예를 들면 표정, 동작 이미지), 비디오 등을 포함하나 이에 제한하지 않는다. 상기 제1 메시지의 구체적인 형식은 응용 시나리오와 연관된다. 예를 들면, 비디오 생방송 시나리오 하에서, 상기 고객측은 비디오 생방송 관람 기능을 지원하는 고객측일 수 있고, 상기 제1 메시지는 고객측에서 사용자가 디스플레이 화면에 입력한 텍스트 내용을 채집한 후 송신될 수 있으며, 제1 메시지에 포함된 지시 내용은 예를 들면 입력된 텍스트 내용이고, 또한 해당 지시 내용은 불릿 스크린의 형식으로 디스플레이 화면에 표시될 수 있으며; 또 예를 들면, 체감 상호작용 시나리오 하에서, 상기 제1 메시지는 고객측에서 사용자 행동 이미지를 채집한 후 송신될 수 있고, 제1 메시지에 포함된 지시 내용은 예를 들면 채집된 사용자 행동 이미지이다. 구체적인 실시에서 본 발명은 제1 메시지의 송신 매커니즘 및 제1 메시지에 포함된 지시 내용의 형식에 대하여 제한하지 않음은 물론이다.
102 단계에서, 상기 제1 메시지에 포함된 지시 내용에 기반하여 상기 지시 내용과 매칭되는 구동 데이터를 취득한다.
예시적으로, 상기 구동 데이터는 음성 구동 데이터, 표정 구동 데이터, 동작 구동 데이터 중의 하나 또는 복수를 포함한다. 일 실시방식에서, 상기 구동 데이터는 사전에 서버 또는 기타 관련된 서비스 서버에 저장된 것일 수 있는 바, 고객측으로부터 오는 제1 메시지를 수신한 후, 상기 지시 내용에 기반하여 상기 서버 또는 기타 관련된 서비스 서버에서 검색을 실행하여, 상기 지시 내용과 매칭되는 구동 데이터를 취득할 수 있다. 다른 일 실시방식에서, 상기 구동 데이터는 상기 지시 내용에 기반하여 생성된 것일 수 있는 바, 예를 들면 상기 지시 내용을 사전에 훈련된 딥러닝 모델에 입력하여, 해당 지시 내용과 대응되는 구동 데이터를 예측하여 취득한다.
103 단계에서, 상기 구동 데이터를 이용하여, 상기 고객측의 디스플레이 화면을 제어하여 상기 상호작용 객체의 응답 애니메이션을 재생하도록 한다.
본 발명의 실시예에서, 상기 상호작용 객체는 가상 모델 예를 들면 2차원 또는 3차원 가상 모델에 대하여 렌더링을 실행하여 취득한 것이다. 상기 가상 모델은 자체 정의에 의하여 생성한 것일 수 있고, 또한 일 캐릭터의 이미지 또는 비디오에 대하여 전환을 실행하여 취득한 것일 수 있다. 본 발명의 실시예는 가상 모델의 생성 방식에 대하여 제한하지 않는다.
상기 응답 애니메이션은 상기 구동 데이터에 기반하여 생성할 수 있고, 고객측의 디스플레이 화면, 예를 들면 비디오 생방송 화면을 제어하는 것을 통하여 상기 상호작용 객체의 응답 애니메이션을 재생하며, 상기 상호작용 객체의 고객측으로부터 오는 제1 메시지에 대한 응답을 표시할 수 있고, 해당 응답은 한 마디의 음성을 출력하며, 및/또는 일부 동작, 표정을 취하도록 하는 것 등을 포함한다.
본 발명의 실시예에서, 서버가 고객측으로부터 오는 제1 메시지를 수신하고, 또한 상기 제1 메시지에 포함된 지시 내용에 기반하여 매칭되는 구동 데이터를 취득하며, 또한 상기 구동 데이터를 이용하여 고객측의 디스플레이 화면을 제어하여 상기 상호작용 객체의 응답 애니메이션을 재생하고, 상호작용 객체의 응답을 표시하여, 상호작용 객체가 사용자의 지시 내용에 대하여 제때에 피드백을 실행하도록 함으로써, 사용자와의 적시적인 상호작용을 구현한다.
도2는 본 발명의 적어도 한 실시예에서 제공하는 상호작용 방법을 생방송 과정에 적용하는 예시적 설명이다. 도2에 도시된 바와 같이, 상기 상호작용 객체는 의사 이미지를 가진 3차원 가상 인물이다. 고객측의 디스플레이 화면에 상기 3차원 가상 인물을 앵커로 이용하여 생방송을 실행하는 과정에서, 고객측의 사용자는 디스플레이 화면에 지시 내용을 입력함으로써 지시 내용을 포함하는 제1 메시지를 송신할 수 있고, 이에 따라, 서버는 고객측으로부터 오는 제1 메시지를 수신한 후, 지시 내용 예를 들면 "어떻게 손을 씻나요”를 식별할 수 있으며, 더 나아가 해당 지시 내용에 기반하여 매칭되는 구동 데이터를 취득할 수 있고, 상기 구동 데이터에 기반하여 상기 고객측을 제어하여 해당 3차원 가상 인물의 "어떻게 손을 씻나요”라는 지시 내용에 대한 응답을 표시할 수 있다. 예를 들면, 해당 3차원 가상 인물을 제어하여 "어떻게 손을 씻나요”에 대응되는 음성을 출력하고, 또한 아울러 출력된 음성과 매칭되는 동작 및/또는 표정을 수행한다.
일부 실시예에서, 상기 지시 내용은 텍스트 내용을 포함한다. 하기 방식에 따라 지시 내용에 대한 응답 내용을 취득할 수 있는 바, 즉 자연어 처리(Natural Language Processing, NLP) 알고리즘에 기반하여 상기 텍스트 내용이 표현하는 언어 의사를 식별하고, 또한 상기 언어 의사와 매칭되는 응답 내용을 취득한다.
일부 실시예에서, 사전 훈련된 자연어 처리를 위한 신경망 모델을 사용하여 상기 텍스트 내용에 대하여 처리를 실행할 수 있는 바, 예를 들면 합성곱 신경망(Convolutional Neural Networks, CNN), 순환 신경망(Recurrent Neural Network, RNN), 장단기 기억망(Long Short Term Memory network, LTSM) 등이다. 상기 제1 메시지에 포함된 텍스트 내용을 상기 신경망 모델에 입력하는 것을 통하여, 텍스트 내용이 표명하는 언어 의사에 대하여 분류를 실행하는 것을 통하여, 상기 텍스트 내용이 표현하는 언어 의사 카테고리를 결정한다.
제1 메시지에 포함된 텍스트 내용에 여러 차원의 뜻이 포함될 수 있기 때문에, 자연어 처리 알고리즘을 이용하는 것을 통하여 사용자가 실제로 표현하고자 하는 의사를 식별할 수 있으며, 따라서 직접 상기 사용자가 참으로 취득하기를 원하는 내용을 피드백할 수 있으며, 사용자의 상호작용 체험을 향상시킨다.
일부 실시예에서, 상기 언어 의사에 기반하여 사전 설정된 데이터베이스에서 상기 언어 의사와 매칭되는, 상기 언어 의사에 부합되는 응답 내용을 검색할 수 있고, 또한 서버가 상기 응답 내용에 기반하여 상기 상호작용 객체가 상기 응답 내용을 표현하기 위해 사용되는 구동 데이터를 생성할 수 있다. 상기 데이터베이스는 상기 서버에 배치될 수 있고, 또한 클라우드단에 배치될 수도 있으며, 본 발명은 이에 대하여 제한하지 않는다.
언어 의사를 식별한 경우, 서버는 상기 텍스트 내용으로부터 상기 언어 의사와 관련된 파라미터 즉 실체를 추출할 수 있다. 예를 들면, 시스템 언어 분할, 정보 추출 등 방식을 통하여 실체를 결정할 수 있다. 상기 언어 의사 분류에 대응되는 데이터에서, 실체를 통하여 진일보로 상기 언어 의사에 부합되는 응답 텍스트를 결정할 수 있다. 당업자는 상기 방식은 단지 예시적일 뿐, 또한 기타 방식을 이용하여 상기 언어 의사와 매칭되는 응답 텍스트를 취득할 수 있음을 이해해야 하며, 본 발명은 이에 대하여 제한하지 않는다.
일부 실시예에서, 서버는 상기 응답 내용에 기반하여 음성 구동 데이터를 생성할 수 있고, 상기 음성 구동 데이터는 예를 들면 상기 응답 내용에 포함된 응답 텍스트에 대응되는 음소 시퀀스를 포함한다. 상기 음소 시퀀스에 대응되는 음성을 생성하고, 또한 상기 고객측이 출력하는 상기 음성을 제어하는 것을 통하여, 상기 상호작용 객체가 상기 응답 텍스트가 표명하는 내용을 표현하는 음성을 출력하도록 할 수 있다.
일부 실시예에서, 서버는 상기 응답 내용에 기반하여 동작 구동 데이터를 생성하여, 상기 상호작용 객체가 상기 응답 내용을 표현하는 동작을 수행하도록 할 수 있다.
일 예시에서, 응답 내용에 응답 텍스트가 포함된 경우, 하기 방식을 이용하여 상기 응답 내용에 기반하여 동작 구동 데이터를 생성할 수 있는 바, 즉 상기 응답 텍스트에 포함된 적어도 하나의 목표 텍스트에 기반하여, 상기 목표 텍스트와 매칭되는 상호작용 객체의 설정 동작의 제어 파라미터를 취득한다.
상기 목표 텍스트는 설정된 키캐릭터, 키워드, 키센텐스 등일 수 있다. 키워드 "손을 씻다"를 예를 들면, 상기 응답 텍스트에 "손을 씻다"가 포함된 경우, 응답 텍스트에 목표 텍스트가 포함되었다는 것을 결정할 수 있다. 사전에 각 목표 텍스트에 매칭되는 설정 동작을 설정 할수 있는 바, 각 설정 동작은 한 그룹의 제어 파라미터 시퀀스를 통하여 구현할 수 있는 바, 예를 들면 복수의 골격점의 변위가 한 그룹의 제어 파라미터를 형성하고, 복수 그룹의 제어 파라미터로 형성된 제어 파라미터 시퀀스를 이용하여 상기 상호작용 객체의 모델 파라미터를 조절함으로써, 상호작용 객체가 상기 설정 동작을 수행하도록 할 수 있다.
본 발명의 실시예에서, 상호작용 객체가 동작의 형식으로 제1 메시지에 대하여 응답을 실행하도록 하는 것을 통하여, 사용자가 제1 메시지에 대한 직관적이고 생동한 응답을 취득하도록 함으로써, 사용자의 상호작용 체험을 향상시킨다.
일부 실시예에서, 상기 목표 텍스트에 대응되는 음성 정보를 결정할 수 있으며; 상기 음성 정보를 출력하는 시간 정보를 취득하며; 상기 시간 정보에 기반하여 상기 목표 텍스트에 대응되는 설정 동작의 수행 시간을 결정하며; 상기 수행 시간에 기반하여 상기 목표 텍스트에 대응되는 제어 파라미터로 상기 상호작용 객체를 제어하여 상기 설정 동작을 수행한다.
상기 응답 텍스트에 대응되는 음소 시퀀스에 기반하여 상기 고객측을 제어하여 음성을 출력하는 경우, 상기 목표 텍스트에 대응되는 음성을 출력하는 시간 정보, 예를 들면 상기 목표 텍스트에 대응되는 음성 출력을 시작하는 시간, 출력을 종료하는 시간 및 지속 시간을 결정할 수 있다. 상기 시간 정보에 기반하여 상기 목표 텍스트에 대응되는 설정 동작의 수행 시간을 결정하고, 상기 수행 시간 내에, 또는 수행 시간의 일정 범위 내에, 상기 목표 텍스트에 대응되는 제어 파라미터를 통해 상기 상호작용 객체를 제어하여 상기 설정 동작을 수행한다.
본 발명의 실시예에서, 각 목표 텍스트에 있어서, 대응되는 음성을 출력하는 지속 시간과 대응되는 제어 파라미터에 기반하여 동작을 제어하는 지속 시간은 일치하거나 또는 근사하므로, 상호작용 객체가 목표 텍스트에 대응되는 음성을 출력하는 것과 동작을 수행하는 시간이 매칭되게 하며, 상호작용 객체의 음성과 동작이 동기화되고 조화롭게 함으로써, 사용자가 상기 상호작용 객체가 생방송 과정에 응답을 하는 느낌을 받도록 하여, 사용자의 생방송 과정에서 앵커와 상호작용을 실행하는 체험을 향상시킨다.
일부 실시예에서, 상기 응답 텍스트에 기반하여 자세 구동 데이터를 생성하여, 상기 고객측이 응답 텍스트에 대응되는 음성과 매칭되는 상기 상호작용 객체의 자세를 표시하도록 할 수 있는 바, 예를 들면 상응한 표정과 동작을 하도록 한다.
일 예시에서, 응답 내용은 또한 음소 시퀀스를 포함할 수 있거나, 또는 응답 내용에 응답 텍스트가 포함된 경우, 응답 텍스트에 대응되는 음소 시퀀스를 추출할 수도 있으며, 음소 시퀀스가 포함된 응답 내용을 취득한 후, 상기 음소 시퀀스와 매칭되는 상기 상호작용 객체에 사용되는 제어 파라미터를 취득할 수 있다. 상기 상호작용 객체의 제어 파라미터는 적어도 하나의 로컬 영역의 자세 제어 벡터를 포함하고, 상기 음소 시퀀스와 매칭되는 상호작용 객체의 제어 파라미터를 취득하는 것은, 상기 음소 시퀀스에 대하여 특성 코딩을 실행하여, 상기 음소 시퀀스에 대응되는 제1 코드 시퀀스를 취득하는 것; 상기 제1 코드 시퀀스에 기반하여 적어도 하나의 음소에 대응되는 특성 코드를 취득하는 것; 및 상기 특성 코드에 대응되는 상기 상호작용 객체의 적어도 하나의 로컬 영역의 자세 제어 벡터를 취득하는 것을 포함한다.
일부 실시예에서, 고객측을 제어하여 상기 응답 텍스트에 대응되는 음성을 재생하고 또한 고객측이 상기 음성과 매칭되는 상기 상호작용 객체의 자세의 응답 애니메이션을 표시하는 것을 통해, 상기 상호작용 객체의 응답이 더 의인화되고 더 생동하고 자연스럽게 함으로써, 사용자의 상호작용 체험을 향상시킨다.
상기 상호작용 객체의 제어 파라미터에 적어도 하나의 로컬 영역의 자세 제어 벡터가 포함된 실시예에서, 하기 방식을 통하여 자세 제어 벡터를 취득할 수 있다.
우선, 상기 응답 텍스트에 대응되는 상기 음소 시퀀스에 대하여 특성 코딩을 실행하여, 상기 음소 시퀀스에 대응되는 코드 시퀀스를 취득한다. 여기에서, 차후 언급되는 코드 시퀀스와 구분하기 위하여, 상기 텍스트 데이터의 음소 시퀀스에 대응되는 코드 시퀀스를 제1 코드 시퀀스로 칭한다.
상기 음소 시퀀스에 포함된 여러 가지 음소에 대하여, 각 음소에 대응되는 서브 음소 시퀀스를 생성한다.
일 예시에서, 각 시간점 상에 제1 음소가 대응되어 있는지 여부를 탐지하는 바, 상기 제1 음소는 상기 복수의 음소 중의 임의의 한 가지이며; 상기 제1 음소가 대응되어 있는 시간점 상의 코드값을 제1 수치로 설정하고, 상기 제1 음소가 대응되어 있지 않는 시간점 상의 코드값을 제2 수치로 설정하며, 각 시간점 상의 코드값에 대하여 값을 부여한 후 제1 음소에 대응되는 서브 코드 시퀀스를 취득할 수 있다. 예를 들면, 상기 제1 음소가 있는 시간점 상의 코드값을 1로 설정하고, 상기 제1 음소가 없는 시간점 상의 코드값을 0으로 설정할 수 있다. 당업계 기술자들은 상기 코드값의 설정이 단지 예시적일 뿐, 또한 코드값을 기타 값으로 설정할 수 있음을 이해해야 하며, 본 발명에서는 이에 대하여 제한하지 않는다.
그 후, 상기 여러 가지 음소에 각각 대응되는 서브 코드 시퀀스에 기반하여 상기 음소 시퀀스에 대응되는 제1 코드 시퀀스를 취득한다.
일 예시에서, 제1 음소에 대응되는 서브 코드 시퀀스에 대하여, 가우스 필터를 이용하여 상기 제1 음소의 시간 상의 연속적인 값에 대하여 가우스 합성곱 조작을 실행하여, 특성 코드에 대응되는 매트릭스에 대하여 필터링을 실행하고, 각 음소 전환 시 입 영역의 과도 동작을 평활화한다.
도 3은 본 발명의 적어도 한 실시예에서 제공하는 자세 제어 벡터를 취득하는 방법의 흐름도이다. 도 3에 도시된 바와 같이, 음소 시퀀스(310)는 음소 j, i1, j, ie4(간략화를 위하여, 단지 일부 음소만 표시)를 포함하고, 각 음소 j, i1, ie4에 대하여 각각 상기 각 음소와 각각 대응되는 서브 코드 시퀀스(321, 322, 323)를 취득한다. 각 서브 코드 시퀀스에서, 상기 음소가 있는 시간(도3 에서 초(s)를 시간 단위로 함) 상에 대응되는 코드값이 제1 수치(예를 들면 1)이고, 상기 음소가 없는 시간(도3 에서 초(s)를 시간 단위로 함) 상에 대응되는 코드값이 제2 수치(예를 들면 0)이다. 서브 코드 시퀀스(321)를 예로 들면, 음소 시퀀스(310)에서 음소 j가 있는 시간 상에서, 서브 코드 시퀀스(321)의 값은 제1 수치이고, 음소 j가 없는 시간 상에서, 서브 코드 시퀀스(321)의 값은 제2 수치이다. 모든 서브 코드 시퀀스가 제1 코드 시퀀스(320)를 구성한다.
이어, 상기 제1 코드 시퀀스에 기반하여 적어도 하나의 음소에 대응되는 특성 코드를 취득한다.
음소 j, i1, ie4에 각각 대응되는 서브 코드 시퀀스(321, 322, 323)의 코드값 및 해당 세 개의 서브 코드 시퀀스 중 대응되는 음소의 지속 시간, 즉 서브 코드 시퀀스(321) 중의 j의 지속 시간, 서브 코드 시퀀스(322) 중의 i1의 지속 시간, 서브 코드 시퀀스(323) 중의 ie4의 지속 시간에 기반하여 서브 코드 시퀀스(321, 322, 323)의 특성 정보를 취득할 수 있다.
일 예시에서, 가우스 필터를 이용하여 각각 서브 코드 시퀀스(321, 322, 323) 중의 음소 j, i1, ie4의 시간 상의 연속적인 값에 대하여 가우스 합성곱 조작을 실행하여, 특성 코드에 대하여 평활화를 실행하여 평활화 후의 제1 코드 시퀀스(330)를 취득할 수 있다. 즉 가우스 필터를 통하여 음소의 0-1의 시간 상의 연속적인 값에 대하여 가우스 합성곱 조작을 실행하여, 각 코드 시퀀스 중 코드값의 제2 수치로부터 제1 수치까지 또는 제1 수치로부터 제2 수치까지의 변화 단계가 평활되게 한다. 예를 들면, 코드 시퀀스의 값이 0과 1을 제외하한 중간 상태의 값, 예를 들면 0.2, 0.3 등도 나타내는 바, 이러한 중간 상태의 값에 기반하여 취득한 자세 제어 벡터는 상호작용 인물의 동작 과도, 표정 변화 등이 더 부드럽고 자연스럽게 함으로써, 목표 객체의 상호작용 체험을 향상시킨다.
일부 실시예에서, 상기 제1 코드 시퀀스 상에서 슬라이딩 윈도우를 실행하는 방식을 통하여 적어도 하나의 음소에 대응되는 특성 코드를 취득할 수 있다. 상기 제1 코드 시퀀스는 가우스 합성곱 조작 후의 코드 시퀀스일 수 있다.
길이를 설정한 타임 윈도우와 스탭 설정으로, 상기 코드 시퀀스에 대하여 슬라이딩 윈도우를 실행하여, 상기 타임 윈도우 내의 특성 코드를 대응되는 적어도 하나의 음소의 특성 코드로 사용하여, 슬라이딩 윈도우를 완성한 후, 취득한 복수의 특성 코드에 기반하여 제2 코드 시퀀스를 취득할 수 있다. 도3에 도시된 바와 같이, 제1 코드 시퀀스(320) 또는 평활화 후의 제1 코드 시퀀스(330) 를 통해 설정 길이의 타임 윈도우를 슬라이딩시시켜, 각각 특성 코드1, 특성 코드2, 특성 코드3을 취득하고, 이렇게 유추하며, 제1 코드 시퀀스를 트래버스한 후, 특성 코드 1, 2, 3, …, M을 취득하며, 따라서 제2 코드 시퀀스(340)를 취득한다. M은 자연수이고, 그 수치는 제1 코드 시퀀스의 길이, 타임 윈도우의 길이 및 타임 윈도우 슬라이딩 스탭 길이에 기반하여 결정된다.
특성 코드 1, 2, 3, …, M에 기반하여 각각 상응한 자세 제어 벡터 1, 2, 3, …, M을 취득하여, 자세 제어 벡터의 시퀀스(350)를 취득한다.
자세 제어 벡터의 시퀀스(350)와 제2 코드 시퀀스(340)는 시간 상에서 정렬되는 것이고, 상기 제2 코드 시퀀스 중의 각 코드 특성은 음소 시퀀스 중의 적어도 하나의 음소에 기반하여 취득한 것이기 때문에, 자세 제어 벡터의 시퀀스(350) 중의 각 특성 벡터도 마찬가지로 음소 시퀀스 중의 적어도 하나의 음소에 기반하여 취득한 것이다. 텍스트 데이터에 대응되는 음소 시퀀스를 재생하는 동시에, 상기 자세 제어 벡터의 시퀀스에 기반하여 상기 상호작용 객체를 구동시켜 동작을 수행하는 바, 즉 상호작용 객체를 구동시켜 텍스트 내용에 대응되는 음성을 내는 것을 구현하는 동시에, 음성과 동기화되는 동작을 수행하여, 목표 객체에게 상기 상호작용 객체가 말을 하고 있는 느낌을 주어, 목표 객체의 상호작용 체험을 향상시킨다.
첫 번째 타임 윈도우의 설정 시각부터 시작하여 코드 특성을 출력한다고 가정하면, 상기 설정 시각 전의 자세 제어 벡터를 디폴트값으로 설정할 수 있는 바, 즉 음소 시퀀스를 재생하기 시작할 때, 상기 상호작용 객체가 디폴트 동작을 수행하도록 하고, 상기 설정 시각 후부터 제1 코드 시퀀스에 기반하여 취득한 자세 제어 벡터의 시퀀스를 이용하여 상기 상호작용 객체를 구동시켜 동작을 수행하도록 할 수 있다. 도 3을 예로 들면, t0 시각부터 시작하여 코드 특징1을 출력하고, t0 시각 전에 대응되는 것은 기본 자세 제어 벡터이다.
일부 실시예에서, 상기 음소 시퀀스 중 음소 간의 시간 간격이 설정 역치보다 큰 경우, 상기 로컬 영역의 설정 자세 제어 벡터에 기반하여 상기 상호작용 객체를 구동시켜 동작을 수행한다. 즉 상호작용 인물이 말을 멈춘 시간이 비교적 길 때, 상호작용 객체를 구동시켜 설정된 동작을 수행한다. 예를 들면, 출력하는 음성의 정지가 비교적 길 때, 상호작용 인물이 미소를 짓는 표정을 취하도록 하거나, 또는 신체를 가볍게 흔들게 하여, 비교적 길게 정지할 때 상호작용 인물이 무표정하게 서있는 것을 방지함으로써, 상호작용 객체의 말하는 과정이 자연스럽고 유창하게 하여, 목표 객체의 상호작용 체험을 향상시킨다.
일부 실시예에서, 상기 응답 텍스트에 포함된 적어도 하나의 목표 텍스트에 대하여, 상기 적어도 하나의 목표 텍스트와 매칭되는 상호작용 객체의 설정 동작을 위한 제어 파라미터를 취득하여, 상기 상호작용 객체를 구동시켜 상기 설정 동작을 수행하며; 상기 적어도 하나의 목표 텍스트 이외의 응답 내용에 대하여, 상기 응답 내용에 대응되는 음소에 기반하여 상기 상호작용 객체의 제어 파라미터를 취득하여, 상기 상호작용 객체를 구동시켜 상기 응답 내용의 발음과 매칭되는 자세, 예를 들면 표정과 동작을 수행할 수 있다.
도2 에 도시된 생방송 과정을 예로 들면, 수신된 제1 메시지에 텍스트 내용에 "어떻게 손을 씻나요”가 포함된 경우, 자연어 처리 알고리즘을 통하여 사용자의 언어 의사가 “어떻게 손을 씻는 지를 묻는다"라는 것을 식별할 수 있다. 사전 설정된 데이터베이스에서 검색을 실행하는 것을 통하여, "어떻게 손을 씻나요”에 대답하는 것에 부합되는 내용을 취득하고, 또한 해당 내용을 응답 텍스트로 확정할 수 있다. 상기 응답 텍스트에 기반하여 동작 구동 데이터, 음성 구동 데이터, 자세 구동 데이터를 생성하는 것을 통하여, 상기 상호작용 객체가 음성을 통하여 "어떻게 손을 씻나요”의 문제를 대답하는 동시에, 발음과 매칭되는 표정, 동작을 수행하도록 하고, 또한 아울러 지체 동작을 사용하여 어떻게 손을 씻는지 시범을 보일 수 있다.
일부 실시예에서, 또한 상기 고객측으로 상기 응답 텍스트가 포함된 지시 정보를 송신하여, 상기 고객측이 상기 지시 정보에 기반하여 상기 응답 텍스트를 표시하도록 한다.
예를 들면, "어떻게 손을 씻나요” 이 문제를 응답하는 응답 텍스트에 대하여, 상기 응답 텍스트가 포함된 지시 정보를 고객측으로 송신하는 것을 통하여, 상기 고객측에서 텍스트의 형식으로 상기 지시 내용을 표시하여, 사용자가 더 정확하게 상호작용 객체가 전달하는 정보를 수신하도록 할 수 있다.
일부 실시예에서, 상기 상호작용 객체에 대응되는 가상 모델(가상 모델은 2차원 가상 모델일 수도 있고 또한 3차원 가상 모델일 수도 있음)은 고객측에 저장될 수 있다. 이러한 경우, 상기 상호작용 객체의 구동 데이터를 상기 고객측으로 송신하여, 상기 고객측이 구동 데이터에 기반하여 응답 애니메이션을 생성하도록 하며; 상기 고객측을 제어하여 상기 응답 애니메이션을 재생할 수 있다. 예를 들면, 상기 고객측을 제어하여 상기 구동 데이터에 포함된 구동 데이터에 기반하여 상기 상호작용 객체의 가상 모델 파라미터를 조절할 수 있으며; 또한 조절 후의 가상 모델 파라미터에 기반하여, 렌더링 엔진을 이용하여 상기 상호작용 객체의 응답 애니메이션을 생성하고, 또한 상기 응답 애니메이션을 재생하여 상기 제1 메시지에 대하여 응답할 수 있다. 가상 모델이 2차원 가상 모델인 경우, 가상 모델 파라미터가 2차원 가상 모델 파라미터이고, 가상 모델이 3차원 가상 모델인 경우, 가상 모델 파라미터가 3차원 가상 모델 파라미터이다. 또 예를 들면, 서버는 구동 데이터에 기반하여, 상호작용 객체의 응답 방식을 제어하기 위한 제어 명령을 결정하고, 또한 고객측으로 상기 제어 명령을 송신하여, 상기 고객측이 상기 제어 명령에 기반하여 응답을 실행하는 상호작용 객체의 화면을 표시하도록 할 수 있다.
상호작용 객체의 가상 모델의 데이터 량이 비교적 적고, 고객측에 대한 성능 점용이 높지 않은 경우, 상기 구동 데이터를 상기 고객측으로 송신하는 것을 통하여, 상기 고객측이 상기 구동 데이터에 기반하여 응답 애니메이션을 생성하도록 하여, 응답을 실행하는 상호작용 객체의 화면을 간편하고 유연하게 표시할 수 있다.
일부 실시예에서, 상기 상호작용 객체에 대응되는 가상 모델은 서버단 또는 클라우드단에 저장된다. 이 경우, 상기 구동 데이터에 기반하여, 상기 상호작용 객체의 가상 모델 파라미터를 조절하며; 조절 후의 가상 모델 파라미터에 기반하여, 렌더링 엔진을 이용하여 상기 상호작용 객체의 응답 애니메이션을 생성하고, 또한 상기 고객측으로 상기 응답 애니메이션을 송신하고, 상기 응답 애니메이션에 상기 상호작용 객체의 동작 또는 표정을 표시할 수 있다. 상기 응답 애니메이션을 고객측으로 송신하는 것을 통하여 상기 상호작용 객체의 응답을 구현하여, 고객측이 렌더링을 실행할 때 초래되는 멈춤을 방지할 수 있고, 또한 고객측에 고품질의 응답 애니메이션을 표시할 수 있음으로써, 사용자의 상호작용 체험을 향상시킨다.
도 4는 본 발명의 적어도 한 실시예에 의한 다른 일 상호작용 방법의 흐름도이다. 해당 상호작용 방법은 고객측에 적용될 수 있다. 상기 방법은 401 ~ 402 단계를 포함한다.
401 단계에서, 고객측으로부터 오는 사용자 입력 조작에 응답하여, 지시 내용이 포함된 제1 메시지를 서버에 송신한다.
예시적으로, 사용자 입력 조작은 텍스트 입력 조작, 음성 입력 조작, 동작 트리거 조작, 버튼 트리거 조작 등을 포함하고, 상기 사용자 입력 조작에 응답하여, 서버로 제1 메시지를 송신하며, 제1 메시지에 포함된 지시 내용은 텍스트, 음성, 이미지(예를 들면 표정, 동작 이미지), 비디오 중의 한 가지 또는 여러 가지를 포함하나 이에 제한하지 않는다. 예를 들면, 비디오 생방송 시나리오 하에서, 상기 고객측은 비디오 생방송 관람 기능을 지원하는 고객측일 수 있고, 상기 제1 메시지는 고객측에서 사용자가 디스플레이 화면에 입력한 텍스트 내용을 채집한 후 송신될 수 있으며, 제1 메시지에 포함된 지시 내용은 예를 들면 입력된 텍스트 내용이고, 또한 해당 지시 내용은 불릿 스크린의 형식으로 디스플레이 화면에 표시될 수 있다. 또 예를 들면, 체감 상호작용 시나리오 하에서, 상기 제1 메시지는 고객측에서 사용자 행동 이미지를 채집한 후 송신될 수 있고, 제1 메시지에 포함된 지시 내용은 예를 들면 채집된 사용자 행동 이미지이다 구체적인 실시에서 본 발명은 제1 메시지의 송신 매커니즘 및 제1 메시지에 포함된 지시 내용의 형식에 대하여 제한하지 않음은 물론이다.
402 단계에서, 상기 서버가 상기 제1 메시지에 대하여 응답하는 제2 메시지에 기반하여, 상기 고객측의 디스플레이 화면에 상기 상호작용 객체의 응답 애니메이션을 재생한다.
상기 제2 메시지는 상기 서버가 상기 제1 메시지에 포함된 지시 내용에 응답하여 생성한 것이고, 상기 고객측이 상기 지시 내용에 대하여 실행하는 응답의 상호작용 객체를 표시하도록 하기 위한 것이다.
본 발명의 실시예에서, 상기 상호작용 객체는 가상 모델 예를 들면 2차원 또는 3차원 가상 모델에 대하여 렌더링을 실행하여 취득한 것이다. 상기 가상 모델은 자체 정의에 의하여 생성한 것일 수 있고, 또한 한 역할의 이미지 또는 비디오에 대하여 전환을 실행하여 취득한 것일 수 있다. 본 발명의 실시예는 가상 모델의 생성 방식에 대하여 제한하지 않는다.
본 발명의 실시예에서, 사용자 입력 조작에 기반하여 서버로 지시 내용이 포함된 제1 메시지를 송신하고, 상기 서버가 상기 제1 메시지에 응답하는 제2 메시지에 기반하여, 고객측에 상호작용 객체가 상기 지시 내용에 대하여 실행하는 응답을 표시하여, 상호작용 객체가 사용자의 지시 내용에 대하여 제때에 피드백을 실행하도록 하고, 사용자와의 적시적인 상호작용을 구현한다.
일부 실시예에서, 상기 지시 내용은 텍스트 내용을 포함는 것; 상기 고객측에 상기 텍스트 내용을 표시하는 것, 및/또는 상기 텍스트 내용에 대응되는 오디오 파일을 재생하는 것을 포함한다. 즉 고객측에 사용자가 입력한 텍스트 내용을 표시할 수 있으며; 또한 고객측에서 상기 텍스트 내용에 대응되는 오디오 파일을 재생하고, 상기 텍스트 내용에 대응되는 음성을 출력할 수 있다.
일부 실시예에서, 상기 고객측에 상기 텍스트 내용을 표시하는 것은, 상기 텍스트 내용의 불릿 스크린 정보를 생성하는 것; 및 상기 고객측의 디스플레이 화면에 상기 불릿 스크린 정보를 표시하는 것을 포함한다.
비디오 생방송 시나리오 하에서, 사용자가 입력한 텍스트 내용에 대하여, 대응되는 불릿 스크린 정보를 생성하고, 또한 고객측의 디스플레이 화면에 상기 불릿 스크린 정보를 표시할 수 있다. 도2 를 예로 들면, 사용자가 고객측의 생방송 상호작용 화면에 "어떻게 손을 씻나요”를 입력한 경우, 디스플레이 화면에 해당 텍스트 내용에 대응되는 불릿 스크린 정보인 "어떻게 손을 씻나요”를 표시한다.
일부 실시예에서, 상기 제2 메시지에 상기 지시 내용에 대한 응답 텍스트를 포함하거나, 또는, 상기 방법은 또한, 상기 고객측의 디스플레이 화면에 상기 응답 텍스트를 표시하는 것, 및/또는 및/또는 상기 응답 텍스트에 대응되는 오디오 파일을 결정 및 재생시키는 것을 포함한다.
상기 지시 내용의 응답 텍스트는 하기 방식을 통하여 취득할 수 있는 바, 즉 상기 텍스트 내용이 표현하는 언어 의사를 식별하고, 또한 사전 설정된 데이터베이스에서 상기 언어 의사와 매칭되는 응답 텍스트를 검색한다. 구체적인 방법은 상기 실시예에 기재된 내용을 참조할 수 있으며, 여기에서는 상세한 설명을 생략하도록 한다.
비디오 생방송 시나리오를 예로 들면, 디스플레이 화면에 마찬가지로 불릿 스크린의 형식으로 사용자의 불릿 스크린 정보에 대하여 대답한 응답 텍스트를 표시할 수 있으며; 또한 디스플레이 화면에 상기 응답 텍스트에 대응되는 오디오 파일을 재생할 수 있는 바, 즉 상기 응답 텍스트에 대응되는 음성을 출력하여, 사용자의 불릿 스크린 정보에 대하여 정확하고 직관적인 대답을 실행하고, 사용자의 상호작용 체험을 향상시킨다.
일부 실시예에서, 상기 제2 메시지는 상기 응답 텍스트에 대응되는 음소 시퀀스와 매칭되는 상기 상호작용 객체의 제어 파라미터, 및/또는 상기 응답 텍스트에 포함된 적어도 하나의 목표 텍스트와 매칭되는 상기 상호작용 객체의 설정 동작의 제어 파라미터를 포함하며; 상기 서버가 상기 제1 메시지에 대하여 응답하는 제2 메시지에 기반하여, 상기 고객측의 디스플레이 화면에 상기 상호작용 객체의 응답 애니메이션을 재생하는 것은, 상기 구동 데이터에 기반하여, 상기 상호작용 객체의 가상 모델 파라미터를 조절하는 것; 및 조절 후의 가상 모델 파라미터에 기반하여, 렌더링 엔진을 이용하여 상기 상호작용 객체의 응답 애니메이션을 생성하고, 또한 상기 고객측의 디스플레이 화면에 표시하는 것을 포함한다. 상기 응답 텍스트에 대응되는 음소 시퀀스와 매칭되는 상기 상호작용 객체의 제어 파라미터를 생성하며, 및/또는 상기 응답 텍스트에 포함된 적어도 하나의 목표 텍스트와 매칭되는 상기 상호작용 객체의 설정 동작의 제어 파라미터를 생성하는 구체적인 방법은, 상기 실시예에 기재된 내용을 참조할 수 있으며, 여기에서는 상세한 설명을 생략하도록 한다.
상호작용 객체의 가상 모델의 데이터 량이 비교적 적고, 고객측에 대한 성능 점용이 높지 않은 경우, 상기 고객측이 상기 구동 데이터를 취득하고, 또한 상기 구동 데이터에 기반하여 응답 애니메이션을 생성하도록 하여, 응답을 실행하는 상호작용 객체의 화면을 간편하고 유연하게 표시할 수 있다.
일부 실시예에서, 상기 제2 메시지는 또한 상기 상호작용 객체가 상기 지시 내용에 대하여 생성하는 응답 애니메이션을 포함하며; 상기 서버가 상기 제1 메시지에 대하여 응답하는 제2 메시지에 기반하여, 상기 고객측의 디스플레이 화면에 상기 상호작용 객체의 응답 애니메이션을 재생하는 것은, 상기 고객측의 디스플레이 화면에 상기 응답 애니메이션을 표시하는 것을 포함한다.
일부 실시예에서, 상기 상호작용 객체에 대응되는 가상 모델은 서버단 또는 클라우드단에 저장된다. 이 경우, 서버단 또는 클라우드단에서 응답 애니메이션을 생성할 수 있다. 응답 애니메이션을 생성하는 구체적인 방식은 상기 실시예를 참조할 수 있으며, 여기에서는 상세한 설명을 생략하도록 한다.
상기 응답 애니메이션을 고객측으로 송신하는 것을 통하여 상기 상호작용 객체의 응답을 구현하는 것을 통하여, 고객측이 렌더링을 실행할 때 초래되는 멈춤을 방지할 수 있고, 또한 고객측에 고품질의 응답 애니메이션을 표시할 수 있음으로써, 사용자의 상호작용 체험을 향상시킨다.
일부 실시예에서, 상기 사용자의 입력 조작은, 상기 사용자가 상기 디스플레이 화면에 표시되는 지체 조작 화면에 따라 상응한 인체 자세를 나타내는 것을 포함하거나, 또는, 해당 경우, 고객측으로부터 오는 사용자 입력 조작에 응답하는 것은, 상기 인체 자세를 포함하는 사용자 행동 이미지를 취득하는 것; 상기 사용자 행동 이미지 중의 인체 자세 정보를 식별하는 것; 및 상기 인체 자세 정보에 기반하여, 상기 디스플레이 화면에 표시된 상호작용 객체가 응답을 실행하도록 하는 것을 포함한다.
일부 실시예에서, 상기 인체 자세 정보에 기반하여, 상기 디스플레이 화면에 표시된 상호작용 객체가 응답을 실행하도록 하는 것은, 상기 인체 자세 정보와 상기 지체 조작 화면 내의 인체 자세의 매칭도를 결정하는 것; 상기 매칭도에 기반하여, 상기 디스플레이 화면에 표시된 상호작용 객체를 구동시켜 응답을 실행하도록 하는 것을 포함한다.
일부 실시예에서, 상기 매칭도에 기반하여, 상기 상호작용 객체를 구동시켜 응답을 실행하도록 하는 것은, 상기 매칭도가 설정 조건에 도달한 경우, 상기 디스플레이 화면에 표시된 상호작용 객체가 제1 응답을 실행하도록 지시하는 것 - 상기 제1 응답은 자세가 합격되었다는 것을 나타내는 지체 동작 및/또는 음성 프롬프트를 포함함 -; 및 다음 지체 조작 화면을 표시하는 것을 포함하거나, 또는, 상기 매칭도가 설정 조건에 도달하지 못한 경우, 상기 디스플레이 화면에 표시된 상호작용 객체가 제2 응답을 실행하도록 지시하는 것, - 상기 제2 응답은 자세가 합격되지 않았다는 것을 나타내는 지체 동작 및/또는 음성 프롬프트를 포함함 -; 및 현재의 지체 조작 화면을 표시하는 것을 유지하는 것을 포함한다.
예시적으로, 하기는 본 발명의 실시예가 비디오 생방송 플랫폼에 적용되는 시나리오 하의 일부 실시예이다.
일부 실시예에서, 수신된 고객측으로부터 오는 제1 메시지는 생방송 플랫폼이 전송하는 사용자 불릿 스크린 텍스트이다.
일부 실시예에서, 자연어 처리 알고리즘을 통하여 불릿 스크린의 의사를 분석한 후, 대응되는 회답을 취득하고, 그 후 상호작용 객체를 통하여 상기 회답의 내용을 방송한다. 또한 상호작용 객체를 통하여 상기 회답의 내용에 대응되는 동작을 표시할 수 있다.
일부 실시예에서, 직접 고객측의 자연어 처리 능력을 통합시켜, 상기 제1 메시지에 포함된 지시 내용에 대하여 자연어 처리를 실행하여, 상기 지시 내용의 언어 의사와 매칭되며, 상기 언어 의사에 부합되는 응답 텍스트를 취득하고, 또한 출력된 상기 응답 텍스트에 대응되는 텍스트를 직접 상호작용 객체에 제공하여 방송을 실행한다.
일부 실시예에서, 상호작용 객체는 사용자의 이야기 내용을 모방할 수 있다. 예를 들면, 사용자가 고객측을 통하여 입력한 음성에 대하여, 상기 음성을 텍스트로 전환시키고, 또한 음성에 기반하여 상기 사용자의 음성 특성을 취득하며, 또한 상기 음성 특성에 기반하여 텍스트에 대응되는 음성을 출력하는 바, 즉 상호작용 객체가 사용자의 이야기 내용을 모방하는 것을 구현할 수 있다.
일부 실시예에서, 상호작용 객체는 또한 자연어 처리가 리턴한 내용에 기반하여 페이지 표시를 실행할 수 있고, 사전 설계된 표시하여야 하는 내용 및 상호작용 방식에 따라 UI 내용을 디스플레이 하여 표시할 수 있음으로써, 응답 내용의 표시가 더 눈을 끌고 사용자의 주의력을 흡인한다.
상기 실시예에서 실시간 상호작용을 생방송 할 수 있고, 생방송 과정에서, 사용자는 상호작용 객체와 실시간 상호작용을 실행하며 피드백을 받을 수 있다. 또한 연속 생방송을 실행할 수 있고, 또한 자동으로 비디오 내용을 생성할 수 있는 바, 새로운 비디오 생방송 방식이다.
예시적으로, 상호작용 객체는 3차원 형식의 디지털 인간으로 표시될 수 있다. 디지털 인간은 인공지능(Artificial Intelligence, AI) 시뮬레이션 애니메이션 생성 능력과 자연어 이해 능력을 결부시켜, 실제 인간과 같이 소리와 모양이 모두 근사하게 사용자와 교류를 실행할 수 있다. 디지털 인간은 응답 내용에 기반하여 상응한 입 모양, 표정, 시선 및 전신 동작을 생성하고, 최종적으로 고품질, 오디오와 비디오가 동기화된 음성과 다차원 애니메이션을 출력하여, 완전한 디지털 인간 형상을 자연스럽게 사용자에게 보여줄 수 있다.
일부 실시예에서, 서로 다른 지식 분야의 내용 서비스 라이브러리와 빠르게 접속하여, 고효율적으로 더 많은 업계에 적용할 수 있으며, 아울러 서로 다른 시나리오 수요에 대하여 초현실, 만화 등 여러 가지 스타일의 디지털 인간 형상을 제공할 수 있고, 안면 인식, 제스처 식별 등 AI 기술을 통하여 사용자와 스마트 상호작용을 실행할 수 있다. 예를 들면, 초현실 스타일의 디지털 인간은 은행, 비즈니스 홀, 서비스 홀의 스마트 프런트를 구현하여, 고객과 진실하고 효과적인 접촉을 실행하여, 서비스 품질과 고객 만족도를 향상시킬 수 있다.
일부 실시예에서, 만화 스타일의 디지털 인간은 취미 상호작용지향의 시나리오에 적용될 수 있는 바, 예를 들면 오프라인 상점의 스마트 안내원 또는 스마트 코치, 가상 교사 등이며, 고객 유치, 흥미 유발, 수업 효과 향상 등 목적을 이룰 수 있다.
본 발명의 적어도 일 실시예에서는 또한 일 상호작용 장치를 제공하는 바, 서버에 적용될 수 있다. 도5 에 도시된 바와 같이, 상기 장치(50)는, 고객측으로부터 오는 제1 메시지를 수신하는 수신 유닛(501); 상기 제1 메시지에 포함된 지시 내용에 기반하여 상기 지시 내용과 매칭되는 구동 데이터를 취득하는 취득 유닛(502); 및 상기 구동 데이터를 이용하여, 상기 고객측의 디스플레이 화면을 제어하여 상기 상호작용 객체의 응답 애니메이션을 재생하도록 하는 구동 유닛(503)을 포함한다.
일부 실시예에서, 취득 유닛(502)은, 상기 지시 내용에 대한 응답 내용을 취득하는 바, 상기 응답 내용은 응답 텍스트를 포함하며; 상기 응답 텍스트에 포함된 적어도 하나의 목표 텍스트에 기반하여, 상기 목표 텍스트와 매칭되는 상호작용 객체의 설정 동작의 제어 파라미터를 취득한다.
일부 실시예에서, 취득 유닛(502)은, 상기 지시 내용에 대한 응답 내용을 취득하는 바, 상기 응답 내용은 음소 시퀀스를 포함하며; 상기 음소 시퀀스와 매칭되는 상기 상호작용 객체의 제어 파라미터를 취득한다.
일부 실시예에서, 상기 상호작용 객체의 제어 파라미터는 적어도 하나의 로컬 영역의 자세 제어 벡터를 포함하고, 상기 취득 유닛(502)은 상기 음소 시퀀스와 매칭되는 상호작용 객체의 제어 파라미터를 취득할 때, 상기 음소 시퀀스에 대하여 특성 코딩을 실행하여, 상기 음소 시퀀스에 대응되는 제1 코드 시퀀스를 취득하며; 상기 제1 코드 시퀀스에 기반하여 적어도 하나의 음소에 대응되는 특성 코드를 취득하며; 상기 특성 코드에 대응되는 상기 상호작용 객체의 적어도 하나의 로컬 영역의 자세 제어 벡터를 취득한다.
일부 실시예에서, 상기 장치는 또한, 상기 고객측으로 상기 지시 내용에 대한 응답 내용을 포함한 지시 정보를 송신하여, 상기 고객측이 상기 지시 정보에 기반하여 상기 응답 내용을 표시하도록 하는 송신 유닛을 포함한다.
일부 실시예에서, 구동 유닛(503)은, 상기 상호작용 객체의 구동 데이터를 상기 고객측으로 송신하여, 상기 고객측이 구동 데이터에 기반하여 응답 애니메이션을 생성하도록 하며; 상기 고객측을 제어하여 디스플레이 화면에 상기 응답 애니메이션을 재생하도록 하며; 또는 상기 구동 데이터에 기반하여, 상기 상호작용 객체의 2차원 또는 3차원 가상 모델 파라미터를 조절하며; 조절 후의 2차원 또는 3차원 가상 모델 파라미터에 기반하여, 렌더링 엔진을 이용하여 상기 상호작용 객체의 응답 애니메이션을 생성하고, 또한 상기 고객측으로 상기 응답 애니메이션을 송신한다.
본 발명의 적어도 일 실시예에서는 또한 다른 일 상호작용 장치를 제공하는 바, 고객측에 적용될 수 있다. 도6 에 도시된 바와 같이, 상기 장치(60)는, 고객측으로부터 오는 사용자 입력 조작에 응답하여, 서버로 지시 내용이 포함된 제1 메시지를 송신하는 송신 유닛(601); 및 상기 서버가 상기 제1 메시지에 대하여 응답하는 제2 메시지에 기반하여, 상기 고객측의 디스플레이 화면에 상기 상호작용 객체의 응답 애니메이션을 재생하는 재생 유닛(602)을 포함한다. 상기 상호작용 객체는 가상 모델 예를 들면 2차원 또는 3차원 가상 모델에 대하여 렌더링을 실행하여 취득한 것이다.
일부 실시예에서, 상기 지시 내용은 텍스트 내용을 포함하며; 상기 장치는 또한, 상기 고객측의 디스플레이 화면에 상기 텍스트 내용을 표시하며, 및/또는 상기 텍스트 내용에 대응되는 오디오 파일을 결정 및 재생하는 제1 표시 유닛을 포함한다.
일부 실시예에서, 상기 제1 표시 유닛은 상기 고객측에 상기 텍스트 내용을 표시할 때, 구체적으로 상기 텍스트 내용의 불릿 스크린 정보를 생성하며; 상기 고객측의 디스플레이 화면에 상기 불릿 스크린 정보를 표시하는 데에 사용된다.
일부 실시예에서, 상기 제2 메시지에 상기 지시 내용에 대한 응답 텍스트를 포함하며; 상기 장치는 또한, 상기 고객측의 디스플레이 화면에 상기 응답 텍스트를 표시하며, 및/또는 상기 응답 텍스트에 대응되는 오디오 파일을 결정 및 재생시키는 데에 사용되는 제2 표시 유닛을 포함한다.
일부 실시예에서, 상기 제2 메시지는 상기 상호작용 객체의 구동 데이터를 포함하며; 상기 재생 유닛(602)은, 상기 구동 데이터에 기반하여, 상기 상호작용 객체의 가상 모델 파라미터를 조절하며; 조절 후의 가상 모델 파라미터에 기반하여, 렌더링 엔진을 이용하여 상기 상호작용 객체의 응답 애니메이션을 생성하고, 또한 상기 고객측의 디스플레이 화면에 표시하며; 상기 구동 데이터는 상기 지시 내용에 대한 응답 텍스트에 대응되는 음소 시퀀스와 매칭되며 상기 상호작용 객체에 사용되는 제어 파라미터, 및/또는 상기 응답 텍스트에 포함된 적어도 하나의 목표 텍스트와 매칭되는 상기 상호작용 객체의 설정 동작의 제어 파라미터를 포함한다.
일부 실시예에서, 상기 제2 메시지에 상기 상호작용 객체가 상기 지시 내용에 대하여 생성하는 응답 애니메이션을 포함한다.
일부 실시예에서, 상기 사용자의 입력 조작은, 상기 사용자가 상기 디스플레이 화면에 표시되는 지체 조작 화면에 따라 상응한 인체 자세를 나타내는 것을 포함하거나, 또는, 생성 유닛(601)은, 상기 인체 자세를 포함하는 사용자 행동 이미지를 취득하는 것; 상기 사용자 행동 이미지 중의 인체 자세 정보를 식별하는 것; 및 상기 인체 자세 정보에 기반하여, 상기 디스플레이 화면에 표시된 상호작용 객체가 응답을 실행하도록 하는 것을 포함한다.
일부 실시예에서, 생성 유닛(601)은 구체적으로, 상기 인체 자세 정보와 상기 지체 조작 화면 내의 인체 자세의 매칭도를 결정하며; 상기 매칭도에 기반하여, 상기 디스플레이 화면에 표시된 상호작용 객체를 구동시켜 응답을 실행하도록 한다.
일부 실시예에서, 생성 유닛(601)은 구체적으로, 상기 매칭도가 설정 조건에 도달한 경우, 상기 디스플레이 화면에 표시된 상호작용 객체가 제1 응답을 실행하도록 지시하는 바, 상기 제1 응답은 자세가 합격되었다는 것을 나타내는 지체 동작 및/또는 음성 프롬프트를 포함하며; 또한 다음 지체 조작 화면을 표시하며; 상기 매칭도가 설정 조건에 도달하지 못한 경우, 상기 디스플레이 화면에 표시된 상호작용 객체가 제2 응답을 실행하도록 지시하는 바, 상기 제2 응답은 자세가 합격되지 않았다는 것을 나타내는 지체 동작 및/또는 음성 프롬프트를 포함하며; 또한 현재의 지체 조작 화면을 표시하는 것을 유지한다.
본 발명의 적어도 일 실시예에서는 또한 일 전자 장치를 제공하는 바, 도7 에 도시된 바와 같이, 전자 장치(70)는 메모리(701)와 프로세서(702)를 포함하고, 상기 메모리(701)는 상기 프로세서(702) 상에서 수행될 수 있는 컴퓨터 명령을 저장하기 위한 것이고, 상기 프로세서(702)는 상기 컴퓨터 명령을 수행할 때 본 발명의 서버 실시예 관련의 상기 상호작용 방법을 구현하기 위한 것이다.
본 발명의 적어도 일 실시예에서는 또한 컴퓨터 판독 가능 기억 매체를 제공하는 바, 이는 컴퓨터 프로그램을 저장하고, 상기 프로그램이 프로세서(701)에 의하여 수행될 때 본 발명의 서버 실시예 관련의 상기 상호작용 방법을 구한다.
본 발명의 적어도 일 실시예에서는 또한 일 전자 장치를 제공하는 바, 도8 에 도시된 바와 같이, 전자 장치(80)는 메모리(801)와 프로세서(802)를 포함하고, 상기 메모리(801)는 상기 프로세서(802) 상에서 수행될 수 있는 컴퓨터 명령을 저장하기 위한 것이고, 상기 프로세서(802)는 상기 컴퓨터 명령을 수행할 때 본 발명의 고객측 실시예 관련의 상기 상호작용 방법을 구현하기 위한 것이다.
본 발명의 적어도 일 실시예에서는 또한 컴퓨터 판독 가능 기억 매체를 제공하는 바, 이는 컴퓨터 프로그램을 저장하고, 상기 프로그램이 프로세서(802)에 의하여 수행될 때 본 발명의 고객측 실시예에 관련된 상기 상호작용 방법을 구현한다.
당업자는 본 발명의 하나 또는 복수의 실시예가 방법, 시스템 또는 컴퓨터 프로그램 제품으로 제공될 수 있음을 이해해야 한다. 따라서, 본 발명의 하나 또는 복수의 실시예는 완전한 하드웨어 실시예, 완전한 소프트웨어 실시예 또는 소프트웨어와 하드웨어를 조합시킨 실시예의 형식을 채용할 수 있다. 또한, 본 발명의 하나 또는 복수의 실시예는 하나 또는 복수개의 그 중에 컴퓨터 사용 가능한 프로그램 코드를 포함하는 컴퓨터 이용 가능한 기억 매체(disk memory, CD-ROM, 광학 메모리 등을 포함하지만, 이에 한정되지 않음) 상에서 실시되는 컴퓨터 프로그램 제품의 형식을 사용할 수 있다.
본 발명 중의 각 실시예는 모두 점진적인 방식을 사용하여 설명하였고, 각 실시예들 사이의 동일 또는 유사한 부분은 상호 참조할 수 있고, 각 실시예에서 치중하여 설명하는 것은 모두 기타 실시예와 다른 부분이다. 특히 데이터 처리 장치 실시예에 대하여, 방법 실시예와 거의 유사하기 때문에, 설명이 비교적 간단하고, 관련된 부분은 방법 실시예의 일부 설명을 참조하면 된다.
위에서는 본 발명의 특정 실시예에 대하여 설명하였다. 기타 실시예는 첨부된 특허 청구 범위의 범위 내에 속한다. 일부 경우, 특허 청구 범위에 기재된 행위 또는 단계는 실시예와 다른 순서로 수행될 수 있고 또한 여전히 기대한 결과를 구현할 수 있다. 그리고, 도면에 도시된 과정은 반드시 도시된 특정 순서 또는 연속적인 순서로 수행하여야만 기대한 결과를 구현하는 것은 아니다. 일부 실시방식에서, 멀티태스크 처리와 병행 처리도 가능하거나 또는 유리한 것일 수 있다.
본 발명에 기재된 주제 및 기능 조작의 실시예는, 디지털 전자 회로, 유형으로 표현되는 컴퓨터 소프트웨어 또는 펌웨어, 본 발명 공개된 구조 및 그 구조적 균등물을 포함하는 컴퓨터 하드웨어 또는 이들 중의 하나 또는 복수개의 조합에서 구현될 수 있다. 본 발명에 기재된 주제의 실시예는 하나 또는 복수의 컴퓨터 프로그램으로 구현될 수 있는 바, 즉 유형의 비휘발성 프로그램 캐리어 상에 코딩되어 데이터 처리 장치에 의해 수행되거나 또는 데이터 처리 장치의 조작을 제어하는 컴퓨터 프로그램 명령 중의 하나 또는 복수의 모듈이다. 대체가능 하거나 부가적으로, 프로그램 명령은 인공으로 생성된 전파 신호, 예를 들면 기계가 생성한 전기, 빛 또는 전자기 신호에 코딩될 수 있고, 해당 신호가 생성된다. 정보를 코딩하여 적절한 수신기 장치로 전송하여 데이터 처리 장치가 수행하도록 한다. 컴퓨터 저장 매체는 기계 판독 가능 기억 장치, 기계 판독 가능 기억 기판, 랜덤 또는 시리얼 접속 메모리 장치 또는 이들 중의 하나 또는 복수개의 조합일 수 있다.
본 발명에 기재된 처리 및 논리 과정은 하나 또는 복수의 컴퓨터 프로그램을 수행하는 하나 또는 복수의 프로그램가능 컴퓨터가 수행하여, 입력 데이터에 기반하여 조작을 실행하고 또한 출력을 생성하는 것을 통하여 상응한 기능을 수행할 수 있다. 상기 처리 및 논리 과정은 또한 전용 논리 회로, 예를 들면 FPGA(필드 프로그래머블 게이트 어레이) 또는 ASIC(응용 주문형 집적 회로)가 수행할 수 있고, 또한 장치도 전용 논리 회로로 구현될 수 있다.
컴퓨터 프로그램을 수행하기 적절한 컴퓨터는, 예를 들면 범용 및/또는 전용 마이크로프로세서 또는 임의의 기타 유형의 중앙처리장치를 포함한다. 일반적으로, 중앙처리장치는 읽기전용 메모리 및/또는 랜덤 엑세스 메모리로부터 명령과 데이터를 수신한다. 컴퓨터의 기본 모듈은 명령을 실시 또는 수행하기 위한 중앙처리장치 및 명령과 데이터를 저장하기 위한 하나 또는 복수의 메모리 장치를 포함한다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 또는 복수의 대용량 저장 장치를 포함하는 바, 예를 들면 자기 디스크, 자기 광디스크 또는 광디스크 등이거나, 또는 컴퓨터는 조작가능하게 이 대용량 저장 장치와 커플링되어 이로부터 데이터를 수신하거나 또는 이로 데이터를 전송하거나, 또는 두 가지 상황이 모두 존재한다. 하지만 컴퓨터는 반드시 이러한 장치를 구비하여야 하는 것은 아니다. 그리고, 컴퓨터는 다른 일 장치에 삽입될 수 있는 바, 예를 들면 이동전화, 개인 휴대 정보 단말기(PDA), 이동 오디오 또는 비디오 재생기, 게임 콘솔, 글로벌 포지셔닝 시스템(GPS) 수신기, 또는 예를 들면 범용 직렬 버스(USB) 플래시 메모리 드라이버의 휴대식 저장 장치이고, 단지 몇 개의 예만 들도록 한다.
컴퓨터 프로그램 명령과 데이터를 저장하기 적절한 컴퓨터 판독가능 매체는 모든 형식의 비휘발성 메모리, 매체와 메모리 장치를 포함하는 바, 예를 들면 반도체 메모리 장치(예를 들면 EPROM, EEPROM과 플래시 메모리 장치), 자기 디스크(예를 들면 내부 하드디스크 또는 이동가능 디스크), 자기 광디스크 및 CD ROM과 DVD-ROM 디스크를 포함한다. 프로세서와 메모리는 전용 논리 회로에 의해 보완되거나 또는 전용 논리 회로에 합병시킬 수 있다.
본 발명은 많은 구체적인 실시 세부사항을 포함하지만, 이러한 것은 어떠한 발명의 범위 또는 청구하고자 하는 범위를 제한하는 것으로 이해해서는 안되며, 주요하게는 특정 발명의 구체적인 실시예의 특징을 설명하기 위한 것이다. 본 발명 내의 복수의 실시예에 기재된 일부 특징은 또한 단일 실시예에서 조합 실시될 수 있다. 다른 일 방면으로, 단일 실시예에 기재된 여러 가지 특징도 복수의 실시예에서 각각 실시되거나 또는 임의의 적절한 서브 조합에 의해 실시될 수 있다. 그리고, 특징이 상술한 바와 같이 일부 조합에서 작용을 일으키고 또한 심지어 초기에 이렇게 보호할 것을 요구하지만, 보호할 것을 요구하는 조합으로부터 오는 하나 또는 복수의 특징은 일부 경우 해당 조합으로부터 제거할 수 있으며, 또한 보호할 것을 요구하는 조합은 서브 조합 또한 서브 조합의 변형을 가리킬 수 있다.
이와 유사하게, 비록 도면에서 특정 순서로 조작을 그려내기는 하였지만, 이는 이러한 조작이 표시된 특정 순서로 수행되거나 또는 순차적으로 수행될 것을 요구하거나, 또는 예시된 모든 조작이 수행될 것을 요구함으로써 기대한 결과를 실현할 수 있다고 이해되어서는 안된다. 일부 경우, 와 병행 처리가 유리할 수 있다. 그리고, 상기 실시예 중의 여러 가지 시스템 모듈과 어셈블리의 분리는 모든 실시예에서 모두 이렇게 분리해야 하는 것으로 이해해서는 안되며, 또한 기재된 프로그램 구성 요소와 시스템은 일반적으로 단일 소프트웨어 제품에 직접되거나, 또는 복수의 소프트웨어 제품으로 패키징될 수 있는 것을 이해해야 한다.
이로써, 주제의 특정 실시예는 이미 기재되었다. 기타 실시예는 첨부된 특허청구범위의 범위 내에 속한다. 일부 경우, 특허청구범위에 기재된 동작은 서로 다른 순서로 수행되고 또한 여전히 기대하는 결과를 구현할 수 있다. 그리고, 도면에 그려진 처리는 반드시 도시된 특정 순서 또는 순차적인 순서로 기대한 결과를 구현할 필요가 없다. 일부 구현에서, 멀티태스크와 병행 처리가 유리할 수 있다.
위에서 설명한 것은 단지 본 발명의 하나 또는 복수의 실시예의 일부 실시예에 불과하고, 본 발명의 하나 또는 복수의 실시예를 제한하는 것이 아니며, 본 발명의 하나 또는 복수의 실시예의 사상과 원리의 범위 내에서 실행한 임의의 수정, 동등 교체, 개선 등은 모두 본 발명의 하나 또는 복수의 실시예의 보호 범위에 속한다.

Claims (19)

  1. 상호작용 방법에 있어서,
    고객측으로부터 오는 제1 메시지를 수신하는 것;
    상기 제1 메시지에 포함된 지시 내용에 기반하여 상기 지시 내용과 매칭되는 구동 데이터를 취득하는 것; 및
    상기 구동 데이터를 이용하여, 상기 고객측의 디스플레이 화면을 제어하여 상기 상호작용 객체의 응답 애니메이션을 재생하도록 하는 것을 포함하는 것을
    특징으로 하는 상호작용 방법.
  2. 제1항에 있어서,
    상기 제1 메시지에 포함된 지시 내용에 기반하여 상기 지시 내용과 매칭되는 구동 데이터를 취득하는 것은,
    상기 지시 내용에 대한 응답 내용을 취득하는 것 - 상기 응답 내용은 응답 텍스트를 포함함 -; 및
    상기 응답 텍스트에 포함된 적어도 하나의 목표 텍스트에 기반하여, 상기 목표 텍스트와 매칭되는 상호작용 객체의 설정 동작의 제어 파라미터를 취득하는 것을 포함하는
    것을 특징으로 하는 상호작용 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 제1 메시지에 포함된 지시 내용에 기반하여 상기 지시 내용과 매칭되는 구동 데이터를 취득하는 것은,
    상기 지시 내용에 대한 응답 내용을 취득하는 것 - 상기 응답 내용은 음소 시퀀스를 포함하는 것 -; 및
    상기 음소 시퀀스와 매칭되는 상기 상호작용 객체의 제어 파라미터를 취득하는 것을 포함하는
    것을 특징으로 하는 상호작용 방법.
  4. 제3항에 있어서,
    상기 상호작용 객체의 제어 파라미터는 적어도 하나의 로컬 영역의 자세 제어 벡터를 포함하고,
    상기 음소 시퀀스와 매칭되는 상호작용 객체의 제어 파라미터를 취득하는 것은,
    상기 음소 시퀀스에 대하여 특성 코딩을 실행하여, 상기 음소 시퀀스에 대응되는 제1 코드 시퀀스를 취득하는 것;
    상기 제1 코드 시퀀스에 기반하여 적어도 하나의 음소에 대응되는 특성 코드를 취득하는 것; 및
    상기 특성 코드에 대응되는 상기 상호작용 객체의 적어도 하나의 로컬 영역의 자세 제어 벡터를 취득하는 것을 포함하는
    것을 특징으로 하는 상호작용 방법.
  5. 제1항 내지 제4항의 어느 한 항에 있어서,
    상기 고객측으로 상기 응답 내용을 포함한 지시 정보를 송신하여, 상기 고객측이 상기 지시 정보에 기반하여 상기 응답 내용을 표시하도록 하는 것을 더 포함하는
    것을 특징으로 하는 상호작용 방법.
  6. 제1항 내지 제5항의 어느 한 항에 있어서,
    상기 구동 데이터를 이용하여, 상기 고객측을 제어하여 디스플레이 화면에 상기 상호작용 객체의 응답 애니메이션을 재생하도록 하는 것은,
    상기 상호작용 객체의 구동 데이터를 상기 고객측으로 송신하여, 상기 고객측이 구동 데이터에 기반하여 응답 애니메이션을 생성하도록 하는 것; 및 상기 고객측을 제어하여 디스플레이 화면에 상기 응답 애니메이션을 재생하도록 하는 것을 포함하거나, 또는,
    상기 구동 데이터에 기반하여, 상기 상호작용 객체의 가상 모델 파라미터를 조절하는 것; 및 조절 후의 가상 모델 파라미터에 기반하여, 렌더링 엔진을 이용하여 상기 상호작용 객체의 응답 애니메이션을 생성하고, 또한 상기 고객측으로 상기 응답 애니메이션을 송신하는 것을 포함하는
    것을 특징으로 하는 상호작용 방법.
  7. 상호작용 방법에 있어서,
    고객측으로부터 오는 사용자 입력 조작에 응답하여, 서버로 지시 내용이 포함된 제1 메시지를 송신하는 것; 및
    상기 서버가 상기 제1 메시지에 대하여 응답하는 제2 메시지에 기반하여, 상기 고객측의 디스플레이 화면에 상기 상호작용 객체의 응답 애니메이션을 재생하는 것을 포함하는
    것을 특징으로 하는 상호작용 방법.
  8. 제7항에 있어서,
    상기 지시 내용은 텍스트 내용을 포함하며;
    상기 상호작용 방법은,
    상기 고객측에 상기 텍스트 내용을 표시하는 것, 및/또는 상기 텍스트 내용에 대응되는 오디오 파일을 재생하는 것을 더 포함하는
    것을 특징으로 하는 상호작용 방법.
  9. 제8항에 있어서,
    상기 고객측에 상기 텍스트 내용을 표시하는 것은, 상기 텍스트 내용의 불릿 스크린 정보를 생성하는 것; 및 상기 고객측의 디스플레이 화면에 상기 불릿 스크린 정보를 표시하는 것을 포함하는
    것을 특징으로 하는 상호작용 방법.
  10. 제7항 내지 제9항 중 어느 한 항에 있어서,
    상기 제2 메시지는 상기 지시 내용에 대한 응답 텍스트를 포함하며,
    상기 상호작용 방법은,
    상기 고객측의 디스플레이 화면에 상기 응답 텍스트를 표시하는 것, 및/또는
    상기 응답 텍스트에 대응되는 오디오 파일을 결정하고 재생시키는 것을 더 포함하는
    것을 특징으로 하는 상호작용 방법.
  11. 제8항 내지 제10항 중 어느 한 항에 있어서,
    상기 제2 메시지는 상기 상호작용 객체의 구동 데이터를 포함하며,
    상기 서버가 상기 제1 메시지에 대하여 응답하는 제2 메시지에 기반하여, 상기 고객측의 디스플레이 화면에 상기 상호작용 객체의 응답 애니메이션을 재생하는 것은,
    상기 구동 데이터에 기반하여, 상기 상호작용 객체의 가상 모델 파라미터를 조절하는 것; 및
    조절 후의 가상 모델 파라미터에 기반하여, 렌더링 엔진을 이용하여 상기 상호작용 객체의 응답 애니메이션을 생성하고, 또한 상기 고객측의 디스플레이 화면에 표시하는 것을 포함하되;
    상기 구동 데이터는 상기 응답 텍스트에 대응되는 음소 시퀀스와 매칭되는 상기 상호작용 객체에 사용되는 제어 파라미터 및/또는 상기 응답 텍스트에 포함된 적어도 하나의 목표 텍스트와 매칭되는 상기 상호작용 객체에 사용되는 설정 동작의 제어 파라미터를 포함하는
    것을 특징으로 하는 상호작용 방법.
  12. 제8항 내지 제11항 중 어느 한 항에 있어서,
    상기 제2 메시지는 상기 상호작용 객체가 상기 지시 내용에 대하여 실행한 응답 애니메이션을 포함하는
    것을 특징으로 하는 상호작용 방법.
  13. 제7항에 있어서,
    상기 사용자의 입력 조작은, 상기 사용자가 상기 디스플레이 화면에 표시되는 지체 조작 화면에 따라 상응한 인체 자세를 취하는 것을 포함하며,
    고객측으로부터 오는 사용자 입력 조작에 응답하는 것은,
    상기 인체 자세를 포함하는 사용자 행동 이미지를 취득하는 것;
    상기 사용자 행동 이미지 내의 인체 자세 정보를 식별하는 것; 및
    상기 인체 자세 정보에 기반하여, 상기 디스플레이 화면에 표시된 상호작용 객체가 응답을 실행하도록 하는 것을 포함하는
    것을 특징으로 하는 상호작용 방법.
  14. 제13항에 있어서,
    상기 인체 자세 정보에 기반하여, 상기 디스플레이 화면에 표시된 상호작용 객체가 응답을 실행하도록 하는 것은,
    상기 인체 자세 정보와 상기 지체 조작 화면 내의 인체 자세의 매칭도를 결정하는 것; 및
    상기 매칭도에 기반하여, 상기 디스플레이 화면에 표시된 상호작용 객체를 구동시켜 응답을 실행하도록 하는 것을 포함하는
    것을 특징으로 하는 상호작용 방법.
  15. 제14항에 있어서,
    상기 매칭도에 기반하여, 상기 상호작용 객체를 구동시켜 응답을 실행하도록 하는 것은,
    상기 매칭도가 설정 조건에 도달한 경우, 상기 디스플레이 화면에 표시된 상호작용 객체가 제1 응답을 실행하도록 지시하는 것, - 상기 제1 응답은 자세가 합격되었다는 것을 나타내는 지체 동작 및/또는 음성 프롬프트를 포함함 -; 및 다음 지체 조작 화면을 표시하는 것을 포함하거나, 또는,
    상기 매칭도가 설정 조건에 도달하지 못한 경우, 상기 디스플레이 화면에 표시된 상호작용 객체가 제2 응답을 실행하도록 지시하는 것, - 상기 제2 응답은 자세가 합격되지 않았다는 것을 나타내는 지체 동작 및/또는 음성 프롬프트를 포함함 -; 및 현재의 지체 조작 화면을 표시하는 것을 유지하는 것을 포함하는
    것을 특징으로 하는 상호작용 방법.
  16. 상호작용 장치에 있어서,
    고객측으로부터 오는 제1 메시지를 수신하는 수신 유닛;
    상기 제1 메시지에 포함된 지시 내용에 기반하여 상기 지시 내용과 매칭되는 구동 데이터를 취득하는 취득 유닛; 및
    상기 구동 데이터를 이용하여, 상기 고객측의 디스플레이 화면을 제어하여 상기 상호작용 객체의 응답 애니메이션을 재생하도록 하는 구동 유닛을 포함하는
    것을 특징으로 하는 상호작용 장치.
  17. 상호작용 장치에 있어서,
    고객측으로부터 오는 사용자 입력 조작에 응답하여, 서버로 지시 내용이 포함된 제1 메시지를 송신하는 송신 유닛; 및
    상기 서버가 상기 제1 메시지에 대하여 응답하는 제2 메시지에 기반하여, 상기 고객측의 디스플레이 화면에 상기 상호작용 객체의 응답 애니메이션을 재생하는 재생 유닛을 포함하는
    것을 특징으로 하는 상호작용 장치.
  18. 전자 장치에 있어서,
    상기 장치는 메모리, 프로세서를 포함하며, 상기 메모리는 상기 프로세서 상에서 수행될 수 있는 컴퓨터 명령을 저장하는 데에 사용되며, 상기 프로세서는 상기 컴퓨터 명령을 수행할 때 제1항 내지 제6항 중 어느 한 항의 상기 방법을 구현하는 데에 사용되거나, 또는 상기 프로세서는 상기 컴퓨터 명령을 수행할 때 제7항 내지 제15항 중 어느 한 항의 상기 방법을 구현하는 데에 사용되는
    것을 특징으로 하는 전자 장치.
  19. 컴퓨터 프로그램이 기억되고 있는 컴퓨터 판독 가능 기억 매체에 있어서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 제1항 내지 제6항 중 어느 한 항에 기재된 방법을 실현하거나, 또는 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 제7항 내지 제15항 중 어느 한 항에 기재된 방법을 실행하는
    것을 특징으로 하는 컴퓨터 판독 가능 기억 매체.
KR1020217023002A 2020-02-27 2020-11-19 상호작용 방법, 장치, 전자 장치 및 저장 매체 KR20210110620A (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010125701.3 2020-02-27
CN202010125701 2020-02-27
CN202010362562.6A CN111541908A (zh) 2020-02-27 2020-04-30 交互方法、装置、设备以及存储介质
CN202010362562.6 2020-04-30
PCT/CN2020/130184 WO2021169431A1 (zh) 2020-02-27 2020-11-19 交互方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
KR20210110620A true KR20210110620A (ko) 2021-09-08

Family

ID=71980272

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217023002A KR20210110620A (ko) 2020-02-27 2020-11-19 상호작용 방법, 장치, 전자 장치 및 저장 매체

Country Status (3)

Country Link
KR (1) KR20210110620A (ko)
CN (1) CN111541908A (ko)
WO (1) WO2021169431A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111541908A (zh) * 2020-02-27 2020-08-14 北京市商汤科技开发有限公司 交互方法、装置、设备以及存储介质
CN111459450A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 交互对象的驱动方法、装置、设备以及存储介质
CN111970539B (zh) * 2020-08-19 2021-04-16 深圳天使无忧科技开发有限公司 基于深度学习和云计算服务的数据编码方法及大数据平台

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104637482B (zh) * 2015-01-19 2015-12-09 孔繁泽 一种语音识别方法、装置、系统以及语言交换系统
CN104866101B (zh) * 2015-05-27 2018-04-27 世优(北京)科技有限公司 虚拟对象的实时互动控制方法及装置
CN105094315B (zh) * 2015-06-25 2018-03-06 百度在线网络技术(北京)有限公司 基于人工智能的人机智能聊天的方法和装置
CN109416701A (zh) * 2016-04-26 2019-03-01 泰康机器人公司 多种交互人格的机器人
WO2017210452A1 (en) * 2016-06-02 2017-12-07 Kodak Alaris Inc. Method for proactive interactions with a user
CN106056989B (zh) * 2016-06-23 2018-10-16 广东小天才科技有限公司 一种语言学习方法及装置、终端设备
CN106878820B (zh) * 2016-12-09 2020-10-16 北京小米移动软件有限公司 直播互动方法及装置
CN107329990A (zh) * 2017-06-06 2017-11-07 北京光年无限科技有限公司 一种用于虚拟机器人的情绪输出方法以及对话交互系统
CN107784355A (zh) * 2017-10-26 2018-03-09 北京光年无限科技有限公司 虚拟人多模态交互数据处理方法和系统
CN108810561A (zh) * 2018-06-21 2018-11-13 珠海金山网络游戏科技有限公司 一种基于人工智能的三维偶像直播方法及装置
CN113286186A (zh) * 2018-10-11 2021-08-20 广州虎牙信息科技有限公司 直播中的形象展示方法、装置和存储介质
CN109491564A (zh) * 2018-10-18 2019-03-19 深圳前海达闼云端智能科技有限公司 虚拟机器人的互动方法,装置,存储介质及电子设备
CN110298906A (zh) * 2019-06-28 2019-10-01 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110634483B (zh) * 2019-09-03 2021-06-18 北京达佳互联信息技术有限公司 人机交互方法、装置、电子设备及存储介质
CN111541908A (zh) * 2020-02-27 2020-08-14 北京市商汤科技开发有限公司 交互方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
WO2021169431A1 (zh) 2021-09-02
CN111541908A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
US10210002B2 (en) Method and apparatus of processing expression information in instant communication
CN106548773B (zh) 基于人工智能的儿童用户搜索方法及装置
KR20210110620A (ko) 상호작용 방법, 장치, 전자 장치 및 저장 매체
JP6902683B2 (ja) 仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器
US9805493B2 (en) Social identity models for automated entity interactions
CN109176535B (zh) 基于智能机器人的交互方法及系统
Burden et al. Virtual humans: Today and tomorrow
CN110850983B (zh) 视频直播中的虚拟对象控制方法、装置和存储介质
Rehm et al. From annotated multimodal corpora to simulated human-like behaviors
CN108942919B (zh) 一种基于虚拟人的交互方法及系统
CN111459454B (zh) 交互对象的驱动方法、装置、设备以及存储介质
KR20210124307A (ko) 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체
KR20210124312A (ko) 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체
CN111459452A (zh) 交互对象的驱动方法、装置、设备以及存储介质
US9796095B1 (en) System and method for controlling intelligent animated characters
Corradini et al. Animating an interactive conversational character for an educational game system
CN109087644B (zh) 电子设备及其语音助手的交互方法、具有存储功能的装置
Lamberti et al. A Multimodal Interface for Virtual Character Animation Based on Live Performance and Natural Language Processing
TW202132967A (zh) 互動方法、裝置、電子設備以及儲存媒體
KR101977893B1 (ko) 영상컨텐츠 적용 디지털액터의 운용방법
Corradini et al. Towards believable behavior generation for embodied conversational agents
Park et al. A framework for the creating, expressing and sharing of user’s emotion
TW202138993A (zh) 互動物件的驅動方法、裝置、設備以及儲存媒體
El-Nasr et al. Social Gaming as an Experimental Platform
Geraci Design and implementation of embodied conversational agents