KR20240002670A - 디지털트윈기반 건설현장에서 hmi를 위한 디지털휴먼과의 커뮤니케이션 시스템 및 그 방법 - Google Patents

디지털트윈기반 건설현장에서 hmi를 위한 디지털휴먼과의 커뮤니케이션 시스템 및 그 방법 Download PDF

Info

Publication number
KR20240002670A
KR20240002670A KR1020220186536A KR20220186536A KR20240002670A KR 20240002670 A KR20240002670 A KR 20240002670A KR 1020220186536 A KR1020220186536 A KR 1020220186536A KR 20220186536 A KR20220186536 A KR 20220186536A KR 20240002670 A KR20240002670 A KR 20240002670A
Authority
KR
South Korea
Prior art keywords
animation
consonant
neuter
chatbot
digital
Prior art date
Application number
KR1020220186536A
Other languages
English (en)
Inventor
이요훈
Original Assignee
(주)씨아이피시스템
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)씨아이피시스템 filed Critical (주)씨아이피시스템
Priority to KR1020220186536A priority Critical patent/KR20240002670A/ko
Publication of KR20240002670A publication Critical patent/KR20240002670A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템 및 그 방법에 관한 것으로서, 보다 상세하게는 사람과의 커뮤니케이션을 위해 텍스트 및 음성을 이미지화해서 디지털 휴먼이 말하는 것처럼 시각화하는 알고리즘에 대한 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템 및 그 방법에 관한 것이다.

Description

디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템 및 그 방법{Communication Methods System with Digital Human for HMI in Digital Twin and Metaverse Platforms}
본 발명은 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템 및 그 방법에 관한 것으로서, 보다 상세하게는 사람과의 커뮤니케이션을 위해 텍스트 및 음성을 이미지화해서 디지털 휴먼이 말하는 것처럼 시각화하는 알고리즘에 대한 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템 및 그 방법에 관한 것이다.
본래 디지털 휴먼 기술은 제조업 분야에서 제품의 설계 및 제조 개발 영역에서 자주 사용되었다.
그러나 코로나19 바이러스의 대유행으로 비대면 및 비접촉 트렌드에 따라 비대면 휴먼이 비대면 서비스의 또 다른 대안으로 급부상하고 있으며 고객 서비스 상담, 브랜드 홍보, 컨설팅 등 디지털 휴먼의 역할이 점차 다양해졌다.
시장조사업체 가트너는 2021년 전 세계 기업의 50%가 모바일 애플리케이션을 개발하기보다 디지털 휴먼 같은 가상 비서에 더 많이 투자할 것이라고 전망했다.
디지털 휴먼은 인공지능(AI), 빅데이터, 클라우드, 고성능 컴퓨터 등 첨단 기술이 융합되어 사람과 거의 유사한 수준으로 발전하고 있다.
디지털 휴먼을 생성하는 기술, 디지털 휴먼이 실제 사람 및 환경과 상호작용하는 기술, 디지털 휴먼을 활용한 실감형 커뮤니케이션 서비스와 실감 콘텐츠에서의 3D 입체영상 재현 기술들이 있다.
발달단계 같은 공간에서 진짜 사람처럼 생활하고 소통하기 위해서는 디지털 휴먼 영화 '엑스마키나'에 나오는 수준의 고도화된 인공지능 알고리즘 기반의 기술이 필요하다.
하지만 아직 이 시대의 인공지능 기술 발전이 충분하지 않은 상태이기 때문에 디지털 휴먼을 만들기 위해서는 모든 분야의 인공지능 기술의 발전이 필요하다.
완벽한 인간이기보다 사람과 구분이 가지 않는 쌍방향 소통/대화를 어느 정도 할 수 있느냐를 기준을 잡았을 때 디지털 휴먼의 발전 단계는 아직 진행 중이라 할 수 있다.
특히 최근 사람의 대화를 흉내 내고 특정한 영역에 입력된 스크립트(scripts) 기반으로 대화를 하는 일반적인 챗봇(chatbot)의 형태를 뛰어넘어 상황에 관련된, 인간 유사 대화를 하는 지능형 가상 에이전트(intelligent virtual agent) 기술이 등장하고 있다.
이러한 기술의 발달로 챗봇이 인간과 유사하게 대화하는 기술은 많이 발전한 상황이다. 챗봇이 대화의 문장 자체를 의미 있게 생성하는 것에 주안점이 있다면 디지털 휴먼의 경우에는 동작이나 얼굴 표정 등으로 사용자에게 여러 가지 정보와 감정을 전달할 수가 있다는 것이 다른 점이다.
디지털 휴먼 행동은 언어적인 행동(verbal behavior)과 비언어적인 행동(nonverbal behavior)이 있을 수 있다.
언어적인 행동은 대화를 위한 동작이므로 대화를 위해서 생성되는 입의 움직임 같은 직접적인 동작으로 설명이 된다.
대화 시에는 비언어적인 행동도 중요하게 여겨지는데 이를 구체적으로 나열하면 시선 응시, 눈 깜빡임, 얼굴 표정, 입 모양, 고개 움직임, 몸 움직임, 손동작 등이 있다.
대화 시에는 상체의 움직임이 중요한데 특정한 문장에 대해서 어떤 동작을 취할지를 정하는 규칙을 알아내어 맵핑하는 방법을 일반적으로 사용한다.
그런데 문장이라는 것이 무한한 조합의 경우의 수가 가능하므로 모든 규칙을 알아내기 힘든 문제가 있다.
본 발명은 전술한 문제점을 개선하기 위해 안출된 것으로, 본 발명은 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템을 제공하는데 과제가 있다.
또한, 본 발명의 실시예에 따르면, 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템을 제공하는데 과제가 있다.
상기와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따라 음성 파일 또는 텍스트 파일에 포함되는 글자가 입력되는 음성 및 텍스트 입력부; 상기 음성 파일 또는 텍스트 파일에 따라 한국어의 발음특성을 고려한 일정 개수의 입모양이 발음 분류에 대응되어 초성 애니메이션, 중성 애니메이션, 및 종성 애니메이션을 저장하는 입모양 애니메이션 저장부; 상기 입모양 애니메이션 저장부에 저장된 초성 애니메이션, 중성 애니메이션, 및 종성 애니메이션을 해당 글자의 초성, 중성, 및 종성에 대응시키고, 이전 글자가 있다면 마지막으로 재생된 애니메이션을 유지하거나, 이전글자가 없을 경우 특정 애니메이션으로 처리하는 입모양 애니메이션 표시부; 를 포함한다.
상기 입모양 애니메이션 저장부는, 초성/중성/종성에 따른 입모양의 값에 대응되도록 입모양이 형성된 애니메이션으로 저장한다.
상기 음성 및 텍스트 입력부는, 텍스트나 음성을 인식해서 해당 단어의 초성/중성/종성을 입력하는 알고리즘을 포함한다.
상기 입모양 애니메이션 표시부는 초성 애니메이션 표시부, 중성 애니메이션 표시부, 및 종성 애니메이션 표시부로 나뉘고, 상기 초성 애니메이션 표시부는, 양순음 ㅁ, ㅂ, ㅃ, ㅍ가 초성일 경우 닫은 애니메이션(1번 에니메이션)으로 결정하여 표시하며, 이외의 경우는 정해진 애니메이션 없이, 이전글자가 있다면 마지막으로 재생된 애니메이션을 유지하여 표시하고, 이전글자가 없을 경우 묵음 애니메이션(0번 에니메이션)을 표시하며, 쌍자음인 경우 상기 닫은 애니메이션 또는 묵음 애니메이션을 포함하는 표시 처리를 진행하고, 상기 중성 애니메이션 표시부는, 단모음의 경우 해당 모음의 애니메이션으로 변경하여 표시하고, 이중모음의 경우 중성1(첫번째 중성) 및 중성2(두번째 중성)로 두단계의 입모양 애니메이션으로 표시하는 데 있어, 초성이 양순음일경우 중성1이 아닌 중성2를 따라 중성 애니메이션으로 표시하고, 초성이 양순음이 아닌 경우 초성 입모양이 묵음, 혹은 의미없는 이전 애니메이션 이므로 초성애니메이션을 중성1(첫번째 중성)에 해당하는 애니메이션으로 변경하여 표시하며, 이중모음의 중성1, 중성2는 데이터 테이블의 First(시작 발음 애니메이션), End(끝 발음 애니메이션) 구분을 따르고, 상기 종성 애니메이션 표시부는, 쌍자음이 종성으로 올 경우 종성1(첫번째 종성)이 아닌 종성2(두번째 종성)를 따라 표시하고, 이외의 경우에는 일반적인 종성 애니메이션으로 표시한다.
본 발명은 초성 애니메이션 표시부, 중성 애니메이션 표시부, 및 종성 애니메이션 표시부를 포함하는 입모양 애니메이션 표시부로 구성된 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템을 이용한 방법에 있어서, 상기 초성 애니메이션 표시부가 양순음 ㅁ, ㅂ, ㅃ, ㅍ가 초성일 경우 닫은 애니메이션(1번 에니메이션)으로 결정하여 표시하는 단계; 양순음 ㅁ, ㅂ, ㅃ, ㅍ가 초성이 아닌 경우는 정해진 애니메이션 없이, 이전글자가 있다면 마지막으로 재생된 애니메이션을 유지하여 표시하고, 이전글자가 없을 경우 묵음 애니메이션을 표시하며, 쌍자음인 경우 상기 닫은 애니메이션 또는 묵음 애니메이션을 포함하는 표시 처리를 진행하는 단계; 상기 중성 애니메이션 표시부가, 단모음의 경우 해당 모음의 애니메이션으로 변경하여 표시하는 단계; 이중모음의 경우 중성1, 중성2로 두단계의 입모양 애니메이션으로 표시하는 데 있어, 초성이 양순음일경우 중성2를 따라 중성 애니메이션으로 표시하고, 초성이 양순음이 아닌 경우 초성 입모양이 묵음, 혹은 의미없는 이전 애니메이션 이므로 초성애니메이션을 중성1에 해당하는 애니메이션으로 변경하여 표시하는 단계; 이중모음의 중성1, 중성2는 데이터 테이블의 First(시작 발음 애니메이션), End(끝 발음 애니메이션) 구분을 따르는 단계; 상기 종성 애니메이션 표시부가, 쌍자음이 종성으로 올 경우 종성2를 따라 표시하고, 이외의 경우에는 일반적인 종성 애니메이션으로 표시하는 단계;를 포함한다.
상기 애니메이션으로 표시하는 단계는, 하나 이상의 입모양데이터를 발음 순서대로 적용하여 3D아바타의 표정 애니메이션을 생성하는 디지털 휴먼이 상기 입모양 애니메이션 표시부를 통한 입모양과 사용자의 음성을 통해 인식되는 감정에 부합하는 얼굴움직임을 결합하여 실제 사용자의 표정에 가장 근접한 디지털 휴먼의 실시간 표정을 구현한다.
상기 애니메이션으로 표시하는 단계에서 음성인식으로 말하고 인식된 음성을 기반으로 대답해주는 챗봇을 이용한다.
상기 챗봇에 네트워크로 연결되는 챗봇 서버는 남자, 여자, 또는 유명인을 포함하는 상담사에 대응하는 챗봇 서비스를 제공하기 위하여 챗봇에 의한 상담이 원활하게 진행되지 않는다고 판단하면, 상담사 배정 알고리즘을 이용하여 챗봇에 대응하는 상담사를 매칭하고, 상담 전환부로 매칭된 상담사로 상담 전환을 요청하며, 상담사가 상담 진행 중에, 챗봇을 이용하여 상담 진행이 가능하다고 판단하고 서버로 상담 전환 요청을 하면, 상기 상담사에 매칭되는 챗봇으로 상담을 전환하는 단계;를 포함한다.
본 발명의 일 실시예에 따라 한국어의 발음 구조와 애니메이션의 제작 특성을 정확하게 반영하여 디지털 휴먼의 부자연스러운 발음 애니메이션을 획기적으로 발전시켰다.
또한, 본 발명의 일 실시예는 건설 현장 안전 경고 알람을 위해 디지털 휴먼을 사용함으로써, 정확하고 신뢰감 있는 위험 요인 경고하기 용이해졌다.
도 1은 본 발명의 일 실시예에 따른 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템을 구현하는 구성요소 간의 관계를 개략적으로 나타내는 블럭도이다.
도 2는 본 발명의 일 실시예에 따른 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템의 데이터 형식 또는 구조를 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 초성, 중성, 종성의 구조를 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 TTS 또는 입모양 등을 만들기 위한 함수를 보여주는 도면이다.
도 5 내지 도 10은 본 발명의 일 실시예에 따른 데이터 테이블을 보여주는 도면이다.
도 11은 본 발명의 일 실시예에 따른 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템은 건설 현장에서 사용되는 예를 보여주는 도면이다.
상기한 바와 같은 본 발명을 첨부된 도면들과 실시예들을 통해 상세히 설명하도록 한다.
본 발명에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 발명에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.
또한, 본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 발명에서, "구성된다" 또는 "포함한다" 등의 용어는 발명에 기재된 여러 구성 요소들, 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하되, 도면 부호와 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.
본 발명에서 설명되는 양순음(兩脣音)은 두 입술 사이에서 나는 소리. 국어의 'ㅂ', 'ㅃ', 'ㅍ', 'ㅁ'이 여기에 해당한다.
모음은 혀의 앞뒤 위치에 따라 전설모음(ㅣ, ㅔ, ㅐ, ㅟ, ㅚ)과 후설모음(ㅡ, ㅓ, ㅏ, ㅜ, ㅗ)으로 나뉘며 혀의 높이에 따라서는 고모음(ㅣ, ㅟ, ㅡ, ㅜ), 중모음(ㅔ, ㅚ, ㅓ, ㅗ), 저모음(ㅐ, ㅏ)으로 나뉜다. 입술의 모양에 따라서는 평순모음(ㅣ, ㅔ, ㅐ, ㅡ, ㅓ, ㅏ)과 원순모음(ㅟ, ㅚ, ㅜ, ㅗ)으로 나뉜다.
모음은 단모음과 이중 모음으로 분류되는데 단모음은 모음을 발음할 때 처음부터 끝까지 혀의 위치나 입술의 모양에 변화가 없는 모음으로 위의 10개의 모음이 이에 해당한다.
도 1에 도시된 바와 같이 음성 및 텍스트 입력부를 통해 입력되는 텍스트 정보를 포함하고, 선택적으로 텍스트의 정황 정보를 더 포함할 수 있다.
텍스트의 정황 정보는 어떤 텍스트를 어떤 감정이나 톤으로 표시할지를 나타내는 표현 정보를 포함한다.
상기 표현 정보는 텍스트 속도(느림/보통/빠름/매우 빠름 등)와, 감정 상태(보통/엄숙/활발/화남 등)와, 텍스트 모드(발표/설명/대화/속삭임 등)와, 텍스트의 톤과, 강조(강하게/약하게 등) 등의 정보를 포함할 수 있다.
다만, 이에 한정되는 것은 아니며 이 외에도 정황을 표현할 수 있는 정보가 포함될 수 있다.
텍스트의 정황 정보는 대본의 지문과 같은 형식으로 제공될 수 있다. 정황 정보를 표현하는 방법은 제한이 없으며 시스템이 텍스트와 구분하여 획득할 방법이면 어떠한 방법이라도 가능하다.
또한, 음성 및 텍스트 입력부는 입력받은 텍스트 정보를 텍스트 정보와 정황 정보로 분류한다.
텍스트 정보는 텍스트 파일 형태로 저장할 수 있고, 정황 정보 입력부(미도시)에 입력정보로 제공된다.
또한, 텍스트 속도, 감정 상태, 텍스트 모드 정보, 텍스트의 톤, 강조 등을 포함하는 정황 정보도 정황 정보 입력부의 입력으로 활용된다.
정황에 맞는 텍스트 애니메이션 효과 정보를 선택하고 이를 음절 단위로 매핑한다. 발명의 양 상에 따라서는 어절 단위 또는 문장 단위로 음절 정보가 생성될 수 있으며, 텍스트 애니메이션 효과 또한 어절 단위 또는 문장 단위로 선택될 수 있다.
예를 들어, "사랑해"라는 텍스트에 대하여 각 음절마다 다른 효과와 효과 정보를 매핑 할 수도 있으며 "사랑해" 한 어절에 대해 동일한 효과와 효과 정보를 매핑 하여 생성할 수 있다.
본 발명은 최근에 연구되고 있는 정서(놀람, 화냄, 즐거움, 공포 등) 음향에 대한 음성 합성까지 확장할 수 있게 구성될 수 있다.
또한, 운율 처리단계에서는 발화 속도 제어 입력과 정서 음향 파라미터 입력과 언어학적 처리단계에서 분석 및 변환된 정보를 가지고 악센트, 억양, 경계, final lengthening과 음소의 강약, 지속시간, 휴지 기간 등을 결정한다.
억양(intonation)은 문장 유형(종결형 어미)에 따라 변화를 보이며, 평서문에서는 하강조, 예/아니오 등의 의문문에서는 마지막 음절 직전까지 하강 후 마지막 음절에서 상승하고, 의문사 의문문에서는 하강조로 피치를 조절한다.
엑센트(accent)는 발음에 나타나는 음절 내부의 강세를 표현한다.
지속 시간(Duration)은 음소의 발음이 지속하는 시간으로 천이 구간과 정상구간으로 나눌 수 있다. 지속시간 결정에 영향을 미치는 특징요소로는 자음, 모음의 고유 또는 평균값, 음절 유형, 조음 방법과 음소의 위치, 어절 내 음절 수, 어절 내 음절 위치, 인접 음운, 문장 끝, 억양구, 경계에서 나타나는 final lengthening, 조사나 어미에 해당하는 품사에 따른 효과 등이 있다.
그리고 지속시간의 구현은 각 음소의 최소 지속시간을 보장하며, 주로 자음보다는 모음 위주로 지속시간과 종성 자음의 지속시간, 천이 구간과 안정 구간에 대해 비선형적으로 지속 시간을 조절한다.
경계는 끓어 읽기, 숨의 조절, 문맥의 이해도 제고를 위해 필요하며, 경계에서 나타나는 운율 현상으로 피치의 급격한 하강, 경계 앞 음절에서 final lengthening, 경계에서 휴지 구간 존재하며 발화 속도에 따라 경계의 길이가 변화한다. 문장에서 경계의 검출은 어휘 사전과 형태소(조사, 어미) 사전을 이용하여 형태소를 분석하는 것이 바람직하다.
예를 들어 음성 합성기에 의해 합성된 음성의 특징을 입력으로 받아 얼굴 영상의 입술에 해당하는 부분의 입모양을 생성한다. 여기서 입력으로 받는 음성의 특징은, 음성의 멜 필터 뱅크(mel filter bank) 특징, mfcc(mel-frequency cepstral coefficients), 보코더 파라미터 등이 될 수 있다.
그리고 출력에 해당하는 입모양은 입술의 중요 부분에 대한 위치를 나타내는 좌푯값이다. 입모양 생성기는, LSTM(Long short-term memory network)과 같은 RNN (Recurrent neural network)으로 구현할 수 있다.
이렇게 구현된 신경망을 학습하기 위해서는 입력과 출력의 쌍이 필요한데, 이를 위해서 학습에 쓰일 비디오 데이터로부터 음성과 해당 음성에 대응되는 얼굴 영상을 추출한다. 추출된 음성에서는 음성 특징을 추출하고, 얼굴 영상에 서는 입술에 해당하는 입모양을 추출한다.
추출된 입모양에 대해 얼굴 위치, 회전 및 크기의 정규화와 PCA (principal component analysis) 등의 전처리하여 좀 더 학습이 잘되도록 할 수도 있다. 이렇게 준비된 학습데이터를 인공 신경망의 입력으로 사용하고 손실 함수(loss function)를 정의하고, 오차 역전파 알고리즘을 통해 학습하면, 새로운 음성 특징 입력에 대하여 입술의 입모양을 얻어내는 입모양 생성기를 위한 인공 신경망 모델을 얻을 수 있다.
여기서, 서로 다른 언어를 사용하는 복수의 화자에 대한 입술 입모양을 생성하기 위해서는, 앞에서 설명한 인공 신경망의 학습을 위해 음성 특징 입력과 입모양 출력의 쌍을 구성할 때, 화자의 정보를 함께 인공 신경망의 입력으로 준비하여 학습할 수 있다. 이렇게 학습된 인공 신경망을 이용한 입모양 생성기에서는, 영어 음성과 한국어 화자의 정보를 입력으로 하면, 해당 한국어 화자가 영어를 말할 때의 입술 입모양을 얻을 수 있게 된다.
일반적으로 화자의 입은 발음하기 전에 미리 움직이므로, 입모양 생성기가 과거에 발음된 음성 입력에만 입모양을 맞추는 것으로는 충분한 립싱크가 이루어지지 않는다. 따라서, 과거에 발음된 음성 뿐 아니라 미래의 문맥도 고려하기 위해, 입모양 생성기는 출력에 시간 지연을 추가할 수 있다.
즉, 입모양 생성기는, 네트워크의 출력을 목표 지연(target delay; 예를 들어 2)로써 전 방향으로 쉬프트할 수 있다.
시간지연 LSTM을 쓰는 대신 양방향 LSTM을 써서 과거와 미래의 입력을 동시에 반영하는 방법도 있다.
입 모양 이미지 생성기는, 화자의 얼굴 이미지 중에서 입 영역과 그 주변이 삭제되어, 윤곽선이 표시된 이미지를 입력받는다.
여기서, 화자의 얼굴 이미지 중에서 입 영역은, 입모양 주변의 경계선(bounding box)을 이용하여 제거되며, OpenCV(open source computer vision library)를 이용하여 그 윤곽선이 표시된다. 이미지 생성기는, 위와 같은 이미지를 기초로 하여, 입 영역의 내부가 합성된 완전한 얼굴 이미지를 생성한다. 합성된 입 영역 이미지가 비디오 데이터에 있어서 얼굴과 호환될 수 있도록 역정규화(denormalization)이 실행될 수 있다. 이미지 생성기는 이상과 같은 얼굴 이미지 합성에 Pix2Pix를 사용할 수 있다.
구체적으로 살펴보면, 도 1에 도시된 바와 같이 본 발명은 음성 및 텍스트 입력부(11), 입모양 애니메이션 저장부(12), 입모양 애니메이션 표시부(13) 등으로 이루어진다.
음성 및 텍스트 입력부(11)는 음성 파일 또는 텍스트 파일에 포함되는 글자가 입력되는 장치로서, 외부 마이크를 통해 직접 음성이 입력되든지 아니면 대본 형태로 되어 있는 텍스트 파일을 전체 입력받는 방식을 통해 다양한 음성 및 텍스트를 수집할 수 있다.
이를 위해 음성 및 텍스트 입력부는 음성 입력부와 음성 인식부로 구성될 수 있는 데, 음성 입력부는 녹음한 음성 파일을 입력받는 구성요소로서, 입력되는 음성 파일은 초당 30 프레임으로 설정된 디지털 파일이다.
음성 인식부는 음성 입력부를 통해 입력된 음성 파일을 분석하여 각각의 어소를 구성하는 자음과 모음, 그리고 소리의 높낮이를 파악하여 입모양 애니메이션 저장부에 저장한다.
그리고 음성 인식부는 음성 인식 결과를 출력하며, 이때, 음성 인식 결과는 각 어소에 대응하는 코드(예를 들면, 완성형 한글 코드, 조합형 한글 코드 등)로 출력될 수 있다.
일실시예로서 상기 음성 및 텍스트 입력부(11)는, 텍스트나 음성을 인식해서 해당 단어의 초성/중성/종성을 입력하는 알고리즘을 포함할 수 있다.
상기 입모양 애니메이션 저장부(12)는 음성 파일 또는 텍스트 파일에 따라 한국어의 발음특성을 고려한 일정 개수의 입모양이 발음 분류에 대응되어 초성 애니메이션, 중성 애니메이션, 및 종성 애니메이션을 저장하는 장치이다.
상기 입모양 애니메이션 저장부(12)는, 초성/중성/종성에 따른 입모양의 값에 대응되도록 입모양이 형성된 애니메이션으로 저장한다.
상기 입모양 애니메이션 표시부(13)는 입모양 애니메이션 저장부에 저장된 초성 애니메이션, 중성 애니메이션, 및 종성 애니메이션을 해당 글자의 초성, 중성, 및 종성에 대응시키고, 이전 글자가 있다면 마지막으로 재생된 애니메이션을 유지하거나, 이전글자가 없을 경우 특정 애니메이션으로 처리하는 장치이다.
이를 위해 개발된 본 발명은 이하 초성과 중성과 종성이 각각 2개씩 나누어지며, 이를 각각 초성1, 초성2 등으로 설명할 것이다.
구체적으로 살펴보면, 입모양 애니메이션 표시부는 초성 애니메이션 표시부, 중성 애니메이션 표시부, 및 종성 애니메이션 표시부로 나뉘고,
① 초성 애니메이션 표시부는,
1) 양순음 ㅁ, ㅂ, ㅃ, ㅍ가 초성일 경우 닫은 애니메이션(1번 에니메이션)으로 결정하여 표시하며,
2) 이외의 경우는 정해진 애니메이션 없이, 이전글자가 있다면 마지막으로 재생된 애니메이션을 유지하여 표시하고, 이전글자가 없을 경우 묵음 애니메이션을 표시하며, 3) 쌍자음인 경우 1), 2)와 같은 표시 처리를 진행하고,
② 중성 애니메이션 표시부는,
1) 단모음의 경우 해당 모음의 애니메이션으로 변경하여 표시하고,
2) 이중모음의 경우 중성1, 중성2로 두단계의 입모양 애니메이션으로 표시하는 데 있어, 총 3단계의 입모양으로 결정하는 경우, 초성이 양순음일 경우 중성2를 따라 중성 애니메이션으로 표시하고, 초성이 양순음이 아닌 경우 초성 입모양이 묵음, 혹은 의미 없는 이전 애니메이션 이므로 초성애니메이션을 중성1에 해당하는 애니메이션으로 변경하여 표시하며,
이중모음의 중성1, 중성2는 데이터 테이블의 First, End 구분을 따르면 된다.
③ 종성 애니메이션 표시부는, 1) 쌍자음이 종성으로 올 경우 종성2를 따라 표시하고, 2) 이외의 경우에는 일반적인 종성 애니메이션으로 표시한다.
이하 초성 애니메이션 표시부, 중성 애니메이션 표시부, 및 종성 애니메이션 표시부를 포함하는 입모양 애니메이션 표시부로 구성된 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템을 이용한 방법을 자세히 설명한다.
상기 초성 애니메이션 표시부가
1) 양순음 ㅁ, ㅂ, ㅃ, ㅍ가 초성일 경우 닫은 애니메이션(1번 에니메이션)으로 결정하여 표시하는 단계;
2) 양순음 ㅁ, ㅂ, ㅃ, ㅍ가 초성이 아닌 경우는 정해진 애니메이션 없이, 이전글자가 있다면 마지막으로 재생된 애니메이션을 유지하여 표시하고, 이전글자가 없을 경우 묵음 애니메이션을 표시하며, 3) 쌍자음인 경우 1), 2)와 같은 표시 처리를 진행하는 단계;를 포함한다.
② 중성 애니메이션 표시부가,
1) 단모음의 경우 해당 모음의 애니메이션으로 변경하여 표시하는 단계; 2) 이중모음의 경우 중성1, 중성2로 두단계의 입모양 애니메이션으로 표시하는 데 있어, 총 3단계의 입모양으로 결정하는 경우, 초성이 양순음일경우 중성2를 따라 중성 애니메이션으로 표시하고, 초성이 양순음이 아닌 경우 초성 입모양이 묵음, 혹은 의미 없는 이전 애니메이션 이므로 초성애니메이션을 중성1에 해당하는 애니메이션으로 변경하여 표시하는 단계; 이중모음의 중성1, 중성2는 데이터 테이블의 First, End 구분을 따르는 단계; ③ 종성 애니메이션 표시부가, 1) 쌍자음이 종성으로 올 경우 종성2를 따라 표시하고, 2) 이외의 경우에는 일반적인 종성 애니메이션으로 표시하는 단계;를 포함한다.
이를 위해 하나 이상의 입모양데이터를 발음 순서대로 적용하여 3D아바타의 표정 애니메이션을 생성하는 디지털 휴먼을 이용할 수 있다.
일실시예로서 사용자의 실제 표정을 바탕으로 디지털 휴먼용 애니메이션 등에서 실제 표정을 구현해내는 경우, 사용자의 표정을 직접 감지하여 아바타에 적용하고, 음성과 동일 시점에 매칭할 수 있다.
*그러나, 가상현실 상에서 아바타를 이용하는 서비스에서는, 사용자의 실제 표정과 동일한 표정을 구현하기 위해 사용자의 실제 표정을 센싱하는 것은 어려움이 있다. 따라서, 사용자의 음성을 인식하여 복수의 기본 입모양을 조합하여 사용자의 발화에 상응하는 3D아바타의 입모양을 생성할 수 있다.
또는 사용자가 말하는 음성에 부합하는 입모양과 사용자의 음성 등을 통해 인식되는 감정에 부합하는 얼굴 움직임을 결합하여 실제 사용자의 표정에 가장 근접한 디지털 휴먼의 실시간 표정을 구현할 수도 있다.
다른 실시예로서 음성 인식으로 말하고 인식된 음성을 기반으로 대답해주는 챗봇에 이용할 수 있는 데, 챗봇(chatbot)이란 음성이나 문자를 통한 인간과의 대화를 통해서 특정한 작업을 수행하도록 제작된 컴퓨터 프로그램을 말한다. 이러한 챗봇은 메신저 앱 상에서 구현되는 것이 일반적이지만, 반드시 이에 한정되는 것은 아니다. 메신저 앱이란, 여러 사용자 간에 메시지를 주고받기 위한 프로그램으로, 단말기에 설치되는 형태로 제공될 수 있다. 메신저 앱은 여러 대화 상대방 단말기 각각과 메시지를 주고받기 위한 대화창을 제공할 수 있다. 이하에서 설명되는 본 발명은 메신저 앱 상에서 구현되어, 챗봇을 대화 상대방으로 하는 대화창을 통하여 챗봇 서비스가 제공되는 예시로 설명한다. 하지만, 이는 하나의 예시일 뿐, 본 발명이 메신저 앱 상에서 구현되는 형태에 한정되지는 않을 것이다.
챗봇 서비스란, 챗봇에 의해서 제공되는 서비스를 의미하며, 단말기로부터 수신한 질의 메시지에 대한 응답을 제공하거나, 단말기로부터 수신되는 다양한 요청(물품의 주문이나 예약 수행(booking) 등)을 수행하는 것을 의미할 수 있다.
사용자의 질의 사항이나 요청 사항을 메시지 형태로 입력하면, 챗봇 서버는 질의나 요청에 대한 답변을 응답 메시지 형태로 제공하는 형태로 챗봇 서비스가 제공될 수 있다. 이를 통하여 챗봇 서비스를 제공 받는 사용자는, 마치 상담 직원과 대화를 하는 것처럼 원하는 정보를 확인하거나 필요한 기능을 제공 받을 수 있다.
챗봇 서버는 상담사(예 : 남자, 여자, 또는 유명인 등)에 대응하는 챗봇 서비스를 제공하기 위하여 챗봇을 설치 및 실행하고 있는 하드웨어 장치를 의미한다.
예를 들어 기업체 또는 단체는 고객 단말기에게 상담사 챗봇 서비스를 제공하기 위하여 챗봇 서버를 이용 할 수 있다. 서비스 제공자는 챗봇 서버에서 제공되는 챗봇 빌더에 관한 상담사가 상담하도록 이루어진 인터페이스를 통해 챗봇을 생성하고, 챗봇 서비스를 제공하도록 할 수 있다.
제어부는 메모리에 저장된 하나 이상의 상담 명령어(상담사가 주로 사용하는 용어)를 실행한다. 제어부는 명령어를 실행하는 것에 의해 이하에서 후술되는 하나 이상의 상담 채팅 또는 동작을 실행할 수 있다. 제어부는 명령어에 따라 단말기로부터 질의나 요청을 수신 받으면, 질의에 대응하는 답변을 단말기에 응답하거나, 요청에 대응하는 기능을 제공하기 위하여 명령어를 실행할 수 있다.
챗봇에 의한 상담이 원활하게 진행되지 않는다고 판단하면, 상담사(예 : 남자, 여자, 또는 유명인 등) 배정 알고리즘을 이용하여 챗봇에 대응하는 상담사를 매칭하고, 상담 전환부로 매칭된 상담사로 상담 전환을 요청한다.
상담사가 상담 진행 중에, 챗봇을 이용하여 상담 진행이 가능하다고 판단하고 챗봇 서버로 상담 전환 요청을 하면, 상기 상담사에 매칭되는 챗봇으로 상담을 전환하는 단계;를 포함하며, 상기 챗봇 또는 상담사로 상담 진행을 요청하는 단계는, 고객의 상담 이력 및 고객 정보에 기초하여 고객 종류별로 분류된 그룹 정보이며; 설정된 사용자 그룹 ID 및 선택된 상담 카테고리 ID에 해당하는 챗봇이 존재하는지 검사하고, 해당하는 챗봇을 고객 단말로 배정하는 단계; 를 포함한다.
또한 챗봇에 의한 상담이 원활하게 진행되지 않는다고 판단하면, 상담사 배정 알고리즘을 이용하고 챗봇에 대응하는 상담사를 매칭하여, 매칭된 상담사로 상담 전환 요청하는 단계; 및 상담사가 상담 진행 중에, 챗봇을 이용하여 상담 진행이 가능하다고 판단하고 챗봇 서버로 전환 요청을 하면, 상기 상담사에 매칭되는 챗봇으로 상담을 전환하는 단계;를 포함한다.
상기 챗봇 또는 상담사로 상담 진행을 요청하는 단계는, 고객의 사용자 그룹 ID를 설정하고, 시작 안내 봇을 이용하여 고객 단말로 상담 카테고리 ID 선택 요청 메시지를 전송하는 단계, 상기 사용자 그룹 ID는 상기 고객의 상담 이력 및 고객 정보에 기초하여 고객 종류별로 분류된 그룹 정보이며; 설정된 사용자 그룹 ID 및 선택된 상담 카테고리 ID에 해당하는 챗봇(예 : 남자, 여자, 또는 유명인 등)이 존재하는지 검사하고, 해당하는 챗봇을 고객 단말로 배정하는 단계; 를 포함한다.
일 실시 예에서, 입모양 애니메이션 표시부를 통해 남자, 여자, 또는 유명인 등의 캐릭터에 기반한 챗봇 형태로 사용자와 대화 형태로 인터렉션이 수행되며, 사용자가 요청 메시지 형태로 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템에 스케쥴링을 요청하고, 컴퓨터는 스케쥴링 후 그 결과를 메시지 형태로 사용자에게 제공할 수 있다.
남자, 여자, 또는 유명인 등의 캐릭터를 흉내내기 위해서는 상술한 디지털트윈 및 메타버스 플랫폼에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 방법에 의한 운율 처리 단계 등을 이용할 수 있다.
예를 들어 상담사(예 : 남자, 여자, 또는 유명인 등)의 경우 발화 속도 제어 입력과 정서 음향 파라미터 입력과 언어학적 처리단계에서 분석 및 변환된 정보를 가지고 액센트, 억양, 경계, final lengthening과 음소의 강약, 지속시간, 휴지기간 등을 결정한다.
억양(intonation)은 문장 유형(종결형 어미)에 따라 변화를 보이며, 평서문에서는 하강조, 예/아니오 등의 의문문에서는 마지막 음절 직전까지 하강 후 마지막 음절에서 상승하고, 의문사 의문문에서는 하강조로 피치를 조절 한다.
액센트(accent)는 발음에 나타나는 음절 내부의 강세를 표현한다.
지속 시간(Duration)은 음소의 발음이 지속되는 시간으로 천이구간과 정상구간으로 나눌 수 있다.
지속시간 결정에 영향을 미치는 특징요소로는 자음, 모음의 고유 또는 평균값, 음절 유형, 조음 방법과 음소의 위치, 어절 내 음절 수, 어절 내 음절 위치, 인접 음운, 문장 끝, 억양구, 경계에서 나타나는 final lengthening, 조사나 어미에 해당하는 품사에 따른 효과 등이 있다.
그리고 지속 시간의 구현은 각 음소의 최소 지속 시간을 보장하며, 주로 자음보다는 모음 위주로 지속시간과 종성자음의 지속시간, 천이구간과 안정 구간에 대해 비선형적으로 지속 시간을 조절한다.
경계는 끓어 읽기, 숨의 조절, 문맥의 이해도 제고를 위해 필요하며, 경계에서 나타나는 운율 현상으로 피치 (F0)의 급격한 하강, 경계 앞 음절에서 final lengthening, 경계에서 휴지구간 존재하며 발화 속도에 따라 경계의 길이가 변화한다. 문장에서 경계의 검출은 어휘 사전과 형태소(조사, 어미) 사전을 이용하여 형태소를 분석하는 것이 바람직하다.
음성 합성기에 의해 상담사(예 : 남자, 여자, 또는 유명인 등)에 다른 합성된 음성의 특징을 입력으로 받아 얼굴영상의 입술에 해당하는 부분의 입모양을 생성한다. 여기서 입력으로 받는 음성의 특징은, 음성의 멜 필터 뱅크(mel filter bank) 특징, mfcc(mel-frequency cepstral coefficients), 보코더 파라미터 등이 될 수 있다.
그리고 출력에 해당하는 입모양은 입술의 중요 부분에 대한 위치를 나타내는 좌표 값이다. 입모양 애니메이션 표시부는, LSTM (Long short-term memory network)과 같은 RNN (Recurrent neural network)으로 구현할 수 있다.
한편 도 11에 도시된 바와 같이 본 발명에 따른 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템은 건설 현장에서 사용될 수 있는 데, 디지털트윈 및 메타버스 플랫폼 방식을 이용하여 건설 현장의 안전 관리 방법을 상술한 채팅이나 디지털 휴먼을 이용하여 경고하는 단계 등으로 실시할 수 있다.
복수의 지점에서의 각종 센서 장치로부터 환경 정보가 실시간 반영되는 건설현장 트윈모델을 생성하여 디지털트윈 정보로 저장하고, 건설현장에서 생성되는 작업 데이터, 안전 데이터, 관리 데이터를 저장하는 디지털트윈기반 건설현장 서버; 상기 디지털트윈기반 건설현장 서버로 부터 건설현장의 작업 데이터 및 안전 데이터를 분석하여 위험작업현황을 파악하는 위험작업현황부; 상기 위험작업현황부로 부터 위험작업현황을 전달받아 상기 디지털트윈 정보와 융합하여 저장하는 디지털트윈부; 디지털트윈부는 시간 동기화된 앵커들로부터 수신된 태그의 무선신호 도달 시간에 기초하여 태그의 위치를 산출하는 TDoA(Time Difference of Arrival) 방식 또는 RTT(Round Trip Time)를 계산하고 계산된 RTT를 거리로 환산하는 TWR(Two-Way Ranging) 방식 중 적어도 하나의 방식을 통해 각종 센서 장치로부터 수신된 위치 정보 감지 데이터를 통해 물품의 실시간 위치정보(현장 물품의 식별정보 및 위치)를 정밀하게 산출할 수 있다
상기 디지털트윈부로 부터 디지털트윈화된 정보를 네트워크를 통해 전송받는 안전관리서비스 서버; 상기 안전관리서비스 서버로 부터 전송받은 위험작업현황을 시각화하는 위험작업현황 시각화부; 및 상기 안전관리서비스 서버로 부터 전송받은 위험요인을 시각화하는 위험요인 시각화부;를 포함한다.
상기 위험작업현황 시각화부와 위험요인 시각화부를 통해 실시간으로 현장내의 근로자를 안내 함으로써 안전관리자들이 보다 용이하게 재해를 예방할 수 있도록 한다.
이 때 시각화부를 통한 건설 현장의 안전 관리 방법을 상술한 채팅이나 디지털 휴먼을 이용하여 경고할 수 있다.
다른 실시예로서 본 발명은 디지털트윈기반 건설현장 서버가 복수의 지점에서의 각종 센서 장치로부터 환경 정보가 실시간 반영되는 건설현장 트윈모델을 생성하여 디지털트윈 정보로 저장하는 단계; 디지털트윈기반 건설현장 서버가 건설현장에서 생성되는 작업 데이터, 안전 데이터, 관리 데이터를 저장하는 단계; 위험작업현황부가 상기 디지털트윈기반 건설현장 서버로 부터 건설현장의 위험작업현황을 파악하는 단계; 디지털트윈부가 상기 위험작업현황부로 부터 위험작업현황을 전달받아 디지털트윈화하여 저장하는 단계;를 포함한다.
즉 상기 위험작업현황 등과 관련된 건설 현장의 안전 관리 방법을 상술한 채팅이나 디지털 휴먼을 이용하여 경고하는 단계 등으로 실시할 수 있다.
상기 안전관리서비스 서버가 상기 디지털트윈부로 부터 디지털트윈화된 정보를 네트워크를 통해 전송받아 건설현장 근로자 단말기에 전송하여 실시간으로 현장내의 근로자를 안내 함으로써 안전관리자 들이 보다 용이하게 재해를 예방할 수 있도록 하는 단계;를 더 포함한다.
이 때에도 채팅이나 디지털 휴먼을 이용하여 용이하게 재해를 예방할 수 있도록 한다.
본 발명은 상기 안전관리서비스 서버로 부터 전송받은 위험작업현황을 시각화하는 위험작업현황 시각화부; 및 상기 안전관리서비스 서버로 부터 전송받은 위험요인을 시각화하는 위험요인 시각화부;를 포함하며, 상기 디지털트윈부가 상기 위험작업현황부로 부터 위험작업현황을 전달받아 디지털트윈화하여 저장하는 단계는, 상기 안전관리서비스 서버가 작업 데이터 및 안전 데이터에 기반한 건설현장 트윈모델 내의 복수의 가상객체 또는 건설현장 장비 중 어느 하나의 안전 관리 메뉴얼에 따라 선택된 가상객체 또는 건설현장 장비를 구분하여 표시한다.
선택된 가상객체 또는 건설현장 장비에 매칭된 기계류를 센서 장치로 트랙킹하면서 실시간 촬영하여 안전 관련 가상 객체로 만들기 위하여 상기 건설현장 내의 고해상도 이미지 센서 장치를 제어한다.
안전 관련 가상 객체가 이동하는 복수의 가상 공간 정보 중 어느 하나의 공간에서의 위험작업 현황 파악에 응답하여 안전관리서비스 서버가 상기 가상객체를 안전하게 고해상도 이미지 센서 장치로 파악한 장소로 이동시키거나, 건설현장 장비의 위험 작업을 고해상도 이미지 센서 장치로 파악한 방법으로 안전하게 제어한다.
상기 디지털트윈부가 상기 위험작업현황부로 부터 위험작업현황을 전달받아 디지털트윈화하여 저장하는 단계는, 네트워크를 통해 건설 현장 장비로부터 전송되는 부품 데이터에 대한 정비 요청 데이터를 토대로 원격 지원용 디지털트윈 데이터를 구현하여 저장하는 단계; 상기 정비 요청에 따른 문제 발생 현장에 마련된 센서 장치를 통해 디지털트윈기반 건설현장 서버에서 정비 요청 데이터에 따른 지원 데이터가 수집되어 원격 지원용 디지털트윈 데이터에 반영하여 저장하는 단계; 원격 지원용 디지털트윈 데이터 화면이 디지털트윈기반 건설현장 서버의 화면 상에 배치되어 지원 데이터가 출력하는 단계; 네트워크를 통해 상기 건설 현장 장비로부터 위험작업현황에 따른 지원 데이터를 수신하여 상기 안전관리서비스 서버가 저장된 디지털트윈 데이터에 정비 요청에 따른 지원 결과를 반영하는 단계; 등을 포함한다.
이 때 위험작업현황에 따른 지원 데이터에 관해 미리 음성 및 텍스트 입력부를 통해 입력되는 텍스트 정보를 포함하고, 선택적으로 정비 요청에 따른 지원에 관련된 텍스트 정보를 더 포함할 수 있다.
이러한 텍스트 정보는 어떤 텍스트를 어떤 감정이나 톤으로 표시할지를 나타내는 표현 정보를 포함할 수도 있다.
상기 표현 정보는 용이하게 재해를 예방할 수 있도록 침착한 톤을 유지해야 하므로 텍스트 속도(느림/보통/빠름/매우 빠름 등)와, 감정 상태(보통/엄숙/활발/화남 등)와, 텍스트 모드(발표/설명/대화/속삭임 등)와, 텍스트의 톤과, 강조(강하게/약하게 등) 등의 정보 중에서 재해를 예방하기 최적화된 속도나 모드 등을 선택할 수 있다.
상기 디지털트윈부가 상기 위험작업현황부로부터 위험작업현황을 전달받아 디지털트윈화하여 저장하는 단계 후에는, 건설현장 장비에 매칭된 기계류 중에서 작업현장 내에서 위험물체로 분류된 장치 또는 이동체 중 적어도 어느 하나에 경고하는 단계; 디지털트윈기반 건설현장 서버에서 생성된 경고알림을 현장내의 근로자의 스마트 디바이스에 전송하는 단계; 촬영된 영상을 실시간으로 안전관리서비스 서버에 전송하는 단계; 산출된 충돌가능성이 기설정된 수치를 초과할 경우, 안전관리서비스 서버에서 생성된 경고알림을 상기 스마트 디바이스에 전송하는 단계; 상기 현장내의 근로자의 생체신호를 측정하여 응급상황 발생 시 안전관리서비스 서버가 즉시 안전관리자의 단말기 및 구조기관에 즉시 호출신호를 전송하는 단계; 등을 포함한다.
상기 디지털트윈부가 상기 위험작업현황부로 부터 위험작업현황을 전달받아 디지털트윈화하여 저장하는 단계 후에는, 디지털트윈기반 건설현장 서버가 건설현장의 물리적 공간 내의 실제 건설현장 장비에 매칭된 기계류들에 대응되는 가상객체들을 3차원 모델링하여 디지털트윈 데이터로 저장하는 단계; 디지털트윈기반 건설현장 서버가 안전관리자 입력에 따른 작업지시 및 작업 가이던스를 상기 디지털트윈 데이터 내의 실제 3차원 객체에 연관시켜 가상 컨텐츠로 생성하고, 근로자의 단말기로 가상 컨텐츠 및 디지털트윈이 융합된 형태로 안전관리서비스 서버로 송신하는 단계; 안전관리서비스 서버가 작업지시 및 작업 가이던스를 내리고자 하는 위치 주변의 근로자를 선택하여 작업지시 및 작업 가이던스를 제공하는 단계; 안전관리서비스 서버가 디지털 트윈으로 모니터링하는 안전관리자로부터 실시간 작업 지시나 작업 가이드를 입력 받아 디지털트윈 환경에 투영하여 제공하는 단계; 등을 포함한다.
이 때 상기 디지털트윈 환경에 투영하여 제공하는 것은 채팅이나 디지털 휴먼을 이용하여 제공하는 방법을 포함한다.
예를 들어 디지털트윈 환경과 같은 가상현실 상에서 아바타를 이용하는 서비스에서는, 사용자의 실제 표정과 동일한 표정을 구현하기 위해 사용자의 실제 표정을 센싱하는 것은 어려움이 있다. 따라서, 사용자의 음성을 인식하여 복수의 기본 입모양을 조합하여 사용자의 발화에 상응하는 디지털 휴먼(또는 3D아바타)의 입모양을 생성할 수 있다.
또는 사용자가 말하는 음성에 부합하는 입모양과 사용자의 음성 등을 통해 인식되는 감정에 부합하는 얼굴 움직임을 결합하여 실제 사용자의 표정에 가장 근접한 디지털 휴먼의 실시간 표정을 구현할 수도 있다.
11 : 음성 및 텍스트 입력부
12 : 입모양 애니메이션 저장부
13 : 입모양 애니메이션 표시부

Claims (3)

  1. 복수의 지점에서의 각종 센서 장치로부터 환경 정보가 실시간 반영되는 건설현장 트윈모델을 생성하여 디지털트윈 정보로 저장하고, 건설현장에서 생성되는 작업 데이터, 안전 데이터, 관리 데이터를 저장하는 디지털트윈기반 건설현장 서버; 상기 디지털트윈기반 건설현장 서버로 부터 건설현장의 작업 데이터 및 안전 데이터를 분석하여 위험작업현황을 파악하는 위험작업현황부; 상기 위험작업현황부로 부터 위험작업현황을 전달받아 상기 디지털트윈 정보와 융합하여 저장하는 디지털트윈부;
    상기 디지털트윈부로 부터 디지털트윈화된 정보를 네트워크를 통해 전송받는 안전관리서비스 서버; 상기 안전관리서비스 서버로 부터 전송받은 위험작업현황을 시각화하는 위험작업현황 시각화부; 및 상기 안전관리서비스 서버로 부터 전송받은 위험요인을 시각화하는 위험요인 시각화부;를 포함하며,
    상기 위험작업현황 시각화부와 위험요인 시각화부를 통해 실시간으로 현장내의 근로자를 안내하고, 시각화부를 통한 건설 현장의 안전 관리 방법을 상술한 채팅이나 디지털 휴먼을 이용하여 경고하는 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템에 있어,
    음성 파일 또는 텍스트 파일에 포함되는 글자가 입력되는 음성 및 텍스트 입력부;
    상기 음성 파일 또는 텍스트 파일에 따라 한국어의 발음특성을 고려한 일정 개수의 입모양이 발음 분류에 대응되어 초성 애니메이션, 중성 애니메이션, 및 종성 애니메이션을 저장하는 입모양 애니메이션 저장부;
    상기 입모양 애니메이션 저장부에 저장된 초성 애니메이션, 중성 애니메이션, 및 종성 애니메이션을 해당 글자의 초성, 중성, 및 종성에 대응시키고, 이전 글자가 있다면 마지막으로 재생된 애니메이션을 유지하거나, 이전글자가 없을 경우 특정 애니메이션으로 처리하는 입모양 애니메이션 표시부;를 포함하고,
    상기 입모양 애니메이션 저장부는,
    초성, 중성, 및 종성에 따른 입모양의 값에 대응되도록 입모양이 형성된 애니메이션으로 저장하고,
    상기 음성 및 텍스트 입력부는,
    텍스트나 음성을 인식해서 해당 단어의 초성, 중성, 및 종성을 입력하는 알고리즘을 포함하며,
    상담사가 상담 진행 중에, 챗봇을 이용하여 상담 진행이 가능하다고 판단하고 서버로 상담 전환 요청을 하면, 상기 상담사에 매칭되는 챗봇으로 상담을 전환하는 것을 특징으로 하는 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템.
  2. 제1항에 있어서,
    상기 입모양 애니메이션 표시부는 초성 애니메이션 표시부, 중성 애니메이션 표시부, 및 종성 애니메이션 표시부로 나뉘고,
    상기 초성 애니메이션 표시부는,
    양순음 ㅁ, ㅂ, ㅃ, ㅍ가 초성일 경우 닫은 애니메이션(1번 에니메이션)으로 결정하여 표시하며,
    이외의 경우는 정해진 애니메이션 없이, 이전글자가 있다면 마지막으로 재생된 애니메이션을 유지하여 표시하고, 이전글자가 없을 경우 묵음 애니메이션(0번 에니메이션)을 표시하며, 쌍자음인 경우 상기 닫은 애니메이션 또는 묵음 애니메이션을 포함하는 표시 처리를 진행하고,
    상기 중성 애니메이션 표시부는,
    단모음의 경우 해당 모음의 애니메이션으로 변경하여 표시하고,
    이중모음의 경우 첫번째 중성(중성1) 및 두번째 중성(중성2)로 두단계의 입모양 애니메이션으로 표시하는 데 있어, 초성이 양순음일경우 중성1이 아닌 중성2를 따라 중성 애니메이션으로 표시하고, 초성이 양순음이 아닌 경우 또는 "ㅃ"을 제외한 쌍자음인 경우 초성 입모양이 묵음, 혹은 의미없는 이전 애니메이션이므로 초성애니메이션을 중성1(첫번째 중성)에 해당하는 애니메이션으로 변경하여 표시하며,
    이중모음의 첫번째 중성(중성1), 두번째 중성(중성2)는 데이터 테이블의 First(시작 발음 애니메이션), End(끝 발음 애니메이션) 구분을 따르고,
    상기 종성 애니메이션 표시부는, 쌍자음이 종성으로 올 경우 첫번째 종성(종성1)이 아닌 두번째 종성(종성2)를 따라 표시하고, 이외의 경우에는 일반적인 종성 애니메이션으로 표시하고,
    상기 입모양 애니메이션 표시부와 연결된 챗봇 서버는 남자, 여자, 또는 유명인을 포함하는 상담사에 대응하는 챗봇 서비스를 제공하기 위하여 챗봇에 의한 상담이 원활하게 진행되지 않는다고 판단하면, 상담사 배정 알고리즘을 이용하여 챗봇에 대응하는 상담사를 매칭하고, 상담 전환부로 매칭된 상담사로 상담 전환을 요청하는 것을 특징으로 하는 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템.
  3. 청구항 1의 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템을 이용한 방법에 있어서,
    초성 애니메이션 표시부, 중성 애니메이션 표시부, 및 종성 애니메이션 표시부를 포함하는 입모양 애니메이션 표시부로 구성된 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 시스템을 이용한 방법에 있어서,
    상기 초성 애니메이션 표시부가
    양순음 ㅁ, ㅂ, ㅃ, ㅍ가 초성일 경우 닫은 애니메이션(1번 에니메이션)으로 결정하여 표시하는 단계;
    양순음 ㅁ, ㅂ, ㅃ, ㅍ가 초성이 아닌 경우는 정해진 애니메이션 없이, 이전글자가 있다면 마지막으로 재생된 애니메이션을 유지하여 표시하고, 이전글자가 없을 경우 묵음 애니메이션을 표시하며, 쌍자음인 경우 상기 닫은 애니메이션 또는 묵음 애니메이션을 포함하는 표시 처리를 진행하는 단계;
    상기 중성 애니메이션 표시부가,
    단모음의 경우 해당 모음의 애니메이션으로 변경하여 표시하는 단계;
    이중모음의 경우 중성1, 중성2로 두단계의 입모양 애니메이션으로 표시하는 데 있어, 초성이 양순음일경우 중성2를 따라 중성 애니메이션으로 표시하고, 초성이 양순음이 아닌 경우 초성 입모양이 묵음, 혹은 의미없는 이전 애니메이션 이므로 초성애니메이션을 중성1에 해당하는 애니메이션으로 변경하여 표시하는 단계;
    이중모음의 중성1, 중성2는 데이터 테이블의 시작 발음 애니메이션(First), 끝 발음 애니메이션(End) 구분을 따르는 단계;
    상기 종성 애니메이션 표시부가, 쌍자음이 종성으로 올 경우 종성2를 따라 표시하고, 이외의 경우에는 일반적인 종성 애니메이션으로 표시하는 단계;
    상기 입모양 애니메이션 표시부와 연결된 챗봇 서버는 남자, 여자, 또는 유명인을 포함하는 상담사에 대응하는 챗봇 서비스를 제공하기 위하여 챗봇에 의한 상담이 원활하게 진행되지 않는다고 판단하면, 상담사 배정 알고리즘을 이용하여 챗봇에 대응하는 상담사를 매칭하고, 상담 전환부로 매칭된 상담사로 상담 전환을 요청하는 단계; 및
    상담사가 상담 진행 중에, 챗봇을 이용하여 상담 진행이 가능하다고 판단하고 서버로 상담 전환 요청을 하면, 상기 상담사에 매칭되는 챗봇으로 상담을 전환하는 단계;를 포함하고,
    상기 애니메이션으로 표시하는 단계는, 하나 이상의 입모양데이터를 발음 순서대로 적용하여 3D아바타의 표정 애니메이션을 생성하는 디지털 휴먼이 상기 입모양 애니메이션 표시부를 통한 입모양과 사용자의 음성을 통해 인식되는 감정에 부합하는 얼굴움직임을 결합하여 실제 사용자의 표정에 가장 근접한 디지털 휴먼의 실시간 표정을 구현하며,
    상기 챗봇은 애니메이션으로 표시하는 단계에서 음성인식으로 말하고 인식된 음성을 기반으로 대답해주는 것을 특징으로 하는 디지털트윈기반 건설현장에서 HMI를 위한 디지털휴먼과의 커뮤니케이션 방법.
KR1020220186536A 2022-06-29 2022-12-28 디지털트윈기반 건설현장에서 hmi를 위한 디지털휴먼과의 커뮤니케이션 시스템 및 그 방법 KR20240002670A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220186536A KR20240002670A (ko) 2022-06-29 2022-12-28 디지털트윈기반 건설현장에서 hmi를 위한 디지털휴먼과의 커뮤니케이션 시스템 및 그 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220079409 2022-06-29
KR1020220186536A KR20240002670A (ko) 2022-06-29 2022-12-28 디지털트윈기반 건설현장에서 hmi를 위한 디지털휴먼과의 커뮤니케이션 시스템 및 그 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020220079409 Division 2022-06-29 2022-06-29

Publications (1)

Publication Number Publication Date
KR20240002670A true KR20240002670A (ko) 2024-01-05

Family

ID=89541296

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220186536A KR20240002670A (ko) 2022-06-29 2022-12-28 디지털트윈기반 건설현장에서 hmi를 위한 디지털휴먼과의 커뮤니케이션 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR20240002670A (ko)

Similar Documents

Publication Publication Date Title
CN106653052B (zh) 虚拟人脸动画的生成方法及装置
US20200279553A1 (en) Linguistic style matching agent
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
US20220093094A1 (en) Dialog management for multiple users
US8224652B2 (en) Speech and text driven HMM-based body animation synthesis
Busso et al. Interrelation between speech and facial gestures in emotional utterances: a single subject study
US10170101B2 (en) Sensor based text-to-speech emotional conveyance
US11289083B2 (en) Electronic apparatus and method for controlling thereof
CN112650831A (zh) 虚拟形象生成方法、装置、存储介质及电子设备
JP6656447B1 (ja) 動画出力システム
KR102458104B1 (ko) 디지털트윈기반 건설현장의 안전관리서비스 시스템 및 그 방법
KR102174922B1 (ko) 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치
Lundeberg et al. Developing a 3D-agent for the August dialogue system
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
KR101089184B1 (ko) 캐릭터의 발화와 감정표현 제공 시스템 및 방법
Gibbon et al. Audio-visual and multimodal speech-based systems
Fellbaum et al. Principles of electronic speech processing with applications for people with disabilities
CN113707124A (zh) 话术语音的联动播报方法、装置、电子设备及存储介质
Caldognetto et al. Multimodal score: an ANVIL™ based annotation scheme for multimodal audio-video analysis
JP2017182261A (ja) 情報処理装置、情報処理方法、およびプログラム
KR20240002670A (ko) 디지털트윈기반 건설현장에서 hmi를 위한 디지털휴먼과의 커뮤니케이션 시스템 및 그 방법
King et al. Language-driven nonverbal communication in a bilingual conversational agent
Weerathunga et al. Lip synchronization modeling for sinhala speech
Kumar et al. Real time detection and conversion of gestures to text and speech to sign system
Grzyb et al. Beyond robotic speech: mutual benefits to cognitive psychology and artificial intelligence from the study of multimodal communication