WO2024053967A1 - 디스플레이 기반 커뮤니케이션 시스템 - Google Patents

디스플레이 기반 커뮤니케이션 시스템 Download PDF

Info

Publication number
WO2024053967A1
WO2024053967A1 PCT/KR2023/013179 KR2023013179W WO2024053967A1 WO 2024053967 A1 WO2024053967 A1 WO 2024053967A1 KR 2023013179 W KR2023013179 W KR 2023013179W WO 2024053967 A1 WO2024053967 A1 WO 2024053967A1
Authority
WO
WIPO (PCT)
Prior art keywords
sign language
gloss
assistance device
communication
communication assistance
Prior art date
Application number
PCT/KR2023/013179
Other languages
English (en)
French (fr)
Inventor
장준수
김현진
이지수
Original Assignee
주식회사 바토너스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 바토너스 filed Critical 주식회사 바토너스
Priority claimed from KR1020230117060A external-priority patent/KR20240033676A/ko
Publication of WO2024053967A1 publication Critical patent/WO2024053967A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • This disclosure relates to a communication system, and specifically to a display-based communication system.
  • Hearing impaired is a general term for people who have reduced hearing or loss of hearing function.
  • Hearing impaired people can communicate in three main ways, depending on the degree of hearing impairment. First, if the degree of hearing impairment is low, it is possible to communicate verbally with non-disabled people by augmenting hearing using hearing aids. Second, you can communicate with non-disabled people by using the reading method of inferring what the other person is saying by looking at the shape of their mouth. And finally, you can communicate with non-disabled people using sign language.
  • the purpose of the present disclosure is to provide a display-based sign language communication system to increase the accuracy and convenience of sign language communication.
  • the communication assistance device includes a sign language recognition module that extracts a sign language sentence from the user's movements analyzed in video data, and a display that displays the extracted sign language sentence. provided.
  • the communication assistance device may further include an STT module for converting voice data into text data and a sign language generation module for converting voice data into sign language data.
  • the communication assistance device further includes a word card selection module that provides word cards selectable by the user on the display, and the sign language recognition module extracts the sign language sentence based on the selected word card. It can be characterized as:
  • the communication assistance device further includes a text input module that provides a user interface for a user to input text on the display, and when the sign language recognition module fails to extract the sign language sentence, The text input module may be activated.
  • the communication assistance device further includes a communication module that controls the communication assistance device to be communicatively connected to an external device, and when the sign language recognition module fails to extract the sign language sentence, The communication module may control the communication assistant device to be connected to the external device.
  • the sign language recognition module divides the image data into a plurality of segments, determines recognition accuracy of each gloss of the plurality of segments, and, among the glosses of the plurality of segments, the recognition accuracy is It may be characterized by extracting a sign language sentence based on a gloss greater than a predetermined value.
  • the recognition accuracy may be determined based on the similarity between the segment's gloss and the similar gloss, and the similar gloss may be characterized as a gloss that is most similar to the segment's gloss.
  • the sign language recognition module extracts skeleton information for tracking the user's movement by detecting the user's joint area from the image data, and selects the user's gloss according to the skeleton information and the similar gloss. It can be characterized by comparison.
  • the display may display a message requesting retransmission of a sign language sentence when the recognition accuracy of the glosses of the plurality of segments are all less than a predetermined value.
  • the sign language recognition module may be characterized in that it extracts a sign language sentence based on a gloss and previous conversation content in which the recognition accuracy is greater than a predetermined value.
  • the sign language recognition module is configured to, when the glosses of the plurality of segments include a first gloss with a recognition accuracy greater than a predetermined value and a second gloss with a recognition accuracy less than a predetermined value, the first gloss Based on this, a plurality of gloss candidates replacing the second gloss may be determined, and a sign language sentence may be extracted based on the first gloss and the gloss candidate selected from among the plurality of gloss candidates.
  • the sign language recognition module is configured to, when the glosses of the plurality of segments include a first gloss with a recognition accuracy greater than a predetermined value and a second gloss with a recognition accuracy less than a predetermined value, the first gloss and determining a plurality of gloss candidates to replace the second gloss based on the contents of the previous conversation, and extracting a sign language sentence based on the first gloss and the gloss candidate selected from among the plurality of gloss candidates.
  • the sign language recognition module determines the priority of the plurality of gloss candidates according to similarity with the second gloss, and the display selects the plurality of gloss candidates according to the priority. It may be characterized by display.
  • the display may be a transparent display.
  • the communication assistance device may form a communication system together with an input device that receives the user's voice or video.
  • a program implementing various functions and commands of the communication assistance device and a recording medium storing the program are provided.
  • the accuracy and convenience of communication based on sign language can be improved.
  • sign language users can receive services provided to non-disabled people without inconvenience without the help of a professional sign language interpreter.
  • the device for assisting sign language recognition of the present disclosure allows the user to easily control the start and end of sign language input. Therefore, the convenience of sign language communication can be increased by allowing the user to input sign language images into the communication assistance device at the user's desired time.
  • Figure 1 shows a video display device for communication using sign language and a system including the same.
  • FIGS 2 and 3 illustrate usage modes of communication assistance devices.
  • Figure 4 shows an example of an image input to a display.
  • Figure 5 explains an example of a method for inferring sign language sentences based on recognition accuracy.
  • Figure 6 is an example of skeleton information extracted from a sign language image.
  • the communication assistance device includes a sign language recognition module that extracts a sign language sentence from the user's movements analyzed in video data, and a display that displays the extracted sign language sentence. provided.
  • first, second, etc. may be used to describe various components, but the components should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another.
  • a first component may be referred to as a second component, and similarly, the second component may be referred to as a first component without departing from the scope of the present disclosure.
  • the term and/or includes any of a plurality of related stated items or a combination of a plurality of related stated items.
  • a component of the present disclosure When a component of the present disclosure is referred to as being “connected” or “connected” to another component, it may be directly connected or connected to the other component, but other components may exist in between. It must be understood that it may be possible. On the other hand, when it is mentioned that a component is “directly connected” or “directly connected” to another component, it should be understood that there are no other components in between.
  • each component is listed and included as a separate component for convenience of explanation, and at least two of each component can be combined to form one component, or one component can be divided into a plurality of components to perform a function, and each of these components can be divided into a plurality of components.
  • Integrated embodiments and separate embodiments of the constituent parts are also included in the scope of the present disclosure as long as they do not deviate from the essence of the present disclosure.
  • Some of the components of the present disclosure may not be essential components that perform essential functions in the present disclosure, but may simply be optional components to improve performance.
  • the present disclosure can be implemented by including only essential components for implementing the essence of the present disclosure, excluding components used only to improve performance, and a structure that includes only essential components excluding optional components used only to improve performance. is also included in the scope of rights of this disclosure.
  • a method and system for communicating using sign language and AAC based on a display are provided.
  • display-based sign language and AAC communication methods in this disclosure, the communication ability of sign language and AAC users can be strengthened.
  • sign language refers to language spoken by hand.
  • 'AAC' stands for augmentative and alternative communication. Specifically, 'AAC' aims to improve the communication skills of people with limited language skills by using images that express sentences or words.
  • the sign language and AAC are communication methods used by people who have difficulty communicating using voice.
  • Sign language sentences can be divided into gloss units, which are the headwords of the sign language. Gloss refers to the smallest unit word of a sign language, that is, a sign language semantics.
  • the video display device is used to assist communication between two or more people.
  • the speaker who expresses his or her intention is described as the “user,” and the listener who receives the user's intention is described as the “other party.” Accordingly, the positions of “user” and “other party” in a conversation may change.
  • Figure 1 shows a video display device 110 for communication using sign language and a system 100 including the same.
  • the communication system 100 may include a communication assistance device 110, a voice input unit 130, an image input unit 140, and a sign language recognition assistance device 150.
  • Communication assistance device 110 may include a display 112.
  • the display 112 may be implemented as a transparent display. Accordingly, two or more users can communicate with each other using sign language and AAC while located on opposite sides of the display 112 of the communication assistance device 110.
  • the display 112 is implemented as a general display, a plurality of communication assistance devices 110 are communicatively connected, so that two or more users located at a distance can communicate using sign language and AAC. Therefore, in a non-face-to-face environment, a person who feels uncomfortable with voice communication can deliver a sentence to the other person using sign language and/or AAC through the communication assistance device 110.
  • the display 112 may display different screen UI/UX (User Interface/User eXperience) depending on the user's characteristics (communication method). Additionally, the display 112 continues to display a certain portion of the existing conversation content on the display 112, so that users can easily view the existing conversation content at any time.
  • UI/UX User Interface/User eXperience
  • the communication assistance device 110 may additionally include a certain module in order to facilitate communication using sign language.
  • the communication assistance device 110 includes a Speech to Text (STT) module 114, a sign language generation module 116, a sign language recognition module 118, a word card selection module 120, a text input module 122, and It may include some of the communication modules 124.
  • STT Speech to Text
  • the communication assistance device 110 includes a Speech to Text (STT) module 114, a sign language generation module 116, a sign language recognition module 118, a word card selection module 120, a text input module 122, and It may include some of the communication modules 124.
  • STT Speech to Text
  • the STT module 114 can convert voice data into text data. Specifically, the STT module 114 can convert voice data input from the voice input unit 130 into text data and transmit the text data to the display 112. And the display 112 can display text data.
  • the sign language generation module 116 can convert voice data into sign language data. Specifically, the sign language generation module 116 can convert voice data input from the voice input unit 130 into sign language data and transmit the sign language data to the display 112. And the display 112 can display a sign language image according to the sign language data.
  • the sign language recognition module 118 analyzes the user's movements in the image data and extracts the sign language sentences intended by the user from the user's movements. And the sign language recognition module 118 can convert the extracted sign language sentences into text data and transmit the text data to the display 112. And the display 112 can display text data.
  • the word card selection module 120 may provide a word card on the display 112 so that the user can express simple semantic expressions in AAC. Accordingly, the user can communicate through voice, text, and sign language and at the same time select the word card provided by the word card selection module 120 to more accurately convey his or her intention to the other party.
  • the word card includes an image in which the word is visualized
  • the other party can understand the user's intention by looking at the image of the word card.
  • the word card selection module 120 may provide word cards representing the user's mood, such as happy, bored, sad, annoyed, angry, etc., and display the word cards on the display 112 according to the user's selection.
  • the video included in can be displayed. Therefore, the other party can easily understand the user's intention by referring to the image included in the word card along with the text or sign language image entered by the user.
  • the text input module 122 may provide a text input UI (User Interface) on the display 112 for the user to directly input text. If the user finds it difficult to provide his or her accurate opinion through sign language or AAC, the text can be directly delivered to the other party using the text input UI of the text input module 122.
  • a text input UI User Interface
  • the communication module 124 may enable the communication assistance device 110 to be communicatively connected to an external device. If there is difficulty in mutual communication, a third party, such as a sign language interpreter, can participate in the conversation using the communication module 124.
  • the voice input unit 130 may be implemented as a device that receives voice information, such as a microphone.
  • the image input unit 140 may be implemented as a device that receives image information, such as a camera.
  • the control device 150 can be used to control the start and end of sign language video recording.
  • FIG. 2 illustrates one embodiment of a usage aspect of the communication assistance device 110.
  • a communication assistance device 110 implemented as a transparent display is located in the center of the desk, and two users 200 and 202 are located on opposite sides of the desk. Accordingly, users 200 and 202 can communicate using the communication assistance device 110 without directly meeting each other. Therefore, not only can infection be prevented between users 200 and 202, but by using the data input, conversion and display functions of the communication assistance device 110, people who have difficulty communicating can easily convey their intentions to the other party. .
  • FIG. 3 illustrates another example of a usage aspect of the communication assistance device 110.
  • a first communication auxiliary device 300 and a second communication auxiliary device 310 implemented as a general display without transparency are located in the center of each desk.
  • the user 200 may use the first communication assistance device 300, and the user 202 may use the second communication assistance device 310.
  • the first auxiliary communication device 300 and the second auxiliary communication device 310 are communicatively connected to each other, so that the users 200 and 202 can communicate with each other. Therefore, as in the embodiment of FIG. 2, not only does it prevent infection between users 200 and 202, but also prevents people who have difficulty communicating by using the data input, conversion and display functions of the communication assistance devices 300 and 310. You can easily convey your opinion to the other person.
  • the first auxiliary communication device 300 and the second auxiliary communication device 310 of FIG. 3 may have the same configuration as the auxiliary communication device 110 of FIG. 1 .
  • Figure 4 shows an example of an image input to the display 112.
  • display 112 may be implemented as a transparent display. At this time, the other party can see the user as is. Additionally, the display 112 can display various functions provided by the communication assistance device 110 on the left side. The functions of the communication assistance device 110 are displayed as icons, and the user can activate the function corresponding to the icon by pressing the icon. Additionally, the display 112 can display existing conversation content on the right side. Accordingly, the existing conversation content continues to be displayed on the display 112, so users can easily view the existing conversation content at any time. The positions of function icons and conversation content on the display 112 may be determined differently depending on the embodiment.
  • sign language sentences When an actual sign language user inputs a sign language sentence into the communication assistance device 110, the sign language is analyzed in units of glosses, and the analysis result is derived. At this time, if the user's sign language movements are inaccurate or the sign language movement image is distorted due to the surrounding environment, the gloss may be recognized with a different meaning. Therefore, sign language sentences may be interpreted differently from the user's intention.
  • the present disclosure calculates the recognition accuracy of each gloss, and when the recognition accuracy of a specific gloss is determined to be below a predetermined value, the corresponding result value for the specific gloss is ignored and another sign language gloss with high recognition accuracy is used. Based on this, a method of inferring the meaning of an entire sign language sentence can be provided. This method of inferring the meaning of the sign language sentence based on recognition accuracy can be applied to the sign language recognition module 118.
  • recognition accuracy refers to the degree of similarity between the current gloss and the most similar gloss that has already been learned. In other words, if the current gloss closely matches a specific most similar gloss, the recognition accuracy can be determined to be close to 100%. Conversely, if the current gloss does not clearly correspond to any gloss, recognition accuracy may be determined to be low.
  • the predetermined value is an arbitrary value between 10 and 90%. As the predetermined value is lower, the sign language recognition module 118 can generate sign language sentences using glosses with low recognition accuracy, and the error rate may increase. Conversely, the higher the predetermined value, the more the sign language recognition module 118 generates sign language sentences using only glosses with high recognition accuracy, thereby reducing the error rate. However, if too much gloss is filtered out, inferring and completing the entire sign language sentence may become difficult. Therefore, in order to increase convenience while reducing errors in interpreting sign language sentences, it is required that a predetermined value is determined within an appropriate range.
  • Figure 5 explains an example of a method for inferring sign language sentences based on recognition accuracy.
  • a sign language sentence meaning is input.
  • the sign language sentence is composed of gloss meaning “toilet” and gloss meaning “where.” However, in this case, if one of the sign language expressions "toilet” or "where" is misrecognized, the sign language sentence may be translated with a completely different meaning.
  • Figure 5 a method of inferring a sign language sentence based on recognition accuracy is explained, assuming that the sign language action corresponding to "where" is inaccurate.
  • step 520 an existing sign language sentence construction method that is not based on recognition accuracy is explained.
  • step 520 as described above, if the sign language action corresponding to “where” is incorrect, the sign language action may be incorrectly recognized as “eat.” Therefore, at step 530, the sign language sentence 'Do you eat the bathroom?' It can be translated as:
  • steps 540 and 550 the meaning of the sign language sentence can be inferred using only sign language glosses with a recognition accuracy of 50% or more.
  • recognition accuracy for the two glosses may be calculated.
  • the word most similar to the two glosses is judged. For example, the most similar word in the gloss corresponding to “toilet” may be correctly recognized as “restroom,” and the most similar word in the gloss corresponding to “where” may be incorrectly recognized as “eat.” Then, the recognition accuracy between each gloss and the most similar word is calculated. For example, the recognition accuracy of gloss corresponding to “toilet” may be 80%, and the recognition accuracy of “eat” may be calculated to be 35%.
  • the entire sign language sentence is inferred based on the gloss with a recognition accuracy higher than 50%. Therefore, “eat” with a recognition accuracy of 50% or less is ignored in the sign language sentence inference process.
  • the meaning of a sign language sentence can be inferred based on the sign language “toilet” with a recognition accuracy of 50% or more. For example, candidate sentences such as “Where is the bathroom?” and “Please guide me to the bathroom” may be suggested. And depending on the user's selection, sign language sentences can be translated into text.
  • the communication assistance device 110 can request retransmission of the sign language sentence.
  • the display 112 may display a message such as “The sign language was not recognized properly. Please use the sign language again.”
  • the sign language recognition module 118 selects the first gloss. Based on this, a plurality of gloss candidates replacing the second gloss can be determined.
  • the sign language recognition module 118 may determine a plurality of gloss candidates to replace the second gloss based on the first gloss and the contents of the previous conversation. Additionally, the sign language recognition module 118 may extract a signed language sentence based on the first gloss and a gloss candidate selected from among the plurality of gloss candidates. At this time, the sign language recognition module 118 determines the priority of the plurality of gloss candidates according to the similarity with the second gloss, and the display 112 may display the plurality of gloss candidates according to the priority. there is.
  • the sign language recognition module 118 can infer the meaning of a sign language sentence by considering the existing conversation content. For example, if the only gloss in a sign language sentence with a recognition accuracy of 50% or more is “toilet,” the sign language sentence including “toilet” can be completed by considering the existing conversation content.
  • the sign language recognition module 118 can recognize the user's gender through an image, guide the location of the men's restroom if the user is a man, and guide the location of the women's restroom if the user is a woman.
  • the sign language recognition module 118 uses artificial intelligence technology to recognize the user of the sign language image, detect the user's joints, and extract skeleton information for tracking the user's movements.
  • Figure 6 herein is an example of skeleton information extracted from a sign language image.
  • the sign language recognition module 118 can compare the user's movement according to the skeleton information with the movement of the gloss with a specific meaning previously stored. And the degree of similarity between the two is determined by the recognition accuracy of the current gloss.
  • the sign language recognition module 118 may include an AI learning model for inferring a gloss from a gloss and an AI learning model for inferring a natural language sentence from a gloss.
  • AI learning models may consist of CNN (Convolution Neural Network) and Transformer models.
  • the AI learning model can be learned by learning data consisting of sign language actions and glosses, and learning data consisting of glosses and natural language sentences.
  • the learning data can be augmented by up to 100 times or more using proprietary data enhancement techniques (shift, resize, frame manipulation, etc.). Additionally, in order to prevent overfitting at each sign language translation stage, motion data that is not the target of translation and the results of a general natural language model can be used to train the AI learning model.
  • proprietary data enhancement techniques shift, resize, frame manipulation, etc.
  • the sign language recognition module 118 can infer the meaning of the gloss of the video using the learned AI learning model.
  • the sign language recognition module 118 may divide the input sign language image into a plurality of segments. And the sign language recognition module 118 can determine the expression with the highest rank among the sign language expression probabilities of each segment. After identifying all sign language expressions for each action, the sign language recognition module 118 can translate all sign language expressions into general natural language sentences. The inference result of the sign language recognition module 118 can output an array of sign language expressions and two general natural language sentence strings.
  • control device 150 is described.
  • Sign language video recording can be started by inputting a signal to the start button of the control device 150. And sign language video recording can automatically end one second after both hands disappear from the camera. Once filming is completed, inference about sign language expressions can be made based on the filmed sign language video.
  • the control device 150 may be a personal smartphone. At this time, the smartphone can be used as a remote controller. Alternatively, the control device 150 may be a dedicated device that includes a shooting or recording button. By utilizing the control device 150, the start and end of sign language image recognition can be controlled. To improve user experience, a remote control web page tailored to the user's smartphone can be developed. Additionally, the web page can be easily accessed by using the control device 150 to photograph an app page in a tablet or PC environment, or a QR marker provided in a physical space.
  • the same process as pressing the photographing button on a tablet or PC may proceed.
  • the record button on the control device 150 is pressed, the same process may proceed as when the record button is pressed on a tablet or PC.
  • the subject of filming can be a PC or tablet placed in front of the user, and the subject of voice recording can be the microphone of the smartphone held by the user. The subject of video filming and audio recording may change.
  • control device 150 may be implemented as a foot button. At this time, the start and end points of sign language recognition can be determined using the foot button.
  • the start and end points of sign language recognition may be determined through recognition of a specific hand shape, regardless of the control device 150. For example, sign language recognition may begin when a hand suddenly moves up from outside the screen below and enters the screen. Additionally, sign language recognition may end when the hand moves down and out of the screen.
  • various embodiments of the present disclosure may be implemented by hardware, firmware, software, or a combination thereof.
  • one or more ASICs Application Specific Integrated Circuits
  • DSPs Digital Signal Processors
  • DSPDs Digital Signal Processing Devices
  • PLDs Programmable Logic Devices
  • FPGAs Field Programmable Gate Arrays
  • general purpose It can be implemented by a processor (general processor), controller, microcontroller, microprocessor, etc.
  • processor general processor
  • controller microcontroller, microprocessor, etc.
  • it can be implemented in the form of a program stored in a non-transitory computer-readable medium that can be used at the edge or the edge, or in the form of a program stored in a non-transitory computer-readable medium that can be used in the edge or the cloud. It is self-evident that it exists.
  • the information display method according to an embodiment of the present disclosure may be implemented in the form of a program stored in a non-transitory computer-readable medium, and the method of performing phase unfolding in block units based on directionality described above can also be implemented on a computer. It can be implemented in the form of a program.
  • the scope of the present disclosure is software or machine-executable instructions (e.g., operating system, application, firmware, program, etc.) that cause operations according to the methods of various embodiments to be executed on a device or computer, and such software or It includes non-transitory computer-readable medium in which instructions, etc. are stored and can be executed on a device or computer.
  • software or machine-executable instructions e.g., operating system, application, firmware, program, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 개시는, 수어를 이용한 커뮤니케이션을 위한 커뮤니케이션 보조 장치에 있어서, 영상 데이터의 분석된 사용자의 움직임으로부터 수어 문장을 추출하는 수어 인식 모듈 및 추출된 수어 문장을 표시하는 투명 디스플레이를 포함하는 커뮤니케이션 보조 장치를 제공한다.

Description

디스플레이 기반 커뮤니케이션 시스템
본 개시는 커뮤니케이션 시스템 에 관한 것으로서, 구체적으로는 디스플레이에 기반한 커뮤니케이션 시스템 에 관한 것이다.
청각 장애인들은 청력이 저하되거나 청각 기능이 상실된 사람들을 총칭하는 표현이다. 청각 장애인들은 청력의 장애 정도에 따라, 크게 세 가지의 방식으로 의사 소통할 수 있다. 첫 번째로, 청력 장애의 정도가 낮은 경우, 청력 보조장치 등을 이용하여 청력을 보강하여 비장애인들과 구화로 의사 소통이 가능하다. 두 번째로 상대의 입 모양을 보고 무슨 말인지 유추하는 독화법을 이용하여 비장애인들과 의사 소통할 수 있다. 그리고 마지막으로 수어를 이용하여 비장애인들과 의사 소통을 할 수 있다.
청각 장애인들은 기존에도 의사소통에 어려움을 겪었으며, 2020년부터 유행하기 시작한 COVID-19로 인하여 더욱 의사소통의 어려움이 심화되었다. 예를 들어, COVID-19확산으로 인하여 접수 및 상담 창구 등에 비말 차단용 투명 가림막이 설치됨으로써, 청각 장애인은 상대의 말 소리를 알아듣기 힘들어졌다. 또한, 특히 투명 가림막이 오염되었을 경우, 독화법 또는 수어를 사용하는 청각 장애인은 입모양 또는 수어 동작을 제대로 볼 수 없어, 의사소통에 어려움이 가중되었다.
또한 수어 사용자들은 대다수 서비스들이 수어 기반으로 수행되지 않는 바, 수어 사용자의 서비스 접근성을 높이기 위한 다양한 기술적 발전이 요구된다.
본 개시는 수어 커뮤니케이션의 정확성 및 편이성을 증대시키기 위한 디스플레이에 기반한 수어 커뮤니케이션 시스템을 제공하는 것을 목적으로 한다.
본 개시에서, 수어를 이용한 커뮤니케이션을 위한 커뮤니케이션 보조 장치에 있어서, 영상 데이터의 분석된 사용자의 움직임으로부터 수어 문장을 추출하는 수어 인식 모듈 및 상기 추출된 수어 문장을 표시하는 디스플레이를 포함하는 커뮤니케이션 보조 장치가 제공된다.
일 실시예에 따르면, 상기 커뮤니케이션 보조 장치는, 음성 데이터를 텍스트 데이터로 변환하는 STT 모듈 및 음성 데이터를 수어 데이터로 변환하는 수어 생성 모듈을 더 포함하는 것을 특징으로 할 수 있다.
일 실시예에 따르면, 상기 커뮤니케이션 보조 장치는, 상기 디스플레이로 상기 사용자가 선택가능한 단어 카드를 제공하는 단어 카드 선택 모듈을 더 포함하고, 상기 수어 인식 모듈은 선택된 단어 카드에 기초하여 상기 수어 문장을 추출하는 것을 특징으로 할 수 있다.
일 실시예에 따르면, 상기 커뮤니케이션 보조 장치는, 사용자가 텍스트를 입력하기 위한 사용자 인터페이스를 상기 디스플레이에 제공하는 텍스트 입력 모듈을 더 포함하고, 상기 수어 인식 모듈이 상기 수어 문장의 추출을 실패했을 때, 상기 텍스트 입력 모듈이 활성화되는 것을 특징으로 할 수 있다.
일 실시예에 따르면, 상기 커뮤니케이션 보조 장치는, 상기 커뮤니케이션 보조 장치를 외부 디바이스와 통신적으로 연결되도록 제어하는 통신 모듈을 더 포함하고, 상기 수어 인식 모듈이 상기 수어 문장의 추출을 실패했을 때, 상기 통신 모듈이 상기 커뮤니케이션 보조 장치를 상기 외부 디바이스와 연결되도록 제어하는 것을 특징으로 할 수 있다.
일 실시예에 따르면, 상기 수어 인식 모듈은, 상기 영상 데이터를 복수의 세그먼트로 분할하고, 상기 복수의 세그먼트의 글로스 각각의 인식 정확도를 결정하고, 상기 복수의 세그먼트의 글로스들 중, 상기 인식 정확도가 소정의 값보다 큰 글로스에 기초하여 수어 문장을 추출하는 것을 특징으로 할 수 있다.
일 실시예에 따르면, 상기 인식 정확도는, 세그먼트의 글로스와 유사 글로스의 유사도에 기초하여 결정되고, 상기 유사 글로스는 상기 세그먼트의 글로스와 가장 유사한 글로스인 것을 특징으로 할 수 있다.
일 실시예에 따르면, 상기 수어 인식 모듈은, 상기 영상 데이터로부터 사용자의 관절 부위를 탐지함으로써, 사용자의 움직임 추적을 위한 스켈레톤 정보를 추출하고, 상기 스켈레톤 정보에 따른 사용자의 글로스와, 상기 유사 글로스를 비교하는 것을 특징으로 할 수 있다.
일 실시예에 따르면, 상기 디스플레이는, 상기 복수의 세그먼트의 글로스들의 인식 정확도가 모두 소정의 값보다 작은 경우, 수어 문장의 재전송을 요청하는 메시지를 표시하는 것을 특징으로 할 수 있다.
일 실시예에 따르면, 상기 수어 인식 모듈은, 상기 인식 정확도가 소정의 값보다 큰 글로스 및 이전 대화 내용에 기초하여 수어 문장을 추출하는 것을 특징으로 할 수 있다.
일 실시예에 따르면, 상기 수어 인식 모듈은, 상기 복수의 세그먼트의 글로스들이 인식 정확도가 소정의 값보다 큰 제1 글로스와 인식 정확도가 소정의 값보다 작은 제2 글로스를 포함할 경우, 제1 글로스에 기초하여, 상기 제2 글로스를 대신하는 복수의 글로스 후보를 결정하고, 상기 복수의 글로스 후보 중 선택된 글로스 후보와 제1 글로스에 기초하여 수어 문장을 추출하는 것을 특징으로 할 수 있다.
일 실시예에 따르면, 상기 수어 인식 모듈은, 상기 복수의 세그먼트의 글로스들이 인식 정확도가 소정의 값보다 큰 제1 글로스와 인식 정확도가 소정의 값보다 작은 제2 글로스를 포함할 경우, 제1 글로스 및 이전 대화 내용에 기초하여, 상기 제2 글로스를 대신하는 복수의 글로스 후보를 결정하고, 상기 복수의 글로스 후보 중 선택된 글로스 후보와 제1 글로스에 기초하여 수어 문장을 추출하는 것을 특징으로 할 수 있다.
일 실시예에 따르면, 상기 수어 인식 모듈은, 상기 제2 글로스와의 유사도에 따라, 상기 복수의 글로스 후보의 우선순위를 결정하고, 상기 디스플레이는, 상기 우선순위에 따라, 상기 복수의 글로스 후보를 표시하는 것을 특징으로 할 수 있다.
일 실시예에 따르면, 상기 디스플레이는 투명 디스플레이인 것을 특징으로 할 수 있다.
일 실시예에 따르면, 상기 커뮤니케이션 보조 장치는 사용자의 음성 또는 숭 영상을 입력 받는 입력 장치와 함께 커뮤니케이션 시스템을 구성할 수 있다.
본 개시에서, 상기 커뮤니케이션 보조 장치의 각종 기능 및 명령을 구현하는 프로그램과 상기 프로그램이 저장된 기록 매체가 제공된다.
본 개시의 커뮤니케이션 보조 장치에 의하여, 수어에 기반한 커뮤니케이션의 정확성 및 편이성이 향상될 수 있다. 특히, 수어 사용자의 커뮤니케이션 정확성 및 편이성이 향상됨으로써, 수어 사용자가 전문 수어 통역사의 도움 없이도 불편함 없이 비장애인에게 제공되는 서비스를 제공받을 수 있다.
또한, 본 개시의 수어 인식 보조를 위한 디바이스에 의하여, 사용자가 수어 입력의 시작과 종료를 용이하게 제어할 수 있다. 따라서, 사용자가 자신이 원하는 시간에 수어 영상을 커뮤니케이션 보조 장치에 입력함으로써, 수어 커뮤니케이션의 편이성이 증대될 수 있다.
도 1은 수어를 이용한 커뮤니케이션을 위한 영상 표시 장치와 이를 포함하는 시스템을 도시한다.
도 2 및 3은 커뮤니케이션 보조 장치의 이용 양태를 설명한다.
도 4는 디스플레이에 입력되는 영상의 일 실시 예를 나타낸다.
도 5는 인식 정확도에 기반한 수어 문장의 유추 방법에 대한 일 예를 설명한다.
도 6은 수어 영상으로부터 추출된 스켈레톤 정보의 일 예이다.
본 개시에서, 수어를 이용한 커뮤니케이션을 위한 커뮤니케이션 보조 장치에 있어서, 영상 데이터의 분석된 사용자의 움직임으로부터 수어 문장을 추출하는 수어 인식 모듈 및 상기 추출된 수어 문장을 표시하는 디스플레이를 포함하는 커뮤니케이션 보조 장치가 제공된다.
본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다. 후술하는 예시적 실시예들에 대한 상세한 설명은, 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 실시예를 실시할 수 있기에 충분하도록 상세히 설명된다. 다양한 실시예들은 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 개시의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 실시예의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 예시적 실시예들의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다.
본 개시에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 개시의 어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어"있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 개시의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 개시의 본질에서 벗어나지 않는 한 본 개시의 권리범위에 포함된다.
본 개시에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 개시를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 개시에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 즉, 본 개시에서 특정 구성을 "포함"한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 개시의 실시 또는 본 개시의 기술적 사상의 범위에 포함될 수 있음을 의미한다.
본 개시의 일부의 구성 요소는 본 개시에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 개시는 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 개시의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 개시의 권리범위에 포함된다.
이하, 도면을 참조하여 본 개시의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하고, 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
본 개시에서는 디스플레이에 기반하여 수어 및 AAC로 의사소통하는 방법 및 시스템이 제공된다. 본 개시에서 디스플레이에 기반한 수어 및 AAC 의사소통 방법의 다양한 실시 예를 제공함으로써, 수어 및 AAC 이용자의 의사소통 능력이 강화될 수 있다.
여기서 '수어'란 손으로 하는 언어를 의미한다. 그리고 'AAC'는 보완 대체 의사소통 (Augmentative and alternative communication)을 의미한다. 구체적으로, 'AAC'는 문장 또는 단어를 표현하는 이미지를 이용하여 언어 능력이 부족한 사람의 의사 표현 능력을 향상시키는 것을 목적으로 한다. 상기 수어 및 AAC는 음성을 이용한 의사소통이 어려운 사람들이 이용하는 의사소통 방식이다. 수어 문장은 수어의 표제어가 되는 글로스 (gloss) 단위로 나눌 수 있다. 글로스란 수어의 최소 단위의 단어, 즉 수어 의미소를 의미한다.
이하, 본 개시에 따른 영상 표시 장치는 2인 이상의 사람의 커뮤니케이션을 보조하기 위하여 사용된다. 본 개시에서, 설명의 편의를 위하여, 자신의 의사를 표시하는 화자를 "사용자"로, 사용자의 의사를 전달받는 청자를 "상대방"로 설명하였다. 따라서, 대화에서 "사용자"와 "상대방"의 위치는 서로 바뀔 수 있다.
도 1은 수어를 이용한 커뮤니케이션을 위한 영상 표시 장치 (110)와 이를 포함하는 시스템(100)을 도시한다.
커뮤니케이션 시스템 (100)은 커뮤니케이션 보조 장치 (110), 음성 입력부 (130), 영상 입력부 (140), 및 수어 인식 보조 방치 (150)을 포함할 수 있다.
커뮤니케이션 보조 장치 (110)는 디스플레이 (112)를 포함할 수 있다. 디스플레이 (112)는 투명 디스플레이로 구현될 수 있다. 따라서, 2인 이상의 사용자는 커뮤니케이션 보조 장치 (110)의 디스플레이 (112)로부터 서로 반대편에 위치하면서, 상대방과 수어 및 AAC 로 의사 소통할 수 있다. 또는 디스플레이 (112)가 일반 디스플레이로 구현되는 경우, 복수의 커뮤니케이션 보조 장치 (110)가 통신적으로 연결되어, 원거리에 위치한 2인 이상의 사용자들은 수어 및 AAC로 의사소통할 수 있다. 따라서 비대면 환경에서, 음성 커뮤니케이션에 불편을 느끼는 사람은 커뮤니케이션 보조 장치 (110)를 통해, 수어 및/또는 AAC로 상대방에게 문장을 전달할 수 있다.
디스플레이 (112)는 사용자의 특성 (의사소통 방식) 에 따라, 다른 화면 UI/UX (User Interface / User eXperience) 를 표시할 수 있다. 그리고 디스플레이 (112)는 기존의 대화 내용을 일정 부분 디스플레이 (112)에 계속 표시함으로써, 사용자들이 기존의 대화 내용을 언제든지 손쉽게 열람할 수 있다.
커뮤니케이션 보조 장치 (110)는 수어를 이용한 커뮤니케이션을 원활하게 하기 위하여, 추가적으로 소정의 모듈을 포함할 수 있다. 구체적으로, 커뮤니케이션 보조 장치 (110)는 STT (Speech to Text) 모듈 (114), 수어 생성 모듈 (116), 수어 인식 모듈 (118), 단어 카드 선택 모듈 (120), 텍스트 입력 모듈 (122) 및 통신 모듈 (124) 중 일부를 포함할 수 있다.
STT 모듈 (114)은 음성 데이터를 텍스트 데이터로 변환할 수 있다. 구체적으로, STT 모듈 (114)은 음성 입력부 (130)에서 입력된 음성 데이터를 텍스트 데이터로 변환하고, 그 텍스트 데이터를 디스플레이 (112)에 전송할 수 있다. 그리고 디스플레이 (112)는 텍스트 데이터를 표시할 수 있다.
수어 생성 모듈 (116)은 음성 데이터를 수어 데이터로 변환할 수 있다. 구체적으로, 수어 생성 모듈 (116)은 음성 입력부 (130)에서 입력된 음성 데이터를 수어 데이터로 변환하고, 그 수어 데이터를 디스플레이 (112)에 전송할 수 있다. 그리고 디스플레이 (112)는 수어 데이터에 따른 수어 영상을 표시할 수 있다.
수어 인식 모듈 (118)은 영상 데이터의 사용자의 움직임을 분석하고, 사용자의 움직임으로부터 사용자가 의도한 수어 문장을 추출한다. 그리고 수어 인식 모듈 (118)은 추출된 수어 문장을 텍스트 데이터로 변환하고, 그 텍스트 데이터를 디스플레이 (112)에 전송할 수 있다. 그리고 디스플레이 (112)는 텍스트 데이터를 표시할 수 있다.
단어 카드 선택 모듈 (120)은 사용자가 간단한 의미 표현을 AAC로 표현할 수 있도록 단어 카드를 디스플레이 (112) 상에 제공할 수 있다. 따라서, 사용자는 음성, 텍스트, 및 수화로 의사소통함과 동시에 단어 카드 선택 모듈 (120)에서 제공하는 단어 카드를 선택함으로써, 자신의 의도를 상대방에게 더 정확히 전달할 수 있다. 여기서, 단어 카드는 단어가 시각화된 영상을 포함하므로, 상대방은 단어 카드의 영상을 보고 사용자의 의사를 파악할 수 있다. 예를 들어, 단어 카드 선택 모듈 (120)은 행복함, 지루함, 슬픔, 짜증남, 화남 등과 같은 사용자의 기분을 나타내는 단어 카드를 제공할 수 있고, 사용자의 선택에 따라 디스플레이 (112) 상에 단어 카드에 포함된 영상을 표시할 수 있다. 따라서 상대방은 사용자가 입력한 텍스트 또는 수어 영상과 함께, 단어 카드에 포함된 영상을 참조하여, 사용자의 의사를 용이하게 파악할 수 있다.
텍스트 입력 모듈 (122)은 사용자가 직접 텍스트를 입력하기 위한 텍스트 입력 UI (User Interface)를 디스플레이 (112) 상에 제공할 수 있다. 사용자가 수어나 AAC로 자신의 정확한 의사를 제공하기 어려움을 느끼는 경우, 텍스트 입력 모듈 (122)의 텍스트 입력 UI를 이용하여 상대방에게 직접 텍스트를 전달할 수 있다.
통신 모듈 (124)은 커뮤니케이션 보조 장치 (110)가 외부 디바이스와 통신적으로 연결될 수 있도록 할 수 있다. 만약 상호 의사소통에 곤란함이 있을 때는 통신 모듈 (124)을 이용하여 수어통역사 등 제3자가 대화에 참여할 수 있다.
음성 입력부 (130)는 마이크와 같이 음성 정보를 입력 받는 디바이스로 구현될 수 있다. 그리고 영상 입력부 (140)는 카메라와 같이 영상 정보를 입력 받는 디바이스로 구현될 수 있다. 또한 제어 디바이스 (150)는 수어 영상 촬영의 시작 및 종료를 제어하기 위하여 사용될 수 있다.
도 2 는 커뮤니케이션 보조 장치 (110)의 이용 양태의 일 실시 예를 설명한다.
도 2에 따르면, 투명 디스플레이로 구현된 커뮤니케이션 보조 장치 (110)가 책상의 가운데에 위치하고, 책상의 반대편에 2인의 사용자 (200, 202)가 위치한다. 따라서, 사용자 (200, 202)는 바로 대면하지 않고, 커뮤니케이션 보조 장치 (110)를 이용하여, 커뮤니케이션할 수 있다. 그러므로 사용자 (200, 202) 간에 감염을 방지할 뿐만 아니라, 커뮤니케이션 보조 장치 (110)의 데이터 입력, 변환 및 표시 기능을 이용하여, 커뮤니케이션에 어려움을 느끼는 사람이 손쉽게 상대방에게 자신의 의사를 전달할 수 있다.
도 3 은 커뮤니케이션 보조 장치 (110)의 이용 양태의 다른 일 실시 예를 설명한다.
도 3에 따르면, 투광성이 없는 일반 디스플레이로 구현된 제1 커뮤니케이션 보조 장치 (300)와 제2 커뮤니케이션 보조 장치 (310)가 각 책상의 가운데에 위치한다. 사용자 (200)은 제1 커뮤니케이션 보조 장치 (300)를 이용하고, 사용자 (202)은 제2 커뮤니케이션 보조 장치 (310)를 이용할 수 있다. 제1 커뮤니케이션 보조 장치 (300)와 제2 커뮤니케이션 보조 장치 (310)은 서로 통신적으로 연결되어 사용자들 (200, 202)은 서로 의사소통할 수 있다. 그러므로 도 2의 실시 예와 마찬가지로 사용자 (200, 202) 간에 감염을 방지할 뿐만 아니라, 커뮤니케이션 보조 장치들 (300, 310)의 데이터 입력, 변환 및 표시 기능을 이용하여, 커뮤니케이션에 어려움을 느끼는 사람이 손쉽게 상대방에게 자신의 의사를 전달할 수 있다. 도 3의 제1 커뮤니케이션 보조 장치 (300)와 제2 커뮤니케이션 보조 장치 (310)은 도 1의 커뮤니케이션 보조 장치 (110)와 동일한 구성을 가질 수 있다.
도 4은 디스플레이 (112)에 입력되는 영상의 일 실시 예를 나타낸다.
도 4에서, 디스플레이 (112)는 투명 디스플레이로 구현될 수 있다. 이 때, 상대방은 사용자의 모습을 그대로 볼 수 있다. 또한, 디스플레이 (112)는 좌측에 커뮤니케이션 보조 장치 (110)가 제공하는 다양한 기능을 표시할 수 있다. 커뮤니케이션 보조 장치 (110)의 기능은 아이콘으로 표시되며, 사용자는 아이콘을 누름으로써, 그 아이콘에 대응되는 기능이 활성화될 수 있다. 또한, 디스플레이 (112)는 우측에 기존 대화 내용을 표시할 수 있다. 따라서, 기존의 대화 내용이 디스플레이 (112)에 계속 표시됨으로써, 사용자들은 기존의 대화 내용을을 언제든지 손쉽게 열람할 수 있다. 디스플레이 (112)에서 기능 아이콘 및 대화 내용의 위치는 실시 예 따라 다르게 결정될 수 있다.
이하, 사용자가 수어를 이용하여 커뮤니케이션할 때, 수어 문장을 적절한 텍스트로 변환하는 방법의 실시 예가 제공된다.
실제 수어 사용자가 수어 문장을 커뮤니케이션 보조 장치 (110)에 입력할 경우, 글로스 단위로 수어가 분석됨으로써, 그 분석 결과가 도출된다. 이 때, 사용자의 수어 동작이 부정확하거나, 주변 환경에 의하여 수어 동작 영상이 왜곡된 경우, 글로스가 다른 의미로 인식될 수 있다. 따라서, 수어 문장이 사용자의 의도와 다르게 해석될 수 있다.
본 개시는, 이를 해결하기 위하여 각각의 글로스의 인식 정확도를 계산하여, 특정 글로스의 인식 정확도가 소정의 값 이하로 판단된 경우, 특정 글로스에 대한 해당 결과값을 무시하고 인식 정확도가 높은 다른 수어 글로스에 기초하여 전체 수어 문장의 의미를 유추하는 방법을 제공할 수 있다. 이러한 인식 정확도에 기반한 상기 수어 문장의 의미를 유추하는 방법은 수어 인식 모듈 (118)에 적용될 수 있다.
본 개시에서 인식 정확도란, 현재 글로스 및 현재 글로스와 이미 학습되어 있는 가장 유사한 최유사 글로스 간의 유사도를 나타낸다. 즉, 현재 글로스가 특정 최유사 글로스에 거의 일치할 경우, 인식 정확도는 100%에 가깝게 결정될 수 있다. 반대로, 현재 글로스가 어떠한 글로스에도 명확히 대응되지 않을 경우, 인식 정확도는 낮게 결정될 수 있다.
상기 소정의 값은 10~90% 사이의 임의의 값이다. 소정의 값이 낮을 수록, 수어 인식 모듈 (118)은 인식 정확도가 낮은 글로스도 이용하여 수어 문장을 생성할 수 있게 되어, 오류 발생률이 증가할 수 있다. 반대로, 소정의 값이 높을 수록, 수어 인식 모듈 (118)은 인식 정확도가 높은 글로스만으로 수어 문장을 생성하게 되어, 오류 발생률이 감소할 수 있다. 그러나 너무 많은 글로스가 필터링됨으로써, 전체 수어 문장의 추론 및 완성이 어려워질 수 있다. 따라서, 수어 문장 해석의 오류를 줄이면서 편이성을 증대시키기 위하여, 소정의 값이 적절한 범위에서 결정될 것이 요구된다.
도 5는 인식 정확도에 기반한 수어 문장의 유추 방법에 대한 일 예를 설명한다.
단계 510에서, '화장실은 어디에 있나요?' 라는 의미의 수어 문장이 입력된다. 상기 수어 문장은 "화장실"을 의미하는 글로스와 "어디" 를 의미하는 글로스로 구성된다. 하지만 이 경우 "화장실", "어디" 라는 각각의 수어 표현 중 어느 하나가 잘못 인식될 경우, 수어 문장은 전혀 다른 의미로 번역될 수 있다. 도 5에서는 "어디"에 해당되는 수어 동작이 부정확한 것으로 가정하여 인식 정확도에 기반한 수어 문장의 유추 방법이 설명된다.
단계 520 및 530에서는 인식 정확도에 기반하지 않은, 기존의 수어 문장 구성 방법이 설명된다. 단계 520에서, 앞서 설명된 바와 같이, "어디" 에 해당되는 수어 동작이 부정확할 경우, 상기 수어 동작은 "먹다"로 잘못 인식될 수 있다. 따라서 단계 530에서, 수어 문장은 '화장실을 먹나요?' 라고 번역될 수 있다.
이를 해결하기 위하여, 단계 540 및 550에서는, 인식 정확도가 50% 이상인 수어 글로스들만 사용하여 수어 문장의 의미가 유추될 수 있다.
단계 540에서, 두 글로스에 대한 인식 정확도가 계산될 수 있다. 이 때, 두 글로스와 가장 유사한 단어가 판단된다. 예를 들어, "화장실"에 대응되는 글로스의 가장 유사한 단어는 "화장실"로 정확히 인식되고, "어디"에 대응되는 글로스의 가장 유사한 단어는 "먹다"로 잘못 인식될 수 있다. 그리고 각 글로스와 가장 유사한 단어 간의 인식 정확도가 계산된다. 예를 들어, "화장실"에 대응되는 글로스의 인식 정확도가 80%이고, "먹다"에 대한 인식 정확도가 35%로 계산될 수 있다.
단계 550에서, 인식 정확도가 50%보다 높은 글로스에 기반하여 전체 수어 문장이 유추된다. 따라서, 인식 정확도가 50% 이하인 "먹다"는 수어 문장 유추 프로세스에서 무시된다. 즉, 인식 정확도가 50% 이상인 "화장실" 수어를 기반으로 수어 문장의 의미가 유추될 수 있다. 예를 들어, "화장실 어디에 있나요?", "화장실 안내해주세요."와 같은 문장 후보가 제안될 수 있다. 그리고 사용자의 선택에 따라, 수어 문장이 텍스트로 번역될 수 있다.
일 실시 예에 따르면, 수어 문장의 모든 글로스의 인식 정확도가 소정의 값 미만일 경우에는, 수어 문장의 의미가 유추되지 않는다. 그리고 커뮤니케이션 보조 장치 (110)는 수어 문장의 재전송을 요청할 수 있다. 예를 들어, 디스플레이 (112)는 "수어를 제대로 인식하지 못하였습니다. 다시 한번 수어를 해주세요" 와 같은 메세지를 표시할 수 있다.
일 실시 예에 따르면, 수어 인식 모듈 (118)은 복수의 세그먼트의 글로스들이 인식 정확도가 소정의 값보다 큰 제1 글로스와 인식 정확도가 소정의 값보다 작은 제2 글로스를 포함할 경우, 제1 글로스에 기초하여, 상기 제2 글로스를 대신하는 복수의 글로스 후보를 결정할 수 있다. 또는 상기의 경우, 수어 인식 모듈 (118)은 제1 글로스 및 이전 대화 내용에 기초하여, 상기 제2 글로스를 대신하는 복수의 글로스 후보를 결정할 수 있다. 그리고 수어 인식 모듈 (118)은 상기 복수의 글로스 후보 중 선택된 글로스 후보와 제1 글로스에 기초하여 수어 문장을 추출할 수 있다. 이 때, 수어 인식 모듈 (118)은 제2 글로스와의 유사도에 따라, 상기 복수의 글로스 후보들의 우선순위를 결정하고, 디스플레이 (112)는, 우선순위에 따라, 복수의 글로스 후보를 표시할 수 있다.
일 실시 예에 따르면, 수어 인식 모듈 (118)은 기존의 대화 내용을 고려하여, 수어 문장의 의미를 유추할 수 있다. 예를 들어, 수어 문장에서 인식 정확도가 50% 이상인 글로스가 "화장실" 밖에 없을 경우, 기존의 대화 내용을 고려하여 "화장실" 을 포함하는 수어 문장을 완성할 수 있다.
일 실시 예에 따르면, 사용자가 "화장실이 어디있습니까?" 라는 질문을 수어로 했을 경우, 수어 인식 모듈 (118)은 사용자의 성별을 영상을 통하여 인식하고, 남자인 경우 남자 화장실 위치를 안내하며, 여자의 경우 여자 화장실 위치를 안내할 수 있다.
이하, 글로스의 인식 정확도의 도출 방법이 설명된다.
우선, 영상 입력부 (140)를 통하여 사용자의 수어 영상을 입력받는다. 그리고, 수어 인식 모듈 (118)은 인공지능 기술을 이용하여, 해당 수어 영상의 사용자가 인식되고, 사용자의 관절 부위를 탐지함으로써, 사용자의 움직임 추적을 위한 스켈레톤 정보를 추출한다. 본원의 도 6은 수어 영상으로부터 추출된 스켈레톤 정보의 일 예이다. 그리고, 수어 인식 모듈 (118)은 스켈레톤 정보에 따른 사용자의 움직임과, 기존에 저장된 특정 의미를 가진 글로스의 움직임을 비교할 수 있다. 그리고 양자 간의 유사 정도가 현재 글로스의 인식 정확도로 결정된다.
수어 인식 모듈 (118)은 글로스로부터 글로스를 추론하기 위한 AI 학습 모델과, 글로스로부터 자연어 문장을 추론하기 위한 AI 학습 모델을 포함할 수 있다. AI 학습 모델은 CNN (Convolution Neural Network) 및 Transformer 모델로 구성될 수 있다. AI 학습 모델은 수어 동작과 글로스로 구성된 학습 데이터와 글로스와 자연어 문장으로 구성된 학습 데이터에 의하여 학습될 수 있다.
상기 학습 데이터는 독자적인 데이터 증강 기법들(shift, resize, frame manipulation 등)을 이용하여, 데이터의 양이 최대 100배 이상까지 증강될 수 있다. 또한 각 수어 번역 단계에서 과적합을 방지하기 위해, 번역 대상이 아닌 동작 데이터들과, 일반적인 자연어 모델의 결과가 AI 학습 모델의 학습에 사용될 수 있다.
AI 학습 모델의 학습은 연속된 글로스들에 기초하여 수행된다. 구체적으로, 연속된 글로스들은 복수의 세그먼트로 분할될 수 있다. 그리고 학습 단계에서 각각의 세그먼트에 대한 레이블(label)의 확률이 계산된다. 또한 학습되지 않은 동작에 대하여 미확인 레이블 UNK (Unknown Label)이 할당된다.
그리고 수어 인식 모듈 (118)은 학습된 AI 학습 모델을 이용하여 영상의 글로스의 의미를 추론할 수 있다. 이 때, 수어 인식 모듈 (118)은 입력된 수어 영상을 복수의 세그먼트로 분할할 수 있다. 그리고 수어 인식 모듈 (118)은 각 세그먼트의 수어 표현 확률 중 가장 순위가 높은 표현을 결정할 수 있다. 수어 인식 모듈 (118)은 각 동작 별 수어 표현을 모두 파악한 후에는 전체 수어 표현들을 일반 자연어 문장으로 번역할 수 있다. 수어 인식 모듈 (118)의 추론 결과는 수어 표현들의 배열과 일반 자연어 문장 문자열 두 개를 출력할 수 있다.
이하, 제어 디바이스 (150)가 설명된다.
수어를 인식하기 위해서는 사용자가 수어를 시작하는 시점과 수어를 끝내는 시점을 인식하는 것이 중요하다. 수어 영상 촬영은 제어 디바이스 (150)의 시작 버튼에 신호를 입력하여 시작될 수 있다. 그리고 수어 영상 촬영은 양 손이 모두 카메라 밖으로 사라지고 1초가 지나면 자동적으로 종료될 수 있다. 촬영이 종료되면, 촬영된 수어 영상을 토대로 수어 표현에 대한 추론이 진행될 수 있다.
상기 제어 디바이스 (150)는 개인용 스마트폰일 수 있다. 이 때 스마트폰은 리모트 컨트롤러로 사용될 수 있다. 또는 제어 디바이스 (150)는 촬영 혹은 녹음 버튼을 포함하는 전용 디바이스일 수 있다. 제어 디바이스 (150)를 활용하여, 수어 영상 인식의 시작과 종료가 제어될 수 있다. 사용자 경험 향상을 위해 사용자가 소유하고 있는 스마트폰 맞춤 원격제어 웹 페이지가 개발될 수 있다. 그리고 제어 디바이스 (150)로 태블릿 및 pc 환경 내의 앱 페이지, 혹은 실물 공간에 비치된 qr마커 등을 촬영하는 것으로 상기 웹페이지에 쉽게 접속되도록 할 수 있다.
qr마커를 촬영하여 사용자 인가(authorization)가 수행될 경우, 비치된 pc 혹은 태블릿의 아이디로 자동 로그인되도록 할 수 있다. 그렇지 않은 경우, 각자 고유한 ID/PW로 로그인하여 각자 고유하게 접속할 수 있다. 또한 중복 접속을 방지하기 위해, 먼저 접속한 디바이스가 있다면 다른 디바이스는 접속이 되지 않도록 동시 접속이 제한될 수 있다.
제어 디바이스 (150)의 촬영 버튼을 누를 경우, 태블릿 또는 PC에서 촬영 버튼을 누른 것과 똑같은 프로세스가 진행될 수 있다. 제어 디바이스 (150)의 녹음 버튼을 누를 경우, 마찬가지로 태블릿 또는 PC에서 녹음 버튼을 누른 것과 똑같은 프로세스가 진행될 수 있다. 단 촬영의 주체는 사용자 앞에 비치된 PC 혹은 태블릿이고, 음성 녹음의 주체는 사용자가 들고 있는 스마트폰의 마이크가 사용될 수 있다. 영상 촬영 및 음성 녹음의 주체는 변경될 수 있다.
또는 제어 디바이스 (150)은 발 버튼으로 구현될 수 있다. 이 때, 발 버튼을 이용하여 수어 인식의 시작과 종료 지점이 결정될 수 있다.
일 실시 예에 따르면, 수어 인식의 시작 시점과 종료 시점은, 제어 디바이스 (150)와 상관없이, 특정 손 모양의 인식을 통해서 결정될 수 있다. 예를 들어, 손이 아래 화면 밖에서 갑자기 위로 올려 화면 안에 들어왔을 때 수어 인식이 시작될 수 있다. 또한 손이 화면 안에서 아래로 내려가며 밖으로 나갔을 때 수어 인식이 종료될 수 있다.
본 개시의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.
또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다. 예를 들어, 종단 혹은 엣지(Edge)에서 사용될 수 있는 비 일시적 컴퓨터 판독가능한 매체에 저장된 프로그램의 형식이나, 엣지 혹은 클라우드에서 사용될 수 있는 비 일시적 컴퓨터 판독 가능한 매체에 저장된 프로그램의 형식으로도 구현될 수 있음은 자명하다.
예를 들어, 본 개시의 일 실시예에 따른 정보 표시 방법은 비-일시적 컴퓨터 판독가능한 매체에 저장된 프로그램 형태로서 구현될 수 있으며, 상기에서 설명한 방향성 기반의 블록 단위로 위상 펼침을 수행하는 방법도 컴퓨터 프로그램의 형태로서 구현될 수 있다.
본 개시의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행 가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로, 본 발명의 범위는 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

Claims (14)

  1. 수어를 이용한 커뮤니케이션을 위한 커뮤니케이션 보조 장치에 있어서,
    영상 데이터의 분석된 사용자의 움직임으로부터 수어 문장을 추출하는 수어 인식 모듈; 및
    상기 추출된 수어 문장을 표시하는 디스플레이를 포함하는 커뮤니케이션 보조 장치.
  2. 제1항에 있어서,
    상기 커뮤니케이션 보조 장치는,
    음성 데이터를 텍스트 데이터로 변환하는 STT 모듈; 및
    음성 데이터를 수어 데이터로 변환하는 수어 생성 모듈을 더 포함하는 커뮤니케이션 보조 장치.
  3. 제1항에 있어서,
    상기 커뮤니케이션 보조 장치는,
    상기 디스플레이로 상기 사용자가 선택가능한 단어 카드를 제공하는 단어 카드 선택 모듈을 더 포함하고,
    상기 수어 인식 모듈은 선택된 단어 카드에 기초하여 상기 수어 문장을 추출하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
  4. 제1항에 있어서,
    상기 커뮤니케이션 보조 장치는,
    사용자가 텍스트를 입력하기 위한 사용자 인터페이스를 상기 디스플레이에 제공하는 텍스트 입력 모듈을 더 포함하고,
    상기 수어 인식 모듈이 상기 수어 문장의 추출을 실패했을 때, 상기 텍스트 입력 모듈이 활성화되는 것을 특징으로 하는 커뮤니케이션 보조 장치.
  5. 제1항에 있어서,
    상기 커뮤니케이션 보조 장치는,
    상기 커뮤니케이션 보조 장치를 외부 디바이스와 통신적으로 연결되도록 제어하는 통신 모듈을 더 포함하고,
    상기 수어 인식 모듈이 상기 수어 문장의 추출을 실패했을 때, 상기 통신 모듈이 상기 커뮤니케이션 보조 장치를 상기 외부 디바이스와 연결되도록 제어하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
  6. 제1항에 있어서,
    상기 수어 인식 모듈은,
    상기 영상 데이터를 복수의 세그먼트로 분할하고,
    상기 복수의 세그먼트의 글로스 각각의 인식 정확도를 결정하고,
    상기 복수의 세그먼트의 글로스들 중, 상기 인식 정확도가 소정의 값보다 큰 글로스에 기초하여 수어 문장을 추출하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
  7. 제6항에 있어서,
    상기 인식 정확도는,
    세그먼트의 글로스와 유사 글로스의 유사도에 기초하여 결정되고, 상기 유사 글로스는 상기 세그먼트의 글로스와 가장 유사한 글로스인 것을 특징으로 하는 커뮤니케이션 보조 장치.
  8. 제7항에 있어서,
    상기 수어 인식 모듈은,
    상기 영상 데이터로부터 사용자의 관절 부위를 탐지함으로써, 사용자의 움직임 추적을 위한 스켈레톤 정보를 추출하고, 상기 스켈레톤 정보에 따른 사용자의 글로스와, 상기 유사 글로스를 비교하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
  9. 제6항에 있어서,
    상기 디스플레이는,
    상기 복수의 세그먼트의 글로스들의 인식 정확도가 모두 소정의 값보다 작은 경우, 수어 문장의 재전송을 요청하는 메시지를 표시하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
  10. 제6항에 있어서,
    상기 수어 인식 모듈은,
    상기 인식 정확도가 소정의 값보다 큰 글로스 및 이전 대화 내용에 기초하여 수어 문장을 추출하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
  11. 제6항에 있어서,
    상기 수어 인식 모듈은,
    상기 복수의 세그먼트의 글로스들이 인식 정확도가 소정의 값보다 큰 제1 글로스와 인식 정확도가 소정의 값보다 작은 제2 글로스를 포함할 경우, 제1 글로스에 기초하여, 상기 제2 글로스를 대신하는 복수의 글로스 후보를 결정하고,
    상기 복수의 글로스 후보 중 선택된 글로스 후보와 제1 글로스에 기초하여 수어 문장을 추출하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
  12. 제6항에 있어서,
    상기 수어 인식 모듈은,
    상기 복수의 세그먼트의 글로스들이 인식 정확도가 소정의 값보다 큰 제1 글로스와 인식 정확도가 소정의 값보다 작은 제2 글로스를 포함할 경우, 제1 글로스 및 이전 대화 내용에 기초하여, 상기 제2 글로스를 대신하는 복수의 글로스 후보를 결정하고,
    상기 복수의 글로스 후보 중 선택된 글로스 후보와 제1 글로스에 기초하여 수어 문장을 추출하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
  13. 제11 항에 있어서,
    상기 수어 인식 모듈은,
    상기 제2 글로스와의 유사도에 따라, 상기 복수의 글로스 후보의 우선순위를 결정하고,
    상기 디스플레이는,
    상기 우선순위에 따라, 상기 복수의 글로스 후보를 표시하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
  14. 제1 항에 있어서,
    상기 디스플레이는 투명 디스플레이인 것을 특징으로 하는 커뮤니케이션 보조 장치.
PCT/KR2023/013179 2022-09-05 2023-09-04 디스플레이 기반 커뮤니케이션 시스템 WO2024053967A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20220112258 2022-09-05
KR10-2022-0112258 2022-09-05
KR10-2023-0117060 2023-09-04
KR1020230117060A KR20240033676A (ko) 2022-09-05 2023-09-04 디스플레이 기반 커뮤니케이션 시스템

Publications (1)

Publication Number Publication Date
WO2024053967A1 true WO2024053967A1 (ko) 2024-03-14

Family

ID=90191464

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/013179 WO2024053967A1 (ko) 2022-09-05 2023-09-04 디스플레이 기반 커뮤니케이션 시스템

Country Status (1)

Country Link
WO (1) WO2024053967A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160109708A (ko) * 2015-03-12 2016-09-21 주식회사 디지털스케치 수화 번역기, 시스템 및 방법
KR101915088B1 (ko) * 2017-08-25 2018-11-05 신정현 수화번역장치
CN109960813A (zh) * 2019-03-18 2019-07-02 维沃移动通信有限公司 一种翻译方法、移动终端及计算机可读存储介质
KR102115551B1 (ko) * 2019-08-06 2020-05-26 전자부품연구원 글로스를 이용한 수어 번역 장치 및 번역모델 학습장치
KR20210138311A (ko) * 2020-05-12 2021-11-19 한국전자통신연구원 언어 및 수어의 병렬 말뭉치 데이터의 생성 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160109708A (ko) * 2015-03-12 2016-09-21 주식회사 디지털스케치 수화 번역기, 시스템 및 방법
KR101915088B1 (ko) * 2017-08-25 2018-11-05 신정현 수화번역장치
CN109960813A (zh) * 2019-03-18 2019-07-02 维沃移动通信有限公司 一种翻译方法、移动终端及计算机可读存储介质
KR102115551B1 (ko) * 2019-08-06 2020-05-26 전자부품연구원 글로스를 이용한 수어 번역 장치 및 번역모델 학습장치
KR20210138311A (ko) * 2020-05-12 2021-11-19 한국전자통신연구원 언어 및 수어의 병렬 말뭉치 데이터의 생성 장치 및 방법

Similar Documents

Publication Publication Date Title
WO2011074771A2 (ko) 외국어 학습 장치 및 그 제공 방법.
WO2021066399A1 (ko) 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
WO2018128238A1 (ko) 디스플레이 장치를 이용한 가상 상담 시스템 및 방법
KR20160109708A (ko) 수화 번역기, 시스템 및 방법
WO2018043939A1 (ko) 기록이 자동으로 분류되어 저장되는 개인기록 관리 시스템
Oliveira et al. The virtualsign channel for the communication between deaf and hearing users
WO2022196921A1 (ko) 인공지능 아바타에 기초한 인터랙션 서비스 방법 및 장치
WO2018169276A1 (ko) 언어 정보를 처리하기 위한 방법 및 그 전자 장치
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
Ridha et al. Assistive technology for hearing-impaired and deaf students utilizing augmented reality
WO2022196880A1 (ko) 아바타에 기초한 인터랙션 서비스 방법 및 장치
WO2022203123A1 (ko) 캐릭터를 활용한 인공지능 자연어 처리 기반의 화상교육 콘텐츠 제공 방법 및 장치
WO2024053967A1 (ko) 디스플레이 기반 커뮤니케이션 시스템
KR100949353B1 (ko) 언어 장애인용 대화 보조 장치
CN113239707A (zh) 文本翻译方法、文本翻译装置及存储介质
WO2023146030A1 (ko) 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램
WO2023277421A1 (ko) 수어의 형태소 단위 분할 방법, 형태소 위치 예측 방법 및 데이터 증강 방법
WO2021118184A1 (ko) 사용자 단말 및 그 제어방법
KR20150060348A (ko) 장애인 사이의 의사소통 장치 및 방법
JPH06337627A (ja) 手話通訳装置
KR20240033676A (ko) 디스플레이 기반 커뮤니케이션 시스템
KR19990037776A (ko) 음성인식자동번역및통역장치
JP2002244841A (ja) 音声表示システム及び音声表示プログラム
WO2023149678A1 (ko) 자기주도 암기학습 장치 및 그 방법
KR102487847B1 (ko) 청각장애인용 통화 서비스 제공 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23863439

Country of ref document: EP

Kind code of ref document: A1