KR20230089783A - 디스플레이 장치 및 그 제어 방법 - Google Patents

디스플레이 장치 및 그 제어 방법 Download PDF

Info

Publication number
KR20230089783A
KR20230089783A KR1020210178471A KR20210178471A KR20230089783A KR 20230089783 A KR20230089783 A KR 20230089783A KR 1020210178471 A KR1020210178471 A KR 1020210178471A KR 20210178471 A KR20210178471 A KR 20210178471A KR 20230089783 A KR20230089783 A KR 20230089783A
Authority
KR
South Korea
Prior art keywords
text
user
voice
display
input
Prior art date
Application number
KR1020210178471A
Other languages
English (en)
Inventor
비탈리 포리브니
일리아 페도린
코스얀틴 슬라우사렌코
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020210178471A priority Critical patent/KR20230089783A/ko
Priority to PCT/KR2022/017794 priority patent/WO2023113250A1/ko
Publication of KR20230089783A publication Critical patent/KR20230089783A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

디스플레이 장치가 개시된다. 디스플레이 장치는, 디스플레이, 적어도 하나의 명령을 저장하는 메모리 및, 디스플레이 및 메모리와 연결되어 디스플레이 장치를 제어하는 프로세서를 포함하며, 프로세서는, 적어도 하나의 명령어를 실행함으로써, 디스플레이를 통해 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 사용자의 드로잉 입력을 수신하고, 드로잉 입력이 수신되는 동안 획득된 사용자 음성에 대한 음성 인식을 수행하여 사용자 음성에 대응되는 텍스트를 획득하고, 드로잉 입력에 대응되는 포맷 또는 표시 위치 중 적어도 하나에 기초하여 획득된 텍스트를 표시하도록 디스플레이를 제어할 수 있다.

Description

디스플레이 장치 및 그 제어 방법 { Electronic apparatus and control method thereof }
본 개시는 디스플레이 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 음성 인식 기능을 수행하는 디스플레이 장치 및 그 제어 방법에 관한 것이다.
전자 기술의 발달에 힘입어 다양한 유형의 전자 기기가 개발 및 보급되고 있다. 특히, 스마트폰, 테블릿, 전자 칠판 등과 같은 텍스트 입력(또는 드로잉 입력)이 가능한 전자 장치는 사용자의 니즈를 만족시키기 위하여 최근 수년 간 지속적으로 발전하고 있다.
최근에는 스마트폰, 테블릿, 전자 칠판 등과 같은 텍스트 입력(또는 드로잉 입력)이 가능한 전자 장치에 음성 인식 기능을 구비하여 음성 인식까지 가능해지고 있다.
다만, 전자 장치에 텍스트를 입력하면서 사용자가 해당 텍스트를 발화하는 경우 텍스트 입력 속도가 사용자 발화 속도를 따라가지 못하거나, 음성 인식을 통해 획득된 텍스트를 표시하는 경우 사용자가 원하는 위치에 원하는 포맷으로 표시하기 어렵다는 문제점이 있었다.
본 개시는 상술한 필요성에 따른 것으로, 음성 인식에 따라 획득된 텍스트를 단순한 드로잉에 기초하여 포맷팅하고 대응되는 위치에 표시하는 디스플레이 장치 및 그 제어 방법을 제공함에 있다.
이상과 같은 목적을 달성하기 위한 일 실시 예에 따른 디스플레이 장치는, 디스플레이, 적어도 하나의 명령을 저장하는 메모리 및 상기 디스플레이 및 상기 메모리와 연결되어 상기 디스플레이 장치를 제어하는 프로세서를 포함하며, 상기 프로세서는, 상기 적어도 하나의 명령어를 실행함으로써, 상기 디스플레이를 통해 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 사용자의 드로잉 입력을 수신하고, 상기 드로잉 입력이 수신되는 동안 획득된 사용자 음성에 대한 음성 인식을 수행하여 상기 사용자 음성에 대응되는 텍스트를 획득하고, 상기 드로잉 입력에 대응되는 포맷 또는 표시 위치 중 적어도 하나에 기초하여 상기 획득된 텍스트를 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 프로세서는, 기 설정된 레코드 모드(record mode)를 실행하기 위한 제1 트리거 명령이 수신되면, 상기 사용자 입력을 통해 상기 드로잉 입력을 수신하고, 상기 사용자 음성을 획득하며, 상기 기 설정된 레코드 모드를 중지하기 위한 제2 트리거 명령이 수신되면, 상기 수신된 사용자 음성에 대한 음성 인식을 수행할 수 있다.
또한, 상기 텍스트의 포맷은, 텍스트 형상, 크기, 방향 또는 색상 중 적어도 하나를 포함하며, 상기 프로세서는, 상기 드로잉 입력에 대응되는 상기 텍스트의 포맷에 기초하여 상기 획득된 텍스트를 포맷팅하고, 상기 포맷팅된 텍스트를 상기 드로잉 입력에 대응되는 위치에 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 프로세서는, 상기 드로잉 입력을 상기 포맷팅된 텍스트로 대체하여 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 드로잉 입력은, 텍스트 드로잉 및 가이드 라인 드로잉을 포함하고, 상기 텍스트 드로잉은, 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 드로잉을 포함하며, 상기 프로세서는, 상기 가이드 라인 드로잉 및 상기 텍스트 드로잉 간 상대적 위치 관계에 기초하여 상기 포맷팅된 텍스트를 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 프로세서는, 상기 텍스트 드로잉이 상기 가이드 라인 드로잉 내에 포함되도록 드로잉되면, 상기 포맷팅된 텍스트가 상기 가이드 라인 드로잉 내에 포함되도록 표시하고, 상기 텍스트 드로잉이 상기 가이드 라인 드로잉을 교차하도록 드로잉되면, 상기 포맷팅된 텍스트가 상기 가이드 라인 드로잉을 교차하도록 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 프로세서는, 상기 가이드 라인 내의 상기 텍스트 드로잉이 분리된 복수의 파트를 포함하면, 상기 복수의 파트 중 제1 파트에 포함된 제1 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하고, 제2 파트에 포함된 제2 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하고, 상기 사용자 음성에 대한 음성 인식을 수행하여 상기 제1 파트에 대응되는 제1 텍스트를 획득하고, 상기 제2 파트에 대응되는 제2 텍스트를 획득하고, 상기 제1 텍스트 드로잉에 대한 정보에 기초하여 상기 제1 텍스트를 표시하고 상기 제2 텍스트 드로잉에 대한 정보에 기초하여 상기 제2 텍스트를 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 프로세서는, 제1 사용자에 대응되는 제1 드로잉 입력 및 상기 제1 사용자의 음성에 대응되는 텍스트를 획득하고, 제2 사용자에 대응되는 제2 드로잉 입력 및 상기 제2 사용자의 음성에 대응되는 텍스트를 획득하고, 상기 제1 드로잉 입력을 상기 제1 사용자의 음성에 대응되는 텍스트로 대체하여 표시하고, 상기 제2 드로잉 입력을 상기 제2 사용자의 음성에 대응되는 텍스트로 대체하여 표시하도록 상기 디스플레이를 제어하며, 상기 제1 사용자의 음성에 대응되는 텍스트 및 상기 제2 사용자의 음성에 대응되는 텍스트는 서로 구별되도록 표시할 수 있다.
또한, 상기 프로세서는, 음성의 특성, 음성의 입력 장치 또는 음성의 세기 중 적어도 하나에 기초하여 상기 제1 사용자 음성 및 상기 제2 사용자 음성을 식별할 수 있다.
또한, 상기 드로잉 입력은, 시맨틱(semantic) 정보를 포함하지 않을 수 있다.
한편, 일 실시 예에 따른 디스플레이 장치의 제어 방법은, 디스플레이를 통해 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 사용자의 드로잉 입력을 수신하는 단계, 상기 드로잉 입력이 수신되는 동안 획득된 사용자 음성에 대한 음성 인식을 수행하여 상기 사용자 음성에 대응되는 텍스트를 획득하는 단계 및, 상기 드로잉 입력에 대응되는 포맷 또는 표시 위치 중 적어도 하나에 기초하여 상기 획득된 텍스트를 표시하는 단계를 포함할 수 있다.
또한, 상기 드로잉 입력을 수신하는 단계는, 기 설정된 레코드 모드(record mode)를 실행하기 위한 제1 트리거 명령이 수신되면, 상기 사용자 입력을 통해 상기 드로잉 입력을 수신하고, 상기 사용자 음성을 획득하며, 상기 사용자 음성에 대응되는 텍스트를 획득하는 단계는, 상기 기 설정된 레코드 모드를 중지하기 위한 제2 트리거 명령이 수신되면, 상기 수신된 사용자 음성에 대한 음성 인식을 수행할 수 있다.
또한, 상기 텍스트의 포맷은, 텍스트 형상, 크기, 방향 또는 색상 중 적어도 하나를 포함하며, 상기 획득된 텍스트를 표시하는 단계는, 상기 드로잉 입력에 대응되는 상기 텍스트의 포맷에 기초하여 상기 획득된 텍스트를 포맷팅하고, 상기 포맷팅된 텍스트를 상기 드로잉 입력에 대응되는 위치에 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 획득된 텍스트를 표시하는 단계는, 상기 드로잉 입력을 상기 포맷팅된 텍스트로 대체하여 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 드로잉 입력은, 텍스트 드로잉 및 가이드 라인 드로잉을 포함하고, 상기 텍스트 드로잉은, 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 드로잉을 포함하며, 상기 획득된 텍스트를 표시하는 단계는, 상기 가이드 라인 드로잉 및 상기 텍스트 드로잉 간 상대적 위치 관계에 기초하여 상기 포맷팅된 텍스트를 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 획득된 텍스트를 표시하는 단계는, 상기 텍스트 드로잉이 상기 가이드 라인 드로잉 내에 포함되도록 드로잉되면, 상기 포맷팅된 텍스트가 상기 가이드 라인 드로잉 내에 포함되도록 표시하는 단계 및, 상기 텍스트 드로잉이 상기 가이드 라인 드로잉을 교차하도록 드로잉되면, 상기 포맷팅된 텍스트가 상기 가이드 라인 드로잉을 교차하도록 표시하는 단계를 포함할 수 있다.
또한, 상기 텍스트를 획득하는 단계는, 상기 가이드 라인 내의 상기 텍스트 드로잉이 분리된 복수의 파트를 포함하면, 상기 복수의 파트 중 제1 파트에 포함된 제1 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하고, 제2 파트에 포함된 제2 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하는 단계 및, 상기 사용자 음성에 대한 음성 인식을 수행하여 상기 제1 파트에 대응되는 제1 텍스트를 획득하고, 상기 제2 파트에 대응되는 제2 텍스트를 획득하는 단계;포함하며, 상기 획득된 텍스트를 표시하는 단계는, 상기 제1 텍스트 드로잉에 대한 정보에 기초하여 상기 제1 텍스트를 표시하고 상기 제2 텍스트 드로잉에 대한 정보에 기초하여 상기 제2 텍스트를 표시할 수 있다.
또한, 상기 텍스트를 획득하는 단계는, 제1 사용자에 대응되는 제1 드로잉 입력 및 상기 제1 사용자의 음성에 대응되는 텍스트를 획득하고, 제2 사용자에 대응되는 제2 드로잉 입력 및 상기 제2 사용자의 음성에 대응되는 텍스트를 획득하고, 상기 획득된 텍스트를 표시하는 단계는, 상기 제1 드로잉 입력을 상기 제1 사용자의 음성에 대응되는 텍스트로 대체하여 표시하고, 상기 제2 드로잉 입력을 상기 제2 사용자의 음성에 대응되는 텍스트로 대체하여 표시하며, 상기 제1 사용자의 음성에 대응되는 텍스트 및 상기 제2 사용자의 음성에 대응되는 텍스트는 서로 구별되도록 표시될 수 있다.
또한, 상기 텍스트를 획득하는 단계는, 음성의 특성, 음성의 입력 장치 또는 음성의 세기 중 적어도 하나에 기초하여 상기 제1 사용자 음성 및 상기 제2 사용자 음성을 식별할 수 있다.
또한, 상기 드로잉 입력은, 시맨틱(semantic) 정보를 포함하지 않을 수 있다.
상술한 다양한 실시 예들에 따르면, 간단한 드로잉 및 사용자 발화 만으로 텍스트를 사용자가 원하는 위치에 원하는 포맷으로 표시할 수 있게 된다. 이에 따라 사용자의 편의성이 향상된다.
이하에서는 첨부 도면을 참조하여 본 개시를 상세히 설명한다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.
본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
A 또는/및 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.
본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
이하 첨부된 도면들을 참조하여 본 개시의 일 실시 예를 보다 상세하게 설명한다.
도 1은 이해를 돕기 위한 디스플레이 장치의 구현 예를 설명하기 위한 도면이다.
도 1에 따르면, 디스플레이 장치(100)는 사용자의 드로잉 입력 및 디스플레이 기능을 제공하는 다양한 타입의 장치로 구현 가능하다. 예를 들어, 휴대폰, 스마트폰(smartphone), 전자 칠판, 전자 액자, DID(Digital Information Display), 키오스크(kiosk), PMP(Portable Media Mlayer), MP3 player, 게임기, LFD(Large Format Display), 노트북(notebook), 랩탑(laptop)), TV, 모니터(monitor), 프로젝터 시스템 등과 같은 다양한 장치로 구현 가능하다. 다만 이에 한정되지 않으며 그 외의 가전 기기, 의료 기기, 웨어러블 기기 등도 디스플레이 장치(100)에 포함될 수 있다.
한편, 디스플레이 장치(100)에 구비된 디스플레이는 다양한 유형의 드로잉 조작을 감지할 수 있도록 구현될 수 있다. 예를 들어, 디스플레이는 사용자 손에 의한 터치 입력, 스타일러스 펜과 같은 입력 장치에 의한 터치 입력, 특정 정전 물질에 의한 터치 입력 등 다양한 유형의 터치 입력 뿐 아니라 레이저 포인터에 의한 입력을 감지할 수 있다. 여기서, 입력 장치는 전자 펜, 스타일러스 펜, S-펜 등 다양한 용어로 지칭될 수 있는 펜 형의 입력 장치으로 구현될 수 있지만, 반드시 펜 형상으로 구현되어야 하는 것은 아니다. 예를 들어, 뭉툭하거나, 평평한 형상의 바디를 갖도록 구현될 수도 있다.
또한, 디스플레이 장치(100)는 사용자 음성을 직접 수신하거나, 외부 장치에 구비된 마이크를 통해 입력된 사용자 음성을 수신하여 수신된 사용자 음성에 대한 음성 인식을 수행할 수 있다. 다만, 경우에 따라 음성 인식 동작 중 적어도 일부는 외부 서버를 통해 수행되는 것도 가능하다.
디스플레이 장치(100)는 상술한 터치 입력 기능 및 음성 인식 기능을 이용한 텍스트 입력 및 표시 기능을 제공할 수 있는데, 이하에서는 도면을 참고하여 다양한 실시 예에 따른 텍스트 입력 및 표시 기능에 대해 설명하도록 한다.
도 2는 일 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블럭도이다.
도 2에 따르면, 디스플레이 장치(100)는 디스플레이(110), 메모리(120) 및 프로세서(130)를 포함한다.
디스플레이(110)는 자발광 소자를 포함하는 디스플레이 또는, 비자발광 소자 및 백라이트를 포함하는 디스플레이로 구현될 수 있다. 예를 들어, LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, LED(Light Emitting Diodes), 마이크로 LED(micro LED), Mini LED, PDP(Plasma Display Panel), QD(Quantum dot) 디스플레이, QLED(Quantum dot light-emitting diodes) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(110) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(110)는 플렉시블 디스플레이(flexible display), 롤러블 디스플레이(rollable display), 3차원 디스플레이(3D display), 복수의 디스플레이 모듈이 물리적으로 연결된 디스플레이 등으로 구현될 수 있다.
일 예에 따라 디스플레이(110)는 터치 센서를 구비하여 손가락 또는 펜(예를 들어, 스타일러스 펜)을 이용한 터치 입력을 수신하도록 구현될 수 있다. 터치 센서는 정전식 또는 감압식으로 구현될 수 있다. 정전식 터치 센서는 디스플레이 표면에 코팅된 유전체를 이용하여, 사용자의 신체 일부가 디스플레이 표면에 터치되었을 때 사용자의 인체로 여기되는 미세 전기를 감지하여 터치 좌표를 산출하는 방식의 센서를 의미한다. 감압식 터치 센서는 내장된 두 개의 전극 판을 포함하여, 터치된 지점의 상하 판이 접촉되어 전류가 흐르게 되는 것을 감지하여 터치 좌표를 산출하는 방식의 터치 센서를 의미한다. 그 밖에 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등이 터치 조작을 감지하는데 이용될 수 있다. 그 밖에 디스플레이(110)는 마그네틱과 자기장 센서, 광센서 또는 근접 센서 등을 이용하여 손가락 또는 스타일러스 펜과 같은 터치 오브젝트의 접촉 또는 근접하게 되었는지 여부를 판단할 수도 있다.
다른 예에 따라 디스플레이(110)는 레이저 등과 같은 광 입력을 수신하도록 구현될 수 있다. 이 경우, 디스플레이(110)는 광 센서, 레이저 감지 센서 등을 포함하도록 구현될 수 있다.
메모리(120)는 다양한 실시 예를 위해 필요한 데이터를 저장할 수 있다. 메모리(120)는 데이터 저장 용도에 따라 디스플레이 장치(100)에 임베디드된 메모리 형태로 구현되거나, 디스플레이 장치(100)에 탈부착이 가능한 메모리 형태로 구현될 수도 있다. 예를 들어, 디스플레이 장치(100)의 구동을 위한 데이터의 경우 디스플레이 장치(100)에 임베디드된 메모리에 저장되고, 로봇(100)의 확장 기능을 위한 데이터의 경우 디스플레이 장치(100)에 탈부착이 가능한 메모리에 저장될 수 있다. 한편, 디스플레이 장치(100)에 임베디드된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나로 구현될 수 있다. 또한, 로봇(100)에 탈부착이 가능한 메모리의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결가능한 외부 메모리(예를 들어, USB 메모리) 등과 같은 형태로 구현될 수 있다.
적어도 하나의 프로세서(130)는 디스플레이 장치(100)의 동작을 전반적으로 제어한다. 구체적으로, 프로세서(130)는 디스플레이 장치(100)의 각 구성과 연결되어 디스플레이 장치(100)의 동작을 전반적으로 제어할 수 있다. 예를 들어, 프로세서(130)는 디스플레이(110) 및 메모리(120)와 전기적으로 연결되어 디스플레이 장치1l00)의 전반적인 동작을 제어할 수 있다. 프로세서(130)는 하나 또는 복수의 프로세서로 구성될 수 있다.
프로세서(130)는 메모리(120)에 저장된 적어도 하나의 인스트럭션(instruction)을 실행함으로써, 다양한 실시 예에 따른 디스플레이 장치(100)의 동작을 수행할 수 있다.
일 실시 예에 따라 프로세서(130)는 디지털 영상 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), GPU(Graphics Processing Unit), AI(Artificial Intelligence) 프로세서, NPU (Neural Processing Unit), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 애플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(140)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, ASIC(application specific integrated circuit), FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.
또한, 일 실시 예에 따른 인공 지능 모델을 실행하기 위한 프로세서(130)는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공 지능 전용 프로세서과 소프트웨어의 조합을 통해 구현될 수 있다. 프로세서(130)는, 메모리(120)에 저장된 기 정의된 동작 규칙 또는 인공 지능 모델에 따라, 입력 데이터를 처리하도록 제어할 수 있다. 또는, 프로세서(130)가 전용 프로세서(또는 인공 지능 전용 프로세서)인 경우, 특정 인공 지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다. 예를 들어, 특정 인공 지능 모델의 처리에 특화된 하드웨어는 ASIC, FPGA 등의 하드웨어 칩으로 설계될 수 있다. 프로세서(130)가 전용 프로세서로 구현되는 경우, 본 개시의 실시 예를 구현하기 위한 메모리를 포함하도록 구현되거나, 외부 메모리를 이용하기 위한 메모리 처리 기능을 포함하도록 구현될 수 있다.
프로세서(130)는 디스플레이(110)를 통해 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 사용자의 드로잉(또는 스케치, 마킹) 입력을 수신할 수 있다. 여기서, 드로잉 입력은 상술한 바와 같이 터치 입력 뿐 아니라, 근접 입력, 레이저 포인터 입력 등과 같이 다양한 방식으로 수신될 수 있으나, 이하에서는 설명의 편의를 위하여 드로잉 입력이 터치 입력으로 수신되는 실시 예를 상정하도록 한다.
이어서, 프로세서(130)는 드로잉 입력과 관련하여 획득된 사용자 음성, 예를 들어 드로잉 입력이 수신되는 동안 획득된 음성 인식을 수행하여 사용자 음성에 대응되는 텍스트를 획득할 수 있다. 여기서, 사용자 음성은 일 예에 따라 디스플레이 장치(100)에 구비된 마이크를 통해 획득되거나, 디스플레이 장치(100)와 통신하는 별도의 입력 장치를 통해 획득될 수 있다. 다만, 프로세서(130)가 음성 인식을 수행하지 않고 외부 장치(예를 들어 외부 서버)를 통해 음성 인식을 수행하는 것도 가능하다. 다만, 이하에서는 설명의 편의를 위하여 프로세서(130)가 음성 인식을 수행하는 것으로 상정하도록 한다.
이 후, 프로세서(130)는 드로잉 입력에 대응되는 텍스트 포맷 또는 표시 위치 중 적어도 하나에 기초하여 획득된 텍스트를 표시하도록 디스플레이(110)를 제어할 수 있다. 예를 들어 드로잉 입력은 시맨틱(semantic) 정보를 포함하지 않는 텍스트 포맷 또는 표시 위치 중 적어도 하나를 식별할 수 있을 정보의 마킹 입력일 수 있다.
일 예에 따라 프로세서(130)는 기 설정된 레코드 모드(record mode)를 실행하기 위한 제1 트리거 명령이 수신되면, 사용자의 드로잉 입력을 수신하고, 사용자 음성을 획득할 수 있다. 또한, 프로세서(130)는 기 설정된 레코드 모드를 중지하기 위한 제2 트리거 명령이 수신되면, 수신된 사용자 음성에 대한 음성 인식을 수행하여 텍스트를 획득할 수 있다.
일 예에 따라 프로세서(130)는 드로잉 입력에 대응되는 텍스트의 포맷에 기초하여 사용자 음성에 대응되는 텍스트를 포맷팅하고, 포맷팅된 텍스트를 드로잉 입력에 대응되는 위치에 표시하도록 디스플레이(110)를 제어할 수 있다. 여기서, 드로잉 입력은 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련될 수 있다. 여기서, 텍스트의 포맷은, 텍스트 형상, 크기, 방향 또는 색상 중 적어도 하나를 포함할 수 있다. 포맷팅이란 드로잉 입력에 대응되는 텍스트의 형상(또는 폰트 타입), 크기, 방향 또는 색상 중 적어도 하나를 결정하는 작업을 의미할 수 있다. 예를 들어 드로잉 입력의 크기에 기초하여 표시될 텍스트의 크기가 결정될 수 있다.
한편, 프로세서(130)는 드로잉 입력을 포맷팅된 텍스트로 대체하여 표시하도록 디스플레이(110)를 제어할 수 있다.
일 실시 예에 따르면, 드로잉 입력은 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 텍스트 드로잉 뿐 아니라, 가이드 라인 드로잉을 더 포함할 수 있다. 여기서, 가이드 라인 드로잉은 사용자의 필요에 따라 임의로 드로잉되는 다양한 형태의 가이드 라인 입력을 포함할 수 있다.
다른 실시 예에 따르면, 가이드 라인 드로잉은 사용자에 의해 직접 드로잉되지 않고 디스플레이 장치(100)에서 제공하는 기 저장된 템플릿 중 사용자에게 선택되는 형태로 입력되는 것도 가능하다. 여기서, 기 저장된 템플릿은 다양한 타입의 가이드 드로잉을 포함할 수 있다.
다만, 이하에서는 설명의 편의를 위하여 가이드 라인 드로잉이 텍스트 드로잉과 마찬가지로 사용자에 의해 드로잉되는 경우를 가정하여 설명하도록 한다.
이 경우, 프로세서(130)는 가이드 라인 드로잉 및 텍스트 드로잉 간 상대적 위치 관계에 기초하여 포맷팅된 텍스트를 표시하도록 디스플레이(110)를 제어할 수 있다.
일 예에 따라 프로세서(130)는 텍스트 드로잉이 가이드 라인 드로잉 내에 포함되도록 드로잉되면, 포맷팅된 텍스트가 가이드 라인 드로잉 내에 포함되도록 표시할 수 있다. 또는 프로세서(130)는 텍스트 드로잉이 가이드 라인 드로잉을 교차하도록 드로잉되면, 포맷팅된 텍스트가 가이드 라인 드로잉을 교차하도록 표시할 수 있다.
다른 예에 따라 프로세서(130)는 가이드 라인 내의 텍스트 드로잉이 분리된 복수의 파트를 포함하면, 복수의 파트 중 제1 파트에 포함된 제1 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하고, 제2 파트에 포함된 제2 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별할 수 있다. 이어서, 프로세서(130)는 사용자 음성에 대한 음성 인식을 수행하여 제1 파트에 대응되는 제1 텍스트를 획득하고, 제2 파트에 대응되는 제2 텍스트를 획득할 수 있다. 이 후, 프로세서(130)는 제1 텍스트 드로잉에 대한 정보에 기초하여 제1 텍스트를 표시하고 제2 텍스트 드로잉에 대한 정보에 기초하여 제2 텍스트를 표시할 수 있다.
일 실시 예에 따라 프로세서(130)는 복수의 사용자 각각에 대응되는 드로잉 입력 및 복수의 사용자 각각에 대응되는 사용자 음성을 획득하고, 각 드로잉 입력에 기초하여 각 사용자 음성에 대응되는 텍스트를 표시할 수 있다. 이 경우, 각 사용자 음성에 대응되는 텍스트는 서로 구별되도록 표시될 수 있다. 예를 들어, 텍스트 형상, 크기 또는 색상 중 적어도 하나가 구별되도록 표시될 수 있다. 이 경우, 각 사용자 음성에 대응되는 텍스트는 드로잉 입력에 대응되는 텍스트 포맷과 연결되어 표시될 수 있다. 예를 들어, 각 사용자의 드로잉 입력에 의해 폰트가 지정되지 않은 경우, 프로세서(130)는 각 사용자의 텍스트를 구별하기 위하여 텍스트 폰트를 상이하게 표시할 수 있다.
이 경우, 프로세서(130)는 사용자 음성의 특성, 사용자 음성의 입력 장치 또는 사용자 음성의 세기 중 적어도 하나에 기초하여 복수의 사용자 음성을 식별하고, 각 사용자 음성에 대응되는 텍스트를 구별되도록 표시할 수 있다. 다만, 이에 한정되는 것은 아니며, 드로잉 입력 시점 및 사용자 입력 시점 등 다양한 상황을 고려하여 복수의 사용자 음성을 식별하는 것도 가능하다.
일 예에 따라 프로세서(130)는 제1 사용자에 대응되는 제1 드로잉 입력 및 제1 사용자의 음성에 대응되는 텍스트를 획득하고, 제1 드로잉 입력을 제1 사용자의 음성에 대응되는 텍스트로 대체하여 표시할 수 있다. 또한, 프로세서(130)는 제1 사용자와 상이한 제2 사용자에 대응되는 제2 드로잉 입력 및 제2 사용자의 음성에 대응되는 텍스트를 획득하고, 제2 드로잉 입력을 제2 사용자의 음성에 대응되는 텍스트로 대체하여 표시할 수 있다. 이 경우, 제1 사용자의 음성에 대응되는 텍스트 및 제2 사용자의 음성에 대응되는 텍스트는 서로 구별되도록 표시될 수 있다.
도 3a 내지 도 3d는 일 실시 예에 따른 텍스트 입력 방법을 설명하기 위한 도면들이다.
도 3a 내지 도 3d에서는 설명의 편의를 위하여 디스플레이 장치(100)가 스마트 폰으로 구현되는 경우를 상정하도록 한다.
도 3a 내지 도 3d에 따르면, 디스플레이 장치(100)의 디스플레이(110)를 통해 텍스트 드로잉이 입력되고 임계 시간 내에 사용자 음성이 인식되면, 프로세서(130)는 사용자 음성에 대응되는 텍스트를 획득하고, 텍스트 드로잉에 대응되는 텍스트 포맷 또는 표시 위치 중 적어도 하나를 식별할 수 있다. 이 후, 프로세서(130)는 식별된 텍스트 포맷 또는 표시 위치 중 적어도 하나에 기초하여 획득된 텍스트를 표시할 수 있다.
예를 들어 도 3a에 따르면, 프로세서(130)는 디스플레이(110)를 통해 특정 텍스트 드로잉(311)이 입력되고 사용자 음성에 대응되는 텍스트 "Review"가 획득되면, 텍스트 드로잉(311)에 대응되는 표시 위치에 텍스트 드로잉(311)에 대응되는 크기의 텍스트 "Review"(312)를 표시할 수 있다.
도 3b에 따르면, 프로세서(130)는 도 3a에 따라 특정 영역에 텍스트 "Review"(312)가 표시된 후 표시된 "Review"(312) 하부 영역으로 후속 텍스트 드로잉(321)이 입력되고 후속 사용자 음성에 대응되는 텍스트 "Implement"가 획득되면, "Review"(312)하부 영역에 텍스트 드로잉(321)에 대응되는 크기의 텍스트 "Implement"(322)를 표시할 수 있다. 즉, 도 3a에서 입력된 텍스트 드로잉(311)보다 도 3b에서 입력된 텍스트 드로잉(321)의 크기가 크기 때문에 텍스트 "Implement"(322)는 텍스트 "Review"(312)보다 큰 크기로 표시될 수 있다.
도 3c에 따르면, 프로세서(130)는 디스플레이(110)를 통해 텍스트 드로잉이 두 개의 파트(331-1, 331-2)를 포함하고, 사용자 음성에 대응되는 복수의 텍스트 "Plan" 및 "Review"가 획득되면, 두 개의 파트(331-1, 331-2) 각각에 대응되는 표시 위치에 동일한 크기의 텍스트 "Plan"(332-1) 및 "Review"(332-2)를 각각 표시할 수 있다. 이 경우, 프로세서(130)는 일 예에 따라 두 개의 파트(331-1, 331-2) 각각의 입력 시간에 동기화된 사용자 음성 각각을 식별할 수 있다. 다만, 이에 한정되는 것은 아니며, 임계 시간 내에 음성 인식을 통해 순차적으로 인식된 복수의 단어를 각각 두 개의 파트(331-1, 331-2)에 매칭시키는 것도 가능하다. 즉, 프로세서(130)는 음성 인식을 통해 사용자 음성에 대응되는 복수의 단어가 식별되면, 복수의 단어를 각각 두 개의 파트(331-1, 331-2)에 매칭시킬 수 있다.
도 3d에 따르면, 프로세서(130)는 디스플레이(110)를 통해 텍스트 드로잉이 두 개의 파트(341-1, 341-2)이 임계 시간 내에 연속적으로 입력되고, 연속적으로 수신된 사용자 음성에 대응되는 복수의 텍스트 "Plan" 및 "Review"가 획득되면, 두 개의 파트(341-1, 341-2) 각각에 대응되는 표시 위치에 상이한 크기의 텍스트 "Plan"(342-1) 및 "Review"(342-2)를 각각 표시할 수 있다. 즉, 도 3c에서는 두 개의 파트(331-1, 331-2)가 동일한 크기로 입력되었으나, 도 3d에서는 두 개의 파트(341-1, 341-2)가 상이한 크기로 입력되었으므로 텍스트 "Plan"(342-1) 및 "Review"(342-2)가 두 개의 파트(341-1, 341-2) 각각의 크기에 대응되는 상이한 크기로 표시될 수 있다.
도 4a 내지 도 4e는 일 실시 예에 따른 텍스트 입력 방법을 설명하기 위한 도면들이다.
도 4a 내지 도 4e에 따르면, 프로세서(130)는 텍스트 드로잉과 함께 가이드 라인 드로잉이 입력되면, 가이드 라인 드로잉 및 텍스트 드로잉의 위치 관계에 기초하여 사용자 음성에 대응되는 텍스트를 표시할 수 있다.
예를 들어, 도 4a에 따르면 텍스트 드로잉(411)이 가이드 라인 드로잉(412)을 벗어나지 않도록 입력되면, 음성 인식을 통해 획득된 텍스트(413) 또한 가이드 라인 드로잉(412)을 벗어나지 않도록 표시될 수 있다.
도 4b에 따르면 텍스트 드로잉(421)이 가이드 라인 드로잉(422)을 교차하도록 입력되면, 음성 인식을 통해 획득된 텍스트(423) 또한 가이드 라인 드로잉(422)과 교차하도록 표시될 수 있다.
도 4c에 따르면 텍스트 드로잉(431)이 가이드 라인 드로잉(432) 내측 중앙 영역에 입력되면, 음성 인식을 통해 획득된 텍스트(433) 또한 가이드 라인 드로잉(432) 내측 중앙 영역에 표시될 수 있다.
도 4d에 따르면 가이드 라인 드로잉(442) 내의 텍스트 드로잉이 두 개의 파트(441-1, 441-2)를 포함하고 하나의 파트(441-2)가 다른 파트(441-1) 하부 영역에 입력되면, 프로세서(130)는 사용자 음성에 대응되는 텍스트 예를 들어 구(phrase)를 두 개의 단어(word)로 구별하고, 각 단어(443-1, 443-2)를 각 파트(441-1, 441-2)에 대응되는 영역에 표시할 수 있다. 이 경우, 하나의 파트(441-2)는 다른 파트(441-1)의 위치에 대해 시프트되어 드로잉되었으므로 하나의 파트(441-2)에 대응되는 단어(443-2) 또한 다른 파트(441-1)에 대응되는 단어(443-1)에 대해 시프프되어 표시될 수 있다.
도 4e에 따르면 가이드 라인 드로잉(452) 내의 텍스트 드로잉이 두 개의 파트(451-1, 451-2)를 포함하고 하나의 파트(451-2)가 다른 파트(451-1) 하부 영역에 입력되면, 프로세서(130)는 사용자 음성에 대응되는 텍스트 예를 들어 구(phrase)를 두 개의 단어(word)로 구별하고, 각 단어(453-1, 453-2)를 각 파트(451-1, 451-2)에 대응되는 영역에 표시할 수 있다. 도 4d와 달리, 도 4e에 따르면 각 파트(451-1, 451-2)의 크기가 상이하므로 각 단어(453-1, 453-2)는 각 파트(451-1, 451-2)의 크기에 대응되는 크기로 표시될 수 있다.
도 5는 일 실시 예에 따른 텍스트 입력 방법을 설명하기 위한 도면이다.
도 5에 도시된 바와 같이 5개의 가이드 라인 드로잉(521 내지 525) 내에 텍스트 드로잉(511 내지 515)이 각각 입력되는 경우를 상정하도록 한다. 이 경우, 프로세서(130)는 각 가이드 라인 드로잉(521 내지 525) 내에 입력된 텍스트 드로잉(511 내지 515)에 대응되는 사용자 음성에 기초하여 텍스트를 획득하고 획득된 텍스트로 텍스트 드로잉(511 내지 515)을 대체하여 표시할 수 있다.
이 경우, 프로세서(130)는 임계 시간 내의 사용자 음성을 텍스트 드로잉(511 내지 515)의 개수인 5개의 단어로 구분하여 각 텍스트 드로잉(511 내지 515)에 대응되는 사용자 음성의 텍스트를 식별할 수 있다. 여기서, 임계 시간은 특정 모드는, 일 예로 상술한 레코드 모드(record mode)이 실행되는 시간이 될 수 있으나, 반드시 이에 한정되는 것은 아니다. 다른 예로, 텍스트 드로잉(511 내지 515)과 사용자 음성의 입력 시점을 동기화하여 각 텍스트 드로잉(511 내지 515)에 대응되는 사용자 음성의 텍스트를 식별하는 것도 가능하다. 또 다른 예로 각 텍스트 드로잉(511 내지 515) 및 대응되는 사용자 음성을 수신하는 별도의 레코드 모드를 실행하여, 각 텍스트 드로잉(511 내지 515)에 대응되는 사용자 음성의 텍스트를 식별하는 것도 가능하다.
도 6a 및 도 6b는 일 실시 예에 따른 복수의 사용자에 대응되는 텍스트 입력 방법을 설명하기 위한 도면들이다.
도 6a 및 도 6b에서는 설명의 편의를 위하여 디스플레이 장치(100)가 전자 칠판으로 구현되는 경우를 상정하도록 한다.
도 6a에 따르면, 제1 사용자(61)에 의해 제1 텍스트 드로잉(611) 및 제2 텍스트 드로잉(612)이 입력되고 제2 사용자(62)에 의해 제3 텍스트 드로잉(621) 및 제4 텍스트 드로잉(622)이 입력될 수 있다. 이 경우, 프로세서(130)는 임계 시간 내(예를 들어, 레코드 모드가 실행되는 동안)에 수신된 사용자 음성 중 제1 사용자(61)의 사용자 음성 및 제2 사용자(62)의 사용자 음성을 구분할 수 있다. 일 예에 따라 프로세서(130)는 사용자 음성의 특성, 사용자 음성의 입력 장치 또는 사용자 음성의 세기 중 적어도 하나에 기초하여 제1 및 제2 사용자 음성을 식별할 수 있다. 다만, 이에 한정되는 것은 아니며, 드로잉 입력 시점 및 사용자 입력 시점 등 다양한 상황을 고려하여 제1 및 제2 사용자 음성을 식별하는 것도 가능하다.
도 6b에 따르면, 프로세서(130)는 구분된 제1 및 제2 사용자 음성에 기초하여 획득된 텍스트(631, 632, 641, 642)를 각각 제1 내지 제4 텍스트 드로잉(611, 612, 621, 622)에 매칭시킬 수 있다. 예를 들어, 프로세서(130)는 제1 사용자 음성에 기초하여 획득된 텍스트(631, 632)를 제1 및 제2 텍스트 드로잉(611, 612)에 매칭시키고, 제2 사용자 음성에 기초하여 획득된 텍스트(641, 642)를 제3 및 제4 텍스트 드로잉(621, 622)에 매칭시킬 수 있다. 또한, 프로세서(130)는 제1 사용자 음성에 대응되는 텍스트(631, 632) 및 제2 사용자 음성에 대응되는 텍스트(641, 642)를 서로 구별되도록 표시할 수 있다. 일 예에 따라 프로세서(130)는 상이한 사용자에 대응되는 텍스트를 상이한 폰트로 표시하거나, 상이한 색상으로 표시할 수 있다.
도 7a 및 도 7b는 일 실시 예에 따른 텍스트 입력 방법을 설명하기 위한 도면들이다.
도 7a 및 도 7b에서는 도시된 바와 같이 디스플레이 장치(100)가 펜 입력을 수신하는 스마트 폰으로 구현되는 경우를 가정하도록 한다.
도 7a에 도시된 바와 같이 디스플레이 장치(100)에 구비된 디스플레이(110)를 통해 텍스트 드로잉(711, 712, 713)이 입력되고 사용자 음성이 수신되면, 프로세서(130)는 수신된 사용자 음성에 기초하여 텍스트 드로잉(711, 712, 713) 각각에 대응되는 텍스트를 획득할 수 있다. 예를 들어, 프로세서(130)는 레코드 모드가 실행되는 동안 입력된 텍스트 드로잉(711, 712, 713) 및 수신된 사용자 음성을 분석하여 텍스트 드로잉(711, 712, 713) 각각에 대응되는 텍스트를 획득할 수 있다. 이 경우, 프로세서(130)는 레코드 모드가 실행되는 동안 입력된 텍스트 드로잉(711, 712, 713) 각각의 포맷 및 위치에 기초하여 수신된 사용자 음성에 대응되는 텍스트를 복수의 텍스트로 구분할 수 있다. 이 후, 프로세서(130)는 도 7b에 도시된 바와 같이 구분된 각 텍스트(731, 732, 733)을 각 텍스트 드로잉(711, 712, 713)에 대응되는 위치에 표시할 수 있다.
도 8a 및 도 8b는 일 실시 예에 따른 텍스트 입력 방법을 설명하기 위한 도면들이다.
도 8a 및 도 8b에서는 도시된 바와 같이 디스플레이 장치(100)가 레이저 포인터 입력 수신이 가능한 장치로 구현되는 경우를 가정하도록 한다.
도 8a에 도시된 바와 같이 레이저 포인터(80)를 이용하여 텍스트 드로잉(811, 812, 813, 814, 815)이 입력되고 사용자 음성이 수신되면, 프로세서(130)는 수신된 사용자 음성에 기초하여 텍스트 드로잉(811, 812, 813, 814, 815) 각각에 대응되는 텍스트를 획득할 수 있다. 예를 들어, 프로세서(130)는 레코드 모드가 실행되는 동안 입력된 텍스트 드로잉(811, 812, 813, 814, 815) 및 수신된 사용자 음성을 분석하여 텍스트 드로잉(811, 812, 813, 814, 815) 각각에 대응되는 텍스트를 획득할 수 있다. 이 경우, 프로세서(130)는 레코드 모드가 실행되는 동안 입력된 텍스트 드로잉(811, 812, 813, 814, 815) 각각의 포맷 및 위치에 기초하여 수신된 사용자 음성에 대응되는 텍스트를 복수의 텍스트로 구분할 수 있다. 이 후, 프로세서(130)는 도 8b에 도시된 바와 같이 구분된 각 텍스트(831, 832, 833, 834, 835)을 각 텍스트 드로잉(811, 812, 813, 814, 815)에 대응되는 위치에 표시할 수 있다.
일 예에 따라 도 9a 및 도 9b에 도시된 바와 같은 실시 예에는 프로젝터 장치가 이용될 수 있다.
예를 들어, 도 9a에 도시된 바와 같이 프로젝터 장치(90)를 통해 스크린(810)에 영상이 투사되고, 사용자가 레이저 포인터(80)를 이용하여 스크린(810)에 텍스트 드로잉(811 내지 815)을 입력하는 경우 프로젝터 장치(90)에 구비된 카메라(91)를 통해 스크린(810)이 촬영될 수 있다. 이 경우, 프로젝터 장치(90)는 촬영 영상에 기초하여 텍스트 드로잉(811 내지 815) 각각의 포맷 및 위치를 식별할 수 있다. 일 예로, 프로젝터(90)는 도 9a에 도시된 바와 같이 태블릿 형태로 구현될 수 있으나, 이에 한정되는 것은 아니다. 또한, 텍스트 드로잉 입력은 도 9b에 도시된 바와 같이 스크린(810)에서 사용자의 손을 이용한 터치 입력에 의해 수신될 수도 있다.
도 10은 일 실시 예에 따른 디스플레이 장치의 구현 예를 나타내는 블럭도이다.
도 10에 따르면, 디스플레이 장치(100')는 디스플레이(110), 메모리(120), 프로세서(130), 통신 인터페이스(140), 사용자 인터페이스(150), 스피커(160) 및 마이크(170)를 포함할 수 있다. 도 10에 도시된 구성 중 도 2에 도시된 구성과 중복되는 구성에 대해서는 자세한 설명을 생략하도록 한다.
일 실시 예에 따라 프로세서(130)는 사용자 음성에 대한 음성 인식을 수행할 수 있다. 일 예에 따라 프로세서(130)는 오디오 데이터 형태의 사용자 음성을 텍스트 데이터로 변환할 수 있다. 예를 들어 프로세서(130)는 사용자 특성 별로 학습된 복수의 음성 인식 모델을 포함할 수 있으며, 복수의 음성 인식 모델 각각은 음향(acoustic) 모델 및 언어(language) 모델을 포함할 수 있다. 음향 모델은 발성에 관련된 정보를 포함할 수 있고, 언어 모델은 단위 음소 정보 및 단위 음소 정보의 조합에 대한 정보를 포함할 수 있다. 프로세서(130)는 발성에 관련된 정보 및 단위 음소 정보에 대한 정보를 이용하여 사용자 음성를 텍스트 데이터로 변환할 수 있다. 음향 모델 및 언어 모델에 대한 정보는, 예를 들어, 자동 음성 인식 데이터베이스(automatic speech recognition database)(ASR DB)에 저장될 수 있다.
적어도 하나의 통신 인터페이스(140)(이하, 통신 인터페이스)는 디스플레이 장치(100')의 구현 예에 따라 다양한 인터페이스로 구현될 수 있음은 물론이다. 예를 들어 통신 인터페이스(140)는 다양한 타입의 디지털 인터페이스, AP 기반의 Wi-Fi(와이파이, Wireless LAN 네트워크), 블루투스(Bluetooth), 지그비(Zigbee), 유/무선 LAN(Local Area Network), WAN(Wide Area Network), 이더넷(Ethernet), IEEE 1394, HDMI(High-Definition Multimedia Interface), USB(Universal Serial Bus), MHL(Mobile High-Definition Link), AES/EBU(Audio Engineering Society/ European Broadcasting Union), 옵티컬(Optical), 코액셜(Coaxial) 등과 같은 통신 방식을 통해 외부 장치, 외부 저장 매체(예를 들어, USB 메모리), 외부 서버(예를 들어 웹 하드) 등과 통신을 수행할 수 있다.
사용자 인터페이스(150)는 버튼, 터치 패드, 마우스 및 키보드와 같은 장치로 구현되거나, 상술한 디스플레이 기능 및 조작 입력 기능도 함께 수행 가능한 터치 스크린, 리모콘 송수신부 등으로 구현될 수 있다. 리모콘 송수신부는 적외선 통신, 블루투스 통신 또는 와이파이 통신 중 적어도 하나의 통신 방식을 통해 외부 원격 제어 장치로부터 리모콘 신호를 수신하거나, 리모콘 신호를 송신할 수 있다.
스피커(160)는 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지 등을 출력하는 구성일 수 있다. 프로세서(130)는 본 개시의 다양한 실시 예에 따른 UI 화면에 대응되는 정보 또는 각종 알림을 오디오 형태로 출력하도록 스피커(160)를 제어할 수 있다.
마이크(170)는 사용자 음성이나 기타 소리를 입력받아 오디오 데이터로 변환하기 위한 구성이다. 다만, 다른 실시 예에 따라 디스플레이 장치(100')는 외부 장치를 통해 입력된 사용자 음성을 통신 인터페이스(140)를 통해 수신할 수 있다.
일 예에 따라 디스플레이 장치(100')가 프로젝터 시스템으로 구현되는 경우 프로젝터 시스템은 영상 투사부(미도시), 카메라(미도시) 등을 더 포함할 수 있다. 영상 투사부(미도시)는 영상을 표현하기 위한 광을 외부로 투사하여 이미지를 투사면에 출력하는 기능을 수행할 수 있다. 여기서, 투사면은 이미지가 출력되는 물리적 공간의 일부이거나 별도의 투사면일 수 있다. 영상 투사부(미도시)는 램프, LED, 레이저 중 적어도 하나의광원, 프로젝션 렌즈, 반사체 등 다양한 세부 구성을 포함할 수 있다. 영상 투사부(미도시)는 다양한 투사 방식(예를 들어, CRT(cathode-ray tube) 방식, LCD(Liquid Crystal Display) 방식, DLP(Digital Light Processing) 방식, 레이저 방식 등) 중 하나로 영상을 투사할 수 있다. 영상 투사부(110)는 적어도 하나의 광원을 포함할 수 있다.
카메라(미도시)는 기 설정된 이벤트에 따라 턴 온 되어 촬영을 수행할 수 있다. 카메라(미도시)는 촬상된 영상을 전기적인 신호로 변환하고 변환된 신호에 기초하여 영상 데이터를 생성할 수 있다. 예를 들어, 피사체는 반도체 광학소자(CCD; Charge Coupled Device)를 통해 전기적인 영상 신호로 변환되고, 이와 같이 변환된 영상 신호는 증폭 및 디지털 신호로 변환된 후 신호 처리될 수 있다. 일 예에 따라 카메라(미도시)는 영상이 투사된 투사면을 촬영하여 촬영 영상을 획득할 수 있다. 일 예에 따라 프로세서(130)는 촬영 영상에 기초하여 텍스트 드로잉 관련 정보를 획득하고, 획득된 정보에 기초하여 사용자 음성에 대응되는 텍스트를 제공할 수 있다.
한편, 상술한 다양한 실시 예는 디스플레이 장치(100)와 통신하는 특정 어플리케이션을 통해 제공될 수 있으나, 반드시 이에 한정되는 것은 아니다. 일 예에 따라 특정 어플리케이션은 디스플레이 장치(100)와 서버(미도시)를 통해 통신하는 어플리케이션, 디스플레이 장치(100)와 직접 통신하는 어플리케이션으로 구현될 수 있다. 어플리케이션은 OS 상에서 사용자가 직접 사용하게 되는 소프트웨어의 일종일 수 있다. 어플리케이션은 디스플레이 장치(100')에 기설치되어 있거나, 서버(미도시)로부터 다운로드될 수 있으며, 화면 상에서 애플리케이션 UI(이하 App UI), 예를 들어 아이콘 인터페이스 형태로 제공될 수 있다.
도 11은 일 실시 예에 따른 사용자 단말의 제어 방법을 설명하기 위한 흐름도이다.
도 11에 도시된 디스플레이 장치의 제어 방법에 따르면, 우선 디스플레이를 통해 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 사용자의 드로잉 입력을 수신한다(S1110).
이어서, 드로잉 입력이 수신되는 동안 획득된 사용자 음성에 대한 음성 인식을 수행하여 사용자 음성에 대응되는 텍스트를 획득한다(S1120). 다만, 사용자 음성은 반드시 드로잉 입력이 수신되는 동안 획득될 필요는 없으며, 기 설정된 시간 기간, 예를 들어 레코딩 모드가 실행되는 동안 획득되는 것도 가능하다. 여기서, 시맨틱(semantic) 정보를 포함하지 않을 수 있다.
이 후, 드로잉 입력에 대응되는 포맷 또는 표시 위치 중 적어도 하나에 기초하여 획득된 텍스트를 포맷팅하여 표시할 수 있다(S1130).
또한, S1110 단계에서는, 기 설정된 레코드 모드(record mode)를 실행하기 위한 제1 트리거 명령이 수신되면, 사용자 입력을 통해 드로잉 입력을 수신하고 사용자 음성을 획득할 수 있다.
또한, S1120 단계에서는, 기 설정된 레코드 모드를 중지하기 위한 제2 트리거 명령이 수신되면, 수신된 사용자 음성에 대한 음성 인식을 수행할 수 있다.
여기서, 텍스트의 포맷은, 텍스트 형상, 크기, 방향 또는 색상 중 적어도 하나를 포함할 수 있다. 이 경우, S1130 단계에서는, 드로잉 입력에 대응되는 텍스트의 포맷에 기초하여 획득된 텍스트를 포맷팅하고, 포맷팅된 텍스트를 드로잉 입력에 대응되는 위치에 표시할 수 있다.
또한, S1130 단계에서는, 드로잉 입력을 포맷팅된 텍스트로 대체하여 표시할 수 있다.
또한, 드로잉 입력은, 텍스트 드로잉 및 가이드 라인 드로잉을 포함할 수 있다. 여기서, 텍스트 드로잉은, 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 드로잉을 포함할 수 있다. 이 경우, 1130 단계에서는, 가이드 라인 드로잉 및 텍스트 드로잉 간 상대적 위치 관계에 기초하여 포맷팅된 텍스트를 표시할 수 있다.
또한, S1130 단계에서는, 텍스트 드로잉이 가이드 라인 드로잉 내에 포함되도록 드로잉되면, 포맷팅된 텍스트가 가이드 라인 드로잉 내에 포함되도록 표시하고, 텍스트 드로잉이 가이드 라인 드로잉을 교차하도록 드로잉되면, 포맷팅된 텍스트가 가이드 라인 드로잉을 교차하도록 표시할 수 있다.
또한, S1120 단계에서는, 가이드 라인 내의 텍스트 드로잉이 분리된 복수의 파트를 포함하면, 복수의 파트 중 제1 파트에 포함된 제1 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하고, 제2 파트에 포함된 제2 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별할 수 있다. 또한, 또한, S1120 단계에서는, 사용자 음성에 대한 음성 인식을 수행하여 제1 파트에 대응되는 제1 텍스트를 획득하고, 제2 파트에 대응되는 제2 텍스트를 획득할 수 있다. 이 경우, S1130 단계에서는, 제1 텍스트 드로잉에 대한 정보에 기초하여 제1 텍스트를 표시하고 제2 텍스트 드로잉에 대한 정보에 기초하여 제2 텍스트를 표시할 수 있다.
또한, S1120 단계에서는, 제1 사용자에 대응되는 제1 드로잉 입력 및 제1 사용자의 음성에 대응되는 텍스트를 획득하고, 제2 사용자에 대응되는 제2 드로잉 입력 및 제2 사용자의 음성에 대응되는 텍스트를 획득할 수 있다. 이 경우, S1130 단계에서는, 제1 드로잉 입력을 제1 사용자의 음성에 대응되는 텍스트로 대체하여 표시하고, 제2 드로잉 입력을 제2 사용자의 음성에 대응되는 텍스트로 대체하여 표시할 수 있다. 여기서, 제1 사용자의 음성에 대응되는 텍스트 및 제2 사용자의 음성에 대응되는 텍스트는 서로 구별되도록 표시될 수 있다.
또한, S1120 단계에서는, 음성의 특성, 음성의 입력 장치 또는 음성의 세기 중 적어도 하나에 기초하여 제1 사용자 음성 및 제2 사용자 음성을 식별할 수 있다.
상술한 다양한 실시 예들에 따르면, 간단한 드로잉 및 사용자 발화 만으로 텍스트를 사용자가 원하는 위치에 원하는 포맷으로 표시할 수 있게 된다. 이에 따라 사용자의 편의성이 향상된다. 예를 들어, 중요한 시점에 시각 절약이 가능하며, 잠재 투자자에게 비즈니스 모델 설명시 등에 효율적인 프리젠테이션이 가능하게 된다. 또한, 시간이 부족한 시점 예를 들어, 신호등에 정차하는 동안 주석(annotations)으로 스케치 만들 수 있으므로 위험한 상황을 피할 수 있게 된다. 또한, 시간이 중요하지 않은 경우(예를 들어, 회의의 오피셜 레포트를 준비하거나 청취자가 일반적인 아이디어를 소화하는 동안)에도 인식 오류를 수정할 수 있게 된다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 디스플레이 장치에 설치 가능한 어플리케이션 형태로 구현될 수 있다. 또는 상술한 본 개시의 다양한 실시 예들에 따른 방법들, 예를 들어, 음성 인식은 딥 러닝 기반의 인공 신경망(또는 심층 인공 신경망) 즉, 학습 네트워크 모델을 이용하여 수행될 수 있다.
또한, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 디스플레이 장치에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다.
또한, 상술한 본 개시의 다양한 실시 예들은 디스플레이 장치에 구비된 임베디드 서버, 또는 디스플레이 장치의 외부 서버를 통해 수행되는 것도 가능하다.
한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 디스플레이 장치(예: 디스플레이 장치(A))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 본 개시의 일 실시 예에 따르면, 이상에서 설명된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
또한, 상술한 다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
100: 디스플레이 장치 110: 디스플레이
120: 메모리 130: 프로세서

Claims (20)

  1. 디스플레이 장치에 있어서,
    디스플레이;
    적어도 하나의 명령을 저장하는 메모리; 및
    상기 디스플레이 및 상기 메모리와 연결되어 상기 디스플레이 장치를 제어하는 프로세서;를 포함하며,
    상기 프로세서는,
    상기 적어도 하나의 명령어를 실행함으로써,
    상기 디스플레이를 통해 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 사용자의 드로잉 입력을 수신하고,
    상기 드로잉 입력이 수신되는 동안 획득된 사용자 음성에 대한 음성 인식을 수행하여 상기 사용자 음성에 대응되는 텍스트를 획득하고,
    상기 드로잉 입력에 대응되는 포맷 또는 표시 위치 중 적어도 하나에 기초하여 상기 획득된 텍스트를 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    기 설정된 레코드 모드(record mode)를 실행하기 위한 제1 트리거 명령이 수신되면, 상기 사용자 입력을 통해 상기 드로잉 입력을 수신하고, 상기 사용자 음성을 획득하며,
    상기 기 설정된 레코드 모드를 중지하기 위한 제2 트리거 명령이 수신되면, 상기 수신된 사용자 음성에 대한 음성 인식을 수행하는, 디스플레이 장치.
  3. 제1항에 있어서,
    상기 텍스트의 포맷은,
    텍스트 형상, 크기, 방향 또는 색상 중 적어도 하나를 포함하며,
    상기 프로세서는,
    상기 드로잉 입력에 대응되는 상기 텍스트의 포맷에 기초하여 상기 획득된 텍스트를 포맷팅하고, 상기 포맷팅된 텍스트를 상기 드로잉 입력에 대응되는 위치에 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  4. 제3항에 있어서,
    상기 프로세서는,
    상기 드로잉 입력을 상기 포맷팅된 텍스트로 대체하여 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  5. 제3항에 있어서,
    상기 드로잉 입력은,
    텍스트 드로잉 및 가이드 라인 드로잉을 포함하고,
    상기 텍스트 드로잉은,
    텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 드로잉을 포함하며,
    상기 프로세서는,
    상기 가이드 라인 드로잉 및 상기 텍스트 드로잉 간 상대적 위치 관계에 기초하여 상기 포맷팅된 텍스트를 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  6. 제5항에 있어서,
    상기 프로세서는,
    상기 텍스트 드로잉이 상기 가이드 라인 드로잉 내에 포함되도록 드로잉되면, 상기 포맷팅된 텍스트가 상기 가이드 라인 드로잉 내에 포함되도록 표시하고,
    상기 텍스트 드로잉이 상기 가이드 라인 드로잉을 교차하도록 드로잉되면, 상기 포맷팅된 텍스트가 상기 가이드 라인 드로잉을 교차하도록 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  7. 제5항에 있어서,
    상기 프로세서는,
    상기 가이드 라인 내의 상기 텍스트 드로잉이 분리된 복수의 파트를 포함하면, 상기 복수의 파트 중 제1 파트에 포함된 제1 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하고, 제2 파트에 포함된 제2 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하고,
    상기 사용자 음성에 대한 음성 인식을 수행하여 상기 제1 파트에 대응되는 제1 텍스트를 획득하고, 상기 제2 파트에 대응되는 제2 텍스트를 획득하고,
    상기 제1 텍스트 드로잉에 대한 정보에 기초하여 상기 제1 텍스트를 표시하고 상기 제2 텍스트 드로잉에 대한 정보에 기초하여 상기 제2 텍스트를 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  8. 제1항에 있어서,
    상기 프로세서는,
    제1 사용자에 대응되는 제1 드로잉 입력 및 상기 제1 사용자의 음성에 대응되는 텍스트를 획득하고,
    제2 사용자에 대응되는 제2 드로잉 입력 및 상기 제2 사용자의 음성에 대응되는 텍스트를 획득하고,
    상기 제1 드로잉 입력을 상기 제1 사용자의 음성에 대응되는 텍스트로 대체하여 표시하고, 상기 제2 드로잉 입력을 상기 제2 사용자의 음성에 대응되는 텍스트로 대체하여 표시하도록 상기 디스플레이를 제어하며,
    상기 제1 사용자의 음성에 대응되는 텍스트 및 상기 제2 사용자의 음성에 대응되는 텍스트는 서로 구별되도록 표시되는, 디스플레이 장치.
  9. 제8항에 있어서,
    상기 프로세서는,
    음성의 특성, 음성의 입력 장치 또는 음성의 세기 중 적어도 하나에 기초하여 상기 제1 사용자 음성 및 상기 제2 사용자 음성을 식별하는, 디스플레이 장치.
  10. 제1항에 있어서,
    상기 드로잉 입력은,
    시맨틱(semantic) 정보를 포함하지 않는, 디스플레이 장치.
  11. 디스플레이 장치의 제어 방법에 있어서,
    디스플레이를 통해 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 사용자의 드로잉 입력을 수신하는 단계;
    상기 드로잉 입력이 수신되는 동안 획득된 사용자 음성에 대한 음성 인식을 수행하여 상기 사용자 음성에 대응되는 텍스트를 획득하는 단계; 및
    상기 드로잉 입력에 대응되는 포맷 또는 표시 위치 중 적어도 하나에 기초하여 상기 획득된 텍스트를 표시하는 단계;를 포함하는 제어 방법.
  12. 제11항에 있어서,
    상기 드로잉 입력을 수신하는 단계는,
    기 설정된 레코드 모드(record mode)를 실행하기 위한 제1 트리거 명령이 수신되면, 상기 사용자 입력을 통해 상기 드로잉 입력을 수신하고, 상기 사용자 음성을 획득하며,
    상기 사용자 음성에 대응되는 텍스트를 획득하는 단계는,
    상기 기 설정된 레코드 모드를 중지하기 위한 제2 트리거 명령이 수신되면, 상기 수신된 사용자 음성에 대한 음성 인식을 수행하는, 제어 방법.
  13. 제11항에 있어서,
    상기 텍스트의 포맷은,
    텍스트 형상, 크기, 방향 또는 색상 중 적어도 하나를 포함하며,
    상기 획득된 텍스트를 표시하는 단계는,
    상기 드로잉 입력에 대응되는 상기 텍스트의 포맷에 기초하여 상기 획득된 텍스트를 포맷팅하고, 상기 포맷팅된 텍스트를 상기 드로잉 입력에 대응되는 위치에 표시하는, 제어 방법.
  14. 제13항에 있어서,
    상기 획득된 텍스트를 표시하는 단계는,
    상기 드로잉 입력을 상기 포맷팅된 텍스트로 대체하여 표시하는, 제어 방법.
  15. 제13항에 있어서,
    상기 드로잉 입력은,
    텍스트 드로잉 및 가이드 라인 드로잉을 포함하고,
    상기 텍스트 드로잉은,
    텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 드로잉을 포함하며,
    상기 획득된 텍스트를 표시하는 단계는,
    상기 가이드 라인 드로잉 및 상기 텍스트 드로잉 간 상대적 위치 관계에 기초하여 상기 포맷팅된 텍스트를 표시하는, 제어 방법,
  16. 제15항에 있어서,
    상기 획득된 텍스트를 표시하는 단계는,
    상기 텍스트 드로잉이 상기 가이드 라인 드로잉 내에 포함되도록 드로잉되면, 상기 포맷팅된 텍스트가 상기 가이드 라인 드로잉 내에 포함되도록 표시하는 단계; 및
    상기 텍스트 드로잉이 상기 가이드 라인 드로잉을 교차하도록 드로잉되면, 상기 포맷팅된 텍스트가 상기 가이드 라인 드로잉을 교차하도록 표시하는 단계;를 포함하는, 제어 방법.
  17. 제15항에 있어서,
    상기 텍스트를 획득하는 단계는,
    상기 가이드 라인 내의 상기 텍스트 드로잉이 분리된 복수의 파트를 포함하면, 상기 복수의 파트 중 제1 파트에 포함된 제1 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하고, 제2 파트에 포함된 제2 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하는 단계; 및
    상기 사용자 음성에 대한 음성 인식을 수행하여 상기 제1 파트에 대응되는 제1 텍스트를 획득하고, 상기 제2 파트에 대응되는 제2 텍스트를 획득하는 단계;포함하며,
    상기 획득된 텍스트를 표시하는 단계는,
    상기 제1 텍스트 드로잉에 대한 정보에 기초하여 상기 제1 텍스트를 표시하고 상기 제2 텍스트 드로잉에 대한 정보에 기초하여 상기 제2 텍스트를 표시하는, 제어 방법.
  18. 제11항에 있어서,
    상기 텍스트를 획득하는 단계는,
    제1 사용자에 대응되는 제1 드로잉 입력 및 상기 제1 사용자의 음성에 대응되는 텍스트를 획득하고,
    제2 사용자에 대응되는 제2 드로잉 입력 및 상기 제2 사용자의 음성에 대응되는 텍스트를 획득하고,
    상기 획득된 텍스트를 표시하는 단계는,
    상기 제1 드로잉 입력을 상기 제1 사용자의 음성에 대응되는 텍스트로 대체하여 표시하고, 상기 제2 드로잉 입력을 상기 제2 사용자의 음성에 대응되는 텍스트로 대체하여 표시하며,
    상기 제1 사용자의 음성에 대응되는 텍스트 및 상기 제2 사용자의 음성에 대응되는 텍스트는 서로 구별되도록 표시되는, 제어 방법,
  19. 제18항에 있어서,
    상기 텍스트를 획득하는 단계는,
    음성의 특성, 음성의 입력 장치 또는 음성의 세기 중 적어도 하나에 기초하여 상기 제1 사용자 음성 및 상기 제2 사용자 음성을 식별하는, 제어 방법,
  20. 제11항에 있어서,
    상기 드로잉 입력은,
    시맨틱(semantic) 정보를 포함하지 않는, 제어 방법,









KR1020210178471A 2021-12-14 2021-12-14 디스플레이 장치 및 그 제어 방법 KR20230089783A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210178471A KR20230089783A (ko) 2021-12-14 2021-12-14 디스플레이 장치 및 그 제어 방법
PCT/KR2022/017794 WO2023113250A1 (ko) 2021-12-14 2022-11-11 디스플레이 장치 및 그 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210178471A KR20230089783A (ko) 2021-12-14 2021-12-14 디스플레이 장치 및 그 제어 방법

Publications (1)

Publication Number Publication Date
KR20230089783A true KR20230089783A (ko) 2023-06-21

Family

ID=86772981

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210178471A KR20230089783A (ko) 2021-12-14 2021-12-14 디스플레이 장치 및 그 제어 방법

Country Status (2)

Country Link
KR (1) KR20230089783A (ko)
WO (1) WO2023113250A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110125733A1 (en) * 2009-11-25 2011-05-26 Fish Nathan J Quick access utility
KR101026738B1 (ko) * 2010-11-30 2011-04-08 중원웰픽스주식회사 전자판서 기능을 갖는 멀티미디어 터치 제어 시스템
KR102023008B1 (ko) * 2012-12-10 2019-09-19 엘지전자 주식회사 음성-텍스트 변환 디스플레이 장치 및 그 방법
KR102065409B1 (ko) * 2013-09-04 2020-01-13 엘지전자 주식회사 이동단말기 및 그 제어방법
KR101981439B1 (ko) * 2016-02-08 2019-05-22 미쓰비시덴키 가부시키가이샤 입력 표시 제어 장치, 입력 표시 제어 방법 및 입력 표시 시스템

Also Published As

Publication number Publication date
WO2023113250A1 (ko) 2023-06-22

Similar Documents

Publication Publication Date Title
US11323658B2 (en) Display apparatus and control methods thereof
US11314943B2 (en) Typifying emotional indicators for digital messaging
CN106104677B (zh) 所识别的语音发起的动作的视觉指示
KR102348758B1 (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
US11631413B2 (en) Electronic apparatus and controlling method thereof
US11709593B2 (en) Electronic apparatus for providing a virtual keyboard and controlling method thereof
US20190251961A1 (en) Transcription of audio communication to identify command to device
JP2022519981A (ja) 可変速度音素発音機械
US20230054717A1 (en) Ui control generation and trigger methods, and terminal
US11822768B2 (en) Electronic apparatus and method for controlling machine reading comprehension based guide user interface
US9298971B2 (en) Method and apparatus for processing information of image including a face
US20150347364A1 (en) Highlighting input area based on user input
JP6141887B2 (ja) 書き込まれた内容のための空間的に関係する注釈の表示
KR20230089783A (ko) 디스플레이 장치 및 그 제어 방법
KR20200021409A (ko) 전자 장치 및 그 제어 방법
US11386304B2 (en) Electronic device and method of controlling the same
US10732817B2 (en) Electronic apparatus and text input method for the same
US20230048573A1 (en) Electronic apparatus and controlling method thereof
US20240096322A1 (en) Electronic apparatus performing speech recognition and method for controlling thereof
EP4343758A1 (en) Electronic device and control method therefor
US11948569B2 (en) Electronic apparatus and controlling method thereof
US20240129593A1 (en) Electronic apparatus and controlling method thereof
US20240161752A1 (en) Electronic apparatus and controlling method thereof
KR20240037791A (ko) 음성 인식을 수행하는 전자 장치 및 이의 제어 방법