WO2023113250A1 - 디스플레이 장치 및 그 제어 방법 - Google Patents

디스플레이 장치 및 그 제어 방법 Download PDF

Info

Publication number
WO2023113250A1
WO2023113250A1 PCT/KR2022/017794 KR2022017794W WO2023113250A1 WO 2023113250 A1 WO2023113250 A1 WO 2023113250A1 KR 2022017794 W KR2022017794 W KR 2022017794W WO 2023113250 A1 WO2023113250 A1 WO 2023113250A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
user
display
voice
input
Prior art date
Application number
PCT/KR2022/017794
Other languages
English (en)
French (fr)
Inventor
포흐리브니비탈리
페도린일리아
슬라우사렌코코스티안틴
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2023113250A1 publication Critical patent/WO2023113250A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Definitions

  • the present disclosure relates to a display device and a control method thereof, and more particularly, to a display device performing a voice recognition function and a control method thereof.
  • a display device includes a display, a memory for storing at least one command, and a processor connected to the display and the memory to control the display device, the processor comprising: , By executing the at least one command, the user's drawing input related to at least one of the format or display position of the text is received through the display, and voice recognition is performed on the user's voice obtained while the drawing input is received.
  • the text corresponding to the user's voice may be acquired, and the display may be controlled to display the obtained text based on at least one of a format and a display position corresponding to the drawing input.
  • the processor when receiving a first trigger command for executing a preset record mode, the processor receives the drawing input through the user input, acquires the user voice, and obtains the preset record mode.
  • voice recognition may be performed on the received user voice.
  • the format of the text includes at least one of a text shape, size, direction, or color
  • the processor formats the obtained text based on the format of the text corresponding to the drawing input, and the formatting
  • the display may be controlled to display the drawn text at a position corresponding to the drawing input.
  • the processor may control the display to replace the drawing input with the formatted text and display it.
  • the drawing input includes a text drawing and a guide line drawing
  • the text drawing includes a drawing related to at least one of a text format or a display position
  • the processor includes the guide line drawing and the text drawing.
  • the display may be controlled to display the formatted text based on a relative positional relationship between texts.
  • the processor may display the formatted text to be included in the guideline drawing when the text drawing is drawn to be included in the guideline drawing, and if the text drawing is drawn to intersect the guideline drawing, the The display may be controlled to display formatted text so as to intersect the guide line drawing.
  • the processor identifies at least one of a format or a display position of a first text drawing included in a first part among the plurality of parts, Identifying at least one of the format or display position of the second text drawing included in the second part, performing voice recognition on the user's voice to obtain first text corresponding to the first part, and Obtaining second text corresponding to , and controlling the display to display the first text based on the information on the first text drawing and display the second text based on the information on the second text drawing. can do.
  • the processor obtains a first drawing input corresponding to a first user and text corresponding to the voice of the first user, and corresponds to a second drawing input corresponding to a second user and the voice of the second user.
  • a display may be controlled, and text corresponding to the voice of the first user and text corresponding to the voice of the second user may be displayed to be distinguished from each other.
  • the processor may identify the first user voice and the second user voice based on at least one of a voice characteristic, a voice input device, and voice strength.
  • drawing input may not include semantic information.
  • a method for controlling a display device includes receiving a user's drawing input related to at least one of a text format and a display position through a display, and responding to a user's voice obtained while the drawing input is received.
  • the method may include acquiring text corresponding to the user's voice by performing voice recognition, and displaying the acquired text based on at least one of a format and a display position corresponding to the drawing input.
  • the format of the text includes at least one of a text shape, size, direction, or color
  • the displaying of the obtained text may include the obtained text based on the format of the text corresponding to the drawing input. and control the display to display the formatted text at a position corresponding to the drawing input.
  • the display may be controlled to replace the drawing input with the formatted text and display the text.
  • the drawing input includes a text drawing and a guide line drawing
  • the text drawing includes a drawing related to at least one of a text format or a display position
  • the displaying of the obtained text includes the guide line drawing.
  • the display may be controlled to display the formatted text based on a relative positional relationship between the line drawing and the text drawing.
  • the displaying of the obtained text may include, if the text drawing is drawn to be included in the guide line drawing, displaying the formatted text to be included in the guide line drawing, and displaying the text drawing to be included in the guide line drawing. and displaying the formatted text so as to intersect the guideline drawing when the drawing is drawn to intersect the drawing.
  • the obtaining of the text may include, if the text drawing in the guideline includes a plurality of separated parts, at least one of a format or a display position of a first text drawing included in a first part among the plurality of parts. and identifying at least one of the format or display position of the second text drawing included in the second part, and obtaining the first text corresponding to the first part by performing voice recognition on the user's voice. and obtaining a second text corresponding to the second part; and displaying the obtained text comprises displaying the first text based on information on the first text drawing and the first text drawing.
  • the second text may be displayed based on the information on the 2-text drawing.
  • the obtaining of the text may include obtaining a first drawing input corresponding to a first user and text corresponding to the voice of the first user, and obtaining a second drawing input corresponding to a second user and the second user's voice.
  • Obtaining text corresponding to the voice of the user and displaying the obtained text may include replacing the first drawing input with text corresponding to the voice of the first user and displaying the second drawing input as the text corresponding to the voice of the first user. 2
  • the text corresponding to the user's voice is replaced and displayed, and the text corresponding to the voice of the first user and the text corresponding to the voice of the second user can be displayed to be distinguished from each other.
  • the first user voice and the second user voice may be identified based on at least one of a voice characteristic, a voice input device, and voice strength.
  • drawing input may not include semantic information.
  • a non-transitory computer-readable medium storing computer instructions that cause an electronic device to perform an operation when executed by a processor of an electronic device according to an embodiment, wherein the operation includes formatting or displaying text through a display
  • FIG. 1 is a diagram for explaining an implementation example of a display device to aid understanding.
  • FIG. 2 is a block diagram illustrating a configuration of a display device according to an exemplary embodiment.
  • 3A to 3D are diagrams for explaining a text input method according to an exemplary embodiment.
  • 4A to 4E are diagrams for explaining a text input method according to an exemplary embodiment.
  • FIG. 5 is a diagram for explaining a text input method according to an exemplary embodiment.
  • 6A and 6B are diagrams for explaining a text input method corresponding to a plurality of users according to an exemplary embodiment.
  • FIG. 7A and 7B are diagrams for explaining a text input method according to an exemplary embodiment.
  • FIGS. 9A and 9B are diagrams for explaining a text input method according to an exemplary embodiment.
  • FIG. 10 is a block diagram illustrating an implementation example of a display device according to an exemplary embodiment.
  • FIG. 11 is a flowchart illustrating a method of controlling a user terminal according to an exemplary embodiment.
  • expressions such as “has,” “can have,” “includes,” or “can include” indicate the existence of a corresponding feature (eg, numerical value, function, operation, or component such as a part). , which does not preclude the existence of additional features.
  • a component e.g., a first component
  • another component e.g., a second component
  • connection to it should be understood that an element may be directly connected to another element, or may be connected through another element (eg, a third element).
  • a “module” or “unit” performs at least one function or operation, and may be implemented in hardware or software or a combination of hardware and software.
  • a plurality of “modules” or a plurality of “units” are integrated into at least one module and implemented by at least one processor (not shown), except for “modules” or “units” that need to be implemented with specific hardware. It can be.
  • FIG. 1 is a diagram for explaining an implementation example of a display device to aid understanding.
  • the display device 100 can be implemented as various types of devices that provide a user's drawing input and display functions.
  • DIDs digital information displays
  • PMPs portable media players
  • LFDs large format displays
  • laptops It can be implemented in various devices such as a notebook, a laptop, a TV, a monitor, a projector system, and the like. However, it is not limited thereto, and other home appliances, medical devices, and wearable devices may also be included in the display device 100 .
  • the display provided in the display device 100 may be implemented to detect various types of drawing manipulations.
  • the display can detect various types of touch input, such as a touch input by a user's hand, a touch input by an input device such as a stylus pen, and a touch input by a specific electrostatic material, as well as an input by a laser pointer.
  • the input device may be implemented as a pen-type input device that may be referred to by various terms such as an electronic pen, a stylus pen, and an S-pen, but is not necessarily implemented in a pen-type. For example, it may be implemented to have a blunt or flat body.
  • the display apparatus 100 may directly receive a user's voice or receive a user's voice input through a microphone provided in an external device and perform voice recognition on the received user's voice. However, in some cases, at least some of the voice recognition operations may be performed through an external server.
  • the display device 100 may provide text input and display functions using the above-described touch input function and voice recognition function.
  • text input and display functions according to various embodiments will be described with reference to drawings.
  • FIG. 2 is a block diagram illustrating a configuration of a display device according to an exemplary embodiment.
  • the display device 100 includes a display 110 , a memory 120 and a processor 130 .
  • the display 110 may be implemented as a display including a self-light emitting element or a display including a non-light emitting element and a backlight.
  • LCD Liquid Crystal Display
  • OLED Organic Light Emitting Diodes
  • LED Light Emitting Diodes
  • micro LED micro LED
  • Mini LED PDP (Plasma Display Panel)
  • QD Quantum dot
  • QLED Quadantum dot light-emitting diodes
  • the display 110 may also include a driving circuit, a backlight unit, and the like that may be implemented in the form of an a-si TFT, a low temperature poly silicon (LTPS) TFT, or an organic TFT (OTFT). Meanwhile, the display 110 may be implemented as a flexible display, a rollable display, a 3D display, a display in which a plurality of display modules are physically connected, and the like.
  • a driving circuit a backlight unit, and the like that may be implemented in the form of an a-si TFT, a low temperature poly silicon (LTPS) TFT, or an organic TFT (OTFT).
  • LTPS low temperature poly silicon
  • OFT organic TFT
  • the display 110 may include a touch sensor to receive a touch input using a finger or a pen (eg, a stylus pen).
  • the touch sensor may be implemented as a capacitive or resistive type.
  • a capacitive touch sensor refers to a sensor that calculates touch coordinates by detecting microelectricity excited by a user's body when a part of the user's body touches the display surface using a dielectric coated on the display surface.
  • the resistive touch sensor refers to a type of touch sensor that includes two built-in electrode plates and calculates touch coordinates by detecting current flowing as the top and bottom plates are in contact with each other at a touched point.
  • an infrared sensing method a surface ultrasonic conduction method, an integral tension measurement method, a piezo effect method, and the like may be used to detect a touch manipulation.
  • the display 110 may determine whether or not a touch object such as a finger or a stylus pen has come into contact or proximity using a magnet and a magnetic field sensor, an optical sensor, or a proximity sensor.
  • the display 110 may be implemented to receive an optical input such as a laser.
  • the display 110 may be implemented to include an optical sensor, a laser detection sensor, and the like.
  • the memory 120 may store data necessary for various embodiments.
  • the memory 120 may be implemented in the form of a memory embedded in the display device 100 or in the form of a removable memory in the display device 100 according to a data storage purpose. For example, data for driving the display device 100 is stored in a memory embedded in the display device 100, and data for extended functions of the robot 100 is detachable from the display device 100. can be stored in memory.
  • volatile memory eg, DRAM (dynamic RAM), SRAM (static RAM), SDRAM (synchronous dynamic RAM), etc.
  • non-volatile memory non-volatile memory
  • OTPROM one time programmable ROM
  • PROM programmable ROM
  • EPROM erasable and programmable ROM
  • EEPROM electrically erasable and programmable ROM
  • mask ROM flash ROM, flash memory (such as NAND flash or NOR flash, etc.)
  • flash memory such as NAND flash or NOR flash, etc.
  • SSD solid state drive
  • a memory card eg, compact flash (CF)
  • SD secure digital
  • Micro-SD micro secure digital
  • Mini-SD mini secure digital
  • xD extreme digital
  • MMC multi-media card
  • At least one processor 130 controls the overall operation of the display device 100 .
  • the processor 130 may be connected to each component of the display device 100 to control the overall operation of the display device 100 .
  • the processor 130 may be electrically connected to the display 110 and the memory 120 to control overall operations of the display device 1100.
  • Processor 130 may be composed of one or a plurality of processors.
  • the processor 130 may perform the operation of the display device 100 according to various embodiments by executing at least one instruction stored in the memory 120 .
  • the processor 130 may include a digital signal processor (DSP), a microprocessor, a graphics processing unit (GPU), an artificial intelligence (AI) processor, and a neural processing unit (NPU) for processing digital image signals.
  • DSP digital signal processor
  • GPU graphics processing unit
  • AI artificial intelligence
  • NPU neural processing unit
  • Processing Unit time controller
  • CPU central processing unit
  • MCU micro controller unit
  • MPU micro processing unit
  • controller controller
  • AP application processor
  • CP communication processor
  • the processor 140 may be implemented in the form of a system on chip (SoC) with a built-in processing algorithm, large scale integration (LSI), application specific integrated circuit (ASIC), or field programmable gate array (FPGA).
  • SoC system on chip
  • LSI large scale integration
  • ASIC application specific integrated circuit
  • FPGA field programmable gate array
  • the processor 130 for executing the artificial intelligence model is a general-purpose processor such as a CPU, AP, DSP (Digital Signal Processor), a graphics-only processor such as a GPU, a VPU (Vision Processing Unit), or an NPU It can be implemented through a combination of the same artificial intelligence dedicated processor and software.
  • the processor 130 may control input data to be processed according to predefined operation rules or artificial intelligence models stored in the memory 120 .
  • the processor 130 is a dedicated processor (or artificial intelligence dedicated processor), it may be designed as a hardware structure specialized for processing a specific artificial intelligence model.
  • hardware specialized for the processing of a specific artificial intelligence model may be designed as a hardware chip such as an ASIC or FPGA.
  • the processor 130 is implemented as a dedicated processor, it may be implemented to include a memory for implementing an embodiment of the present disclosure or to include a memory processing function for using an external memory.
  • the processor 130 may receive a user's drawing (or sketch, marking) input related to at least one of text format or display position through the display 110 .
  • the drawing input may be received in various ways, such as a proximity input, a laser pointer input, and the like, as well as a touch input as described above. do.
  • the processor 130 may obtain a text corresponding to the user voice by performing voice recognition acquired in relation to the drawing input, eg, voice obtained while the drawing input is being received.
  • voice recognition acquired in relation to the drawing input
  • the user's voice may be obtained through a microphone provided in the display device 100 or through a separate input device communicating with the display device 100 according to an example.
  • voice recognition through an external device (eg, an external server) without the processor 130 performing voice recognition.
  • an external device eg, an external server
  • the processor 130 may control the display 110 to display the obtained text based on at least one of a text format or a display position corresponding to the drawing input.
  • the drawing input may be a marking input of information capable of identifying at least one of a text format not including semantic information or a display position.
  • the processor 130 may receive a user's drawing input and acquire a user's voice. Also, when a second trigger command for stopping the preset record mode is received, the processor 130 may obtain text by performing voice recognition on the received user voice.
  • the processor 130 controls the display 110 to format text corresponding to the user's voice based on the format of the text corresponding to the drawing input and to display the formatted text at a location corresponding to the drawing input.
  • the drawing input may be related to at least one of text format or display position.
  • the format of the text may include at least one of text shape, size, direction, or color. Formatting may refer to an operation of determining at least one of a shape (or font type), size, direction, or color of text corresponding to a drawing input.
  • the size of text to be displayed may be determined based on the size of the drawing input.
  • the processor 130 may control the display 110 to replace the drawing input with formatted text and display it.
  • the drawing input may further include a guideline drawing as well as a text drawing related to at least one of text format or display position.
  • the guide line drawing may include various types of guide line inputs that are arbitrarily drawn according to the user's needs.
  • the guide line drawing may not be directly drawn by the user, but may be input in a form selected by the user from pre-stored templates provided by the display device 100.
  • the pre-stored template may include various types of guide drawings.
  • the processor 130 may control the display 110 to display the formatted text based on the relative positional relationship between the guideline drawing and the text drawing.
  • the processor 130 may display the formatted text to be included in the guide line drawing.
  • the processor 130 may display the formatted text to cross the guide line drawing.
  • the processor 130 identifies at least one of the format or display position of the first text drawing included in the first part among the plurality of parts, At least one of the format or display position of the second text drawing included in the second part may be identified.
  • the processor 130 may perform voice recognition on the user's voice to obtain first text corresponding to the first part and second text corresponding to the second part. Thereafter, the processor 130 may display the first text based on the information on the first text drawing and display the second text based on the information on the second text drawing.
  • the processor 130 may obtain a drawing input corresponding to each of a plurality of users and a user voice corresponding to each of the plurality of users, and display text corresponding to each user's voice based on each drawing input.
  • text corresponding to each user voice may be displayed to be distinguished from each other. For example, at least one of text shape, size, and color may be displayed to be distinguished.
  • text corresponding to each user voice may be displayed in connection with a text format corresponding to a drawing input. For example, when a font is not designated by each user's drawing input, the processor 130 may display text fonts differently in order to distinguish each user's text.
  • the processor 130 may identify a plurality of user voices based on at least one of a user voice characteristic, a user voice input device, and a user voice intensity, and display text corresponding to each user voice in a distinctive manner.
  • a user voice characteristic e.g., a user voice characteristic
  • a user voice input device e.g., a user voice input device
  • a user voice intensity e.g., a user voice intensity
  • the processor 130 obtains a first drawing input corresponding to the first user and text corresponding to the voice of the first user, and replaces the first drawing input with text corresponding to the voice of the first user. can be displayed Also, the processor 130 obtains a second drawing input corresponding to a second user different from the first user and text corresponding to the second user's voice, and converts the second drawing input into text corresponding to the second user's voice. can be displayed by replacing In this case, the text corresponding to the voice of the first user and the text corresponding to the voice of the second user may be displayed to be distinguished from each other.
  • 3A to 3D are diagrams for explaining a text input method according to an exemplary embodiment.
  • the display device 100 is implemented as a smart phone for convenience of description.
  • the processor 130 when a text drawing is input through the display 110 of the display device 100 and the user's voice is recognized within a critical time, the processor 130 obtains text corresponding to the user's voice, and At least one of text format or display position corresponding to the drawing may be identified. Then, the processor 130 may display the obtained text based on at least one of the identified text format and display position.
  • the processor 130 displays a display corresponding to the text drawing 311.
  • a text “Review” 312 having a size corresponding to the text drawing 311 may be displayed at the location.
  • the processor 130 inputs a subsequent text drawing 321 to the lower area of the displayed "Review” 312 and responds to the subsequent user's voice.
  • the text “Implement” 322 having a size corresponding to the text drawing 321 may be displayed in the lower area of the "Review” 312 . That is, since the size of the text drawing 321 input in FIG. 3B is larger than the text drawing 311 input in FIG. 3A, the text “Implement” 322 may be displayed in a larger size than the text “Review” 312. there is.
  • the processor 130 includes two parts 331-1 and 331-2 in the text drawing through the display 110, and a plurality of texts “Plan” and “Review” corresponding to the user's voice.
  • the same size text “Plan” 332-1 and “Review” 332-2 may be displayed at display positions corresponding to the two parts 331-1 and 331-2, respectively.
  • the processor 130 may identify each user voice synchronized with the input time of each of the two parts 331-1 and 331-2 according to an example.
  • the processor 130 has two parts 341-1 and 341-2 of text drawing continuously input within a critical time through the display 110, and a plurality of text drawings corresponding to the continuously received user voices.
  • text "Plan” (342-1) and “Review” (342) of different sizes are displayed at corresponding display positions of the two parts (341-1 and 341-2), respectively. -2) can be displayed respectively. That is, in FIG. 3c, the two parts 331-1 and 331-2 are input in the same size, but in FIG. 3d, the two parts 341-1 and 341-2 are input in different sizes, so the text “Plan” ( 342-1) and “Review” 342-2 may be displayed in different sizes corresponding to the respective sizes of the two parts 341-1 and 341-2.
  • 4A to 4E are diagrams for explaining a text input method according to an exemplary embodiment.
  • the processor 130 may display text corresponding to a user's voice based on a positional relationship between the guide line drawing and the text drawing.
  • the text drawing 411 is input so as not to deviate from the guideline drawing 412
  • the text 413 obtained through voice recognition may also be displayed so as not to deviate from the guideline drawing 412. .
  • the text drawing 421 is input to cross the guideline drawing 422, the text 423 obtained through voice recognition may also be displayed to intersect the guideline drawing 422.
  • the text drawing 431 when the text drawing 431 is input to the inner central area of the guide line drawing 432, the text 433 obtained through voice recognition may also be displayed in the inner central area of the guide line drawing 432.
  • the processor 130 distinguishes text corresponding to the user's voice, for example, a phrase into two words, and each word 443-1, 443-2 is divided into parts 441-1, 441 It can be displayed in the area corresponding to -2).
  • the word 443-2 corresponding to one part 441-2 is also drawn with the other part 441-2.
  • the word 443-1 corresponding to 1) may be shifted and displayed.
  • each word 453-1 and 453-2 corresponds to the size of each part 451-1 and 451-2. It can be displayed in a size corresponding to .
  • FIG. 5 is a diagram for explaining a text input method according to an exemplary embodiment.
  • the processor 130 acquires text based on the user's voice corresponding to the text drawings 511 to 515 input in each guideline drawing 521 to 525, and draws text with the obtained text (511 to 515). can be displayed by replacing
  • the processor 130 divides the user voice within the critical time into five words, which is the number of text drawings 511 to 515, and identifies the text of the user voice corresponding to each text drawing 511 to 515.
  • the threshold time may be a specific mode, for example, a time during which the above-described record mode is executed, but is not necessarily limited thereto.
  • it is also possible to identify the text of the user voice corresponding to each text drawing 511 to 515 by executing a separate record mode for receiving each text drawing 511 to 515 and the corresponding user voice.
  • 6A and 6B are diagrams for explaining a text input method corresponding to a plurality of users according to an exemplary embodiment.
  • the display device 100 is implemented as an electronic blackboard for convenience of description.
  • a first text drawing 611 and a second text drawing 612 are input by a first user 61, and a third text drawing 621 and a fourth text drawing 621 are input by the second user 62.
  • a drawing 622 may be input.
  • the processor 130 may distinguish between the user voice of the first user 61 and the user voice of the second user 62 among the user voices received within the threshold time (eg, while the record mode is running).
  • the processor 130 may identify the first and second user voices based on at least one of a user voice characteristic, a user voice input device, and a user voice strength.
  • the present invention is not limited thereto, and it is also possible to identify the first and second user voices in consideration of various situations such as a drawing input time point and a user input time point.
  • the processor 130 converts texts 631, 632, 641, and 642 obtained based on the divided first and second user voices into first to fourth text drawings 611, 612, and 621, respectively. 622) can be matched.
  • the processor 130 matches the texts 631 and 632 obtained based on the first user's voice to the first and second text drawings 611 and 612, and matches the acquired text 631 and 632 based on the second user's voice.
  • the texts 641 and 642 may be matched to the third and fourth text drawings 621 and 622 .
  • the processor 130 may display texts 631 and 632 corresponding to the first user's voice and texts 641 and 642 corresponding to the second user's voice to be distinguished from each other.
  • the processor 130 may display text corresponding to different users in different fonts or in different colors.
  • FIG. 7A and 7B are diagrams for explaining a text input method according to an exemplary embodiment.
  • the display device 100 is implemented as a smart phone that receives a pen input.
  • the processor 130 when text drawings 711, 712, and 713 are input through the display 110 provided in the display device 100 and user voice is received, the processor 130 operates based on the received user voice.
  • text corresponding to each of the text drawings 711, 712, and 713 may be obtained.
  • the processor 130 obtains text corresponding to each of the text drawings 711, 712, and 713 by analyzing the input text drawings 711, 712, and 713 and the received user voice while the record mode is running. can do.
  • the processor 130 may divide the text corresponding to the received user voice into a plurality of texts based on the format and position of each of the text drawings 711, 712, and 713 input while the record mode is running. Thereafter, the processor 130 may display the separated texts 731, 732, and 733 at locations corresponding to the respective text drawings 711, 712, and 713, as shown in FIG. 7B.
  • FIGS. 8A and 8B are diagrams for explaining a text input method according to an exemplary embodiment.
  • the display device 100 is implemented as a device capable of receiving a laser pointer input.
  • the processor 130 converts text based on the received user voice. Text corresponding to each of the drawings 811, 812, 813, 814, and 815 may be acquired.
  • the processor 130 analyzes the text drawings 811 , 812 , 813 , 814 , and 815 input while the record mode is running and the received user voice to generate the text drawings 811 , 812 , 813 , 814 , and 815 ) can obtain text corresponding to each.
  • the processor 130 converts the text corresponding to the received user voice into a plurality of texts based on the format and position of each of the text drawings 811, 812, 813, 814, and 815 input while the record mode is running. can be distinguished. Thereafter, the processor 130 places the separated texts 831, 832, 833, 834, and 835 at positions corresponding to the respective text drawings 811, 812, 813, 814, and 815, as shown in FIG. 8B. can be displayed
  • a projector device may be used in the embodiment as shown in FIGS. 9A and 9B.
  • an image is projected on a screen 810 through a projector device 90, and a user draws text on the screen 810 using a laser pointer 80 (811 to 815).
  • the screen 810 may be photographed through the camera 91 provided in the projector device 90 .
  • the projector device 90 may identify the format and position of each of the text drawings 811 to 815 based on the photographed image.
  • the projector 90 may be implemented in the form of a tablet as shown in FIG. 9a, but is not limited thereto.
  • the text drawing input may be received by a touch input using a user's hand on the screen 810 as shown in FIG. 9B.
  • FIG. 10 is a block diagram illustrating an implementation example of a display device according to an exemplary embodiment.
  • a display device 100' includes a display 110, a memory 120, a processor 130, a communication interface 140, a user interface 150, a speaker 160, and a microphone 170. can do.
  • a display 110 includes a display 110, a memory 120, a processor 130, a communication interface 140, a user interface 150, a speaker 160, and a microphone 170.
  • FIG. 10 includes a display 110, a memory 120, a processor 130, a communication interface 140, a user interface 150, a speaker 160, and a microphone 170. can do.
  • FIG. 10 detailed descriptions of components overlapping with those shown in FIG. 2 will be omitted.
  • the processor 130 may perform voice recognition on a user's voice.
  • the processor 130 may convert a user's voice in the form of audio data into text data.
  • the processor 130 may include a plurality of voice recognition models learned for each user characteristic, and each of the plurality of voice recognition models may include an acoustic model and a language model.
  • the acoustic model may include vocalization-related information
  • the language model may include unit phoneme information and information about a combination of unit phoneme information.
  • the processor 130 may convert the user's voice into text data using information related to vocalization and information about unit phoneme information.
  • Information about acoustic models and language models may be stored, for example, in an automatic speech recognition database (ASR DB).
  • ASR DB automatic speech recognition database
  • At least one communication interface 140 may be implemented as various interfaces according to implementation examples of the display device 100'.
  • the communication interface 140 includes various types of digital interfaces, AP-based Wi-Fi (Wi-Fi, Wireless LAN network), Bluetooth, Zigbee, wired / wireless LAN (Local Area Network), WAN (Wide Area Network), Ethernet, IEEE 1394, HDMI (High-Definition Multimedia Interface), USB (Universal Serial Bus), MHL (Mobile High-Definition Link), AES/EBU (Audio Engineering Society/ European Broadcasting Union) ), optical, coaxial, etc., communication with an external device, an external storage medium (eg, USB memory), an external server (eg, web hard), etc. may be performed.
  • an external storage medium eg, USB memory
  • an external server eg, web hard
  • the user interface 150 may be implemented with devices such as buttons, a touch pad, a mouse, and a keyboard, or may be implemented with a touch screen capable of performing the aforementioned display function and manipulation input function, or a remote control transceiver.
  • the remote control transmitting/receiving unit may receive a remote control signal from an external remote control device or transmit a remote control signal through at least one of infrared communication, Bluetooth communication, and Wi-Fi communication.
  • the speaker 160 may be configured to output not only various kinds of audio data, but also various notification sounds or voice messages.
  • the processor 130 may control the speaker 160 to output information corresponding to the UI screen or various notifications in the form of audio according to various embodiments of the present disclosure.
  • the microphone 170 is a component for receiving a user's voice or other sounds and converting them into audio data.
  • the display device 100 ′ may receive a user voice input through an external device through the communication interface 140 .
  • the projector system may further include an image projector (not shown), a camera (not shown), and the like.
  • the image projection unit (not shown) may perform a function of outputting an image on a projection surface by projecting light for expressing an image to the outside.
  • the projection surface may be a part of a physical space where an image is output or a separate projection surface.
  • the image projection unit (not shown) may include various detailed components such as a light source of at least one of a lamp, LED, and laser, a projection lens, and a reflector.
  • the image projector projects an image in one of various projection methods (eg, a cathode-ray tube (CRT) method, a liquid crystal display (LCD) method, a digital light processing (DLP) method, a laser method, etc.) can do.
  • the image projector 110 may include at least one light source.
  • a camera may be turned on according to a predetermined event to perform photographing.
  • a camera may convert a captured image into an electrical signal and generate image data based on the converted signal.
  • an object may be converted into an electrical image signal through a charge coupled device (CCD), and the image signal thus converted may be amplified and converted into a digital signal and then signal processed.
  • a camera may obtain a captured image by capturing a projection surface on which an image is projected.
  • the processor 130 may obtain text drawing-related information based on a captured image and provide text corresponding to a user's voice based on the obtained information.
  • a specific application may be implemented as an application that communicates with the display device 100 through a server (not shown) or an application that directly communicates with the display device 100 .
  • the application may be a type of software directly used by the user on the OS.
  • the application may be pre-installed on the display device 100' or may be downloaded from a server (not shown), and may be provided on the screen in the form of an application UI (hereinafter App UI), for example, an icon interface.
  • App UI application UI
  • FIG. 11 is a flowchart illustrating a method of controlling a user terminal according to an exemplary embodiment.
  • a user's drawing input related to at least one of text format and display position is first received through the display (S1110).
  • voice recognition is performed on the user's voice obtained while the drawing input is received to obtain text corresponding to the user's voice (S1120).
  • the user's voice does not necessarily have to be obtained while the drawing input is received, and may be obtained during a preset time period, for example, while the recording mode is being executed.
  • semantic information may not be included.
  • the obtained text may be formatted and displayed based on at least one of a format corresponding to the drawing input and a display position (S1130).
  • step S1110 when a first trigger command for executing a preset record mode is received, a drawing input may be received through a user input and a user voice may be acquired.
  • step S1120 when a second trigger command for stopping the preset record mode is received, voice recognition may be performed on the received user voice.
  • the format of the text may include at least one of text shape, size, direction, or color.
  • the acquired text may be formatted based on the format of the text corresponding to the drawing input, and the formatted text may be displayed at a location corresponding to the drawing input.
  • step S1130 the drawing input may be replaced with formatted text and displayed.
  • the drawing input may include text drawing and guideline drawing.
  • the text drawing may include a drawing related to at least one of text format or display position.
  • the formatted text may be displayed based on the relative positional relationship between the guideline drawing and the text drawing.
  • step S1130 if the text drawing is drawn to be included in the guide line drawing, the formatted text is displayed to be included in the guide line drawing, and if the text drawing is drawn to intersect the guide line drawing, the formatted text is drawn to be included in the guide line drawing. can be marked as intersecting.
  • step S1120 if the text drawing in the guideline includes a plurality of separated parts, at least one of the format or display position of the first text drawing included in the first part among the plurality of parts is identified, and the second part At least one of the format or display position of the second text drawing included in may be identified.
  • voice recognition may be performed on the user's voice to obtain first text corresponding to the first part and second text corresponding to the second part.
  • the first text may be displayed based on the information on the first text drawing
  • the second text may be displayed based on the information on the second text drawing.
  • step S1120 a first drawing input corresponding to the first user and text corresponding to the voice of the first user are obtained, and a second drawing input corresponding to the second user and text corresponding to the voice of the second user are obtained.
  • the first drawing input may be replaced with text corresponding to the first user's voice and displayed
  • the second drawing input may be replaced with text corresponding to the second user's voice and displayed.
  • the text corresponding to the voice of the first user and the text corresponding to the voice of the second user may be displayed to be distinguished from each other.
  • the first user voice and the second user voice may be identified based on at least one of voice characteristics, voice input devices, and voice strength.
  • text can be displayed in a desired format at a location desired by the user only by simple drawing and user speech. Accordingly, user convenience is improved. For example, it is possible to save time at an important point, and an efficient presentation is possible when explaining a business model to potential investors.
  • dangerous situations can be avoided because sketches can be created with annotations when time is short, for example, while stopping at a traffic light.
  • recognition errors can be corrected when time is not critical (for example, while preparing an official report for a conference or while listeners digest general ideas).
  • voice recognition may be performed using a deep learning-based artificial neural network (or deep artificial neural network), that is, a learning network model.
  • a deep learning-based artificial neural network or deep artificial neural network
  • various embodiments of the present disclosure described above may be performed through an embedded server included in the display device or an external server of the display device.
  • a device is a device capable of calling a stored command from a storage medium and operating according to the called command, and may include a display device (eg, the display device A) according to the disclosed embodiments.
  • the processor may perform a function corresponding to the command directly or by using other components under the control of the processor.
  • An instruction may include code generated or executed by a compiler or interpreter.
  • the device-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-temporary' only means that the storage medium does not contain a signal and is tangible, but does not distinguish whether data is stored semi-permanently or temporarily in the storage medium.
  • the method according to the various embodiments described above may be included in a computer program product and provided.
  • Computer program products may be traded between sellers and buyers as commodities.
  • the computer program product may be distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)) or online through an application store (eg Play StoreTM).
  • CD-ROM compact disc read only memory
  • application store eg Play StoreTM
  • at least part of the computer program product may be temporarily stored or temporarily created in a storage medium such as a manufacturer's server, an application store server, or a relay server's memory.
  • each of the components may be composed of a single object or a plurality of entities, and some sub-components among the aforementioned sub-components may be omitted, or other sub-components may be used. Components may be further included in various embodiments. Alternatively or additionally, some components (eg, modules or programs) may be integrated into one entity and perform the same or similar functions performed by each corresponding component prior to integration. According to various embodiments, operations performed by modules, programs, or other components may be executed sequentially, in parallel, repetitively, or heuristically, or at least some operations may be executed in a different order, may be omitted, or other operations may be added. can

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

디스플레이 장치가 개시된다. 디스플레이 장치는, 디스플레이, 적어도 하나의 명령을 저장하는 메모리 및, 디스플레이 및 메모리와 연결되어 디스플레이 장치를 제어하는 프로세서를 포함하며, 프로세서는, 적어도 하나의 명령어를 실행함으로써, 디스플레이를 통해 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 사용자의 드로잉 입력을 수신하고, 드로잉 입력이 수신되는 동안 획득된 사용자 음성에 대한 음성 인식을 수행하여 사용자 음성에 대응되는 텍스트를 획득하고, 드로잉 입력에 대응되는 포맷 또는 표시 위치 중 적어도 하나에 기초하여 획득된 텍스트를 표시하도록 디스플레이를 제어할 수 있다.

Description

디스플레이 장치 및 그 제어 방법
본 개시는 디스플레이 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 음성 인식 기능을 수행하는 디스플레이 장치 및 그 제어 방법에 관한 것이다.
전자 기술의 발달에 힘입어 다양한 유형의 전자 기기가 개발 및 보급되고 있다. 특히, 스마트폰, 테블릿, 전자 칠판 등과 같은 텍스트 입력(또는 드로잉 입력)이 가능한 전자 장치는 사용자의 니즈를 만족시키기 위하여 최근 수년 간 지속적으로 발전하고 있다.
최근에는 스마트폰, 테블릿, 전자 칠판 등과 같은 텍스트 입력(또는 드로잉 입력)이 가능한 전자 장치에 음성 인식 기능을 구비하여 음성 인식까지 가능해지고 있다.
다만, 전자 장치에 텍스트를 입력하면서 사용자가 해당 텍스트를 발화하는 경우 텍스트 입력 속도가 사용자 발화 속도를 따라가지 못하거나, 음성 인식을 통해 획득된 텍스트를 표시하는 경우 사용자가 원하는 위치에 원하는 포맷으로 표시하기 어렵다는 문제점이 있었다.
이상과 같은 목적을 달성하기 위한 일 실시 예에 따른 디스플레이 장치는, 디스플레이, 적어도 하나의 명령을 저장하는 메모리 및 상기 디스플레이 및 상기 메모리와 연결되어 상기 디스플레이 장치를 제어하는 프로세서를 포함하며, 상기 프로세서는, 상기 적어도 하나의 명령어를 실행함으로써, 상기 디스플레이를 통해 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 사용자의 드로잉 입력을 수신하고, 상기 드로잉 입력이 수신되는 동안 획득된 사용자 음성에 대한 음성 인식을 수행하여 상기 사용자 음성에 대응되는 텍스트를 획득하고, 상기 드로잉 입력에 대응되는 포맷 또는 표시 위치 중 적어도 하나에 기초하여 상기 획득된 텍스트를 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 프로세서는, 기 설정된 레코드 모드(record mode)를 실행하기 위한 제1 트리거 명령이 수신되면, 상기 사용자 입력을 통해 상기 드로잉 입력을 수신하고, 상기 사용자 음성을 획득하며, 상기 기 설정된 레코드 모드를 중지하기 위한 제2 트리거 명령이 수신되면, 상기 수신된 사용자 음성에 대한 음성 인식을 수행할 수 있다.
또한, 상기 텍스트의 포맷은, 텍스트 형상, 크기, 방향 또는 색상 중 적어도 하나를 포함하며, 상기 프로세서는, 상기 드로잉 입력에 대응되는 상기 텍스트의 포맷에 기초하여 상기 획득된 텍스트를 포맷팅하고, 상기 포맷팅된 텍스트를 상기 드로잉 입력에 대응되는 위치에 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 프로세서는, 상기 드로잉 입력을 상기 포맷팅된 텍스트로 대체하여 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 드로잉 입력은, 텍스트 드로잉 및 가이드 라인 드로잉을 포함하고, 상기 텍스트 드로잉은, 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 드로잉을 포함하며, 상기 프로세서는, 상기 가이드 라인 드로잉 및 상기 텍스트 드로잉 간 상대적 위치 관계에 기초하여 상기 포맷팅된 텍스트를 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 프로세서는, 상기 텍스트 드로잉이 상기 가이드 라인 드로잉 내에 포함되도록 드로잉되면, 상기 포맷팅된 텍스트가 상기 가이드 라인 드로잉 내에 포함되도록 표시하고, 상기 텍스트 드로잉이 상기 가이드 라인 드로잉을 교차하도록 드로잉되면, 상기 포맷팅된 텍스트가 상기 가이드 라인 드로잉을 교차하도록 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 프로세서는, 상기 가이드 라인 내의 상기 텍스트 드로잉이 분리된 복수의 파트를 포함하면, 상기 복수의 파트 중 제1 파트에 포함된 제1 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하고, 제2 파트에 포함된 제2 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하고, 상기 사용자 음성에 대한 음성 인식을 수행하여 상기 제1 파트에 대응되는 제1 텍스트를 획득하고, 상기 제2 파트에 대응되는 제2 텍스트를 획득하고, 상기 제1 텍스트 드로잉에 대한 정보에 기초하여 상기 제1 텍스트를 표시하고 상기 제2 텍스트 드로잉에 대한 정보에 기초하여 상기 제2 텍스트를 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 프로세서는, 제1 사용자에 대응되는 제1 드로잉 입력 및 상기 제1 사용자의 음성에 대응되는 텍스트를 획득하고, 제2 사용자에 대응되는 제2 드로잉 입력 및 상기 제2 사용자의 음성에 대응되는 텍스트를 획득하고, 상기 제1 드로잉 입력을 상기 제1 사용자의 음성에 대응되는 텍스트로 대체하여 표시하고, 상기 제2 드로잉 입력을 상기 제2 사용자의 음성에 대응되는 텍스트로 대체하여 표시하도록 상기 디스플레이를 제어하며, 상기 제1 사용자의 음성에 대응되는 텍스트 및 상기 제2 사용자의 음성에 대응되는 텍스트는 서로 구별되도록 표시할 수 있다.
또한, 상기 프로세서는, 음성의 특성, 음성의 입력 장치 또는 음성의 세기 중 적어도 하나에 기초하여 상기 제1 사용자 음성 및 상기 제2 사용자 음성을 식별할 수 있다.
또한, 상기 드로잉 입력은, 시맨틱(semantic) 정보를 포함하지 않을 수 있다.
한편, 일 실시 예에 따른 디스플레이 장치의 제어 방법은, 디스플레이를 통해 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 사용자의 드로잉 입력을 수신하는 단계, 상기 드로잉 입력이 수신되는 동안 획득된 사용자 음성에 대한 음성 인식을 수행하여 상기 사용자 음성에 대응되는 텍스트를 획득하는 단계 및, 상기 드로잉 입력에 대응되는 포맷 또는 표시 위치 중 적어도 하나에 기초하여 상기 획득된 텍스트를 표시하는 단계를 포함할 수 있다.
또한, 상기 드로잉 입력을 수신하는 단계는, 기 설정된 레코드 모드(record mode)를 실행하기 위한 제1 트리거 명령이 수신되면, 상기 사용자 입력을 통해 상기 드로잉 입력을 수신하고, 상기 사용자 음성을 획득하며, 상기 사용자 음성에 대응되는 텍스트를 획득하는 단계는, 상기 기 설정된 레코드 모드를 중지하기 위한 제2 트리거 명령이 수신되면, 상기 수신된 사용자 음성에 대한 음성 인식을 수행할 수 있다.
또한, 상기 텍스트의 포맷은, 텍스트 형상, 크기, 방향 또는 색상 중 적어도 하나를 포함하며, 상기 획득된 텍스트를 표시하는 단계는, 상기 드로잉 입력에 대응되는 상기 텍스트의 포맷에 기초하여 상기 획득된 텍스트를 포맷팅하고, 상기 포맷팅된 텍스트를 상기 드로잉 입력에 대응되는 위치에 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 획득된 텍스트를 표시하는 단계는, 상기 드로잉 입력을 상기 포맷팅된 텍스트로 대체하여 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 드로잉 입력은, 텍스트 드로잉 및 가이드 라인 드로잉을 포함하고, 상기 텍스트 드로잉은, 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 드로잉을 포함하며, 상기 획득된 텍스트를 표시하는 단계는, 상기 가이드 라인 드로잉 및 상기 텍스트 드로잉 간 상대적 위치 관계에 기초하여 상기 포맷팅된 텍스트를 표시하도록 상기 디스플레이를 제어할 수 있다.
또한, 상기 획득된 텍스트를 표시하는 단계는, 상기 텍스트 드로잉이 상기 가이드 라인 드로잉 내에 포함되도록 드로잉되면, 상기 포맷팅된 텍스트가 상기 가이드 라인 드로잉 내에 포함되도록 표시하는 단계 및, 상기 텍스트 드로잉이 상기 가이드 라인 드로잉을 교차하도록 드로잉되면, 상기 포맷팅된 텍스트가 상기 가이드 라인 드로잉을 교차하도록 표시하는 단계를 포함할 수 있다.
또한, 상기 텍스트를 획득하는 단계는, 상기 가이드 라인 내의 상기 텍스트 드로잉이 분리된 복수의 파트를 포함하면, 상기 복수의 파트 중 제1 파트에 포함된 제1 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하고, 제2 파트에 포함된 제2 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하는 단계 및, 상기 사용자 음성에 대한 음성 인식을 수행하여 상기 제1 파트에 대응되는 제1 텍스트를 획득하고, 상기 제2 파트에 대응되는 제2 텍스트를 획득하는 단계;포함하며, 상기 획득된 텍스트를 표시하는 단계는, 상기 제1 텍스트 드로잉에 대한 정보에 기초하여 상기 제1 텍스트를 표시하고 상기 제2 텍스트 드로잉에 대한 정보에 기초하여 상기 제2 텍스트를 표시할 수 있다.
또한, 상기 텍스트를 획득하는 단계는, 제1 사용자에 대응되는 제1 드로잉 입력 및 상기 제1 사용자의 음성에 대응되는 텍스트를 획득하고, 제2 사용자에 대응되는 제2 드로잉 입력 및 상기 제2 사용자의 음성에 대응되는 텍스트를 획득하고, 상기 획득된 텍스트를 표시하는 단계는, 상기 제1 드로잉 입력을 상기 제1 사용자의 음성에 대응되는 텍스트로 대체하여 표시하고, 상기 제2 드로잉 입력을 상기 제2 사용자의 음성에 대응되는 텍스트로 대체하여 표시하며, 상기 제1 사용자의 음성에 대응되는 텍스트 및 상기 제2 사용자의 음성에 대응되는 텍스트는 서로 구별되도록 표시될 수 있다.
또한, 상기 텍스트를 획득하는 단계는, 음성의 특성, 음성의 입력 장치 또는 음성의 세기 중 적어도 하나에 기초하여 상기 제1 사용자 음성 및 상기 제2 사용자 음성을 식별할 수 있다.
또한, 상기 드로잉 입력은, 시맨틱(semantic) 정보를 포함하지 않을 수 있다.
일 실시 예에 따른 전자 장치의 프로세서에 의해 실행되는 경우 상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 동작은, 디스플레이를 통해 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 사용자의 드로잉 입력을 수신하는 단계, 상기 드로잉 입력이 수신되는 동안 획득된 사용자 음성에 대한 음성 인식을 수행하여 상기 사용자 음성에 대응되는 텍스트를 획득하는 단계 및, 상기 드로잉 입력에 대응되는 포맷 또는 표시 위치 중 적어도 하나에 기초하여 상기 획득된 텍스트를 표시하는 단계를 포함할 수 있다.
도 1은 이해를 돕기 위한 디스플레이 장치의 구현 예를 설명하기 위한 도면이다.
도 2는 일 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블럭도이다.
도 3a 내지 도 3d는 일 실시 예에 따른 텍스트 입력 방법을 설명하기 위한 도면들이다.
도 4a 내지 도 4e는 일 실시 예에 따른 텍스트 입력 방법을 설명하기 위한 도면들이다.
도 5는 일 실시 예에 따른 텍스트 입력 방법을 설명하기 위한 도면이다.
도 6a 및 도 6b는 일 실시 예에 따른 복수의 사용자에 대응되는 텍스트 입력 방법을 설명하기 위한 도면들이다.
도 7a 및 도 7b는 일 실시 예에 따른 텍스트 입력 방법을 설명하기 위한 도면들이다.
도 8a 및 도 8b, 도 9a 및 도 9b는 일 실시 예에 따른 텍스트 입력 방법을 설명하기 위한 도면들이다.
도 10은 일 실시 예에 따른 디스플레이 장치의 구현 예를 나타내는 블럭도이다.
도 11은 일 실시 예에 따른 사용자 단말의 제어 방법을 설명하기 위한 흐름도이다.
이하에서는 첨부 도면을 참조하여 본 개시를 상세히 설명한다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.
본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
A 또는/및 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.
본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
이하 첨부된 도면들을 참조하여 본 개시의 일 실시 예를 보다 상세하게 설명한다.
도 1은 이해를 돕기 위한 디스플레이 장치의 구현 예를 설명하기 위한 도면이다.
도 1에 따르면, 디스플레이 장치(100)는 사용자의 드로잉 입력 및 디스플레이 기능을 제공하는 다양한 타입의 장치로 구현 가능하다. 예를 들어, 휴대폰, 스마트폰(smartphone), 전자 칠판, 전자 액자, DID(Digital Information Display), 키오스크(kiosk), PMP(Portable Media Mlayer), MP3 player, 게임기, LFD(Large Format Display), 노트북(notebook), 랩탑(laptop)), TV, 모니터(monitor), 프로젝터 시스템 등과 같은 다양한 장치로 구현 가능하다. 다만 이에 한정되지 않으며 그 외의 가전 기기, 의료 기기, 웨어러블 기기 등도 디스플레이 장치(100)에 포함될 수 있다.
한편, 디스플레이 장치(100)에 구비된 디스플레이는 다양한 유형의 드로잉 조작을 감지할 수 있도록 구현될 수 있다. 예를 들어, 디스플레이는 사용자 손에 의한 터치 입력, 스타일러스 펜과 같은 입력 장치에 의한 터치 입력, 특정 정전 물질에 의한 터치 입력 등 다양한 유형의 터치 입력 뿐 아니라 레이저 포인터에 의한 입력을 감지할 수 있다. 여기서, 입력 장치는 전자 펜, 스타일러스 펜, S-펜 등 다양한 용어로 지칭될 수 있는 펜 형의 입력 장치으로 구현될 수 있지만, 반드시 펜 형상으로 구현되어야 하는 것은 아니다. 예를 들어, 뭉툭하거나, 평평한 형상의 바디를 갖도록 구현될 수도 있다.
또한, 디스플레이 장치(100)는 사용자 음성을 직접 수신하거나, 외부 장치에 구비된 마이크를 통해 입력된 사용자 음성을 수신하여 수신된 사용자 음성에 대한 음성 인식을 수행할 수 있다. 다만, 경우에 따라 음성 인식 동작 중 적어도 일부는 외부 서버를 통해 수행되는 것도 가능하다.
디스플레이 장치(100)는 상술한 터치 입력 기능 및 음성 인식 기능을 이용한 텍스트 입력 및 표시 기능을 제공할 수 있는데, 이하에서는 도면을 참고하여 다양한 실시 예에 따른 텍스트 입력 및 표시 기능에 대해 설명하도록 한다.
도 2는 일 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블럭도이다.
도 2에 따르면, 디스플레이 장치(100)는 디스플레이(110), 메모리(120) 및 프로세서(130)를 포함한다.
디스플레이(110)는 자발광 소자를 포함하는 디스플레이 또는, 비자발광 소자 및 백라이트를 포함하는 디스플레이로 구현될 수 있다. 예를 들어, LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, LED(Light Emitting Diodes), 마이크로 LED(micro LED), Mini LED, PDP(Plasma Display Panel), QD(Quantum dot) 디스플레이, QLED(Quantum dot light-emitting diodes) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(110) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(110)는 플렉시블 디스플레이(flexible display), 롤러블 디스플레이(rollable display), 3차원 디스플레이(3D display), 복수의 디스플레이 모듈이 물리적으로 연결된 디스플레이 등으로 구현될 수 있다.
일 예에 따라 디스플레이(110)는 터치 센서를 구비하여 손가락 또는 펜(예를 들어, 스타일러스 펜)을 이용한 터치 입력을 수신하도록 구현될 수 있다. 터치 센서는 정전식 또는 감압식으로 구현될 수 있다. 정전식 터치 센서는 디스플레이 표면에 코팅된 유전체를 이용하여, 사용자의 신체 일부가 디스플레이 표면에 터치되었을 때 사용자의 인체로 여기되는 미세 전기를 감지하여 터치 좌표를 산출하는 방식의 센서를 의미한다. 감압식 터치 센서는 내장된 두 개의 전극 판을 포함하여, 터치된 지점의 상하 판이 접촉되어 전류가 흐르게 되는 것을 감지하여 터치 좌표를 산출하는 방식의 터치 센서를 의미한다. 그 밖에 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등이 터치 조작을 감지하는데 이용될 수 있다. 그 밖에 디스플레이(110)는 마그네틱과 자기장 센서, 광센서 또는 근접 센서 등을 이용하여 손가락 또는 스타일러스 펜과 같은 터치 오브젝트의 접촉 또는 근접하게 되었는지 여부를 판단할 수도 있다.
다른 예에 따라 디스플레이(110)는 레이저 등과 같은 광 입력을 수신하도록 구현될 수 있다. 이 경우, 디스플레이(110)는 광 센서, 레이저 감지 센서 등을 포함하도록 구현될 수 있다.
메모리(120)는 다양한 실시 예를 위해 필요한 데이터를 저장할 수 있다. 메모리(120)는 데이터 저장 용도에 따라 디스플레이 장치(100)에 임베디드된 메모리 형태로 구현되거나, 디스플레이 장치(100)에 탈부착이 가능한 메모리 형태로 구현될 수도 있다. 예를 들어, 디스플레이 장치(100)의 구동을 위한 데이터의 경우 디스플레이 장치(100)에 임베디드된 메모리에 저장되고, 로봇(100)의 확장 기능을 위한 데이터의 경우 디스플레이 장치(100)에 탈부착이 가능한 메모리에 저장될 수 있다. 한편, 디스플레이 장치(100)에 임베디드된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나로 구현될 수 있다. 또한, 로봇(100)에 탈부착이 가능한 메모리의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결가능한 외부 메모리(예를 들어, USB 메모리) 등과 같은 형태로 구현될 수 있다.
적어도 하나의 프로세서(130)는 디스플레이 장치(100)의 동작을 전반적으로 제어한다. 구체적으로, 프로세서(130)는 디스플레이 장치(100)의 각 구성과 연결되어 디스플레이 장치(100)의 동작을 전반적으로 제어할 수 있다. 예를 들어, 프로세서(130)는 디스플레이(110) 및 메모리(120)와 전기적으로 연결되어 디스플레이 장치1l00)의 전반적인 동작을 제어할 수 있다. 프로세서(130)는 하나 또는 복수의 프로세서로 구성될 수 있다.
프로세서(130)는 메모리(120)에 저장된 적어도 하나의 인스트럭션(instruction)을 실행함으로써, 다양한 실시 예에 따른 디스플레이 장치(100)의 동작을 수행할 수 있다.
일 실시 예에 따라 프로세서(130)는 디지털 영상 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), GPU(Graphics Processing Unit), AI(Artificial Intelligence) 프로세서, NPU (Neural Processing Unit), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 애플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(140)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, ASIC(application specific integrated circuit), FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.
또한, 일 실시 예에 따른 인공 지능 모델을 실행하기 위한 프로세서(130)는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공 지능 전용 프로세서과 소프트웨어의 조합을 통해 구현될 수 있다. 프로세서(130)는, 메모리(120)에 저장된 기 정의된 동작 규칙 또는 인공 지능 모델에 따라, 입력 데이터를 처리하도록 제어할 수 있다. 또는, 프로세서(130)가 전용 프로세서(또는 인공 지능 전용 프로세서)인 경우, 특정 인공 지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다. 예를 들어, 특정 인공 지능 모델의 처리에 특화된 하드웨어는 ASIC, FPGA 등의 하드웨어 칩으로 설계될 수 있다. 프로세서(130)가 전용 프로세서로 구현되는 경우, 본 개시의 실시 예를 구현하기 위한 메모리를 포함하도록 구현되거나, 외부 메모리를 이용하기 위한 메모리 처리 기능을 포함하도록 구현될 수 있다.
프로세서(130)는 디스플레이(110)를 통해 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 사용자의 드로잉(또는 스케치, 마킹) 입력을 수신할 수 있다. 여기서, 드로잉 입력은 상술한 바와 같이 터치 입력 뿐 아니라, 근접 입력, 레이저 포인터 입력 등과 같이 다양한 방식으로 수신될 수 있으나, 이하에서는 설명의 편의를 위하여 드로잉 입력이 터치 입력으로 수신되는 실시 예를 상정하도록 한다.
이어서, 프로세서(130)는 드로잉 입력과 관련하여 획득된 사용자 음성, 예를 들어 드로잉 입력이 수신되는 동안 획득된 음성 인식을 수행하여 사용자 음성에 대응되는 텍스트를 획득할 수 있다. 여기서, 사용자 음성은 일 예에 따라 디스플레이 장치(100)에 구비된 마이크를 통해 획득되거나, 디스플레이 장치(100)와 통신하는 별도의 입력 장치를 통해 획득될 수 있다. 다만, 프로세서(130)가 음성 인식을 수행하지 않고 외부 장치(예를 들어 외부 서버)를 통해 음성 인식을 수행하는 것도 가능하다. 다만, 이하에서는 설명의 편의를 위하여 프로세서(130)가 음성 인식을 수행하는 것으로 상정하도록 한다.
이 후, 프로세서(130)는 드로잉 입력에 대응되는 텍스트 포맷 또는 표시 위치 중 적어도 하나에 기초하여 획득된 텍스트를 표시하도록 디스플레이(110)를 제어할 수 있다. 예를 들어 드로잉 입력은 시맨틱(semantic) 정보를 포함하지 않는 텍스트 포맷 또는 표시 위치 중 적어도 하나를 식별할 수 있을 정보의 마킹 입력일 수 있다.
일 예에 따라 프로세서(130)는 기 설정된 레코드 모드(record mode)를 실행하기 위한 제1 트리거 명령이 수신되면, 사용자의 드로잉 입력을 수신하고, 사용자 음성을 획득할 수 있다. 또한, 프로세서(130)는 기 설정된 레코드 모드를 중지하기 위한 제2 트리거 명령이 수신되면, 수신된 사용자 음성에 대한 음성 인식을 수행하여 텍스트를 획득할 수 있다.
일 예에 따라 프로세서(130)는 드로잉 입력에 대응되는 텍스트의 포맷에 기초하여 사용자 음성에 대응되는 텍스트를 포맷팅하고, 포맷팅된 텍스트를 드로잉 입력에 대응되는 위치에 표시하도록 디스플레이(110)를 제어할 수 있다. 여기서, 드로잉 입력은 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련될 수 있다. 여기서, 텍스트의 포맷은, 텍스트 형상, 크기, 방향 또는 색상 중 적어도 하나를 포함할 수 있다. 포맷팅이란 드로잉 입력에 대응되는 텍스트의 형상(또는 폰트 타입), 크기, 방향 또는 색상 중 적어도 하나를 결정하는 작업을 의미할 수 있다. 예를 들어 드로잉 입력의 크기에 기초하여 표시될 텍스트의 크기가 결정될 수 있다.
한편, 프로세서(130)는 드로잉 입력을 포맷팅된 텍스트로 대체하여 표시하도록 디스플레이(110)를 제어할 수 있다.
일 실시 예에 따르면, 드로잉 입력은 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 텍스트 드로잉 뿐 아니라, 가이드 라인 드로잉을 더 포함할 수 있다. 여기서, 가이드 라인 드로잉은 사용자의 필요에 따라 임의로 드로잉되는 다양한 형태의 가이드 라인 입력을 포함할 수 있다.
다른 실시 예에 따르면, 가이드 라인 드로잉은 사용자에 의해 직접 드로잉되지 않고 디스플레이 장치(100)에서 제공하는 기 저장된 템플릿 중 사용자에게 선택되는 형태로 입력되는 것도 가능하다. 여기서, 기 저장된 템플릿은 다양한 타입의 가이드 드로잉을 포함할 수 있다.
다만, 이하에서는 설명의 편의를 위하여 가이드 라인 드로잉이 텍스트 드로잉과 마찬가지로 사용자에 의해 드로잉되는 경우를 가정하여 설명하도록 한다.
이 경우, 프로세서(130)는 가이드 라인 드로잉 및 텍스트 드로잉 간 상대적 위치 관계에 기초하여 포맷팅된 텍스트를 표시하도록 디스플레이(110)를 제어할 수 있다.
일 예에 따라 프로세서(130)는 텍스트 드로잉이 가이드 라인 드로잉 내에 포함되도록 드로잉되면, 포맷팅된 텍스트가 가이드 라인 드로잉 내에 포함되도록 표시할 수 있다. 또는 프로세서(130)는 텍스트 드로잉이 가이드 라인 드로잉을 교차하도록 드로잉되면, 포맷팅된 텍스트가 가이드 라인 드로잉을 교차하도록 표시할 수 있다.
다른 예에 따라 프로세서(130)는 가이드 라인 내의 텍스트 드로잉이 분리된 복수의 파트를 포함하면, 복수의 파트 중 제1 파트에 포함된 제1 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하고, 제2 파트에 포함된 제2 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별할 수 있다. 이어서, 프로세서(130)는 사용자 음성에 대한 음성 인식을 수행하여 제1 파트에 대응되는 제1 텍스트를 획득하고, 제2 파트에 대응되는 제2 텍스트를 획득할 수 있다. 이 후, 프로세서(130)는 제1 텍스트 드로잉에 대한 정보에 기초하여 제1 텍스트를 표시하고 제2 텍스트 드로잉에 대한 정보에 기초하여 제2 텍스트를 표시할 수 있다.
일 실시 예에 따라 프로세서(130)는 복수의 사용자 각각에 대응되는 드로잉 입력 및 복수의 사용자 각각에 대응되는 사용자 음성을 획득하고, 각 드로잉 입력에 기초하여 각 사용자 음성에 대응되는 텍스트를 표시할 수 있다. 이 경우, 각 사용자 음성에 대응되는 텍스트는 서로 구별되도록 표시될 수 있다. 예를 들어, 텍스트 형상, 크기 또는 색상 중 적어도 하나가 구별되도록 표시될 수 있다. 이 경우, 각 사용자 음성에 대응되는 텍스트는 드로잉 입력에 대응되는 텍스트 포맷과 연결되어 표시될 수 있다. 예를 들어, 각 사용자의 드로잉 입력에 의해 폰트가 지정되지 않은 경우, 프로세서(130)는 각 사용자의 텍스트를 구별하기 위하여 텍스트 폰트를 상이하게 표시할 수 있다.
이 경우, 프로세서(130)는 사용자 음성의 특성, 사용자 음성의 입력 장치 또는 사용자 음성의 세기 중 적어도 하나에 기초하여 복수의 사용자 음성을 식별하고, 각 사용자 음성에 대응되는 텍스트를 구별되도록 표시할 수 있다. 다만, 이에 한정되는 것은 아니며, 드로잉 입력 시점 및 사용자 입력 시점 등 다양한 상황을 고려하여 복수의 사용자 음성을 식별하는 것도 가능하다.
일 예에 따라 프로세서(130)는 제1 사용자에 대응되는 제1 드로잉 입력 및 제1 사용자의 음성에 대응되는 텍스트를 획득하고, 제1 드로잉 입력을 제1 사용자의 음성에 대응되는 텍스트로 대체하여 표시할 수 있다. 또한, 프로세서(130)는 제1 사용자와 상이한 제2 사용자에 대응되는 제2 드로잉 입력 및 제2 사용자의 음성에 대응되는 텍스트를 획득하고, 제2 드로잉 입력을 제2 사용자의 음성에 대응되는 텍스트로 대체하여 표시할 수 있다. 이 경우, 제1 사용자의 음성에 대응되는 텍스트 및 제2 사용자의 음성에 대응되는 텍스트는 서로 구별되도록 표시될 수 있다.
도 3a 내지 도 3d는 일 실시 예에 따른 텍스트 입력 방법을 설명하기 위한 도면들이다.
도 3a 내지 도 3d에서는 설명의 편의를 위하여 디스플레이 장치(100)가 스마트 폰으로 구현되는 경우를 상정하도록 한다.
도 3a 내지 도 3d에 따르면, 디스플레이 장치(100)의 디스플레이(110)를 통해 텍스트 드로잉이 입력되고 임계 시간 내에 사용자 음성이 인식되면, 프로세서(130)는 사용자 음성에 대응되는 텍스트를 획득하고, 텍스트 드로잉에 대응되는 텍스트 포맷 또는 표시 위치 중 적어도 하나를 식별할 수 있다. 이 후, 프로세서(130)는 식별된 텍스트 포맷 또는 표시 위치 중 적어도 하나에 기초하여 획득된 텍스트를 표시할 수 있다.
예를 들어 도 3a에 따르면, 프로세서(130)는 디스플레이(110)를 통해 특정 텍스트 드로잉(311)이 입력되고 사용자 음성에 대응되는 텍스트 "Review"가 획득되면, 텍스트 드로잉(311)에 대응되는 표시 위치에 텍스트 드로잉(311)에 대응되는 크기의 텍스트 "Review"(312)를 표시할 수 있다.
도 3b에 따르면, 프로세서(130)는 도 3a에 따라 특정 영역에 텍스트 "Review"(312)가 표시된 후 표시된 "Review"(312) 하부 영역으로 후속 텍스트 드로잉(321)이 입력되고 후속 사용자 음성에 대응되는 텍스트 "Implement"가 획득되면, "Review"(312)하부 영역에 텍스트 드로잉(321)에 대응되는 크기의 텍스트 "Implement"(322)를 표시할 수 있다. 즉, 도 3a에서 입력된 텍스트 드로잉(311)보다 도 3b에서 입력된 텍스트 드로잉(321)의 크기가 크기 때문에 텍스트 "Implement"(322)는 텍스트 "Review"(312)보다 큰 크기로 표시될 수 있다.
도 3c에 따르면, 프로세서(130)는 디스플레이(110)를 통해 텍스트 드로잉이 두 개의 파트(331-1, 331-2)를 포함하고, 사용자 음성에 대응되는 복수의 텍스트 "Plan" 및 "Review"가 획득되면, 두 개의 파트(331-1, 331-2) 각각에 대응되는 표시 위치에 동일한 크기의 텍스트 "Plan"(332-1) 및 "Review"(332-2)를 각각 표시할 수 있다. 이 경우, 프로세서(130)는 일 예에 따라 두 개의 파트(331-1, 331-2) 각각의 입력 시간에 동기화된 사용자 음성 각각을 식별할 수 있다. 다만, 이에 한정되는 것은 아니며, 임계 시간 내에 음성 인식을 통해 순차적으로 인식된 복수의 단어를 각각 두 개의 파트(331-1, 331-2)에 매칭시키는 것도 가능하다. 즉, 프로세서(130)는 음성 인식을 통해 사용자 음성에 대응되는 복수의 단어가 식별되면, 복수의 단어를 각각 두 개의 파트(331-1, 331-2)에 매칭시킬 수 있다.
도 3d에 따르면, 프로세서(130)는 디스플레이(110)를 통해 텍스트 드로잉이 두 개의 파트(341-1, 341-2)이 임계 시간 내에 연속적으로 입력되고, 연속적으로 수신된 사용자 음성에 대응되는 복수의 텍스트 "Plan" 및 "Review"가 획득되면, 두 개의 파트(341-1, 341-2) 각각에 대응되는 표시 위치에 상이한 크기의 텍스트 "Plan"(342-1) 및 "Review"(342-2)를 각각 표시할 수 있다. 즉, 도 3c에서는 두 개의 파트(331-1, 331-2)가 동일한 크기로 입력되었으나, 도 3d에서는 두 개의 파트(341-1, 341-2)가 상이한 크기로 입력되었으므로 텍스트 "Plan"(342-1) 및 "Review"(342-2)가 두 개의 파트(341-1, 341-2) 각각의 크기에 대응되는 상이한 크기로 표시될 수 있다.
도 4a 내지 도 4e는 일 실시 예에 따른 텍스트 입력 방법을 설명하기 위한 도면들이다.
도 4a 내지 도 4e에 따르면, 프로세서(130)는 텍스트 드로잉과 함께 가이드 라인 드로잉이 입력되면, 가이드 라인 드로잉 및 텍스트 드로잉의 위치 관계에 기초하여 사용자 음성에 대응되는 텍스트를 표시할 수 있다.
예를 들어, 도 4a에 따르면 텍스트 드로잉(411)이 가이드 라인 드로잉(412)을 벗어나지 않도록 입력되면, 음성 인식을 통해 획득된 텍스트(413) 또한 가이드 라인 드로잉(412)을 벗어나지 않도록 표시될 수 있다.
도 4b에 따르면 텍스트 드로잉(421)이 가이드 라인 드로잉(422)을 교차하도록 입력되면, 음성 인식을 통해 획득된 텍스트(423) 또한 가이드 라인 드로잉(422)과 교차하도록 표시될 수 있다.
도 4c에 따르면 텍스트 드로잉(431)이 가이드 라인 드로잉(432) 내측 중앙 영역에 입력되면, 음성 인식을 통해 획득된 텍스트(433) 또한 가이드 라인 드로잉(432) 내측 중앙 영역에 표시될 수 있다.
도 4d에 따르면 가이드 라인 드로잉(442) 내의 텍스트 드로잉이 두 개의 파트(441-1, 441-2)를 포함하고 하나의 파트(441-2)가 다른 파트(441-1) 하부 영역에 입력되면, 프로세서(130)는 사용자 음성에 대응되는 텍스트 예를 들어 구(phrase)를 두 개의 단어(word)로 구별하고, 각 단어(443-1, 443-2)를 각 파트(441-1, 441-2)에 대응되는 영역에 표시할 수 있다. 이 경우, 하나의 파트(441-2)는 다른 파트(441-1)의 위치에 대해 시프트되어 드로잉되었으므로 하나의 파트(441-2)에 대응되는 단어(443-2) 또한 다른 파트(441-1)에 대응되는 단어(443-1)에 대해 시프프되어 표시될 수 있다.
도 4e에 따르면 가이드 라인 드로잉(452) 내의 텍스트 드로잉이 두 개의 파트(451-1, 451-2)를 포함하고 하나의 파트(451-2)가 다른 파트(451-1) 하부 영역에 입력되면, 프로세서(130)는 사용자 음성에 대응되는 텍스트 예를 들어 구(phrase)를 두 개의 단어(word)로 구별하고, 각 단어(453-1, 453-2)를 각 파트(451-1, 451-2)에 대응되는 영역에 표시할 수 있다. 도 4d와 달리, 도 4e에 따르면 각 파트(451-1, 451-2)의 크기가 상이하므로 각 단어(453-1, 453-2)는 각 파트(451-1, 451-2)의 크기에 대응되는 크기로 표시될 수 있다.
도 5는 일 실시 예에 따른 텍스트 입력 방법을 설명하기 위한 도면이다.
도 5에 도시된 바와 같이 5개의 가이드 라인 드로잉(521 내지 525) 내에 텍스트 드로잉(511 내지 515)이 각각 입력되는 경우를 상정하도록 한다. 이 경우, 프로세서(130)는 각 가이드 라인 드로잉(521 내지 525) 내에 입력된 텍스트 드로잉(511 내지 515)에 대응되는 사용자 음성에 기초하여 텍스트를 획득하고 획득된 텍스트로 텍스트 드로잉(511 내지 515)을 대체하여 표시할 수 있다.
이 경우, 프로세서(130)는 임계 시간 내의 사용자 음성을 텍스트 드로잉(511 내지 515)의 개수인 5개의 단어로 구분하여 각 텍스트 드로잉(511 내지 515)에 대응되는 사용자 음성의 텍스트를 식별할 수 있다. 여기서, 임계 시간은 특정 모드는, 일 예로 상술한 레코드 모드(record mode)이 실행되는 시간이 될 수 있으나, 반드시 이에 한정되는 것은 아니다. 다른 예로, 텍스트 드로잉(511 내지 515)과 사용자 음성의 입력 시점을 동기화하여 각 텍스트 드로잉(511 내지 515)에 대응되는 사용자 음성의 텍스트를 식별하는 것도 가능하다. 또 다른 예로 각 텍스트 드로잉(511 내지 515) 및 대응되는 사용자 음성을 수신하는 별도의 레코드 모드를 실행하여, 각 텍스트 드로잉(511 내지 515)에 대응되는 사용자 음성의 텍스트를 식별하는 것도 가능하다.
도 6a 및 도 6b는 일 실시 예에 따른 복수의 사용자에 대응되는 텍스트 입력 방법을 설명하기 위한 도면들이다.
도 6a 및 도 6b에서는 설명의 편의를 위하여 디스플레이 장치(100)가 전자 칠판으로 구현되는 경우를 상정하도록 한다.
도 6a에 따르면, 제1 사용자(61)에 의해 제1 텍스트 드로잉(611) 및 제2 텍스트 드로잉(612)이 입력되고 제2 사용자(62)에 의해 제3 텍스트 드로잉(621) 및 제4 텍스트 드로잉(622)이 입력될 수 있다. 이 경우, 프로세서(130)는 임계 시간 내(예를 들어, 레코드 모드가 실행되는 동안)에 수신된 사용자 음성 중 제1 사용자(61)의 사용자 음성 및 제2 사용자(62)의 사용자 음성을 구분할 수 있다. 일 예에 따라 프로세서(130)는 사용자 음성의 특성, 사용자 음성의 입력 장치 또는 사용자 음성의 세기 중 적어도 하나에 기초하여 제1 및 제2 사용자 음성을 식별할 수 있다. 다만, 이에 한정되는 것은 아니며, 드로잉 입력 시점 및 사용자 입력 시점 등 다양한 상황을 고려하여 제1 및 제2 사용자 음성을 식별하는 것도 가능하다.
도 6b에 따르면, 프로세서(130)는 구분된 제1 및 제2 사용자 음성에 기초하여 획득된 텍스트(631, 632, 641, 642)를 각각 제1 내지 제4 텍스트 드로잉(611, 612, 621, 622)에 매칭시킬 수 있다. 예를 들어, 프로세서(130)는 제1 사용자 음성에 기초하여 획득된 텍스트(631, 632)를 제1 및 제2 텍스트 드로잉(611, 612)에 매칭시키고, 제2 사용자 음성에 기초하여 획득된 텍스트(641, 642)를 제3 및 제4 텍스트 드로잉(621, 622)에 매칭시킬 수 있다. 또한, 프로세서(130)는 제1 사용자 음성에 대응되는 텍스트(631, 632) 및 제2 사용자 음성에 대응되는 텍스트(641, 642)를 서로 구별되도록 표시할 수 있다. 일 예에 따라 프로세서(130)는 상이한 사용자에 대응되는 텍스트를 상이한 폰트로 표시하거나, 상이한 색상으로 표시할 수 있다.
도 7a 및 도 7b는 일 실시 예에 따른 텍스트 입력 방법을 설명하기 위한 도면들이다.
도 7a 및 도 7b에서는 도시된 바와 같이 디스플레이 장치(100)가 펜 입력을 수신하는 스마트 폰으로 구현되는 경우를 가정하도록 한다.
도 7a에 도시된 바와 같이 디스플레이 장치(100)에 구비된 디스플레이(110)를 통해 텍스트 드로잉(711, 712, 713)이 입력되고 사용자 음성이 수신되면, 프로세서(130)는 수신된 사용자 음성에 기초하여 텍스트 드로잉(711, 712, 713) 각각에 대응되는 텍스트를 획득할 수 있다. 예를 들어, 프로세서(130)는 레코드 모드가 실행되는 동안 입력된 텍스트 드로잉(711, 712, 713) 및 수신된 사용자 음성을 분석하여 텍스트 드로잉(711, 712, 713) 각각에 대응되는 텍스트를 획득할 수 있다. 이 경우, 프로세서(130)는 레코드 모드가 실행되는 동안 입력된 텍스트 드로잉(711, 712, 713) 각각의 포맷 및 위치에 기초하여 수신된 사용자 음성에 대응되는 텍스트를 복수의 텍스트로 구분할 수 있다. 이 후, 프로세서(130)는 도 7b에 도시된 바와 같이 구분된 각 텍스트(731, 732, 733)을 각 텍스트 드로잉(711, 712, 713)에 대응되는 위치에 표시할 수 있다.
도 8a 및 도 8b는 일 실시 예에 따른 텍스트 입력 방법을 설명하기 위한 도면들이다.
도 8a 및 도 8b에서는 도시된 바와 같이 디스플레이 장치(100)가 레이저 포인터 입력 수신이 가능한 장치로 구현되는 경우를 가정하도록 한다.
도 8a에 도시된 바와 같이 레이저 포인터(80)를 이용하여 텍스트 드로잉(811, 812, 813, 814, 815)이 입력되고 사용자 음성이 수신되면, 프로세서(130)는 수신된 사용자 음성에 기초하여 텍스트 드로잉(811, 812, 813, 814, 815) 각각에 대응되는 텍스트를 획득할 수 있다. 예를 들어, 프로세서(130)는 레코드 모드가 실행되는 동안 입력된 텍스트 드로잉(811, 812, 813, 814, 815) 및 수신된 사용자 음성을 분석하여 텍스트 드로잉(811, 812, 813, 814, 815) 각각에 대응되는 텍스트를 획득할 수 있다. 이 경우, 프로세서(130)는 레코드 모드가 실행되는 동안 입력된 텍스트 드로잉(811, 812, 813, 814, 815) 각각의 포맷 및 위치에 기초하여 수신된 사용자 음성에 대응되는 텍스트를 복수의 텍스트로 구분할 수 있다. 이 후, 프로세서(130)는 도 8b에 도시된 바와 같이 구분된 각 텍스트(831, 832, 833, 834, 835)을 각 텍스트 드로잉(811, 812, 813, 814, 815)에 대응되는 위치에 표시할 수 있다.
일 예에 따라 도 9a 및 도 9b에 도시된 바와 같은 실시 예에는 프로젝터 장치가 이용될 수 있다.
예를 들어, 도 9a에 도시된 바와 같이 프로젝터 장치(90)를 통해 스크린(810)에 영상이 투사되고, 사용자가 레이저 포인터(80)를 이용하여 스크린(810)에 텍스트 드로잉(811 내지 815)을 입력하는 경우 프로젝터 장치(90)에 구비된 카메라(91)를 통해 스크린(810)이 촬영될 수 있다. 이 경우, 프로젝터 장치(90)는 촬영 영상에 기초하여 텍스트 드로잉(811 내지 815) 각각의 포맷 및 위치를 식별할 수 있다. 일 예로, 프로젝터(90)는 도 9a에 도시된 바와 같이 태블릿 형태로 구현될 수 있으나, 이에 한정되는 것은 아니다. 또한, 텍스트 드로잉 입력은 도 9b에 도시된 바와 같이 스크린(810)에서 사용자의 손을 이용한 터치 입력에 의해 수신될 수도 있다.
도 10은 일 실시 예에 따른 디스플레이 장치의 구현 예를 나타내는 블럭도이다.
도 10에 따르면, 디스플레이 장치(100')는 디스플레이(110), 메모리(120), 프로세서(130), 통신 인터페이스(140), 사용자 인터페이스(150), 스피커(160) 및 마이크(170)를 포함할 수 있다. 도 10에 도시된 구성 중 도 2에 도시된 구성과 중복되는 구성에 대해서는 자세한 설명을 생략하도록 한다.
일 실시 예에 따라 프로세서(130)는 사용자 음성에 대한 음성 인식을 수행할 수 있다. 일 예에 따라 프로세서(130)는 오디오 데이터 형태의 사용자 음성을 텍스트 데이터로 변환할 수 있다. 예를 들어 프로세서(130)는 사용자 특성 별로 학습된 복수의 음성 인식 모델을 포함할 수 있으며, 복수의 음성 인식 모델 각각은 음향(acoustic) 모델 및 언어(language) 모델을 포함할 수 있다. 음향 모델은 발성에 관련된 정보를 포함할 수 있고, 언어 모델은 단위 음소 정보 및 단위 음소 정보의 조합에 대한 정보를 포함할 수 있다. 프로세서(130)는 발성에 관련된 정보 및 단위 음소 정보에 대한 정보를 이용하여 사용자 음성를 텍스트 데이터로 변환할 수 있다. 음향 모델 및 언어 모델에 대한 정보는, 예를 들어, 자동 음성 인식 데이터베이스(automatic speech recognition database)(ASR DB)에 저장될 수 있다.
적어도 하나의 통신 인터페이스(140)(이하, 통신 인터페이스)는 디스플레이 장치(100')의 구현 예에 따라 다양한 인터페이스로 구현될 수 있음은 물론이다. 예를 들어 통신 인터페이스(140)는 다양한 타입의 디지털 인터페이스, AP 기반의 Wi-Fi(와이파이, Wireless LAN 네트워크), 블루투스(Bluetooth), 지그비(Zigbee), 유/무선 LAN(Local Area Network), WAN(Wide Area Network), 이더넷(Ethernet), IEEE 1394, HDMI(High-Definition Multimedia Interface), USB(Universal Serial Bus), MHL(Mobile High-Definition Link), AES/EBU(Audio Engineering Society/ European Broadcasting Union), 옵티컬(Optical), 코액셜(Coaxial) 등과 같은 통신 방식을 통해 외부 장치, 외부 저장 매체(예를 들어, USB 메모리), 외부 서버(예를 들어 웹 하드) 등과 통신을 수행할 수 있다.
사용자 인터페이스(150)는 버튼, 터치 패드, 마우스 및 키보드와 같은 장치로 구현되거나, 상술한 디스플레이 기능 및 조작 입력 기능도 함께 수행 가능한 터치 스크린, 리모콘 송수신부 등으로 구현될 수 있다. 리모콘 송수신부는 적외선 통신, 블루투스 통신 또는 와이파이 통신 중 적어도 하나의 통신 방식을 통해 외부 원격 제어 장치로부터 리모콘 신호를 수신하거나, 리모콘 신호를 송신할 수 있다.
스피커(160)는 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지 등을 출력하는 구성일 수 있다. 프로세서(130)는 본 개시의 다양한 실시 예에 따른 UI 화면에 대응되는 정보 또는 각종 알림을 오디오 형태로 출력하도록 스피커(160)를 제어할 수 있다.
마이크(170)는 사용자 음성이나 기타 소리를 입력받아 오디오 데이터로 변환하기 위한 구성이다. 다만, 다른 실시 예에 따라 디스플레이 장치(100')는 외부 장치를 통해 입력된 사용자 음성을 통신 인터페이스(140)를 통해 수신할 수 있다.
일 예에 따라 디스플레이 장치(100')가 프로젝터 시스템으로 구현되는 경우 프로젝터 시스템은 영상 투사부(미도시), 카메라(미도시) 등을 더 포함할 수 있다. 영상 투사부(미도시)는 영상을 표현하기 위한 광을 외부로 투사하여 이미지를 투사면에 출력하는 기능을 수행할 수 있다. 여기서, 투사면은 이미지가 출력되는 물리적 공간의 일부이거나 별도의 투사면일 수 있다. 영상 투사부(미도시)는 램프, LED, 레이저 중 적어도 하나의광원, 프로젝션 렌즈, 반사체 등 다양한 세부 구성을 포함할 수 있다. 영상 투사부(미도시)는 다양한 투사 방식(예를 들어, CRT(cathode-ray tube) 방식, LCD(Liquid Crystal Display) 방식, DLP(Digital Light Processing) 방식, 레이저 방식 등) 중 하나로 영상을 투사할 수 있다. 영상 투사부(110)는 적어도 하나의 광원을 포함할 수 있다.
카메라(미도시)는 기 설정된 이벤트에 따라 턴 온 되어 촬영을 수행할 수 있다. 카메라(미도시)는 촬상된 영상을 전기적인 신호로 변환하고 변환된 신호에 기초하여 영상 데이터를 생성할 수 있다. 예를 들어, 피사체는 반도체 광학소자(CCD; Charge Coupled Device)를 통해 전기적인 영상 신호로 변환되고, 이와 같이 변환된 영상 신호는 증폭 및 디지털 신호로 변환된 후 신호 처리될 수 있다. 일 예에 따라 카메라(미도시)는 영상이 투사된 투사면을 촬영하여 촬영 영상을 획득할 수 있다. 일 예에 따라 프로세서(130)는 촬영 영상에 기초하여 텍스트 드로잉 관련 정보를 획득하고, 획득된 정보에 기초하여 사용자 음성에 대응되는 텍스트를 제공할 수 있다.
한편, 상술한 다양한 실시 예는 디스플레이 장치(100)와 통신하는 특정 어플리케이션을 통해 제공될 수 있으나, 반드시 이에 한정되는 것은 아니다. 일 예에 따라 특정 어플리케이션은 디스플레이 장치(100)와 서버(미도시)를 통해 통신하는 어플리케이션, 디스플레이 장치(100)와 직접 통신하는 어플리케이션으로 구현될 수 있다. 어플리케이션은 OS 상에서 사용자가 직접 사용하게 되는 소프트웨어의 일종일 수 있다. 어플리케이션은 디스플레이 장치(100')에 기설치되어 있거나, 서버(미도시)로부터 다운로드될 수 있으며, 화면 상에서 애플리케이션 UI(이하 App UI), 예를 들어 아이콘 인터페이스 형태로 제공될 수 있다.
도 11은 일 실시 예에 따른 사용자 단말의 제어 방법을 설명하기 위한 흐름도이다.
도 11에 도시된 디스플레이 장치의 제어 방법에 따르면, 우선 디스플레이를 통해 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 사용자의 드로잉 입력을 수신한다(S1110).
이어서, 드로잉 입력이 수신되는 동안 획득된 사용자 음성에 대한 음성 인식을 수행하여 사용자 음성에 대응되는 텍스트를 획득한다(S1120). 다만, 사용자 음성은 반드시 드로잉 입력이 수신되는 동안 획득될 필요는 없으며, 기 설정된 시간 기간, 예를 들어 레코딩 모드가 실행되는 동안 획득되는 것도 가능하다. 여기서, 시맨틱(semantic) 정보를 포함하지 않을 수 있다.
이 후, 드로잉 입력에 대응되는 포맷 또는 표시 위치 중 적어도 하나에 기초하여 획득된 텍스트를 포맷팅하여 표시할 수 있다(S1130).
또한, S1110 단계에서는, 기 설정된 레코드 모드(record mode)를 실행하기 위한 제1 트리거 명령이 수신되면, 사용자 입력을 통해 드로잉 입력을 수신하고 사용자 음성을 획득할 수 있다.
또한, S1120 단계에서는, 기 설정된 레코드 모드를 중지하기 위한 제2 트리거 명령이 수신되면, 수신된 사용자 음성에 대한 음성 인식을 수행할 수 있다.
여기서, 텍스트의 포맷은, 텍스트 형상, 크기, 방향 또는 색상 중 적어도 하나를 포함할 수 있다. 이 경우, S1130 단계에서는, 드로잉 입력에 대응되는 텍스트의 포맷에 기초하여 획득된 텍스트를 포맷팅하고, 포맷팅된 텍스트를 드로잉 입력에 대응되는 위치에 표시할 수 있다.
또한, S1130 단계에서는, 드로잉 입력을 포맷팅된 텍스트로 대체하여 표시할 수 있다.
또한, 드로잉 입력은, 텍스트 드로잉 및 가이드 라인 드로잉을 포함할 수 있다. 여기서, 텍스트 드로잉은, 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 드로잉을 포함할 수 있다. 이 경우, 1130 단계에서는, 가이드 라인 드로잉 및 텍스트 드로잉 간 상대적 위치 관계에 기초하여 포맷팅된 텍스트를 표시할 수 있다.
또한, S1130 단계에서는, 텍스트 드로잉이 가이드 라인 드로잉 내에 포함되도록 드로잉되면, 포맷팅된 텍스트가 가이드 라인 드로잉 내에 포함되도록 표시하고, 텍스트 드로잉이 가이드 라인 드로잉을 교차하도록 드로잉되면, 포맷팅된 텍스트가 가이드 라인 드로잉을 교차하도록 표시할 수 있다.
또한, S1120 단계에서는, 가이드 라인 내의 텍스트 드로잉이 분리된 복수의 파트를 포함하면, 복수의 파트 중 제1 파트에 포함된 제1 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하고, 제2 파트에 포함된 제2 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별할 수 있다. 또한, 또한, S1120 단계에서는, 사용자 음성에 대한 음성 인식을 수행하여 제1 파트에 대응되는 제1 텍스트를 획득하고, 제2 파트에 대응되는 제2 텍스트를 획득할 수 있다. 이 경우, S1130 단계에서는, 제1 텍스트 드로잉에 대한 정보에 기초하여 제1 텍스트를 표시하고 제2 텍스트 드로잉에 대한 정보에 기초하여 제2 텍스트를 표시할 수 있다.
또한, S1120 단계에서는, 제1 사용자에 대응되는 제1 드로잉 입력 및 제1 사용자의 음성에 대응되는 텍스트를 획득하고, 제2 사용자에 대응되는 제2 드로잉 입력 및 제2 사용자의 음성에 대응되는 텍스트를 획득할 수 있다. 이 경우, S1130 단계에서는, 제1 드로잉 입력을 제1 사용자의 음성에 대응되는 텍스트로 대체하여 표시하고, 제2 드로잉 입력을 제2 사용자의 음성에 대응되는 텍스트로 대체하여 표시할 수 있다. 여기서, 제1 사용자의 음성에 대응되는 텍스트 및 제2 사용자의 음성에 대응되는 텍스트는 서로 구별되도록 표시될 수 있다.
또한, S1120 단계에서는, 음성의 특성, 음성의 입력 장치 또는 음성의 세기 중 적어도 하나에 기초하여 제1 사용자 음성 및 제2 사용자 음성을 식별할 수 있다.
상술한 다양한 실시 예들에 따르면, 간단한 드로잉 및 사용자 발화 만으로 텍스트를 사용자가 원하는 위치에 원하는 포맷으로 표시할 수 있게 된다. 이에 따라 사용자의 편의성이 향상된다. 예를 들어, 중요한 시점에 시각 절약이 가능하며, 잠재 투자자에게 비즈니스 모델 설명시 등에 효율적인 프리젠테이션이 가능하게 된다. 또한, 시간이 부족한 시점 예를 들어, 신호등에 정차하는 동안 주석(annotations)으로 스케치 만들 수 있으므로 위험한 상황을 피할 수 있게 된다. 또한, 시간이 중요하지 않은 경우(예를 들어, 회의의 오피셜 레포트를 준비하거나 청취자가 일반적인 아이디어를 소화하는 동안)에도 인식 오류를 수정할 수 있게 된다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 디스플레이 장치에 설치 가능한 어플리케이션 형태로 구현될 수 있다. 또는 상술한 본 개시의 다양한 실시 예들에 따른 방법들, 예를 들어, 음성 인식은 딥 러닝 기반의 인공 신경망(또는 심층 인공 신경망) 즉, 학습 네트워크 모델을 이용하여 수행될 수 있다.
또한, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 디스플레이 장치에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다.
또한, 상술한 본 개시의 다양한 실시 예들은 디스플레이 장치에 구비된 임베디드 서버, 또는 디스플레이 장치의 외부 서버를 통해 수행되는 것도 가능하다.
한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 디스플레이 장치(예: 디스플레이 장치(A))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 본 개시의 일 실시 예에 따르면, 이상에서 설명된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
또한, 상술한 다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (15)

  1. 디스플레이 장치에 있어서,
    디스플레이;
    적어도 하나의 명령을 저장하는 메모리; 및
    상기 디스플레이 및 상기 메모리와 연결되어 상기 디스플레이 장치를 제어하는 프로세서;를 포함하며,
    상기 프로세서는,
    상기 적어도 하나의 명령어를 실행함으로써,
    상기 디스플레이를 통해 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 사용자의 드로잉 입력을 수신하고,
    상기 드로잉 입력이 수신되는 동안 획득된 사용자 음성에 대한 음성 인식을 수행하여 상기 사용자 음성에 대응되는 텍스트를 획득하고,
    상기 드로잉 입력에 대응되는 포맷 또는 표시 위치 중 적어도 하나에 기초하여 상기 획득된 텍스트를 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    기 설정된 레코드 모드(record mode)를 실행하기 위한 제1 트리거 명령이 수신되면, 상기 사용자 입력을 통해 상기 드로잉 입력을 수신하고, 상기 사용자 음성을 획득하며,
    상기 기 설정된 레코드 모드를 중지하기 위한 제2 트리거 명령이 수신되면, 상기 수신된 사용자 음성에 대한 음성 인식을 수행하는, 디스플레이 장치.
  3. 제1항 또는 제2항에 있어서,
    상기 텍스트의 포맷은,
    텍스트 형상, 크기, 방향 또는 색상 중 적어도 하나를 포함하며,
    상기 프로세서는,
    상기 드로잉 입력에 대응되는 상기 텍스트의 포맷에 기초하여 상기 획득된 텍스트를 포맷팅하고, 상기 포맷팅된 텍스트를 상기 드로잉 입력에 대응되는 위치에 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  4. 제3항에 있어서,
    상기 프로세서는,
    상기 드로잉 입력을 상기 포맷팅된 텍스트로 대체하여 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  5. 제3항에 있어서,
    상기 드로잉 입력은,
    텍스트 드로잉 및 가이드 라인 드로잉을 포함하고,
    상기 텍스트 드로잉은,
    텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 드로잉을 포함하며,
    상기 프로세서는,
    상기 가이드 라인 드로잉 및 상기 텍스트 드로잉 간 상대적 위치 관계에 기초하여 상기 포맷팅된 텍스트를 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  6. 제5항에 있어서,
    상기 프로세서는,
    상기 텍스트 드로잉이 상기 가이드 라인 드로잉 내에 포함되도록 드로잉되면, 상기 포맷팅된 텍스트가 상기 가이드 라인 드로잉 내에 포함되도록 표시하고,
    상기 텍스트 드로잉이 상기 가이드 라인 드로잉을 교차하도록 드로잉되면, 상기 포맷팅된 텍스트가 상기 가이드 라인 드로잉을 교차하도록 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  7. 제5항에 있어서,
    상기 프로세서는,
    상기 가이드 라인 내의 상기 텍스트 드로잉이 분리된 복수의 파트를 포함하면, 상기 복수의 파트 중 제1 파트에 포함된 제1 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하고, 제2 파트에 포함된 제2 텍스트 드로잉의 포맷 또는 표시 위치 중 적어도 하나를 식별하고,
    상기 사용자 음성에 대한 음성 인식을 수행하여 상기 제1 파트에 대응되는 제1 텍스트를 획득하고, 상기 제2 파트에 대응되는 제2 텍스트를 획득하고,
    상기 제1 텍스트 드로잉에 대한 정보에 기초하여 상기 제1 텍스트를 표시하고 상기 제2 텍스트 드로잉에 대한 정보에 기초하여 상기 제2 텍스트를 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  8. 제1항 또는 제2항에 있어서,
    상기 프로세서는,
    제1 사용자에 대응되는 제1 드로잉 입력 및 상기 제1 사용자의 음성에 대응되는 텍스트를 획득하고,
    제2 사용자에 대응되는 제2 드로잉 입력 및 상기 제2 사용자의 음성에 대응되는 텍스트를 획득하고,
    상기 제1 드로잉 입력을 상기 제1 사용자의 음성에 대응되는 텍스트로 대체하여 표시하고, 상기 제2 드로잉 입력을 상기 제2 사용자의 음성에 대응되는 텍스트로 대체하여 표시하도록 상기 디스플레이를 제어하며,
    상기 제1 사용자의 음성에 대응되는 텍스트 및 상기 제2 사용자의 음성에 대응되는 텍스트는 서로 구별되도록 표시되는, 디스플레이 장치.
  9. 제8항에 있어서,
    상기 프로세서는,
    음성의 특성, 음성의 입력 장치 또는 음성의 세기 중 적어도 하나에 기초하여 상기 제1 사용자 음성 및 상기 제2 사용자 음성을 식별하는, 디스플레이 장치.
  10. 제1항 또는 제2항에 있어서,
    상기 드로잉 입력은,
    시맨틱(semantic) 정보를 포함하지 않는, 디스플레이 장치.
  11. 디스플레이 장치의 제어 방법에 있어서,
    디스플레이를 통해 텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 사용자의 드로잉 입력을 수신하는 단계;
    상기 드로잉 입력이 수신되는 동안 획득된 사용자 음성에 대한 음성 인식을 수행하여 상기 사용자 음성에 대응되는 텍스트를 획득하는 단계; 및
    상기 드로잉 입력에 대응되는 포맷 또는 표시 위치 중 적어도 하나에 기초하여 상기 획득된 텍스트를 표시하는 단계;를 포함하는 제어 방법.
  12. 제11항에 있어서,
    상기 드로잉 입력을 수신하는 단계는,
    기 설정된 레코드 모드(record mode)를 실행하기 위한 제1 트리거 명령이 수신되면, 상기 사용자 입력을 통해 상기 드로잉 입력을 수신하고, 상기 사용자 음성을 획득하며,
    상기 사용자 음성에 대응되는 텍스트를 획득하는 단계는,
    상기 기 설정된 레코드 모드를 중지하기 위한 제2 트리거 명령이 수신되면, 상기 수신된 사용자 음성에 대한 음성 인식을 수행하는, 제어 방법.
  13. 제11항 또는 제12항에 있어서,
    상기 텍스트의 포맷은,
    텍스트 형상, 크기, 방향 또는 색상 중 적어도 하나를 포함하며,
    상기 획득된 텍스트를 표시하는 단계는,
    상기 드로잉 입력에 대응되는 상기 텍스트의 포맷에 기초하여 상기 획득된 텍스트를 포맷팅하고, 상기 포맷팅된 텍스트를 상기 드로잉 입력에 대응되는 위치에 표시하는, 제어 방법.
  14. 제13항에 있어서,
    상기 획득된 텍스트를 표시하는 단계는,
    상기 드로잉 입력을 상기 포맷팅된 텍스트로 대체하여 표시하는, 제어 방법.
  15. 제13항에 있어서,
    상기 드로잉 입력은,
    텍스트 드로잉 및 가이드 라인 드로잉을 포함하고,
    상기 텍스트 드로잉은,
    텍스트의 포맷 또는 표시 위치 중 적어도 하나와 관련된 드로잉을 포함하며,
    상기 획득된 텍스트를 표시하는 단계는,
    상기 가이드 라인 드로잉 및 상기 텍스트 드로잉 간 상대적 위치 관계에 기초하여 상기 포맷팅된 텍스트를 표시하는, 제어 방법.
PCT/KR2022/017794 2021-12-14 2022-11-11 디스플레이 장치 및 그 제어 방법 WO2023113250A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0178471 2021-12-14
KR1020210178471A KR20230089783A (ko) 2021-12-14 2021-12-14 디스플레이 장치 및 그 제어 방법

Publications (1)

Publication Number Publication Date
WO2023113250A1 true WO2023113250A1 (ko) 2023-06-22

Family

ID=86772981

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/017794 WO2023113250A1 (ko) 2021-12-14 2022-11-11 디스플레이 장치 및 그 제어 방법

Country Status (2)

Country Link
KR (1) KR20230089783A (ko)
WO (1) WO2023113250A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101026738B1 (ko) * 2010-11-30 2011-04-08 중원웰픽스주식회사 전자판서 기능을 갖는 멀티미디어 터치 제어 시스템
KR20120103599A (ko) * 2009-11-25 2012-09-19 마이크로소프트 코포레이션 퀵 액세스 유틸리티
KR20140074725A (ko) * 2012-12-10 2014-06-18 엘지전자 주식회사 음성-텍스트 변환 디스플레이 장치 및 그 방법
KR102065409B1 (ko) * 2013-09-04 2020-01-13 엘지전자 주식회사 이동단말기 및 그 제어방법
KR102174565B1 (ko) * 2016-02-08 2020-11-05 미쓰비시덴키 가부시키가이샤 표시 제어 장치, 입력 표시 시스템, 표시 제어 방법 및 프로그램

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120103599A (ko) * 2009-11-25 2012-09-19 마이크로소프트 코포레이션 퀵 액세스 유틸리티
KR101026738B1 (ko) * 2010-11-30 2011-04-08 중원웰픽스주식회사 전자판서 기능을 갖는 멀티미디어 터치 제어 시스템
KR20140074725A (ko) * 2012-12-10 2014-06-18 엘지전자 주식회사 음성-텍스트 변환 디스플레이 장치 및 그 방법
KR102065409B1 (ko) * 2013-09-04 2020-01-13 엘지전자 주식회사 이동단말기 및 그 제어방법
KR102174565B1 (ko) * 2016-02-08 2020-11-05 미쓰비시덴키 가부시키가이샤 표시 제어 장치, 입력 표시 시스템, 표시 제어 방법 및 프로그램

Also Published As

Publication number Publication date
KR20230089783A (ko) 2023-06-21

Similar Documents

Publication Publication Date Title
WO2017209568A1 (ko) 전자 장치 및 그의 동작 방법
CN109313532B (zh) 信息处理设备、信息处理方法和程序
WO2016024835A1 (en) Apparatus and method for processing drag and drop
WO2020184935A1 (en) Electronic apparatus and method for controlling thereof
WO2019231138A1 (en) Image display apparatus and operating method of the same
WO2021071155A1 (en) Electronic apparatus and control method thereof
WO2013125915A1 (en) Method and apparatus for processing information of image including a face
WO2019194356A1 (ko) 전자 장치 및 그 제어 방법
WO2023113250A1 (ko) 디스플레이 장치 및 그 제어 방법
WO2019054698A1 (en) IMAGE PROCESSING APPARATUS, IMAGE PROCESSING METHOD, AND COMPUTER-READABLE RECORDING MEDIUM
WO2021025495A1 (en) Electronic device and method for processing handwriting input thereof
US20210157981A1 (en) Method and terminal for performing word segmentation on text information, and storage medium
WO2021040180A1 (ko) 디스플레이장치 및 그 제어방법
WO2018056587A1 (en) Electronic apparatus and controlling method thereof
WO2019164196A1 (ko) 문자를 인식하기 위한 전자 장치 및 방법
WO2019216484A1 (ko) 전자 장치 및 그 동작방법
WO2016117854A1 (ko) 음성 신호를 기초로 한 텍스트 편집 장치 및 텍스트 편집 방법
WO2022092487A1 (ko) 전자 장치 및 그 제어 방법
WO2022080739A1 (ko) 디스플레이 장치 및 그 제어 방법
WO2021167289A1 (en) Device and control method thereof
WO2023022552A1 (ko) 전자 장치 및 그 제어 방법
WO2024058474A1 (ko) 음성 인식을 수행하는 전자 장치 및 이의 제어 방법
WO2020159032A1 (ko) 복수의 어플리케이션에 카메라에서 획득한 이미지를 제공하는 전자 장치 및 그의 동작 방법
WO2022186450A1 (ko) 전자 장치 및 그 제어 방법
WO2023229156A1 (ko) 외부 장치로부터 어플리케이션 화면을 수신하여 표시하는 전자 장치 및 그 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22907720

Country of ref document: EP

Kind code of ref document: A1