WO2024057498A1 - 文字情報表示装置及び文字情報表示方法 - Google Patents

文字情報表示装置及び文字情報表示方法 Download PDF

Info

Publication number
WO2024057498A1
WO2024057498A1 PCT/JP2022/034588 JP2022034588W WO2024057498A1 WO 2024057498 A1 WO2024057498 A1 WO 2024057498A1 JP 2022034588 W JP2022034588 W JP 2022034588W WO 2024057498 A1 WO2024057498 A1 WO 2024057498A1
Authority
WO
WIPO (PCT)
Prior art keywords
character
character information
display device
information display
image
Prior art date
Application number
PCT/JP2022/034588
Other languages
English (en)
French (fr)
Inventor
尚久 高見澤
康宣 橋本
展明 甲
Original Assignee
マクセル株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マクセル株式会社 filed Critical マクセル株式会社
Priority to PCT/JP2022/034588 priority Critical patent/WO2024057498A1/ja
Publication of WO2024057498A1 publication Critical patent/WO2024057498A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics

Definitions

  • the present invention relates to a character information display device and a character information display method.
  • Patent Document 1 states, ⁇ A HUD device, which is an AR display device installed in an in-vehicle system, inputs an image captured by a camera and selects an object area from the image.
  • an image selection section that extracts images based on the visibility of the object region;
  • a visibility judgment section that determines the user's visibility of the object region based on index values;
  • an image processing process that increases visibility based on the visibility of the object region.
  • It has an AR image generation section that generates an AR image regarding an object, and an AR display section that superimposes and displays the AR image on the screen, and depending on the visibility, can display or not display the AR image, and Controls the content of image processing to be changed. (Summary excerpt)".
  • the text on the document may be flipped vertically, rotated to the left, or rotated to the right based on the vertical axis of your field of vision. It may become difficult to read. However, since other people are also looking at the same documents, it is not possible to turn the documents in a direction that is easier for oneself to read.
  • the HUD device of Patent Document 1 corrects and displays a signboard that is viewed diagonally as if it were viewed from the front. Therefore, since the objects to be visually recognized in Patent Document 1 are assumed to be readable in an upright state, such as signboards, situations in which the vertical direction of characters is overturned or reversed are not taken into consideration.
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to improve the visibility of characters when the vertical direction of the characters is reversed or overturned with respect to the vertical direction of the user's field of vision. .
  • the present invention includes the configurations described in the claims.
  • FIG. 1 is a diagram showing an example of an application scene of the character information display device according to the present embodiment.
  • FIG. 1 is a diagram showing an example of an application scene of the character information display device according to the present embodiment.
  • FIG. 1 is an external view of an HMD as an example of a text information display device.
  • 5 is a flowchart showing the flow of processing of the character information display device in the first embodiment.
  • FIG. 7 is a diagram showing block division processing and attention block determination processing.
  • the figure which shows an example of a user's field of vision after rotation processing The figure which shows an example of a user's field of vision after rotation processing.
  • FIG. 7 is a diagram illustrating processing for determining a processing target area in the second embodiment.
  • the figure which shows an example of a user's visual field after the rotation process in 2nd Embodiment. 7 is a flowchart showing the flow of processing of the character information display device in the second embodiment.
  • FIG. 7 is a diagram illustrating input operations in the third embodiment.
  • the figure which shows the GUI screen example in 4th Embodiment. 12 is a flowchart showing the flow of processing of the character information display device in the fourth embodiment.
  • FIG. 7 is a diagram showing the contents of processing according to the fifth embodiment.
  • FIG. 1 is a diagram showing an example of an application scene of the character information display device according to the present embodiment, and shows a situation where a plurality of people are reading a document with characters written on it.
  • HMD head mounted display
  • a document D1 on which characters are written is viewed by multiple people surrounding it.
  • the vertical direction of the field of view of member A who visually recognizes material D1 matches the vertical direction of the characters written on material D1.
  • the vertical direction of the field of view of member B and the vertical direction of the characters written in document D1 are reversed.
  • the vertical direction of the letters written in document D1 is also upside down relative to the vertical direction of the field of view. Therefore, members B, C, and D read the letters inverted or horizontally, making them difficult to read.
  • FIG. 1 illustrates a state in which an AR image D1_AR is displayed on the left-eye display 102a.
  • the HMD 100 includes a transmissive display 102, and displays the rotated characters so as to overlap the real image of the material D1 that exists in the real world and is viewed by the user B through the display 102.
  • the user B can visually recognize the rotated characters as if they were displayed on the document D1, and can realize augmented reality display (hereinafter referred to as "AR display").
  • AR display augmented reality display
  • the display 102 of the HMD 100 is a non-transparent type
  • the HMD 100 is equipped with a camera that images the field of view of the user B, and the rotated characters are superimposed on the characters of the material D1 reflected in the image taken by the camera. May be displayed.
  • the present embodiment can be used as a video through type HMD 100.
  • the HMD 100 is one aspect of the character information display device according to the present embodiment.
  • the text information display device may be implemented in smart glasses, a smartphone, a tablet terminal, etc. in addition to the HMD 100.
  • rotated characters may be displayed in AR on a landscape viewed from the real world using a transmissive display, or AR may be displayed on an image displayed through video.
  • smartphones and tablets AR is displayed on images displayed through video.
  • members C and D When members C and D view document D1 through the HMD 100 that they are also wearing, members C and D rotate the letters so that the vertical direction of their field of vision matches the vertical direction of the letters of document D1 displayed on HMD 100. Each of them is displayed on the HMD 100 attached to it.
  • FIG. 2 is a diagram showing an example of an application scene of the character information display device according to the present embodiment, and shows a situation in which a document in which characters are written in different vertical directions is being read.
  • the text direction on the left page matches the vertical direction of the user's field of view
  • the text direction on the right page will be horizontally rotated with respect to the vertical direction of the user's field of vision, and the text direction on the right page will match the vertical direction of the user's visual field. If it matches the vertical direction of the field of view, the text direction on the left page will be flipped horizontally with respect to the vertical direction of the field of view.
  • D2_AR which is an AR image rotated so that the vertical direction of the characters on the right page matches the vertical direction of the user's field of view, is displayed in AR over the document D2.
  • the text direction on the left page matches the vertical direction of the field of view, so the text on the left page is not rotated.
  • the generation process of D1_AR will be explained in the first embodiment, and the generation process of D2_AR will be explained in the second embodiment.
  • FIG. 3 is an external view of an HMD as an example of a character information display device.
  • the HMD 100 includes a controller 110, a left eye display 102a, a right eye display 102b, a gyro sensor 162, a geomagnetic sensor 163, an acceleration sensor 164, a line of sight detection sensor 168, a left camera 112a, a right camera 112b, a depth sensor 167, a line of sight detection sensor 168, It is configured by mounting a battery 170 in a mounting casing 190.
  • FIG. 4 is a functional block diagram of the HMD.
  • the HMD 100 includes a processor 101 including a CPU and an MPU, a display 102 including a left eye display 102a and a right eye display 102b, a ROM 103, a RAM 104, a storage 105, an in-camera 111, a distance measuring camera 112 including a left camera 112a and a right camera 112b, Microphone 121, speaker 122, operation interface (I/F) 130, wireless LAN communication device 141 (for example, a device using Wifi (registered trademark)), close proximity wireless communication device 142 (for example, a device using Bluetooth (registered trademark)) , a vibrator 150, a sensor group 160, and a battery 170, which are connected to each other via a bus 106.
  • a processor 101 including a CPU and an MPU
  • a display 102 including a left eye display 102a and a right eye display 102b
  • a ROM 103 including a left eye display 102a and a right eye
  • the sensor group 160 includes a GPS 161, a gyro sensor 162, a geomagnetic sensor 163, an acceleration sensor 164, an illuminance sensor 165, a proximity sensor 166, a depth sensor (ToF sensor) 167, and a line of sight detection sensor 168.
  • the distance measuring camera 112 images the foreground using each of the left camera 112a and the right camera 112b, and measures the distance to the object imaged in the image.
  • the display 102 is a display that displays AR images and the like, and includes a left eye display 102a and a right eye display 102b.
  • the image captured by the left camera 112a and the left-eye AR image are displayed on the left-eye display 102a.
  • the image captured by the right camera 112b and the right-eye AR image are displayed on the right-eye display 102b.
  • the image is displayed three-dimensionally (three-dimensionally) as if it were located at a predetermined distance in real space.
  • the technology for realizing three-dimensional display on the HMD 100 is not limited to the above, and any known technology may be used as appropriate.
  • the distance measurement camera 112 is used as the distance measurement sensor, and the display position of the AR image including the rotated characters is determined by analyzing the distance measurement image captured by the distance measurement camera 112. Specifically, the AR image is displayed superimposed on the position of the document D1 or document D2 where the characters before rotation are written.
  • an out camera consisting of a camera from a single viewpoint that images the outside world images the material D1 and the material D2, and at the same time, the depth sensor 167 measures the distance in the depth direction of the material D1 and the material D2, and the gyro sensor 162 measures the vertical and horizontal positions of the material D1 and the material D2. Changes may be measured.
  • the out camera, the depth sensor 167, and the gyro sensor 162 are combined to form a distance measuring camera.
  • the operation I/F 130 is, for example, a button provided on the side surface of the mounting casing 190. Further, when performing gesture input, the distance measuring camera 112 serves as a form of the operation I/F 130. Furthermore, when inputting the line of sight, the line of sight detection sensor 168 serves as one form of the operation I/F 130.
  • FIG. 5 is a functional block diagram of the character information display program.
  • the processor 101 loads the character information display program installed in the storage 105 into the RAM 104 and executes it, thereby realizing the functions of the character information display device described in the embodiments described later.
  • This character information display program includes an image capture section 201, an image division section 202, a character block determination section 203, an angle correction section 204, and a display control section 205.
  • the character block determination unit 203 includes a determination target determination unit 2031, a character determination unit 2032, and a character learned model storage unit 2033.
  • the angle correction unit 204 includes a tilt angle determination unit 2041, a tilt angle learned model storage unit 2042, and a rotation processing unit 2043.
  • the rotation processing unit 2043 refers to the setting information stored in the setting information storage unit 1051 formed in a partial storage area of the storage 105 and determines whether rotation is necessary to correct the inclination angle of the character.
  • the character block determination unit 203 and the angle correction unit 204 in this embodiment are configured using artificial intelligence (AI), they are configured using a conventional OCR (optical character reader) module that does not use AI. You can.
  • the angle correction unit 204 may also have a configuration that does not use AI, for example, a configuration that determines the vertical axis of the character from the shape of the character and calculates the inclination angle of the vertical axis of the character with respect to the vertical axis of the display 102.
  • FIG. 6 is a flowchart showing the process flow of the character information display device in the first embodiment.
  • the image capture unit 201 of the HMD 100 captures a ranging image captured by the ranging camera 112 of the real world (S101).
  • the distance measurement image is an image of the field of view of the user wearing the HMD 100.
  • the image dividing unit 202 divides the distance measurement image into a plurality of blocks (S102). This block becomes a processing unit for determining whether each block contains characters. Therefore, it is preferable that the size is large enough to include a plurality of characters.
  • FIG. 7 is a diagram showing block division processing and attention block determination processing.
  • Reference numeral 700 in FIG. 7 is a partial explanatory diagram showing block division processing and attention block determination processing, and is not displayed on the HMD 100.
  • the image dividing unit 202 sets a plurality of horizontal lines Lh and a plurality of vertical lines Lv on the distance measurement image D1_img of the material D1, and divides the distance measurement image D1_img into a plurality of blocks.
  • the determination target determining unit 2031 acquires line-of-sight information from the line-of-sight detection sensor 168, and determines the block that includes the viewpoint P as the block of interest BL (S103).
  • the character determination unit 2032 is configured using a neural network including an input layer, a hidden layer, and an output layer.
  • a convolutional neural network CNN includes a convolution layer and a pooling layer.
  • the convolution layer extracts features from the block image, and the pooling layer reduces the image size and performs downsampling. Thereafter, it may be connected to a fully connected layer corresponding to a hidden layer and an output layer, or Global Average Pooling may be performed in which one feature map is associated with one class without using a fully connected layer.
  • the character learned model storage unit 2033 stores character information in which many characters such as hiragana, kanji, and alphabets are erected vertically, and then rotated to 90 degrees, 180 degrees (inverted vertically), and 270 degrees, for example.
  • a trained model is stored in which machine learning is performed using the same neural network as the character determination unit 2032 using teacher data including character information rotated at each angle.
  • the inclination angle of the character information used as teacher data is not limited to every 90 degrees as described above, but may be every smaller inclination angle, such as every 45 degrees or every 30 degrees.
  • the character determining unit 2032 inputs the block of interest BL determined by the determination target determining unit 2031 into the input layer, and determines whether the block of interest BL is to be classified as a character block (S104). If the block of interest BL is not a character block (S104: No), the process ends.
  • the determination target determining unit 2031 determines all blocks adjacent to the block of interest BL as processing targets. If the process of determining whether or not all adjacent blocks determined as processing targets are character blocks has not been completed (S105: No), one of the blocks adjacent to the block of interest BL is determined as a new processing target. (S106), and the determination by the character determination unit 2032 is repeated (S104).
  • the determination target determining unit 2031 determines whether there is a character block among the adjacent blocks. . If there is one or more character blocks in the adjacent blocks (S107: Yes), all of those character blocks are determined as new blocks of interest BL (S108), and the processing from step S104 is repeated.
  • the angle correction unit 204 corrects the angle so that the vertical direction of the characters in the character block matches the vertical direction of the display 102 of the HMD 100 (S109).
  • the tilt angle determination unit 2041 is connected to the output layer of the character determination unit 2032, and at least one or more recognized characters are acquired. Since the vertical direction of characters on the same page is generally the same, it is sufficient to find the inclination angle with respect to the vertical direction of the display 102 for one character or several characters in a character block. Thereby, it is possible to reduce the processing load for detecting the tilt angle and improve the processing speed.
  • the tilt angle learned model storage unit 2042 performs machine learning using character information in which many characters such as hiragana, kanji, and alphabets are vertically erected and character information in which the characters are rotated, for example, by 10 degrees, as training data. Store the tilt angle learned data.
  • the tilt angle determination unit 2041 inputs at least one or more characters obtained from the character determination unit 2032 into the tilt angle learned data and outputs a pattern with a high degree of coincidence of tilt angles or a tilt angle of a pattern with a high degree of coincidence. .
  • the rotation processing unit 2043 rotates all character blocks in a direction that offsets the tilt angle, and generates rotated character information.
  • the rotation processing unit 2043 may refer to the setting information stored in the setting information storage unit 1051 and select only the characters that belong to the angular range of the tilt angle to be corrected to be rotated.
  • the display control unit 205 acquires distance information to an object in the real world on which text information is written, for example, the document D1, based on the distance measurement image. Then, the AR image displaying the rotated character information is displayed on the display 102 so as to overlap the position where the character information is written in the real world (S110).
  • FIG. 8 is a diagram showing an example of the user's field of view after the rotation process.
  • the desk and the document D1 placed on it can be seen through the HMD 100. Furthermore, an AR image D1_AR displaying rotated character information is displayed in front of the document D1. Thereby, character information whose vertical direction matches the vertical direction of the display 102 can be visually recognized as being superimposed on the material D1, which is a physical object.
  • FIG. 9 is also a diagram showing an example of the user's field of view after the rotation process.
  • the HMD 100 displays an AR image D3_AR in which only the text information of the pamphlet D3 is rotated without rotating the photograph, overlapping the text information portion of the pamphlet D3.
  • FIG. 10 is also a diagram showing an example of the user's field of view after the rotation process.
  • the display control unit 205 displays an AR image Mask_AR that masks the position of the text portion of the actual pamphlet D3, and displays an AR image D3_AR including the text information after rotation processing in front of the Mask_AR.
  • the AR image Mask_AR lowers the visibility of the actual characters by, for example, displaying an image of the same color as the characters of the actual pamphlet D3 in the mask range, or displaying it only in a portion other than the characters in the mask range.
  • the AR image D3_AR in a color different from that of the actual characters, it is possible to improve the visibility of the characters displayed in AR. This makes it possible to improve the visibility of the AR-displayed characters even when the rotated characters displayed in the real world overlap with the characters in the real world.
  • a liquid crystal shutter whose transparency can be electrically varied, a device that can partially block the view is placed on the outside of the display (on the real object side), and the text part of the real pamphlet D3 is By performing the masking operation at the position using the liquid crystal shutter, it is possible to further reduce the visibility of the actual characters and relatively improve the visibility of the characters displayed in AR.
  • the second embodiment is an embodiment in which when a character block is displayed in a display, a plurality of surrounding blocks including the character block are collectively rotated and displayed in AR.
  • FIG. 11 is a diagram illustrating processing for determining a processing target area in the second embodiment.
  • document D2 contains a map that includes both shapes showing the shapes of buildings and the names of the buildings.
  • the angle correction unit 204 determines that the block of interest BL is a character block, it determines a plurality of blocks including the block of interest BL as the processing target area BLs, rotates them all together, and displays them in AR.
  • FIG. 12 is a diagram showing an example of the user's field of view after rotation processing in the second embodiment.
  • an AR image D2_AR in which a processing target area BLs including blocks that are not character blocks is integrally rotated is displayed in AR on the front of the document D2.
  • information that becomes difficult to recognize when the top, bottom, left, right, or placement position of non-text map shapes and text information about the location on the map shape changes is rotated integrally with the text blocks. Therefore, the visibility of text information can be improved without reducing the visibility of non-text information.
  • FIG. 13 is a flowchart showing the process flow of the character information display device in the second embodiment.
  • Steps S101 to S104 are the same as in the first embodiment, so repeated explanation will be omitted.
  • the determination target determining unit 2031 determines a plurality of blocks including the block of interest BL as one processing target area BLs (S201).
  • the size of the processing target area BLs may be an area including all blocks displayed on the display 102, or may be determined in advance as a range of m ⁇ n blocks centered on the block of interest BL.
  • the angle correction unit 204 detects the vertical tilt angle of the characters of the block of interest BL with respect to the vertical direction of the display 102. Then, the angle of the entire processing target area is corrected so that the vertical direction of the characters of the block of interest matches the vertical direction of the display 102 (S202).
  • the display control unit 205 displays the rotated processing target area in AR (S203).
  • a plurality of blocks centering around a character block are rotated to display the vertical direction of the plurality of blocks in accordance with the vertical direction of the display 102, so that characters can be displayed while maintaining the shape of a figure such as a map. visibility can be improved.
  • the third embodiment is an embodiment in which a threshold value is set based on the inclination angle of a character to determine whether or not rotation is necessary.
  • FIG. 14 is a diagram illustrating input operations in the third embodiment.
  • a plurality of text material samples 1400a, 1400b, 1400c, 1400d, and 1400e with different inclination angles are displayed on the display 102 of the HMD 100, and the user is allowed to select a sample to be rotated and a sample not to be rotated. Set the angle range for determining whether rotation is necessary.
  • a pop-up menu 1402 for inputting "rotation required” or “rotation not required” is displayed.
  • the tilt angle corresponding to the sample 1400b can be set without performing rotation processing.
  • the tilt angles shown by samples 1400a, 1400b, and 1400c are set to "not rotate”
  • the tilt angles shown by samples 1400d and 1400e are set to "rotate.” .
  • the rotation angle is written into the setting information and stored in the setting information storage section 1051.
  • the rotation processing unit 2043 determines whether or not rotation processing is necessary according to the set angle range, and performs rotation processing only when necessary.
  • the pop-up menu 1402 is displayed over the rotated AR display, and the user can rotate the document based on (subjective tolerance of) the difficulty of reading due to the tilt of the actual document.
  • the rotation angle setting information may be written by determining whether the process is necessary and instructing the process using the pop-up menu 1402.
  • the threshold and range of the tilt angle to be rotated by the rotation processing unit 2043 can be set, so that, for example, the tilt angle of about 10 degrees with respect to the vertical direction of the display 102 (with respect to the 0 o'clock direction) If so, it may be determined that the characters are not difficult to read and the rotated display may not be performed.
  • the setting information may be stored in the HMD 100, and the angle at which the user last instructed rotation may be stored and reflected in the settings from next time onwards.
  • the fourth embodiment is an embodiment in which a tilt angle is manually input when the tilt of a character cannot be automatically identified.
  • FIG. 15 is a diagram showing an example of the user's field of view after rotation processing in the fourth embodiment.
  • FIG. 16 is a diagram showing an example of a GUI screen in the fourth embodiment.
  • the display control unit 205 displays the rotated AR image D1_AR, and also displays a "manual rotation” button 1501 for inputting whether or not manual rotation is necessary.
  • the user visually checks the AR image and determines that the rotation process is insufficient, the user operates the "manual rotation" button 1501.
  • the display control unit 205 displays a first layer screen 1610 for selecting the tilt angle shown in FIG. 16.
  • thumbnail images 1600a, 1600b, 1600c, and 1600d rotated by 45 degrees, for example, and selection buttons 1601 for each thumbnail image are displayed side by side.
  • thumbnail image 1600c When the user selects one thumbnail image, for example, thumbnail image 1600c, by viewpoint input or gesture input, display control unit 205 displays second layer screen 1620.
  • second layer screen 1620 On the second layer screen 1620, a plurality of thumbnail images 1600e, 1600f, and 1600g rotated at pitches with smaller tilt angles based on the tilt angle of the thumbnail image 1600c are displayed side by side with selection buttons 1601 for each thumbnail image.
  • the tilt angle to be corrected can be input with high accuracy, especially when using viewpoint input.
  • FIG. 17 is a flowchart showing the process flow of the character information display device in the fourth embodiment.
  • AR display is performed in step S110 or S203. At that time, a "manual rotation button" 1501 shown in FIG. 15 is also displayed.
  • the display control unit 205 displays the first layer screen 1610 (S302).
  • the display control unit 205 displays the second layer screen 1620 (S304).
  • the rotation processing unit 2043 rotates only the text in the first embodiment and the processing target area in the thumbnail selected in S305 in the second embodiment.
  • the image is rotated to match the tilt angle of the image, and the display control unit 205 displays the angle-corrected AR image (S306). After that, the process ends.
  • the tilt angle of the characters when the tilt angle of the characters is insufficiently corrected in the AR image displayed with the tilt angle corrected, the tilt angle can be corrected by the user's operation input. Thereby, visibility can be improved even when, for example, the machine learning of the trained model is insufficient and the tilt angle correction is insufficient.
  • the learned model may be updated by adding it as teacher data to the learned model. This allows the trained model to be adjusted to suit the user's preferences.
  • the fifth embodiment is an embodiment in which perspective distortion is corrected in addition to rotation processing when correcting the tilt angle.
  • FIG. 18 is a diagram showing the contents of the processing in the fifth embodiment, and shows perspective distortion correction processing.
  • Image 1800 shows the document D1 looking down from directly above.
  • the field of view of the same document D1 as seen by the human eye at the same height as the document that is, in the image 1801 taken from the same height as the document D1 by the range-finding camera 112 of the HMD 100, there is a view toward the depth of the document D1.
  • the width (corresponding to the horizontal direction in FIG. 18) becomes narrower.
  • the image 1803 obtained by correcting the perspective of the image 1802 may be displayed in AR. Thereby, visibility can be improved by correcting perspective distortion and performing AR display.
  • new perspective processing may be added to make the AR image fit in with the real world.
  • the text is easy to read when looking only at the image 1803, but when the image 1803 is superimposed on the image 1801 of the real object, the image 1801 suffers from perspective distortion where the text becomes smaller in the depth direction. Since the AR image of image 1803 is erected with respect to the vertical direction of display 102, the perspective distortion of image 1801 is different. Therefore, when image 1803 is displayed superimposed on image 1801, it does not blend in with image 1801.
  • the angle correction unit 204 generates an image 1804 in which perspective processing corresponding to the perspective of the image 1801 is added to the newly rotated image 1803, and the display control unit 205 adds the perspective processing image 1804 to AR.
  • An image may be displayed.
  • the sixth embodiment is an embodiment in which an object that obstructs display is automatically determined from a camera image, and a rotated image is displayed in a place where it does not become an obstacle.
  • the display control unit 205 may perform the AR display by automatically selecting a location that does not obstruct the view when viewing the outside world through the display 102. For example, a predetermined area including the center of the display 102 may be set as a non-display area for the AR image, and the AR image may be arranged around the non-display area, where the area does not obstruct the view.
  • the display control unit 205 may cut out the object (document) from the real world image and display it (automatically).
  • an image with rotated characters can be displayed in AR while ensuring peripheral visibility.
  • the display control unit 205 receives position information from the GPS 161, and the geomagnetic sensor 163 determines the orientation of the display 102 of the HMD 100.
  • Direction information indicating the direction may be acquired, and the position information and direction information may be associated with the AR image and stored in the storage 105.
  • the display control unit 205 may display the AR image on the display 102 when the display 102 faces the position information and direction information associated with the AR image.
  • the AR image can be placed outside the display area of the display 102, so the AR image can be displayed without being limited to the display area of the display 102.
  • the configurations of the character block determination unit 203 and the angle correction unit 204 and their processing order are not limited to the above.
  • the character block determination unit 203 may be configured by using a character orientation determination/rotation processing tilt detection correction module as preprocessing, and combining this with AI-OCR.
  • the orientation determination/rotation processing tilt detection correction module corrects the vertical orientation of characters.
  • Orientation Determination/Rotation Processing After the tilt detection correction module performs the correction to be corrected, character recognition processing may be performed.
  • each processing example may be independent programs, or a plurality of programs may constitute one application program. Furthermore, the order in which each process is performed may be changed.
  • Some or all of the functions of the present invention described above may be realized by hardware, for example, by designing an integrated circuit.
  • the functions may be realized in software by having a microprocessor unit, CPU, etc. interpret and execute operating programs for realizing the respective functions.
  • the scope of software implementation is not limited, and hardware and software may be used together.
  • a part or all of each function may be realized by a server. Note that the server only needs to be able to execute functions in cooperation with other components via communication, and may be, for example, a local server, a cloud server, an edge server, a network service, etc., and its form does not matter. Information such as programs, tables, files, etc.
  • each function may be stored in a memory, a recording device such as a hard disk, an SSD (Solid State Drive), or a recording medium such as an IC card, SD card, or DVD. However, it may also be stored in a device on a communication network.
  • a recording device such as a hard disk, an SSD (Solid State Drive), or a recording medium such as an IC card, SD card, or DVD.
  • a recording medium such as an IC card, SD card, or DVD.
  • it may also be stored in a device on a communication network.
  • control lines and information lines shown in the figures are those considered necessary for explanation, and do not necessarily show all control lines and information lines on the product. In reality, almost all components may be considered to be interconnected.
  • the embodiment includes the following embodiments.
  • the first embodiment is a character information display device, camera and display and comprising a processor;
  • the processor includes: determining whether characters are captured in an image captured by the camera of the real world; If the vertical direction of the character and the vertical direction of the display do not match, rotate the character so that the vertical direction of the character matches the vertical direction of the display to generate rotated character information; displaying the rotated character information on the display; Character information display device.
  • the second embodiment is a character information display method executed by a character information display device, comprising:
  • the processor is a step of capturing an image of the real world and determining whether characters are captured in the captured image; If the vertical direction of the character does not match the vertical direction of the display, rotating the character so that the vertical direction of the character matches the vertical direction of the display to generate rotated character information; displaying the rotated character information on the display; Character information display method to perform.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

文字情報表示装置は、カメラと、ディスプレイと、プロセッサと、を備える。プロセッサは、カメラが現実世界を撮像した撮像画像に文字が撮像されているかを判断し、文字の上下方向とディスプレイの上下方向とが不一致である場合、文字の上下方向がディスプレイの上下方向と一致するように文字を回転させて回転後文字情報を生成し、回転後文字情報をディスプレイに表示させる。

Description

文字情報表示装置及び文字情報表示方法
 本発明は、文字情報表示装置及び文字情報表示方法に関する。
 文字の向きを制御する従来例として、特許文献1には「車載システムに搭載されているAR表示装置であるHUD装置は、カメラで撮像された画像を入力し、画像から物体の領域を選択して抽出する画像選択部と、物体の領域に関する利用者の視認性を指標値に基づいて判断する視認性判断部と、物体の領域の視認性に基づいて、視認性を高めるための画像加工処理を施すことで、物体に関するAR画像を生成するAR画像生成部と、画面に対してAR画像を重畳表示するAR表示部と、を有し、視認性に応じて、AR画像の表示有無、及び画像加工処理の内容を変えるように制御する。(要約抜粋)」という記載がある。
国際公開第2018/167966号
 複数人で同一の書類やタブレット画面等の周りを取り囲んで読む場合、場所によっては書類の文字の向きが自分の視界の上下軸を基準として上下反転、左方向に回転、又は右方向に回転して読みづらくなることがある。しかし、他人も同一の資料等を見ているため、書類を自分が読みやすい方向には回せない。
 また、縦書きと横書きが混在する資料をPC画面に表示する際、どちらかは横向きのままの表示になる。この場合は、自分のみがその資料を見ていても、縦書き又は横書きの資料のどちらからは自分の視界の上下方向とは異なる。
 特許文献1のHUD装置は、斜めに見えている看板を正面から見たように補正して表示するものである。よって特許文献1で視認する対象は、看板等正立した状態で読める前提の物であるため、文字の上下方向が横転又は反転する状況までは考慮されていない。
 本発明は上記実情に鑑みてなされたものであり、文字の上下方向がユーザの視界の上下方向に対して反転又は横転している場合に、当該文字の視認性を改善することを目的とする。
 上記課題を解決するために、本発明は、特許請求の範囲に記載の構成を備える。
 本発明によれば、文字の上下方向がユーザの視界の上下方向に対して反転又は横転している場合に、当該文字の視認性を改善することができる。なお、上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
本実施形態に係る文字情報表示装置の適用シーンの一例を示す図。 本実施形態に係る文字情報表示装置の適用シーンの一例を示す図。 文字情報表示装置の一例としてのHMDの外観図。 HMDの機能ブロック図。 文字情報表示プログラムの機能ブロック図。 第1実施形態における文字情報表示装置の処理の流れを示すフローチャート。 ブロックの分割処理及び注目ブロックの決定処理を示す図。 回転処理後のユーザの視界の一例を示す図。 回転処理後のユーザの視界の一例を示す図。 回転処理後のユーザの視界の一例を示す図。 第2実施形態における処理対象領域の決定処理を示す図。 第2実施形態における回転処理後のユーザの視界の一例を示す図。 第2実施形態における文字情報表示装置の処理の流れを示すフローチャート。 第3実施形態における入力操作を説明する図。 第4実施形態における回転処理後のユーザの視界の一例を示す図。 第4実施形態におけるGUI画面例を示す図。 第4実施形態における文字情報表示装置の処理の流れを示すフローチャート。 第5実施形態の処理の内容を示す図。
<第1実施形態>
 以下、図面を用いて本発明の実施形態について説明する。全図を通じて同一の構成には同一の符号を付して重複説明を省略する。
 図1は、本実施形態に係る文字情報表示装置の適用シーンの一例を示す図であって、文字が記載された資料を複数人が囲んで読んでいる状況を示す。以下の説明では主に文字情報表示装置をヘッドマウントディスプレイ(以下「HMD」と記載)に適用した事例について説明する。
 図1では、文字が記載された資料D1を複数人が囲んで視認している。資料D1を視認するメンバーAの視界の上下方向と資料D1に記載された文字の上下方向とは一致する。しかし、メンバーBの視界の上下方向と資料D1に記載された文字の上下方向とは反転している。メンバーC、Dも視界の上下方向に対して資料D1に記載された文字の上下方向は横転している。よって、メンバーB、C、Dは文字を反転又は横転した状態で読んでおり読みにくい。
 そこでメンバーB、C、Dの其々は、ヘッドマウントディスプレイ(以下「HMD」と記載する)100を装着し、資料D1の文字の上下方向を各自の視界の上下方向、厳密にはHMD100のディスプレイ102(図4参照)の上下方向と一致するように文字を回転させたAR画像D1_AR(AR:Augmented reality)をHMD100に表示させる。メンバーBはHMD100のユーザであるので以下では「ユーザB」と記載する。図1では左目用ディスプレイ102aにAR画像D1_ARを表示した状態を図示している。
 HMD100は透過型のディスプレイ102を備え、ユーザBがディスプレイ102を通じて視認した現実世界に存在する資料D1の実像に、回転後の文字が重なるようにかさなるように回転後の文字を表示する。これによりユーザBは、資料D1にあたかも回転後の文字が表示されているように視認でき、拡張現実表示(以下「AR表示」と記載する。)を実現することができる。
 なお、HMD100のディスプレイ102が非透過型である場合は、HMD100にユーザBの視界を撮像するカメラを備え、カメラが撮像した映像に映り込んだ資料D1の文字に回転処理後の文字を重ねて表示してもよい。これにより、ビデオスルータイプのHMD100の本実施形態に用いることができる。
 上記HMD100は、本実施形態に係る文字情報表示装置の一態様である。文字情報表示装置は、HMD100の他、スマートグラス、スマートフォン、タブレット端末等に実装してもよい。スマートグラスでは透過型のディスプレイを用いて現実世界を視認した風景に回転後の文字をAR表示してもよいし、ビデオスルーで表示される画像にAR表示を行ってもよい。スマートフォン、タブレットではビデオスルーで表示される画像にAR表示を行う。
 メンバーC,Dも装着したHMD100を通じて資料D1を視認すると、自分の視界の上下方向とHMD100に表示された資料D1の文字の上下方向とが一致すように文字を回転させてメンバーC、Dの其々が装着したHMD100に表示する。
 図2は、本実施形態に係る文字情報表示装置の適用シーンの一例を示す図であって、上下方向が異なる文字が記載された資料を読んでいる状況を示す。
 図2の資料D2は、図2における左ページにおける文字の上下方向に対して、右ページにおける文字の上下方向は90度回転している。
 したがって、資料D2を読む場合、左ぺージの文字方向をユーザの視界の上下方向と一致させると右ページの文字方向は視界の上下方向に対して横転し、右ぺージの文字方向をユーザの視界の上下方向と一致させると左ページの文字方向は視界の上下方向に対して横転する。
 そこで、図2に示すように、右ページの文字の上下方向をユーザの視界の上下方向と一致させるよう回転したAR画像であるD2_ARを、資料D2に重ねてAR表示する。左ページの文字方向は視界の上下方向と一致しているので左ページの文字は回転させない。D1_ARの生成処理は第1実施形態で、D2_ARの生成処理は第2実施形態で説明する。
 図3は、文字情報表示装置の一例としてのHMDの外観図である。
 HMD100は、コントローラ110、左目用ディスプレイ102a、右目用ディスプレイ102b、ジャイロセンサ162、地磁気センサ163、加速度センサ164、視線検出センサ168、左カメラ112a、右カメラ112b、深度センサ167、視線検出センサ168、バッテリー170を装着用筐体190に搭載して構成される。
 図4は、HMDの機能ブロック図である。
 HMD100は、CPUやMPUからなるプロセッサ101、左目用ディスプレイ102a及び右目用ディスプレイ102bを含むディスプレイ102、ROM103、RAM104、ストレージ105、インカメラ111、左カメラ112a及び右カメラ112bを含む測距カメラ112、マイク121、スピーカ122、操作インタフェース(I/F)130、無線LAN通信器141(例えばWifi(登録商標)を使用した機器)、近接無線通信器142(例えばBluetooth(登録商標)を使用した機器)、バイブレータ150、センサ群160、及びバッテリー170を備え、これらがバス106を介して互いに接続されている。
 センサ群160は、GPS161、ジャイロセンサ162、地磁気センサ163、加速度センサ164、照度センサ165、近接センサ166、深度センサ(ToFセンサ)167及び視線検出センサ168を含む。
 測距カメラ112は、左カメラ112a及び右カメラ112bの其々で前景を撮像し、画像中に撮像された対象物までの距離を測る。
 ディスプレイ102はAR画像等を表示するディスプレイであり、左目用ディスプレイ102a及び右目用ディスプレイ102bを含む。
 左カメラ112aで撮像する画像及び左目用のAR画像は、左目用ディスプレイ102aに表示する。同様に右カメラ112bで撮像する画像及び右目用のAR画像は、右目用ディスプレイ102bに表示する。これにより、現実空間の所定の距離にあるように立体的(3次元的に)に表示する。HMD100の3次元表示の実現技術は上記に限定されず、適宜公知の技術を用いてもよい。
 本実施形態では、測距センサとして測距カメラ112を用い、測距カメラ112が撮像した測距画像を解析して回転後の文字を含むAR画像の表示位置が決定される。具体的には、AR画像は、資料D1又は資料D2の回転前の文字が記載された位置に重ねて表示される。しかし、外界を撮像する単視点からカメラからなるアウトカメラで資料D1及び資料D2を撮像し、同時に深度センサ167で資料D1及び資料D2の奥行方向の距離、ジャイロセンサ162で上下左右方向の位置の変化を測定してもよい。この場合、アウトカメラと深度センサ167、ジャイロセンサ162とを組み合わせて測距カメラを構成する。
 操作I/F130は、例えば装着用筐体190の側面に備えられたボタンである。また、ジェスチャー入力をする場合は測距カメラ112が操作I/F130の一形態となる。また、視線入力をする際は、視線検出センサ168が操作I/F130の一形態となる。
 図5は、文字情報表示プログラムの機能ブロック図である。
 プロセッサ101は、ストレージ105にインストールされた文字情報表示プログラムをRAM104にロードして実行することで、後述する実施形態で説明する文字情報表示装置の機能が実現する。この文字情報表示プログラムは、画像取込部201、画像分割部202、文字ブロック判定部203、角度補正部204、表示制御部205を含む。
 文字ブロック判定部203は、判定対象決定部2031、文字判定部2032、及び文字学習済みモデル記憶部2033を含む。
 角度補正部204は、傾き角度判定部2041、傾き角度学習済みモデル記憶部2042、及び回転処理部2043を含む。
 回転処理部2043は、ストレージ105の一部記憶領域に形成される設定情報記憶部1051に記憶された設定情報を参照して、文字の傾き角度を補正するための回転の要否を判断する。
 上記各部の機能説明は、各実施形態中の処理の流れを示すフローチャートに沿って後述する。
 本実施形態における文字ブロック判定部203及び角度補正部204の其々は人工知能(AI:Artificial Intelligence)を用いた構成とするが、AIを利用しない従来型のOCR(Optical Character Reader)モジュールを用いてもよい。また、角度補正部204も、AIを使用しない構成、例えば文字の形状から文字の上下軸を求め、ディスプレイ102の上下方向軸に対する文字の上下軸の傾き角を算出する構成であってもよい。
 図6は、第1実施形態における文字情報表示装置の処理の流れを示すフローチャートである。
 HMD100の画像取込部201は、測距カメラ112が現実世界を撮像した測距画像を取り込む(S101)。測距画像は、HMD100を装着したユーザの視界を撮像した画像である。
 画像分割部202は、測距画像を複数のブロックに分割する(S102)。このブロックは、各ブロックに文字が含まれるかを判定するための処理単位となる。したがって、複数の文字が含まれる程度の大きさが好ましい。
 図7は、ブロックの分割処理及び注目ブロックの決定処理を示す図である。
 図7の符号700は、ブロックの分割処理及び注目ブロックの決定処理を示す部分説明図であり、HMD100には表示されない。
 画像分割部202は、資料D1の測距画像D1_img上に複数の横線Lh及び複数の縦線Lvを設定し測距画像D1_imgを複数のブロックに分割する。
 判定対象決定部2031は、視線検出センサ168から視線情報を取得し、視点Pが含まれるブロックを注目ブロックBLとして決定する(S103)。
 文字判定部2032は、入力層、隠れ層、出力層を含むニューラルネットワークを用いて構成される。本実施形態では画像解析を行って文字ブロックの判定を行うことから、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)を用いてもよい。CNNは、畳み込み層とプーリング層とを含む。畳み込み層ではブロックの画像から特徴を抽出し、プーリング層で画像サイズを小さくしてダウンサンプリングを行う。その後、隠れ層及び出力層に相当する全結合層に接続してもよいし、全結合層を用いずに1つの特徴マップに1つのクラスを対応させたGlobal Average Poolingを行ってもよい。
 文字学習済みモデル記憶部2033は、ひらがな、漢字、アルファベット等の多くの文字の上下方向を正立させた文字情報、及びそれから例えば90度、180度(上下反転した状態)、270度に回転させた各角度に回転させた文字情報を含む教師データを用いて文字判定部2032と同じニューラルネットワークを用いて機械学習を行った学習済みモデルを記憶する。教師データとして用いる文字情報の傾き角度は、上記のように90度ごとに限らず、更に小さい傾き角度毎、例えば45度ごとや30度ごとなどでもよい。
 又はひらがな、漢字、アルファベット等の多くの文字の上下方向を正立させた文字情報を教師データして用い、データ拡張をおこなって正立した文字を上下左右にずらした文字、回転させた文字、拡大又は縮小した文字、斜めにゆがめた文字、一部を切り取った文字、コントラストを変えた文字などのデータを擬似的に生成して文字判定部2032と同じニューラルネットワークを用いて教師データを入力し、文字学習済みモデルの機械学習を行ってもよい。鏡にうつった文字を読む場合や、裏まで透過した幟(のぼり)や旗等に書かれた文字を逆側から読む場合を考慮して、裏表が反転した文字を学習対象に加えてもよい。
 文字判定部2032は、判定対象決定部2031が決定した注目ブロックBLを入力層に入力し、注目ブロックBLが文字ブロックに分類させるか否かの判断する(S104)。注目ブロックBLが文字ブロックではない場合(S104:No)、処理を終了する。
 注目ブロックBLが文字ブロックである場合(S104:Yes)、判定対象決定部2031は、注目ブロックBLに隣接する全てのブロックを処理対象と決定する。そして処理対象として決定された隣接する全てのブロックについて文字ブロックか否かの判断処理が終わっていなければ(S105:No)、注目ブロックBLに隣接するブロックの一つを新たな処理対象として決定し(S106)、文字判定部2032による判定を繰り返す(S104)。
 文字ブロックと判定された注目ブロックBLに隣接する全てのブロックについて文字ブロックについての繰り返し処理が終わると(S105:Yes)、判定対象決定部2031は、隣接するブロックに文字ブロックがあるかを判断する。隣接するブロックに一つ以上の文字ブロックがあれば(S107:Yes)、それらの文字ブロックを全て新たな注目ブロックBLとして決定し(S108)、ステップS104からの処理を繰り返す。
 隣接ブロックに全く文字ブロックがなければ(S107:No)、角度補正部204は文字ブロックの文字の上下方向がHMD100のディスプレイ102の上下方向に合うように角度を補正する(S109)。
 角度補正部204の処理の一例として、傾き角度判定部2041を文字判定部2032の出力層に接続し、認識された少なくとも一つ以上の文字を取得する。一般的に同一ページ内の文字の上下方向は統一されていることから、文字ブロック内の一文字又は数文字についてディスプレイ102の上下方向に対する傾き角度を求めれば足りる。これにより、傾き角度の検出処理負荷を下げて処理速度を向上させることができる。
 傾き角度学習済みモデル記憶部2042は、ひらがな、漢字、アルファベット等の多くの文字の上下方向を正立させた文字情報及び例えば10度ずつ回転させた文字情報を教師データして機械学習をさせた傾き角度学習済みデータを記憶する。
 傾き角度判定部2041は、文字判定部2032から取得した少なくとも一つ以上の文字を傾き角度学習済みデータに入力して傾き角度の一致度が高いパターン又は一致度が高いパターンの傾き角度を出力する。
 傾き角度が求まると回転処理部2043は、傾き角度をオフセットする方向に全ての文字ブロックを回転し回転後文字情報を生成する。その際、回転処理部2043は、設定情報記憶部1051に記憶された設定情報を参照し、補正対象とする傾き角の角度範囲に属する文字のみを回転対象としもよい。
 表示制御部205は、測距画像に基づいて文字情報が記載された現実世界の物体、例えば資料D1までの距離情報を取得する。そして現実世界で文字情報が記載された位置に回転後文字情報を表示したAR画像が重なるようにディスプレイ102に表示する(S110)。
 図8は、回転処理後のユーザの視界の一例を示す図である。
 ユーザBの視界800では、HMD100越しに机とその上の置かれた資料D1が見える。更に資料D1より前面に、回転処理をした文字情報を表示したAR画像D1_ARが表示される。これにより、現実物体である資料D1に文字の上下方向がディスプレイ102の上下方向と一致した文字情報を重ねて視認できる。
 図9も、回転処理後のユーザの視界の一例を示す図である。
 図9に示すパンフレットD3では、自動車の写真の下に文字情報が記載されている。
 ユーザBの視界では自動車の写真及び文字の上下方向がほぼ反転して見える。
 そこで、HMD100ではパンフレットD3のうち写真は回転せずに文字情報だけを回転したAR画像D3_ARを、パンフレットD3の文字情報部分に重ねて表示する。
 図10も、回転処理後のユーザの視界の一例を示す図である。
 図9のように、現実のパンフレットD3の文字がAR表示の背景に見えると、AR表示した回転処理後の文字が見にくい。そこで表示制御部205は、現実のパンフレットD3の文字部分の位置をマスクするAR画像Mask_ARを表示し、そのMask_ARの前面に回転処理後の文字情報を含むAR画像D3_ARを表示する。AR画像Mask_ARは、例えば現実のパンフレットD3の文字と同色の画像をマスク範囲に表示したり、マスク範囲の文字以外の部分のみに表示したりすることで現実の文字の視認性を下げる。そのうえで、AR画像D3_ARを現実の文字と異なる色で表示することでAR表示された文字の視認性を向上させることができる。これにより、現実世界の文字にAR表示された回転処理後の文字が重なった場合においても、AR表示された文字の視認性を向上させることができる。また、電気的に透過度を可変できる液晶シャッターを用いて、部分的に視界を遮ることのできる装置をディスプレイの外側(現実物体側)に重ねて配置しておき、現実のパンフレットD3の文字部分の位置のマスク動作を液晶シャッターによって行うことで、現実の文字の視認性をさらに下げ、相対的にAR表示された文字の視認性を向上させることができる。
 本実施形態によれば、現実世界において文字の向きがユーザの視界の上下方向に対して反転又は横転している場合に、HMD100にユーザの視界の上下方向に一致させた文字情報をAR表示することで、文字を読みやすくすることができる。
<第2実施形態>
 第2実施形態は、ディスプレイ内に文字ブロックが表示される場合に、その文字ブロックを含む周辺の複数のブロックをまとめて回転させてAR表示させる実施形態である。図11は、第2実施形態における処理対象領域の決定処理を示す図である。
 図11の資料D2には建物の形を示す図形と建物の名称とが混在する地図が記載されている。
 そこで、角度補正部204は、注目ブロックBLが文字ブロックであると判定すると、注目ブロックBLを含む複数のブロックを処理対象領域BLsと決定し、まとめて回転してAR表示する。
 図12は、第2実施形態における回転処理後のユーザの視界の一例を示す図である。図12に示すように、第2実施形態では、文字ブロックではないブロックを含む処理対象領域BLsを一体的に回転させたAR画像D2_ARを資料D2の前面にAR表示する。これにより、図12のような非文字情報である地図図形と地図図形上のその場所に関する文字情報の上下左右方向や配置位置が変化すると認識しづらくなる情報は、文字ブロックと共に一体的に回転させるので非文字情報の視認性を低下させることなく文字情報の視認性を向上させることができる。
 図13は、第2実施形態における文字情報表示装置の処理の流れを示すフローチャートである。
 ステップS101からS104までは第1実施形態と同じであるため重複説明を省略する。
 注目ブロックBLが文字ブロックである場合(S104:Yes)、判定対象決定部2031は、注目ブロックBLを含む複数のブロックを1つの処理対象領域BLsとして決定する(S201)。処理対象領域BLsの大きさは、ディスプレイ102に表示されるブロックを全て含む領域としてもよいし、予め注目ブロックBLを中心とするm×nブロックの範囲と決めておいてもよい。
 角度補正部204は、ディスプレイ102の上下方向に対する注目ブロックBLの文字の上下方向の傾き角度を検出する。そして、処理対象領域全体を注目ブロックの文字の上下方向がディスプレイ102の上下方向に合うように角度を補正する(S202)。
 表示制御部205は、回転後の処理対象領域をAR表示する(S203)。
 本実施形態によれば、文字ブロックを中心とする複数のブロックを回転して複数のブロックの上下方向をディスプレイ102の上下方向に合わせて表示するので、地図などの図形の形状を保ったまま文字の視認性を向上させることができる。
<第3実施形態>
 第3実施形態は、文字の傾き角度で閾値を設けて、回転の要否を判断する実施形態である。図14は、第3実施形態の入力操作を説明する図である。
 図14に示すように、HMD100のディスプレイ102に傾き角度が異なる複数の文字資料のサンプル1400a、1400b、1400c、1400d、1400eを表示し、ユーザに回転させるサンプルと回転させないサンプルとを選択させて、回転の要否を判断する角度範囲を設定する。
 ユーザの視点1401を文字資料のサンプル1400bに合わせると、「回転要」、「回転不要」入力するポップアップメニュー1402が表示される。ユーザが視点を合わせる、又はジェスチャー動作を行い「回転不要」を選択すると、サンプル1400bに相当する傾き角度は、回転処理を行わないと設定できる。これを各サンプル1400a、1400b、1400c、1400d、1400eについて行うことにより、サンプル1400a、1400b、1400cが示す傾き角度は「回転しない」、サンプル1400d、1400eが示す傾き角度は「回転する」と設定する。回転角度は設定情報に書きこまれ、設定情報記憶部1051に記憶される。
 回転処理部2043は設定された角度範囲に従って、回転処理の要否を判断し、必要な場合にのみ回転処理を行う。
 もしくは、事前に複数のサンプルを表示させるのではなく)回転後のAR表示に重ねてポップアップメニュー1402を表示し、ユーザが現実の書類の傾きによる読みにくさ(の主観的許容値)に基づき回転処理の要否を判断し、ポップアップメニュー1402で指示することにより回転角度の設定情報の書き込みを行ってもよい。
 本実施形態によれば、回転処理部2043による回転の対象とする傾き角度の閾値及び範囲を設定できるので、例えばディスプレイ102の上下方向に対して(0時方向に対して)10度程度の傾きであれば、文字を読むことは困難ではないと判断して回転表示を行わないとすることもできる。
 なお、設定情報はHMD100に記憶しておき、前回のユーザが回転を指示した時の角度を記憶して、次回以降の設定に反映してもよい。
<第4実施形態>
 第4実施形態は、自動で文字の傾きを識別できない場合に手動で傾き角度を入力する実施形態である。
 図15は、第4実施形態における回転処理後のユーザの視界の一例を示す図である。図16は、第4実施形態におけるGUI画面例を示す図である。
 図15に示すように、表示制御部205は回転後のAR画像D1_ARを表示すると共に、手動回転の要否を入力する「手動回転」ボタン1501を表示する。ユーザはAR画像を視認した結果、回転処理が不十分であると判断すると、「手動回転」ボタン1501を操作する。
 表示制御部205は、図16に示す傾き角を選択するための第1階層画面1610を表示する。第1階層画面1610では、例えば45度ずつ回転したサムネイル画像1600a、1600b、1600c、1600dと各サムネイル画像の選択ボタン1601とを並べて表示される。
 ユーザが視点入力やジェスチャー入力により一つのサムネイル画像、例えばサムネイル画像1600cを選択すると、表示制御部205は、第2階層画面1620を表示する。第2階層画面1620では、サムネイル画像1600cの傾き角を基準として更に小さい傾き角度のピッチで回転させた複数のサムネイル画像1600e、1600f、1600gと各サムネイル画像の選択ボタン1601とが並べて表示される。
 このように、階層的に傾き角のピッチを小さくした画像を並べた画面を表示することで、特に視点入力を用いた際にも、補正したい傾き角度を精度良く入力できる。
 図17は、第4実施形態における文字情報表示装置の処理の流れを示すフローチャートである。
 ステップS110又はS203でAR表示が行われる。その際、図15に示す「手動回転ボタン」1501も表示される。
 ユーザは視認性が十分でないと判断し「手動回転ボタン」1501を操作すると(S301:Yes)、表示制御部205は、第1階層画面1610を表示する(S302)。
 ユーザが第1階層画面1610で1つのサムネイル画像を選択すると(S303:Yes)、表示制御部205は、第2階層画面1620を表示する(S304)。
 ユーザが第2階層画面1620で1つのサムネイル画像を選択すると(S305:Yes)、回転処理部2043は、第1実施形態では文字のみ、第2実施形態では処理対象領域をS305で選択されたサムネイル画像の傾き角に一致するように回転し、表示制御部205は、角度を補正したAR画像を表示する(S306)。その後処理を終了する。
 「手動回転」ボタン1501が押されない場合(S301:No)、第1階層画面1610でサムネイル画像が選択されない場合(S303:No)、第2階層画面1620でサムネイル画像が選択されない場合(S305:No)も処理を終了する。
 本実施形態によれば、傾き角度を補正して表示されたAR画像では文字の傾き角の補正が不十分な場合に、ユーザの操作入力により傾き角の補正が行える。これにより、例えば学習済みモデルの機械学習が不十分で傾き角の補正が不十分な場合も視認性を向上させることができる。
 また、本実施形態で傾き角を自動修正した場合には、学習済みモデルに教師データとして追加して学習済みモデルの更新を行ってもよい。これにより、学習済みモデルをユーザの好みに合わせて調整することができる。
<第5実施形態>
 第5実施形態は、傾き角を補正する際に回転処理に加えてパースひずみの補正を行う実施形態である。
 図18は、第5実施形態の処理の内容を示す図であり、パースひずみの補正処理を示す。
 画像1800は資料D1を真上から見下ろした状態を示す。
 同じ資料D1を資料と同じ高さで人の目で見た視界、即ちHMD100の測距カメラ112により資料D1と同じ高さから資料D1を撮像した画像1801では、資料D1の奥行き方向に向かって横幅(図18の左右方向に相当する)が狭くなる。
 画像1801の文字の上下方向をディスプレイ102の上下方向と一致するように回転させてAR表示をすると、画像1802に示すよう図18の左右方向において右側が左側に比べて小さい文字で表示される。上下方向は正立しているため文字は読めるものの資料D1の表示が不自然で読みにくい。
 そこで、画像1802のパースを補正した画像1803をAR表示してもよい。これにより、パースひずみを補正してAR表示を行うことで、視認性を向上させることができる。
 変形例として、AR画像を現実世界になじませるために新たにパース加工を加えてもよい。
 上記の例では画像1803だけを見れば文字が読みやすいものの、画像1803を現実物体の画像1801の上に重ねると、画像1801は奥行き方向に向かって文字が小さくなるパースひずみが生じているが、画像1803のAR画像はディスプレイ102の上下方向に対して正立しているため、画像1801のパースひずみとは異なる。よって、画像1803を画像1801に重ねて表示した場合に画像1801になじまない。
 そこで、角度補正部204は、新たに回転後の画像1803に対して画像1801のパースに応じたパース加工を付加した画像1804を生成し、表示制御部205は、パース加工された画像1804をAR画像表示してもよい。
 これにより、現実物体を撮像した画像に合わせてパース加工をすることで現実物体とAR画像とのなじみが良くなり、AR画像を表示した際の不自然さを解消できる。
<第6実施形態>
 第6実施形態は、カメラ画像から表示の邪魔になる物体を自動判別して、邪魔にならないところに回転した画像を表示する実施形態である。
 表示制御部205は、透過型のディスプレイ102にAR表示を行う場合は、ディスプレイ102を透過して外界を視認する際の視界の邪魔にならない場所を自動で選んでAR表示を行ってもよい。視界の邪魔にならない場所とは、例えばディスプレイ102の中心を含む所定領域はAR画像の非表示領域として設定しておき、非表示領域の周辺にAR画像を配置してもよい。
 また表示制御部205は、非透過型のディスプレイ102にAR表示を行う場合は、現実世界の画像から対象(書類)を切り出して(自動)表示すればよい。
 本実施形態によれば、周辺の視界を確保しつつ文字を回転させた画像をAR表示することができる。
 本実施形態の変形例として、視界を確保しようとするとAR画像がディスプレイ102内に収まらない場合は、表示制御部205は、GPS161から位置情報を、地磁気センサ163からHMD100のディスプレイ102が向いている方向を示す方向情報を取得し、AR画像に位置情報及び方向情報を紐づけてストレージ105に記憶してもよい。そして、ディスプレイ102がAR画像に紐づいている位置情報及び方向情報を向いた際に表示制御部205はディスプレイ102にAR画像を表示してもよい。
 これにより、AR画像をディスプレイ102の表示領域外に配置できるので、ディスプレイ102の表示領域に限定されることなくAR画像を表示することができる。
 以上、本発明の実施形態について説明したが、言うまでもなく、本発明の技術を実現する構成は上記実施形態に限られるものではなく、様々な変形例が考えられる。
 例えば、文字ブロック判定部203及び角度補正部204の構成及びその処理順序は上記に限定されない。例えば、文字の向き判定・回転処理傾き検知補正モジュールを前処理として用い、これとAI―OCRとを組み合わせて文字ブロック判定部203を構成してもよい。AI―OCRの前処理として向き判定・回転処理傾き検知補正モジュールが文字の上下方向の向きを修正する。向き判定・回転処理傾き検知補正モジュールが修正対象とする補正した後に、文字認識処理を行ってもよい。
 また、前述した実施の形態は、本発明を分かり易く説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成と置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。これらは全て本発明の範疇に属するものである。また、文中や図中に現れる数値やメッセージ等もあくまでも一例であり、異なるものを用いても本発明の効果を損なうことはない。
 また、各処理例で説明したプログラムは、それぞれ独立したプログラムでもよく、複数のプログラムが一つのアプリケーションプログラムを構成していてもよい。また、各処理を行う順番を入れ替えて実行するようにしてもよい。
 前述した本発明の機能等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、マイクロプロセッサユニット、CPU等がそれぞれの機能等を実現する動作プログラムを解釈して実行することによりソフトウェアで実現してもよい。また、ソフトウェアの実装範囲を限定するものでなく、ハードウェアとソフトウェアを併用してもよい。また、各機能の一部又は全部をサーバで実現してもよい。なお、サーバは、通信を介して他の構成部分と連携し機能の実行ができればよく、例えば、ローカルサーバ、クラウドサーバ、エッジサーバ、ネットサービス等であり、その形態は問わない。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、又は、ICカード、SDカード、DVD等の記録媒体に格納されてもよいし、通信網上の装置に格納されてもよい。
 また、図中に示した制御線や情報線は説明上必要と考えられるものを示しており、必ずしも製品上の全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
 前記実施の形態は、以下の形態を含む。
 (付記1)
 第1の実施の形態は文字情報表示装置であって、
 カメラと、
 ディスプレイと、
 プロセッサと、を備え、
 前記プロセッサは、
 前記カメラが現実世界を撮像した撮像画像に文字が撮像されているかを判断し、
 前記文字の上下方向と前記ディスプレイの上下方向とが不一致である場合、前記文字の上下方向が前記ディスプレイの上下方向と一致するように前記文字を回転させて回転後文字情報を生成し、
 前記回転後文字情報を前記ディスプレイに表示させる、
 文字情報表示装置。
 (付記2)
 第2の実施の形態は文字情報表示装置で実行される文字情報表示方法であって、
 プロセッサは、
 現実世界を撮像して撮像画像に文字が撮像されているかを判断するステップと、
 前記文字の上下方向とディスプレイの上下方向とが不一致である場合、前記文字の上下方向が前記ディスプレイの上下方向と一致するように前記文字を回転させて回転後文字情報を生成するステップと、
 前記回転後文字情報を前記ディスプレイに表示させるステップと、
 を実行する文字情報表示方法。
100:HMD、101:プロセッサ、102:ディスプレイ、102a:左目用ディスプレイ、102b:右目用ディスプレイ、103:ROM、104:RAM、105:ストレージ、106:バス、110:コントローラ、111:インカメラ、112:測距カメラ、112a:左カメラ、112b:右カメラ、121:マイク、122:スピーカ、130:操作I/F、141:無線LAN通信器、142:近接無線通信器、150:バイブレータ、160:センサ群、161:GPS、162:ジャイロセンサ、163:地磁気センサ、164:加速度センサ、165:照度センサ、166:近接センサ、167:深度センサ、168:視線検出センサ、170:バッテリー、190:装着用筐体、
201:画像取込部、202:画像分割部、203:文字ブロック判定部、204:角度補正部、205:表示制御部、
800:視界、
1051:設定情報記憶部、
1400a:サンプル、1400b:サンプル、1400c:サンプル、1400d:サンプル、1400e:サンプル、1401:視点、1402:ポップアップメニュー、
1501:ボタン、
1600a:サムネイル画像、1600b:サムネイル画像、1600c:サムネイル画像、1600d:サムネイル画像、1600e:サムネイル画像、1600f:サムネイル画像、1600g:サムネイル画像、1601:選択ボタン、1610:第1階層画面、1620:第2階層画面、
1800:画像、1801:画像、1802:画像、1803:画像、1804:画像、
2031:判定対象決定部、2032:文字判定部、2033:モデル記憶部、
2041:傾き角度判定部、2042:モデル記憶部、2043:回転処理部、
A:メンバー、B:ユーザ(メンバー)、
BL:注目ブロック、BLs:処理対象領域、
C:メンバー、D:メンバー、
D1:資料、D1_AR:AR画像、D1_img:測距画像、
D2:資料、D2_AR:AR画像、
D3:パンフレット、D3_AR:AR画像、
Lh:横線、Lv:縦線、
Mask_AR:AR画像、P :視点

Claims (10)

  1.  文字情報表示装置であって、
     カメラと、
     ディスプレイと、
     プロセッサと、を備え、
     前記プロセッサは、
     前記カメラが現実世界を撮像した撮像画像に文字が撮像されているかを判断し、
     前記文字の上下方向と前記ディスプレイの上下方向とが不一致である場合、前記文字の上下方向が前記ディスプレイの上下方向と一致するように前記文字を回転させて回転後文字情報を生成し、
     前記回転後文字情報を前記ディスプレイに表示させる、
     文字情報表示装置。
  2.  請求項1に記載の文字情報表示装置において、
     前記プロセッサは、
     前記ディスプレイの表示領域の内、前記撮像画像に撮像された文字に前記回転後文字情報が重なる位置に前記回転後文字情報を拡張現実表示させる、
     文字情報表示装置。
  3.  請求項2に記載の文字情報表示装置において、
     前記プロセッサは、
     前記ディスプレイの表示領域の内、前記撮像画像に撮像された文字をマスクし、当該マスクの上に前記回転後文字情報を拡張現実表示させる、
     文字情報表示装置。
  4.  請求項1に記載の文字情報表示装置において、
     前記プロセッサは、
     前記撮像画像を複数のブロックに分割し、各ブロックは前記文字が撮像された文字ブロックであるかを判定し、
     前記ブロックが文字ブロックであると判定すると当該文字ブロックに撮像された文字を回転させて前記回転後文字情報を生成する、
     文字情報表示装置。
  5.  請求項4に記載の文字情報表示装置において、
     ユーザの視線を検出する視線検出センサを更に備え、
     前記プロセッサは、前記視線検出センサが検出した前記ユーザの視線上にあるブロックを注目ブロックとして決定し、当該注目ブロックが前記文字ブロックであるかを判断する、
     文字情報表示装置。
  6.  請求項5に記載の文字情報表示装置において、
     前記プロセッサは、前記注目ブロックが前記文字ブロックであると判断すると、前記注目ブロックを中心とする複数のブロックを処理対象領域として決定し、当該処理対象領域を一つの領域とみなして同じ方向に回転させた前記回転後文字情報を生成する、
     文字情報表示装置。
  7.  請求項1に記載の文字情報表示装置において、
     ユーザから回転させる対象となる前記文字の傾き角度の範囲の入力操作を受け付ける操作インタフェースを更に備え、前記傾き角度は、前記ディスプレイの上下方向軸に対する前記文字の上下方向軸の傾き角度であり、
     前記プロセッサは、前記文字の上下方向軸の前記傾き角度が前記傾き角度の範囲にある場合に前記文字を回転させて前記回転後文字情報を生成する、
     文字情報表示装置。
  8.  請求項1に記載の文字情報表示装置において、
     前記プロセッサは、前記文字のパースひずみを補正して前記回転後文字情報を生成する、
     文字情報表示装置。
  9.  請求項1に記載の文字情報表示装置において、
     前記カメラ、前記ディスプレイ、及び前記プロセッサは、ヘッドマウントディスプレイに搭載される、
     文字情報表示装置。
  10.  文字情報表示装置で実行される文字情報表示方法であって、
     プロセッサは、
     現実世界を撮像して撮像画像に文字が撮像されているかを判断するステップと、
     前記文字の上下方向とディスプレイの上下方向とが不一致である場合、前記文字の上下方向が前記ディスプレイの上下方向と一致するように前記文字を回転させて回転後文字情報を生成するステップと、
     前記回転後文字情報を前記ディスプレイに表示させるステップと、
     を実行する文字情報表示方法。
PCT/JP2022/034588 2022-09-15 2022-09-15 文字情報表示装置及び文字情報表示方法 WO2024057498A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/034588 WO2024057498A1 (ja) 2022-09-15 2022-09-15 文字情報表示装置及び文字情報表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/034588 WO2024057498A1 (ja) 2022-09-15 2022-09-15 文字情報表示装置及び文字情報表示方法

Publications (1)

Publication Number Publication Date
WO2024057498A1 true WO2024057498A1 (ja) 2024-03-21

Family

ID=90274632

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/034588 WO2024057498A1 (ja) 2022-09-15 2022-09-15 文字情報表示装置及び文字情報表示方法

Country Status (1)

Country Link
WO (1) WO2024057498A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002207963A (ja) * 2001-01-11 2002-07-26 Ricoh Co Ltd 画像処理装置
JP2014093050A (ja) * 2012-11-06 2014-05-19 Sony Corp 画像表示装置及び画像表示方法、並びにコンピューター・プログラム
JP2015052866A (ja) * 2013-09-06 2015-03-19 シャープ株式会社 画像表示装置、画像回転方法、及びプログラム
JP2017225090A (ja) * 2016-06-17 2017-12-21 株式会社Pfu 画像処理装置、画像処理方法、および、プログラム
WO2020179027A1 (ja) * 2019-03-06 2020-09-10 マクセル株式会社 ヘッドマウント情報処理装置およびヘッドマウントディスプレイシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002207963A (ja) * 2001-01-11 2002-07-26 Ricoh Co Ltd 画像処理装置
JP2014093050A (ja) * 2012-11-06 2014-05-19 Sony Corp 画像表示装置及び画像表示方法、並びにコンピューター・プログラム
JP2015052866A (ja) * 2013-09-06 2015-03-19 シャープ株式会社 画像表示装置、画像回転方法、及びプログラム
JP2017225090A (ja) * 2016-06-17 2017-12-21 株式会社Pfu 画像処理装置、画像処理方法、および、プログラム
WO2020179027A1 (ja) * 2019-03-06 2020-09-10 マクセル株式会社 ヘッドマウント情報処理装置およびヘッドマウントディスプレイシステム

Similar Documents

Publication Publication Date Title
US11366516B2 (en) Visibility improvement method based on eye tracking, machine-readable storage medium and electronic device
US9857589B2 (en) Gesture registration device, gesture registration program, and gesture registration method
US9933853B2 (en) Display control device, display control program, and display control method
JPWO2016203792A1 (ja) 情報処理装置、情報処理方法及びプログラム
US11232636B2 (en) Methods, devices, and systems for producing augmented reality
KR20180083623A (ko) 전자 장치 및 그 제어 방법
JP2024096981A (ja) 情報処理装置、情報処理方法およびコンピュータプログラム
CN109448050B (zh) 一种目标点的位置的确定方法及终端
EP2755164A2 (en) Display apparatus and control method for adjusting the eyes of a photographed user
US20150381973A1 (en) Calibration device, calibration program, and calibration method
US10062353B2 (en) System to compensate for visual impairment
WO2014128751A1 (ja) ヘッドマウントディスプレイ装置、ヘッドマウントディスプレイ用プログラム、およびヘッドマウントディスプレイ方法
KR20190021066A (ko) 전자 장치 및 그의 문자 인식 방법
US20150381970A1 (en) Input/output device, input/output program, and input/output method
WO2019051228A1 (en) TRANSPARENT DISPLAY BASED ON A CAMERA
KR20200040716A (ko) 시선 추적을 이용한 시인성 개선 방법, 저장 매체 및 전자 장치
JP2019174984A (ja) 表示制御装置、その制御方法、プログラム及び記憶媒体
JP5460635B2 (ja) 画像処理判定装置
KR20190127367A (ko) 효율적인 데이터 관리를 위한 가상 전시 공간 제공 방법
US20230396750A1 (en) Dynamic resolution of depth conflicts in telepresence
WO2024057498A1 (ja) 文字情報表示装置及び文字情報表示方法
WO2019012314A1 (ru) Способ отображения широкоформатного объекта дополненной реальности
US20230082420A1 (en) Display of digital media content on physical surface
US20220413295A1 (en) Electronic device and method for controlling electronic device
JP2023174066A (ja) 画像処理装置、画像処理方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22958821

Country of ref document: EP

Kind code of ref document: A1