KR20220141521A - Apparatus and method for generating query - Google Patents
Apparatus and method for generating query Download PDFInfo
- Publication number
- KR20220141521A KR20220141521A KR1020210047731A KR20210047731A KR20220141521A KR 20220141521 A KR20220141521 A KR 20220141521A KR 1020210047731 A KR1020210047731 A KR 1020210047731A KR 20210047731 A KR20210047731 A KR 20210047731A KR 20220141521 A KR20220141521 A KR 20220141521A
- Authority
- KR
- South Korea
- Prior art keywords
- word
- query
- generating
- image
- images
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013136 deep learning model Methods 0.000 claims abstract description 39
- 230000015654 memory Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 2
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 3
- 241000234295 Musa Species 0.000 description 2
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2425—Iterative querying; Query formulation based on the results of a preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
본 발명은 질의문 생성 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for generating a query.
이미지 캡셔닝(Image Captioning) 기술이란 주어진 시각정보(이미지 또는 영상)를 입력으로 받아, 시각정보를 서술하는 자연어 문장을 만드는 인공지능 기술이다.Image captioning technology is an artificial intelligence technology that receives given visual information (image or video) as input and creates a natural language sentence describing the visual information.
이러한, 이미지 캡셔닝 기술은 뉴스기사 자동생성, 문서요약, 사진 정보 서술 등의 기술에서 활용되고 있다.Such image captioning technology is being utilized in technologies such as automatic news article generation, document summary, and photo information description.
하지만, 현재의 이미지 캡셔닝 기술은 이미지에 대한 일반적인 서술과 같은 이미지의 묘사에만 포커싱된 간단한 유형의 질문만을 생성하기 때문에 다양한 종류의 창의적 질의문을 생성할 수는 없다.However, since the current image captioning technology generates only simple types of questions focused only on the description of the image, such as a general description of the image, it is not possible to generate various kinds of creative questions.
본 발명의 해결하고자 하는 과제는, 질의문 생성 장치 및 방법을 제공하는 것이다.SUMMARY OF THE INVENTION It is an object of the present invention to provide an apparatus and method for generating a query.
또한, 입력 받은 이미지에 대하여 다양한 종류의 창의적 질의문을 생성하는 것 등이 본 발명의 해결하고자 하는 과제에 포함될 수 있다.In addition, generating various kinds of creative questions with respect to the input image may be included in the task to be solved by the present invention.
다만, 본 발명의 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.However, the problems to be solved of the present invention are not limited to those mentioned above, and other problems to be solved that are not mentioned can be clearly understood by those of ordinary skill in the art to which the present invention belongs from the following description. will be.
본 발명의 일 실시예에 따른 질의문 생성 방법은, 질의문 생성 장치에 의해 수행되는 질의문 생성 방법에 있어서, 이미지를 입력 받는 단계와, 상기 이미지를 기 학습된 딥러닝 모델에 입력하여, 상기 이미지의 특징을 추출하는 단계와, 상기 특징을 이용하여, 적어도 하나의 단어를 생성하는 단계와, 상기 적어도 하나의 단어를 조합한 첫번째 질의문을 생성하는 단계와, 상기 첫번째 질의문에서 사용된 첫번째 단어가 기 설정된 확률로 포함되지 않도록 두번째 질의문을 생성하는 단계를 포함하되, 상기 기 학습된 딥러닝 모델은, 다수의 이미지와 상기 다수의 이미지 각각의 레이블 데이터로써 상기 다수의 이미지 각각에 대한 다수의 질문을 입력으로 하여 기 학습되어 있을 수 있다.A method for generating a query according to an embodiment of the present invention comprises the steps of: receiving an image; inputting the image into a pre-trained deep learning model; extracting a feature of the image, generating at least one word by using the feature, generating a first query sentence combining the at least one word, and the first query used in the first query sentence. generating a second query so that the word is not included with a preset probability, wherein the pre-trained deep learning model is a plurality of images for each of the plurality of images as label data of each of the plurality of images It may be pre-learned by inputting a question of.
또한, 상기 적어도 하나의 단어를 생성하는 단계는, 상기 특징을 이용하여 상기 첫번째 단어를 생성하고, 상기 첫번째 단어 및 상기 이미지의 특징을 이용하여 두번째 단어를 생성할 수 있다.In addition, the generating of the at least one word may include generating the first word using the feature, and generating a second word using the first word and features of the image.
또한, 상기 적어도 하나의 단어를 생성하는 단계는, 상기 두번째 단어는 상기 첫번째 단어와 시계열적으로 연결되도록 생성할 수 있다.In addition, the generating of the at least one word may include generating the second word to be time-series connected to the first word.
또한, 상기 적어도 하나의 단어를 생성하는 단계는, 기 정의된 문장의 종료를 의미하는 문장부호를 포함하는 단어가 생성될 경우, 단어 생성을 종료할 수 있다.Also, in the generating of the at least one word, when a word including a punctuation mark indicating the end of a predefined sentence is generated, word generation may be terminated.
또한, 상기 기 학습된 딥러닝 모델은, 트랜스포머(Transformer) 네트워크 구조가 적용된 딥러닝 모델일 수 있다.In addition, the pre-trained deep learning model may be a deep learning model to which a transformer network structure is applied.
본 발명의 일 실시예에 따른 질의문 생성 장치는, 이미지를 입력 받는 입출력부; 메모리; 및 상기 메모리와 전기적으로 연결된 프로세서를 포함하고, 상기 프로세서는, 상기 이미지를 기 학습된 딥러닝 모델에 입력하여, 상기 이미지의 특징을 추출하고, 상기 특징을 이용하여, 적어도 하나의 단어를 생성하고, 상기 적어도 하나의 단어를 조합한 첫번째 질의문을 생성하고, 상기 첫번째 질의문에서 사용된 첫번째 단어가 기 설정된 확률로 포함되지 않도록 두번째 질의문을 생성하고, 상기 기 학습된 딥러닝 모델은, 다수의 이미지와 상기 다수의 이미지 각각의 레이블 데이터로써 상기 다수의 이미지 각각에 대한 다수의 질문을 입력으로 하여 기 학습되어 있을 수 있다.An apparatus for generating a query according to an embodiment of the present invention includes an input/output unit for receiving an image; Memory; and a processor electrically connected to the memory, wherein the processor inputs the image to a pre-trained deep learning model, extracts features of the image, uses the features to generate at least one word, , generating a first query by combining the at least one word, generating a second query so that the first word used in the first query is not included with a preset probability, and the pre-trained deep learning model includes a plurality of It may be pre-learned by inputting a plurality of questions for each of the plurality of images as the image of and label data of each of the plurality of images.
본 발명의 실시예에 대한 질의문 생성 장치는, 입력 받은 이미지에 대하여 다양한 종류의 창의적 질의문을 생성할 수 있다.The apparatus for generating a query according to an embodiment of the present invention may generate various types of creative questions with respect to an input image.
또한, 본 발명의 실시예에 대한 질의문 생성 장치는, 생성한 다양한 종류의 창의적 질의문을 시각 정보 기반의 질의응답 기술(VQA: Visual Question Answering)에 사용되는 딥러닝 학습 모델의 학습 데이터 셋으로 사용할 수 있으며, 이에 따라 학습 데이터 셋의 구축 비용을 절감할 수 있다.In addition, the apparatus for generating a question for an embodiment of the present invention uses various types of generated creative questions as a learning data set of a deep learning learning model used in Visual Question Answering (VQA) based on visual information. can be used, thereby reducing the cost of constructing the training data set.
다만, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.However, the effects obtainable in the present invention are not limited to the above-mentioned effects, and other effects not mentioned will be clearly understood by those of ordinary skill in the art to which the present disclosure belongs from the description below. will be able
도 1은 본 발명의 일 실시예에 따른 질의문 생성 장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 기 학습된 딥러닝 모델을 이용하여 질의문을 생성하는 방법의 예시를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 질의문 생성 방법의 절차에 대한 예시적인 순서도이다. 1 is a block diagram of an apparatus for generating a query according to an embodiment of the present invention.
2 is a diagram for explaining an example of a method of generating a query using a pre-trained deep learning model according to an embodiment of the present invention.
3 is an exemplary flowchart of a procedure of a method for generating a query according to an embodiment of the present invention.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.Advantages and features of the present invention and methods of achieving them will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only these embodiments allow the disclosure of the present invention to be complete, and common knowledge in the technical field to which the present invention pertains It is provided to fully inform those who have the scope of the invention, and the present invention is only defined by the scope of the claims.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In describing the embodiments of the present invention, if it is determined that a detailed description of a well-known function or configuration may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted. In addition, the terms to be described later are terms defined in consideration of functions in an embodiment of the present invention, which may vary according to intentions or customs of users and operators. Therefore, the definition should be made based on the content throughout this specification.
도 1은 본 발명의 일 실시예에 따른 질의문 생성 장치의 블록도이다.1 is a block diagram of an apparatus for generating a query according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 일 실시예에 따른 질의문 생성 장치(100)는 입출력부(101), 통신부(102), 메모리(110) 및/또는 프로세서(120)를 포함할 수 있다.Referring to FIG. 1 , an
입출력부(101)는, 예를 들면, 사용자 또는 다른 외부 기기로부터 입력된 명령 또는 데이터를 일 실시예에 따른 질의문 생성 장치(100)의 다른 구성요소(들)에 전달하거나, 또는 일 실시예에 따른 질의문 생성 장치(100)의 다른 구성요소(들)로부터 수신된 명령 또는 데이터를 사용자 또는 외부 기기로 출력할 수 있다.The input/
예를 들어, 입출력부(101)는 이미지를 입력받을 수 있으나, 이에 한정되지 않고 동적인 이미지로서 영상을 입력받을 수도 있다.For example, the input/
통신부(102)는 질의문 생성 장치(100)와 외부 장치와의 유선 또는 무선 통신 채널의 수립 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다.The
메모리(110)는 질의문 생성 장치(100)의 적어도 하나의 구성요소(프로세서(120), 입출력부(101) 및/또는 통신부(102))에 의해 사용되는 다양한 데이터, 예를 들어, 소프트웨어(예: 프로그램) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 저장할 수 있다. 메모리(110)는, 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다.The
프로세서(120)(제어부, 제어 장치 또는 제어 회로라고도 함)는 연결된 질의문 생성 장치(100)의 적어도 하나의 다른 구성요소(예: 하드웨어 구성 요소(예: 입출력 부(101), 통신부(102) 및/또는 메모리(110)) 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다.The processor 120 (also referred to as a control unit, a control device, or a control circuit) includes at least one other component (eg, a hardware component (eg, an input/
또한, 프로세서(120)는 다른 구성요소들 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드하여 처리하고, 다양한 데이터를 비휘발성 메모리에 저장할 수 있다.In addition, the
이를 위해, 프로세서(120)는 해당 동작을 수행하기 위한 전용 프로세서(예를 들어, 임베디드 프로세서) 또는 메모리 디바이스에 저장된 하나 이상의 소프트웨어 프로그램을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예를 들어, CPU 또는 application processor 또는 MCU(Micro controller unit) 등)로 구현될 수 있다.To this end, the
보다 구체적으로, 프로세서(120)는 입출력부(101)에서 입력 받은 이미지를 기 학습된 딥러닝 모델에 입력하여, 이미지의 특징을 추출할 수 있다.More specifically, the
여기서, 기 학습된 딥러닝 모델은 멀티-헤드 어텐션(Multi-head attention)층을 기반으로 한 트랜스포머(Transformer) 네트워크 구조가 적용된 딥러닝 모델일 수 있다.Here, the pre-trained deep learning model may be a deep learning model to which a transformer network structure based on a multi-head attention layer is applied.
이하, 프로세서(120)는 기 학습된 딥러닝 모델을 이용하여 입출력부(101)에서 입력 받은 이미지와 관련된 적어도 하나의 단어를 생성할 수 있다.Hereinafter, the
이때, 프로세서(120)는 메모리(110)에 기 저장된 기 학습된 기계학습 모델을 이용하여 입출력부(101)에서 입력 받은 이미지와 관련된 적어도 하나의 단어를 생성하거나, 프로세서(120)는 외부의 다른 장치로부터 기 학습된 기계학습 모델을 로드한 후, 기 학습된 기계학습 모델을 이용하여 입출력부(101)에서 입력 받은 이미지와 관련된 적어도 하나의 단어를 생성할 수 있다.In this case, the
보다 상세히, 프로세서(120)는 추출한 이미지의 특징을 이용하여 적어도 하나의 단어를 생성할 수 있으나, 이에 한정되지 않으며 프로세서(120)는 추출한 이미지의 특징을 이용하여 적어도 하나의 어절을 생성할 수 있다.In more detail, the
예를 들어, 프로세서(120)는 추출한 이미지의 특징을 이용하여 첫번째 단어를 생성하고, 생성한 첫번째 단어 및 상기 이미지의 특징을 이용하여 두번째 단어를 생성할 수 있다.For example, the
이때, 프로세서(120)는 두번째 단어는 첫번째 단어와 시계열적으로 연결되도록 생성할 수 있다.In this case, the
즉, 프로세서(120)는 먼저, 추출한 이미지의 특징을 이용하여 단어를 생성한 후, 이전에 생성한 단어와 추출한 이미지의 특징을 이용하여 다수개의 단어를 생성할 수 있다. 또한, 프로세서(120)는 생성된 다수개의 단어들은 이전에 생성된 단어들과 시계열적으로 연결되도록 생성할 수 있다.That is, the
한편, 프로세서(120)는 기 정의된 문장의 종료를 의미하는 문장부호를 포함하는 단어가 생성될 경우, 단어 생성을 종료할 수 있다.Meanwhile, when a word including a punctuation mark indicating the end of a predefined sentence is generated, the
여기서, 기 정의된 문장의 종료를 의미하는 문장부호는 마침표(.), 물음표(?), 느낌표(!)등을 포함할 수 있으나, 이에 한정되는 것은 아니다.Here, the punctuation marks indicating the end of a predefined sentence may include a period (.), a question mark (?), an exclamation mark (!), and the like, but is not limited thereto.
프로세서(120)는 생성된 적어도 하나의 단어를 조합한 첫번째 질의문을 생성할 수 있으며, 이후 첫번째 질의문에서 사용된 첫번째 단어가 기 설정된 확률로 포함되지 않도록 두번째 질의문을 생성할 수 있다.The
예컨대, 프로세서(120)는 첫번째 질의문, 두번째 질의문 이외에도 기 설정된 개수의 질의문을 생성할 수 있으며, 예를 들어, 프로세서(120)는 두번째 질의문에서 사용된 첫번째 단어가 기 설정된 확률로 포함되지 않도록 세번째 질의문을 생성할 수 있다.For example, the
보다 상세히, 프로세서(120)는 첫번째 질의문이 생성된 후, 추출한 이미지의 특징을 이용하여 두번째 질의문에 포함될 첫번째 단어를 생성하되, 두번째 질의문에 포함될 첫번째 단어는 기 설정된 확률(예를 들어, 85%의 확률)로 첫번째 질의문에서 사용된 첫번째 단어가 생성되지 않을 수 있다.In more detail, after the first query is generated, the
예를 들어, 프로세서(120)는 두번째 질의문에 포함될 첫번째 단어를 생성할 경우, 첫번째 질의문에서 사용된 첫번째 단어가 생성되지 않을 확률이 85%가 되도록 설정되어 있기 때문에, 프로세서(120)에서 생성하는 두번째 질의문의 첫번째 단어는 첫번째 질의문의 첫번째 단어와 중복되지 않을 가능성이 높다.For example, when the
따라서, 본 발명의 일 실시예에 따른 질의문 생성 장치(100)는 중복되는 질의문을 생성할 가능성이 낮으며, 이전 질의문 생성 이후에 생성되는 질의문의 첫번째 단어는 이전 생성된 질의문의 첫번째 단어와 중복성이 낮으므로 다양한 유형의 질의문이 생성될 수 있다.Therefore, the possibility that the
이하, 기 학습된 딥러닝 모델을 이용하여 질의문을 생성하는 방법의 예시에 대하여 도 2를 참조하여 상세히 설명하도록 한다.Hereinafter, an example of a method of generating a query using a pre-learned deep learning model will be described in detail with reference to FIG. 2 .
도 2는 본 발명의 일 실시예에 따른 기 학습된 딥러닝 모델을 이용하여 질의문을 생성하는 방법의 예시를 설명하기 위한 도면이다.2 is a diagram for explaining an example of a method of generating a query using a pre-trained deep learning model according to an embodiment of the present invention.
도 2를 참조하면, 먼저 입출력부(101)에서 이미지(200)를 입력 받으면, 입력 받은 이미지는 기 학습된 딥러닝 모델(220)에 입력되기 위해, 이미지가 기 설정된 크기로 분할되는 등의 데이터 전처리 과정(210)이 수행된다.Referring to FIG. 2 , when an
이후, 데이터 전처리 과정이 수행된 이미지는 기 학습된 딥러닝 모델(220)에 입력되고, 기 학습된 딥러닝 모델(220)은 데이터 전처리 과정이 수행된 이미지를 입력 받아, 적어도 하나의 단어를 출력(Output Probabilities)할 수 있다.Thereafter, the image on which the data preprocessing has been performed is input to the pre-trained
여기서, 기 학습된 딥러닝 모델(220)은 다수의 이미지와 다수의 이미지 각각의 레이블 데이터로써 다수의 이미지 각각에 대한 다수의 질문을 입력으로 하여 기 학습되어 있을 수 있다.Here, the pre-trained
보다 상세히, 기 학습된 딥러닝 모델(220)은 인코더부(213)와 디코더부(225)를 포함할 수 있으며, 인코더부(213)는 데이터 전처리 과정이 수행된 이미지를 입력 받아, 이미지의 특징을 추출할 수 있고, 디코더부(235)는 인코더부(213)로부터 추출된 특징을 입력 받아 적어도 하나의 단어를 생성할 수 있다.In more detail, the pre-trained
여기서, 디코더부(235)는 인코더부(213)로부터 추출된 이미지의 특징을 입력 받아 트랜스포머(Transformer) 네트워크 구조 이후, 시계열 기반의 네트워크 구조인 LSTM(Long Short Term Memory) 네트워크 구조의 각 레이어를 통과함에 따라 시계열 기반으로 입력 받은 이미지의 특징과 가장 연관된 적어도 하나의 단어를 생성할 수 있다.Here, the decoder unit 235 receives the characteristics of the image extracted from the encoder unit 213 and passes through each layer of the LSTM (Long Short Term Memory) network structure, which is a time series-based network structure after the Transformer network structure. Accordingly, it is possible to generate at least one word most related to the characteristics of the input image based on the time series.
예를 들어, 입출력부(101)에서 여성의 얼굴에 바나나가 위치하며, 바나나의 위치가 여성의 얼굴에 콧수염 형태를 띄고 있는 이미지(200)를 입력 받을 경우, 입력 받은 이미지(200)는 이미지가 기 설정된 크기로 분할되는 등의 데이터 전처리 과정(210)이 수행되고, 데이터 전처리 과정이 수행된 이미지는 기 학습된 딥러닝 모델(220)에 입력될 수 있다.For example, when input/
이때, 기 학습된 딥러닝 모델(220)은 데이터 전처리 과정이 수행된 이미지를 입력 받아, 적어도 하나의 단어를 출력(Output Probabilities)할 수 있다.In this case, the pre-learned
예를 들어, 기 학습된 딥러닝 모델(220)은 첫번째 단어로 “어떤”을 생성할 경우, 첫번째 단어인 “어떤”과 인코더부(233)로부터 추출된 이미지의 특징을 고려하여 두번째 단어로 “색깔의”를 생성하고, 첫번째 단어(“어떤”), 두번째 단어(“색깔의”) 및 인코더부(233)로부터 추출된 이미지의 특징을 고려하여 세번째 단어로 “콧수염”을 생성할 수 있다. 이후, 기 학습된 딥러닝 모델(220)은 첫번째 단어(“어떤”), 두번째 단어(“색깔의”), 세번째 단어("콧수염") 및 인코더부(233)로부터 추출된 이미지의 특징을 고려하여 네번째 단어로 "입니까?"를 생성할 수 있다.For example, when the pre-trained
여기서, 기 학습된 딥러닝 모델(220)은 기 정의된 문장의 종료를 의미하는 문장부호로써, 네번째 단어(“입니까?”)에 물음표(?)가 포함되는 단어가 생성되었으므로, 단어 생성을 종료할 수 있다.Here, the pre-trained
이후, 프로세서(120)에서 기 학습된 딥러닝 모델(220)에서 생성한 4가지의 단어를 순서대로 조합하여 첫번째 질의문을 생성할 수 있다.Thereafter, the first query may be generated by sequentially combining the four words generated by the
이후, 기 학습된 딥러닝 모델(220)은 다시 두번째 질의문을 위한 첫번째 단어를 생성할 수 있는데, 이때 두번째 질의문의 첫번째 단어는 첫번째 질의문에서의 첫번째 단어인 “어떤”이 기 설정된 확률(예를 들어, 85%의 확률)로 선택되지 않을 수 있다.Thereafter, the pre-trained
도 3은 본 발명의 일 실시예에 따른 질의문 생성 방법의 절차에 대한 예시적인 순서도이다. 도 3의 질의문 생성 방법은 도 1에 도시된 질의문 생성 장치(100)에 의해 수행 가능하다. 아울러, 도 3에 도시된 질의문 생성 방법은 예시적인 것에 불과하다.3 is an exemplary flowchart of a procedure of a method for generating a query according to an embodiment of the present invention. The method for generating a query of FIG. 3 may be performed by the
도 3을 참조하면, 입출력부(101)는 이미지를 입력 받을 수 있다(단계 S10).Referring to FIG. 3 , the input/
이후, 프로세서(120)는 입출력부(101)에서 입력 받은 이미지를 기 학습된 딥러닝 모델에 입력하여, 이미지의 특징을 추출할 수 있다(단계 S20).Thereafter, the
여기서, 기 학습된 딥러닝 모델은 다수의 이미지와 다수의 이미지 각각의 레이블 데이터로써 다수의 이미지 각각에 대한 다수의 질문을 입력으로 하여 기 학습되어 있을 수 있다.Here, the pre-trained deep learning model may be pre-trained by inputting a plurality of images and a plurality of questions for each of the plurality of images as label data of each of the plurality of images.
이후, 프로세서(120)는 추출한 특징을 이용하여 적어도 하나의 단어를 생성할 수 있다(단계 S30).Thereafter, the
예를 들어, 프로세서(120)는 추출한 이미지의 특징을 이용하여 첫번째 단어를 생성하고, 생성한 첫번째 단어 및 상기 이미지의 특징을 이용하여 두번째 단어를 생성할 수 있으며, 이때, 프로세서(120)는 두번째 단어는 첫번째 단어와 시계열적으로 연결되도록 생성할 수 있다.For example, the
또한, 프로세서(120)는 기 정의된 문장의 종료를 의미하는 문장부호를 포함하는 단어가 생성될 경우, 단어 생성을 종료할 수 있다.Also, when a word including a punctuation mark indicating the end of a predefined sentence is generated, the
이후, 프로세서(120)는 생성한 적어도 하나의 단어를 조합한 첫번째 질의문을 생성할 수 있다(단계 S40).Thereafter, the
마지막으로, 프로세서(120)는 첫번째 질의문에서 사용된 첫번째 단어가 기 설정된 확률로 포함되지 않도록 두번째 질의문 생성할 수 있다(단계 S50).Finally, the
예컨대, 프로세서(120)는 첫번째 질의문, 두번째 질의문 이외에도 기 설정된 개수의 질의문을 생성할 수 있으며, 예를 들어, 프로세서(120)는 세번째 질의문은 두번째 질의문에서 사용된 첫번째 단어가 기 설정된 확률로 포함되지 않도록 세번째 질의문을 생성할 수 있다.For example, the
이상에서 살펴본 바와 같이, 본 발명의 실시예에 대한 질의문 생성 장치는, 입력 받은 이미지에 대하여 다양한 종류의 창의적 질의문을 생성할 수 있다.As described above, the apparatus for generating a query according to an embodiment of the present invention may generate various types of creative questions with respect to an input image.
또한, 본 발명의 실시예에 대한 질의문 생성 장치는, 생성한 다양한 종류의 창의적 질의문을 시각 정보 기반의 질의응답 기술(VQA: Visual Question Answering)에 사용되는 딥러닝 학습 모델의 학습 데이터 셋으로 사용할 수 있으며, 이에 따라 학습 데이터 셋의 구축 비용을 절감할 수 있다.In addition, the apparatus for generating a question for an embodiment of the present invention uses various types of generated creative questions as a learning data set of a deep learning learning model used in Visual Question Answering (VQA) based on visual information. can be used, thereby reducing the cost of constructing the training data set.
한편, 본 발명의 일 실시예에 따른 질의문 생성 장치(100)는 다양한 플랫폼에서 사용될 수 있으며, 예를 들어 시각정보를 보고 인지(또는 생각)할 수 있는 질문을 제공할 수 있는 인공 지능 서비스 시스템 등에서 사용될 수 있다.Meanwhile, the
본 발명에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방법으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.Combinations of each block in the block diagram attached to the present invention and each step in the flowchart may be performed by computer program instructions. These computer program instructions may be embodied in the encoding processor of a general purpose computer, special purpose computer, or other programmable data processing equipment, such that the instructions executed by the encoding processor of the computer or other programmable data processing equipment may correspond to each block or Each step of the flowchart creates a means for performing the functions described. These computer program instructions may also be stored in a computer-usable or computer-readable memory that may direct a computer or other programmable data processing equipment to implement a function in a particular manner, and thus the computer-usable or computer-readable memory. The instructions stored in the block diagram may produce an article of manufacture containing instruction means for performing the functions described in each block in the block diagram or in each step in the flowchart. The computer program instructions may also be mounted on a computer or other programmable data processing equipment, such that a series of operational steps are performed on the computer or other programmable data processing equipment to create a computer-executed process to create a computer or other programmable data processing equipment. It is also possible that instructions for performing the processing equipment provide steps for carrying out the functions described in each block of the block diagram and each step of the flowchart.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.Further, each block or each step may represent a module, segment, or portion of code that includes one or more executable instructions for executing the specified logical function(s). It should also be noted that in some alternative embodiments it is also possible for the functions recited in blocks or steps to occur out of order. For example, it is possible that two blocks or steps shown one after another may in fact be performed substantially simultaneously, or that the blocks or steps may sometimes be performed in the reverse order according to the corresponding function.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of the present invention, and various modifications and variations will be possible without departing from the essential quality of the present invention by those skilled in the art to which the present invention pertains. Therefore, the embodiments disclosed in the present invention are not intended to limit the technical spirit of the present invention, but to explain, and the scope of the technical spirit of the present invention is not limited by these embodiments. The protection scope of the present invention should be construed by the following claims, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of the present invention.
100: 질의문 생성 장치
101: 입출력부
110: 메모리
120: 프로세서100: query generating device
101: input/output unit
110: memory
120: processor
Claims (8)
이미지를 입력 받는 단계와,
상기 이미지를 기 학습된 딥러닝 모델에 입력하여, 상기 이미지의 특징을 추출하는 단계와,
상기 특징을 이용하여, 적어도 하나의 단어를 생성하는 단계와,
상기 적어도 하나의 단어를 조합한 첫번째 질의문을 생성하는 단계와,
상기 첫번째 질의문에서 사용된 첫번째 단어가 기 설정된 확률로 포함되지 않도록 두번째 질의문을 생성하는 단계를 포함하되,
상기 기 학습된 딥러닝 모델은,
다수의 이미지와 상기 다수의 이미지 각각의 레이블 데이터로써 상기 다수의 이미지 각각에 대한 다수의 질문을 입력으로 하여 기 학습된
질의문 생성 방법.A method for generating a query performed by an apparatus for generating a query, the method comprising:
receiving an image, and
inputting the image to a pre-trained deep learning model, and extracting features of the image;
generating at least one word using the feature;
generating a first query sentence combining the at least one word;
generating a second query so that the first word used in the first query is not included with a preset probability;
The pre-trained deep learning model is,
Pre-learned by inputting a plurality of questions for each of the plurality of images as label data of a plurality of images and each of the plurality of images
How to create a query.
상기 적어도 하나의 단어를 생성하는 단계는,
상기 특징을 이용하여 상기 첫번째 단어를 생성하고, 상기 첫번째 단어 및 상기 이미지의 특징을 이용하여 두번째 단어를 생성하는
질의문 생성 방법.The method of claim 1,
The generating of the at least one word comprises:
generating the first word using the feature, and generating a second word using the first word and features of the image
How to create a query.
상기 적어도 하나의 단어를 생성하는 단계는,
상기 두번째 단어는 상기 첫번째 단어와 시계열적으로 연결되도록 생성하는
질의문 생성 방법.3. The method of claim 2,
The generating of the at least one word comprises:
The second word is generated to be time-series connected with the first word
How to create a query.
상기 적어도 하나의 단어를 생성하는 단계는,
기 정의된 문장의 종료를 의미하는 문장부호를 포함하는 단어가 생성될 경우, 단어 생성을 종료하는
질의문 생성 방법.The method of claim 1,
The generating of the at least one word comprises:
When a word including a punctuation mark indicating the end of a predefined sentence is generated, the word generation is terminated.
How to create a query.
상기 기 학습된 딥러닝 모델은,
트랜스포머(Transformer) 네트워크 구조가 적용된 딥러닝 모델인
질의문 생성 방법.The method of claim 1,
The pre-trained deep learning model is,
It is a deep learning model to which the Transformer network structure is applied.
How to create a query.
메모리; 및
상기 메모리와 전기적으로 연결된 프로세서를 포함하고,
상기 프로세서는,
상기 이미지를 기 학습된 딥러닝 모델에 입력하여, 상기 이미지의 특징을 추출하고, 상기 특징을 이용하여, 적어도 하나의 단어를 생성하고, 상기 적어도 하나의 단어를 조합한 첫번째 질의문을 생성하고, 상기 첫번째 질의문에서 사용된 첫번째 단어가 기 설정된 확률로 포함되지 않도록 두번째 질의문을 생성하고,
상기 기 학습된 딥러닝 모델은,
다수의 이미지와 상기 다수의 이미지 각각의 레이블 데이터로써 상기 다수의 이미지 각각에 대한 다수의 질문을 입력으로 하여 기 학습된
질의문 생성 장치.an input/output unit for receiving an image;
Memory; and
a processor electrically connected to the memory;
The processor is
Input the image to a pre-trained deep learning model, extract features of the image, use the features to generate at least one word, and generate a first query that combines the at least one word, generating a second query so that the first word used in the first query is not included with a preset probability;
The pre-trained deep learning model is,
Pre-learned by inputting a plurality of questions for each of the plurality of images as label data of a plurality of images and each of the plurality of images
Query generator.
상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,
이미지를 입력 받는 단계와,
상기 이미지를 기 학습된 딥러닝 모델에 입력하여, 상기 이미지의 특징을 추출하는 단계와,
상기 특징을 이용하여, 적어도 하나의 단어를 생성하는 단계와,
상기 적어도 하나의 단어를 조합한 첫번째 질의문을 생성하는 단계와,
상기 첫번째 질의문에서 사용된 첫번째 단어가 기 설정된 확률로 포함되지 않도록 두번째 질의문을 생성하는 단계를 포함하는 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하고,
상기 기 학습된 딥러닝 모델은,
다수의 이미지와 상기 다수의 이미지 각각의 레이블 데이터로써 상기 다수의 이미지 각각에 대한 다수의 질문을 입력으로 하여 기 학습된
컴퓨터 판독 가능한 기록매체.As a computer-readable recording medium storing a computer program,
The computer program, when executed by a processor,
receiving an image, and
inputting the image to a pre-trained deep learning model, and extracting features of the image;
generating at least one word using the feature;
generating a first query sentence combining the at least one word;
and instructions for causing the processor to perform a method including generating a second query so that the first word used in the first query is not included with a preset probability;
The pre-trained deep learning model is,
Pre-learned by inputting a plurality of questions for each of the plurality of images as label data of a plurality of images and each of the plurality of images
computer readable recording medium.
상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,
이미지를 입력 받는 단계와,
상기 이미지를 기 학습된 딥러닝 모델에 입력하여, 상기 이미지의 특징을 추출하는 단계와,
상기 특징을 이용하여, 적어도 하나의 단어를 생성하는 단계와,
상기 적어도 하나의 단어를 조합한 첫번째 질의문을 생성하는 단계와,
상기 첫번째 질의문에서 사용된 첫번째 단어가 기 설정된 확률로 포함되지 않도록 두번째 질의문을 생성하는 단계를 포함하는 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하고,
상기 기 학습된 딥러닝 모델은,
다수의 이미지와 상기 다수의 이미지 각각의 레이블 데이터로써 상기 다수의 이미지 각각에 대한 다수의 질문을 입력으로 하여 기 학습된
컴퓨터 프로그램.As a computer program stored in a computer-readable recording medium,
The computer program, when executed by a processor,
receiving an image, and
inputting the image to a pre-trained deep learning model, and extracting features of the image;
generating at least one word using the feature;
generating a first query sentence combining the at least one word;
and instructions for causing the processor to perform a method including generating a second query so that the first word used in the first query is not included with a preset probability;
The pre-trained deep learning model is,
Pre-learned by inputting a plurality of questions for each of the plurality of images as label data of a plurality of images and each of the plurality of images
computer program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210047731A KR20220141521A (en) | 2021-04-13 | 2021-04-13 | Apparatus and method for generating query |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210047731A KR20220141521A (en) | 2021-04-13 | 2021-04-13 | Apparatus and method for generating query |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220141521A true KR20220141521A (en) | 2022-10-20 |
Family
ID=83805005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210047731A KR20220141521A (en) | 2021-04-13 | 2021-04-13 | Apparatus and method for generating query |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20220141521A (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140066476A (en) | 2012-11-23 | 2014-06-02 | 건국대학교 산학협력단 | Method and apparatus for searching information based on image |
-
2021
- 2021-04-13 KR KR1020210047731A patent/KR20220141521A/en not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140066476A (en) | 2012-11-23 | 2014-06-02 | 건국대학교 산학협력단 | Method and apparatus for searching information based on image |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240054767A1 (en) | Multi-modal Model Training Method, Apparatus and Device, and Storage Medium | |
WO2022095735A1 (en) | Application program multi-language support method and apparatus, computer device and storage medium | |
DE112016005912T5 (en) | SEQUENCE DETECTION TECHNOLOGIES USING SYNTACTIC COHERENCE | |
JP6812583B1 (en) | Systems and methods to assist in the creation of game scripts | |
JP2022500748A (en) | Curriculum package development methods and equipment, systems, devices and storage media | |
KR20150005608A (en) | Building multi-language processes from existing single-language processes | |
CN108804091A (en) | A kind of software code generation method | |
CN111553138B (en) | Auxiliary writing method and device for standardizing content structure document | |
CN106933811A (en) | A kind of entry automatic generation method and device | |
CN115587598A (en) | Multi-turn dialogue rewriting method, equipment and medium | |
JP2018205945A (en) | Automatic dialogue response document creation artificial intelligence device | |
KR20220141521A (en) | Apparatus and method for generating query | |
CN110909726B (en) | Written document interaction system and method based on image recognition | |
US20180301050A1 (en) | Providing partial answers to users | |
CN116681088A (en) | Translation system, method and storage medium based on large model | |
CN115273057A (en) | Text recognition method and device, dictation correction method and device and electronic equipment | |
CN115982330A (en) | Model pre-training method, model training method, data processing method and device thereof | |
CN110110050A (en) | A kind of generation method of media event production question and answer data set | |
US10726211B1 (en) | Automated system for dynamically generating comprehensible linguistic constituents | |
KR20210057845A (en) | Deep Learning Frame Work-Based Image Recognition Method and System Using Training Image Data | |
CN115049899B (en) | Model training method, reference expression generation method and related equipment | |
CN110765826A (en) | Method and device for identifying messy codes in Portable Document Format (PDF) | |
CN113850235B (en) | Text processing method, device, equipment and medium | |
CN113343668B (en) | Method and device for solving selected questions, electronic equipment and readable storage medium | |
US20240153485A1 (en) | Systems and methods for machine-learning based multi-lingual pronunciation generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application | ||
E902 | Notification of reason for refusal |