KR102501575B1 - Method and apparatus for transmitting a video text list to a user terminal using a plurality of neural networks by a server - Google Patents

Method and apparatus for transmitting a video text list to a user terminal using a plurality of neural networks by a server Download PDF

Info

Publication number
KR102501575B1
KR102501575B1 KR1020220157461A KR20220157461A KR102501575B1 KR 102501575 B1 KR102501575 B1 KR 102501575B1 KR 1020220157461 A KR1020220157461 A KR 1020220157461A KR 20220157461 A KR20220157461 A KR 20220157461A KR 102501575 B1 KR102501575 B1 KR 102501575B1
Authority
KR
South Korea
Prior art keywords
video
texts
server
error
input
Prior art date
Application number
KR1020220157461A
Other languages
Korean (ko)
Inventor
박송태
정다인
Original Assignee
주식회사 아무랩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아무랩스 filed Critical 주식회사 아무랩스
Priority to KR1020220157461A priority Critical patent/KR102501575B1/en
Application granted granted Critical
Publication of KR102501575B1 publication Critical patent/KR102501575B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

The present invention relates to a method and apparatus for transmitting a video text list to a user terminal by using a plurality of neural networks. The method of the present invention comprises the steps of: receiving a video from an external server; extracting information about the video; determining a plurality of first texts and a plurality of second texts; determining a plurality of third texts and a plurality of fourth texts; distinguishing between a first playback time of the video and a second playback time of the video; determining a video text list; and transmitting the video text list to a user terminal. According to the present invention, user convenience can be improved.

Description

복수의 뉴럴 네트워크를 이용하여 동영상 텍스트 리스트를 사용자 단말에게 전송하는 방법 및 장치{METHOD AND APPARATUS FOR TRANSMITTING A VIDEO TEXT LIST TO A USER TERMINAL USING A PLURALITY OF NEURAL NETWORKS BY A SERVER} Method and apparatus for transmitting a video text list to a user terminal using a plurality of neural networks

본 개시의 실시예들은 동영상 텍스트 리스트를 사용자 단말에게 전송하는 기술에 관한 것으로, 복수의 뉴럴 네트워크를 이용하여 동영상 텍스트 리스트를 서버가 사용자 단말에게 전송하는 기술에 대한 것이다.Embodiments of the present disclosure relate to a technology for transmitting a video text list to a user terminal, and to a technology for transmitting a video text list from a server to a user terminal using a plurality of neural networks.

한편, 인터넷의 발달과 스마트폰의 대중화로 인해, 모바일 환경에서의 동영상 시청이 크게 증가하고 있으며, 학습을 목적으로 동영상을 시청하는 학습자 또한 증가하고 있다.On the other hand, due to the development of the Internet and the popularization of smart phones, watching videos in a mobile environment is greatly increasing, and learners watching videos for learning purposes are also increasing.

기존 동영상 플랫폼에서 제공하는 한글 자막은 사용자가 미리 설정한 자막이 동영상에 표시되는 경우도 있지만, 동영상 플랫폼 자체적으로 동영상의 음성을 인식하여 동영상에 제공하는 자막의 경우에는 많은 오타들이 발생하는 문제가 있다.In the case of Korean subtitles provided by existing video platforms, the subtitles set by the user may be displayed in the video, but in the case of subtitles provided in the video by recognizing the audio of the video by the video platform itself, there is a problem that many typos occur. .

또한, 동영상의 자막 이외에 동영상에 표시된 텍스트를 추출하여 사용자에게 제공하는 기능이 없기 때문에, 해당 동영상에 포함된 텍스트를 이용하여 목차를 작성하거나 학습 자료를 작성할 때 어려움이 있을 수 있다. In addition, since there is no function to extract text displayed in the video and provide it to the user other than subtitles of the video, it may be difficult to create a table of contents or create learning materials using the text included in the video.

이에, 뉴럴 네트워크를 이용하여 동영상에 표시된 자막뿐만 아니라 동영상에 표시된 텍스트를 인식하고, 인식된 텍스트들에 대한 오타를 자동으로 수정하여 사용자에게 제공하는 방법 및 장치가 필요하다.Accordingly, there is a need for a method and apparatus for recognizing text displayed in a video as well as subtitles displayed in a video using a neural network, automatically correcting typos in the recognized texts, and providing the information to the user.

기존 동영상 플랫폼 자체적으로 동영상의 음성을 인식하여 동영상에 제공하는 자막의 경우에는 많은 오타들이 발생하고, 동영상의 자막 이외에 동영상에 표시된 텍스트를 추출하여 사용자에게 제공하는 기능이 없다.Many typos occur in the case of subtitles that recognize the audio of the video and provide it to the video by the existing video platform itself, and there is no function to extract text displayed in the video and provide it to users other than the subtitle of the video.

본 개시의 실시예들은, 복수의 뉴럴 네트워크를 이용하여 동영상의 자막 이외에 동영상에 표시된 텍스트를 추출하고, 텍스트들에 대한 오타가 자동으로 교정된 동영상 텍스트 리스트를 사용자 단말에게 전송하는 방법 및 장치를 제공할 수 있다. Embodiments of the present disclosure provide a method and apparatus for extracting text displayed in a video in addition to subtitles of the video using a plurality of neural networks and transmitting a video text list in which typos in the texts are automatically corrected to a user terminal. can do.

실시예들에서 이루고자 하는 기술적 과제들은 이상에서 언급한 사항들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 이하 설명할 다양한 실시예들로부터 당해 기술분야에서 통상의 지식을 가진 자에 의해 고려될 수 있다.Technical tasks to be achieved in the embodiments are not limited to those mentioned above, and other technical tasks not mentioned will be considered by those skilled in the art from various embodiments to be described below. can

일 실시예에 따른 서버가 복수의 뉴럴 네트워크(neural network)를 이용하여 서버가 동영상 텍스트 리스트를 사용자 단말에게 전송하는 방법은, 외부 서버로부터 동영상을 수신하고, 상기 동영상으로부터 상기 동영상의 파일 크기 및 상기 동영상의 재생 시간, 상기 동영상의 프레임 크기 및 상기 동영상에 대한 색상 정보를 포함하는 동영상에 대한 정보를 추출하고, 상기 동영상 및 상기 동영상에 대한 정보를 기반으로 제1 뉴럴 네트워크를 이용한 텍스트 인식 모델을 통해 상기 동영상의 재생 화면 내 제1 영역에 포함된 복수의 제1 텍스트 및 상기 동영상의 재생 화면 내 제2 영역에 포함된 복수의 제2 텍스트를 결정하고, 상기 복수의 제1 텍스트 및 상기 복수의 제2 텍스트를 기반으로 제2 뉴럴 네트워크를 이용한 오타 교정 모델을 통해 복수의 제3 텍스트 및 복수의 제4 텍스트를 결정하고, 상기 복수의 제3 텍스트는 상기 복수의 제1 텍스트에 포함된 오타가 교정된 텍스트이고, 상기 복수의 제4 텍스트는 상기 복수의 제2 텍스트에 포함된 오타가 교정된 텍스트이고, 상기 동영상의 재생 화면 내 제1 영역에 표시된 상기 복수의 제1 텍스트가 변경되는 시점을 기준으로 상기 동영상의 제1 재생 시점과 상기 동영상의 재생 화면 내 제2 영역에 표시된 상기 복수의 제2 텍스트가 변경되는 시점을 기준으로 상기 동영상의 제2 재생 시점을 구분하고, 상기 동영상의 제1 재생 시점에 매칭된 상기 복수의 제3 텍스트와 상기 동영상의 제2 재생 시점에 매칭된 상기 복수의 제4 텍스트로 구성된 동영상 텍스트 리스트를 결정하고, 상기 동영상 텍스트 리스트를 사용자 단말에게 전송하는 단계를 포함할 수 있다. 예를 들어, 상기 사용자 단말에 의해 상기 동영상 텍스트 리스트에 포함된 상기 복수의 제3 텍스트 또는 상기 복수의 제4 텍스트 중에서 어느 하나의 텍스트가 선택되면, 선택된 텍스트에 매칭된 상기 동영상의 재생 시점부터 상기 동영상이 재생될 수 있다.A method in which a server transmits a video text list to a user terminal by using a plurality of neural networks according to an embodiment includes receiving a video from an external server, determining the file size of the video and the video text list from the video. Extracting information about the video including video playback time, frame size of the video, and color information about the video, and using a text recognition model using a first neural network based on the video and the information about the video determining a plurality of first texts included in a first area in a playback screen of the video and a plurality of second texts included in a second area in a playback screen of the video; Based on 2 texts, a plurality of third texts and a plurality of fourth texts are determined through a typo correction model using a second neural network, and the plurality of third texts correct typos included in the plurality of first texts. text, the plurality of fourth texts are texts in which typos included in the plurality of second texts are corrected, and the plurality of first texts displayed in the first area of the video playback screen are changed based on a time point To distinguish the second playback time of the video based on the first playback time of the video and the time when the plurality of second texts displayed in the second region of the video playback screen are changed, and the first playback of the video determining a video text list composed of the plurality of third texts matched to a viewpoint and the plurality of fourth texts matched to a second playback viewpoint of the video, and transmitting the video text list to a user terminal. can For example, when any one of the plurality of third texts and the plurality of fourth texts included in the video text list is selected by the user terminal, the video matching the selected text is reproduced from the playback time. Videos can be played.

예를 들어, 상기 제1 영역은 상기 동영상의 재생 화면에 자막이 위치하는 영역일 수 있다. 상기 제2 영역은 상기 제1 영역 이외의 영역을 포함할 수 있다. 상기 복수의 제1 텍스트 및 상기 복수의 제2 텍스트는 최소 크기보다 큰 크기를 가진 텍스트일 수 있다. 상기 최소 크기는 상기 동영상의 프레임 크기, 상기 자막의 크기 및 상기 동영상의 색상 정보를 기반으로 결정될 수 있다.For example, the first area may be an area where subtitles are located on the reproduction screen of the video. The second area may include an area other than the first area. The plurality of first texts and the plurality of second texts may be texts having a size greater than a minimum size. The minimum size may be determined based on the frame size of the video, the size of the subtitle, and color information of the video.

예를 들어, 상기 최소 크기는 하기 수학식에 의해 결정될 수 있다.For example, the minimum size may be determined by the following equation.

Figure 112022124771246-pat00001
Figure 112022124771246-pat00001

상기 수학식에서, 상기 Tmin은 상기 최초 크기이고, 상기 nc는 상기 동영상에 포함된 RGB 값들의 분포에 기반하여 결정된 값이고, 상기 nd는 상기 동영상에 포함된 RGB 값들의 분포에 대한 기본 값이고, 상기 Sf는 상기 동영상의 프레임의 크기이고, 상기 Sd는 평균적인 프레임의 크기이고, 상기 Sc는 상기 동영상의 자막의 크기이고, 상기 Tr은 상기 인식 모델이 인식할 수 있는 최소 텍스트의 크기일 수 있다.In the above equation, T min is the initial size, n c is a value determined based on the distribution of RGB values included in the video, and n d is a basic value for the distribution of RGB values included in the video. , wherein S f is the frame size of the video, S d is the average frame size, S c is the size of the subtitle of the video, and T r is the minimum size that the recognition model can recognize. It can be the size of the text.

예를 들어, 상기 복수의 제1 텍스트의 개수가 사전 설정된 임계 값 이상인 것에 기반하여, 상기 오타 교정 모델은 복수의 제1 오류 유형에 따라 상기 복수의 제1 텍스트 및 상기 복수의 제2 텍스트에 대해 오타를 검출할 수 있다. 상기 복수의 제1 텍스트의 개수가 사전 설정된 임계 값 미만인 것에 기반하여, 상기 오타 교정 모델은 복수의 제2 오류 유형에 따라 상기 복수의 제1 텍스트 및 상기 복수의 제2 텍스트에 대해 오타를 검출할 수 있다. 상기 복수의 제1 오류 유형은 띄어쓰기에 대한 오류, 문장부호에 대한 오류, 수사에 대한 오류와 맞춤법 및 문법에 대한 1차 오류를 포함할 수 있다. 상기 1차 오류는 글자 삭제 오류, 글자 추가 오류, 글자 대체 오류 및 글자 분리 오류를 포함할 수 있다. 상기 복수의 제2 오류 유형은 상기 복수의 제1 오류 유형과 맞춤법 및 문법에 대한 2차 오류를 포함할 수 있다. 상기 2차 오류는 타이핑 오류, 외래어 변환 오류, 의미 오류 및 신조어 오류를 포함할 수 있다.For example, based on the fact that the number of the plurality of first texts is greater than or equal to a preset threshold value, the typo correction model is configured for the plurality of first texts and the plurality of second texts according to the plurality of first error types. Mistakes can be detected. Based on the number of the plurality of first texts being less than a preset threshold value, the typo correction model is configured to detect typos in the plurality of first texts and the plurality of second texts according to the plurality of second error types. can The plurality of first error types may include spaces errors, punctuation errors, numeral errors, and primary errors regarding spelling and grammar. The primary error may include a letter deletion error, a letter addition error, a letter replacement error, and a letter separation error. The plurality of second error types may include the plurality of first error types and secondary errors for spelling and grammar. The secondary error may include a typing error, a foreign word conversion error, a semantic error, and a neologism error.

예를 들어, 상기 텍스트 인식 모델은 CRNN(convolutional recurrent neural network) 모델일 수 있다. 상기 제1 뉴럴 네트워크는 제1 입력 레이어, 하나 이상의 제1 히든 레이어 및 제1 출력 레이어를 포함할 수 있다. 복수의 동영상 및 정답 복수의 텍스트로 구성된 각각의 제1 뉴럴 네트워크의 학습을 위한 데이터는 상기 제1 뉴럴 네트워크의 상기 제1 입력 레이어에 입력되고, 상기 하나 이상의 제1 히든 레이어 및 제1 출력 레이어를 통과하여 제1 출력 벡터를 출력하고, 상기 제1 출력 벡터는 상기 제1 출력 레이어에 연결된 제1 손실함수 레이어에 입력되고, 상기 제1 손실함수 레이어는 상기 제1 출력 벡터와 각각의 학습 데이터에 대한 제1 정답 벡터를 비교하는 제1 손실 함수를 이용하여 제1 손실값을 출력하고, 상기 제1 뉴럴 네트워크의 파라미터가 상기 제1 손실값이 작아지는 방향으로 학습되는, 상기 텍스트 인식 모델이 생성될 수 있다.For example, the text recognition model may be a convolutional recurrent neural network (CRNN) model. The first neural network may include a first input layer, one or more first hidden layers, and a first output layer. Data for learning each of the first neural networks composed of a plurality of videos and a plurality of correct answer texts is input to the first input layer of the first neural network, and the one or more first hidden layers and the first output layer are input. Pass through and output a first output vector, the first output vector is input to a first loss function layer connected to the first output layer, and the first loss function layer is applied to the first output vector and each training data The text recognition model generates a first loss value by using a first loss function that compares a first answer vector for , and the parameters of the first neural network are learned in a direction in which the first loss value decreases. It can be.

예를 들어, 상기 오타 교정 모델은 양방향 LSTM(long short-term memory) 모델을 포함할 수 있다. 상기 제2 뉴럴 네트워크는 제2 입력 레이어, 하나 이상의 제2 히든 레이어 및 제2 출력 레이어를 포함할 수 있다. 복수의 텍스트 및 복수의 정답 텍스트로 구성된 각각의 제2 뉴럴 네트워크의 학습을 위한 데이터는 상기 제2 뉴럴 네트워크의 상기 제2 입력 레이어에 입력되고, 상기 하나 이상의 제2 히든 레이어 및 제2 출력 레이어를 통과하여 제2 출력 벡터를 출력하고, 상기 제2 출력 벡터는 상기 제2 출력 레이어에 연결된 제2 손실함수 레이어에 입력되고, 상기 제2 손실함수 레이어는 상기 제2 출력 벡터와 각각의 학습 데이터에 대한 제2 정답 벡터를 비교하는 제2 손실 함수를 이용하여 제2 손실값을 출력하고, 상기 제2 뉴럴 네트워크의 파라미터가 상기 제2 손실값이 작아지는 방향으로 학습되는, 상기 오타 교정 모델이 생성될 수 있다.For example, the typo correction model may include a bidirectional long short-term memory (LSTM) model. The second neural network may include a second input layer, one or more second hidden layers, and a second output layer. Data for learning of each second neural network composed of a plurality of texts and a plurality of correct answer texts is input to the second input layer of the second neural network, and the one or more second hidden layers and the second output layer are input. Pass through and output a second output vector, the second output vector is input to a second loss function layer connected to the second output layer, and the second loss function layer is applied to the second output vector and each training data A second loss value is output using a second loss function that compares a second answer vector for , and the parameters of the second neural network are learned in a direction in which the second loss value becomes smaller. The typo correction model is generated. It can be.

부가적으로, 예를 들어, 사전 설정된 임계 값은 하기 수학식에 의해 결정될 수 있다.Additionally, for example, the preset threshold value may be determined by the following equation.

Figure 112022124771246-pat00002
Figure 112022124771246-pat00002

상기 수학식에서, 상기 nth는 상기 사전 설정된 임계 값이고, 상기 n은 상기 서버에 업로드된 동영상의 개수이고, 상기 ti는 i번째의 동영상의 재생 시간이고, 상기 pv는 상기 서버의 1초당 처리 가능한 트랜잭션의 개수이고, 상기 nc는 상기 서버에 접속한 사용자 단말의 개수이고, 상기 nd는 상기 사전 설정된 임계 값에 대한 디폴트 값일 수 있다.In the above equation, n th is the preset threshold value, n is the number of videos uploaded to the server, t i is the playing time of the ith video, and p v is the server per second The number of transactions that can be processed, n c is the number of user terminals accessing the server, and n d may be a default value for the preset threshold value.

여기서, 상기 동영상의 재생 시간은 초 단위일 수 있다. 상기 pv는 TPS(transaction per second) 단위일 수 있다. floor 함수는 가장 가까운 내림 값을 반영하는 함수이다. 예를 들어, 상기 디폴트 값은 상기 서버에 사전 설정될 수 있다. Here, the playback time of the video may be in seconds. The p v may be a transaction per second (TPS) unit. The floor function is a function that reflects the nearest rounding value. For example, the default value may be preset in the server.

동영상에 표시된 텍스트의 개수가 동일하여도, 상기 동영상의 재생 시간에 따라 서버가 데이터를 처리하는 속도가 상이할 수 있다. 특히, 동영상의 재생 시간이 긴 경우, 동영상의 재생 시간이 짧은 경우보다 동영상의 용량이 상대적으로 크기 때문에, 서버가 텍스트 데이터를 처리하기 위한 시간이 상대적으로 더 소요될 수 있다. 따라서, 상기 동영상의 재생 시간이 길수록 상기 사전 설정된 임계 값을 큰 값으로 설정함으로써, 서버가 더 많은 개수의 텍스트에 대해 상대적으로 개수가 적은 복수의 제1 오류 유형을 검출하여 서버에 대한 부하를 줄일 수 있다. Even if the number of texts displayed in the video is the same, the speed at which the server processes data may vary according to the playing time of the video. In particular, when the video playback time is long, the server may take more time to process the text data because the capacity of the video is relatively larger than when the video playback time is short. Therefore, by setting the preset threshold to a larger value as the playing time of the video is longer, the server detects a plurality of first error types with a relatively small number for a larger number of texts, thereby reducing the load on the server. can

예를 들어, 상기 TPS가 높을수록 서버는 더 많은 양의 데이터를 처리할 수 있으므로, 사전 설정된 임계 값을 낮춤으로써, 서버가 더 작은 개수의 텍스트에 대해 상대적으로 개수가 많은 복수의 제2 오류 유형을 검출하여 오류 검출에 대한 품질을 높일 수 있다.For example, since the server can process a larger amount of data as the TPS is higher, by lowering the preset threshold value, the server has a relatively large number of second error types for a smaller number of texts. can be detected to improve the quality of error detection.

예를 들어, 서버에 접속한 사용자 단말의 개수가 많을수록, 서버가 처리할 데이터가 증가하므로, 상기 사전 설정된 임계 값을 큰 값으로 설정함으로써, 서버가 더 많은 개수의 텍스트에 대해 상대적으로 개수가 적은 복수의 제1 오류 유형을 검출하여 서버에 대한 부하를 줄일 수 있다.For example, as the number of user terminals accessing the server increases, the data to be processed by the server increases. Therefore, by setting the preset threshold value to a large value, the server can obtain a relatively small number of texts for a larger number of texts. A load on a server may be reduced by detecting a plurality of first error types.

실시예들에 따르면, 서버는 텍스트 인식 모델을 통해 동영상에 표시된 자막과 자막 이외의 텍스트를 추출하고 재생 순서로 정렬한 동영상 텍스트 리스트를 사용자 단말에게 전송으로써, 사용자 단말에게 자막 이외에 동영상과 관련된 텍스트를 재생 시점 별로 전송하여 사용자의 편의성을 높일 수 있다.According to embodiments, the server extracts subtitles and text other than subtitles displayed in a video through a text recognition model and transmits a video text list arranged in playback order to a user terminal, thereby providing the user terminal with text related to the video in addition to the subtitles. It is possible to increase user convenience by transmitting data according to playback time points.

또한, 서버는 텍스트 인식 모델이 동영상과 관련된 텍스트를 인식하기 위한 최소 크기를 동영상의 프레임 크기, 자막 크기 및 동영상의 RGB 값들을 고려하여 효과적으로 결정함으로써, 동영상으로부터 효과적으로 텍스트를 추출할 수 있다.In addition, the server can effectively extract text from the video by effectively determining the minimum size for the text recognition model to recognize text related to the video in consideration of the frame size of the video, subtitle size, and RGB values of the video.

실시예들에 따르면, 서버는 텍스트 인식 모델을 통해 인식된 텍스트에 대한 오타를 오타 교정 모델을 통해 자동으로 교정할 수 있고, 서버의 데이터 처리 속도에 영향을 주는 다양한 요인들을 고려하여 오타 교정 모델에서 처리되는 오류 유형을 결정하기 위한 기준 값을 변경함으로써, 서버가 동영상에 표시된 텍스트에 대한 오타를 검출하는 품질을 높일 수 있다.According to embodiments, the server may automatically correct typos in text recognized through the text recognition model through the typo correction model, and in consideration of various factors affecting the data processing speed of the server, the typo correction model By changing the reference value for determining the error type to be processed, the quality of the server detecting typos in the text displayed in the video can be improved.

실시예들로부터 얻을 수 있는 효과들은 이상에서 언급된 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 이하의 상세한 설명을 기반으로 당해 기술분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다.Effects obtainable from the embodiments are not limited to the effects mentioned above, and other effects not mentioned are clearly derived and understood by those skilled in the art based on the detailed description below. It can be.

실시예들에 대한 이해를 돕기 위해 상세한 설명의 일부로 포함된, 첨부 도면은 다양한 실시예들을 제공하고, 상세한 설명과 함께 다양한 실시예들의 기술적 특징을 설명한다.
도 1은 일 실시예에 따른 전자 장치의 구성을 나타내는 도면이다.
도 2는 일 실시예에 따른 프로그램의 구성을 나타내는 도면이다.
도 3은 일 실시예에 따른 서버가 동영상 텍스트 리스트를 사용자 단말에게 전송하는 방법을 나타낸다.
도 4는 일 실시예에 따른 텍스트 인식 모델에 대한 도면이다.
도 5는 일 실시예에 따른 오타 교정 모델에 대한 도면이다.
도 6은 일 실시예에 따른 서버가 동영상 텍스트 리스트를 사용자 단말에게 전송하는 방법에 대한 흐름도이다.
도 7은 일 실시예에 따른 서버의 구성을 나타내는 블록도이다.
BRIEF DESCRIPTION OF THE DRAWINGS Included as part of the detailed description to aid understanding of the embodiments, the accompanying drawings provide various embodiments and, together with the detailed description, describe technical features of the various embodiments.
1 is a diagram illustrating a configuration of an electronic device according to an exemplary embodiment.
2 is a diagram showing the configuration of a program according to an embodiment.
3 illustrates a method in which a server transmits a video text list to a user terminal according to an exemplary embodiment.
4 is a diagram of a text recognition model according to an embodiment.
5 is a diagram of a typo correction model according to an embodiment.
6 is a flowchart of a method for a server to transmit a video text list to a user terminal according to an exemplary embodiment.
7 is a block diagram illustrating a configuration of a server according to an exemplary embodiment.

이하의 실시예들은 실시예들의 구성요소들과 특징들을 소정 형태로 결합한 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려될 수 있다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 다양한 실시예들을 구성할 수도 있다. 다양한 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다.The following embodiments combine elements and features of the embodiments in a predetermined form. Each component or feature may be considered optional unless explicitly stated otherwise. Each component or feature may be implemented in a form not combined with other components or features. In addition, various embodiments may be configured by combining some components and/or features. The order of operations described in various embodiments may be changed. Some components or features of one embodiment may be included in another embodiment, or may be replaced with corresponding components or features of another embodiment.

도면에 대한 설명에서, 다양한 실시예들의 요지를 흐릴 수 있는 절차 또는 단계 등은 기술하지 않았으며, 당해 기술분야에서 통상의 지식을 가진 자의 수준에서 이해할 수 있을 정도의 절차 또는 단계는 또한 기술하지 아니하였다.In the description of the drawings, procedures or steps that may obscure the gist of various embodiments are not described, and procedures or steps that can be understood by those skilled in the art are not described. did

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함(comprising 또는 including)"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, "일(a 또는 an)", "하나(one)", "그(the)" 및 유사 관련어는 다양한 실시예들을 기술하는 문맥에 있어서(특히, 이하의 청구항의 문맥에서) 본 명세서에 달리 지시되거나 문맥에 의해 분명하게 반박되지 않는 한, 단수 및 복수 모두를 포함하는 의미로 사용될 수 있다.Throughout the specification, when a part is said to "comprising" or "including" a certain element, it means that it may further include other elements, not excluding other elements, unless otherwise stated. do. In addition, terms such as “… unit”, “… unit”, and “module” described in the specification mean a unit that processes at least one function or operation, which is hardware or software or a combination of hardware and software. can be implemented as Also, “a or an”, “one”, “the” and like terms are used herein in the context of describing various embodiments (particularly in the context of the claims below). Unless otherwise indicated or clearly contradicted by context, both the singular and the plural can be used.

이하, 다양한 실시예들에 따른 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 다양한 실시예들의 예시적인 실시형태를 설명하고자 하는 것이며, 유일한 실시형태를 나타내고자 하는 것이 아니다.Hereinafter, embodiments according to various embodiments will be described in detail with reference to the accompanying drawings. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The detailed description set forth below in conjunction with the accompanying drawings is intended to describe exemplary embodiments of various embodiments, and is not intended to represent a single embodiment.

또한, 다양한 실시예들에서 사용되는 특정(特定) 용어들은 다양한 실시예들의 이해를 돕기 위해서 제공된 것이며, 이러한 특정 용어의 사용은 다양한 실시예들의 기술적 사상을 벗어나지 않는 범위에서 다른 형태로 변경될 수 있다.In addition, specific terms used in various embodiments are provided to help understanding of various embodiments, and the use of these specific terms may be changed into other forms without departing from the technical spirit of various embodiments. .

도 1은 일 실시예에 따른 전자 장치의 구성을 나타내는 도면이다.1 is a diagram illustrating a configuration of an electronic device according to an exemplary embodiment.

도 1은, 다양한 실시예들에 따른, 네트워크 환경(100) 내의 전자 장치(101)의 블록도이다. 도 1을 참조하면, 네트워크 환경(100)에서 전자 장치(101)는 제 1 네트워크(198)(예: 근거리 무선 통신 네트워크)를 통하여 전자 장치(102)와 통신하거나, 또는 제 2 네트워크(199)(예: 원거리 무선 통신 네트워크)를 통하여 전자 장치(104) 또는 서버(108) 중 적어도 하나와 통신할 수 있다. 일실시예에 따르면, 전자 장치(101)는 서버(108)를 통하여 전자 장치(104)와 통신할 수 있다. 일실시예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 모듈(150), 음향 출력 모듈(155), 디스플레이 모듈(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 연결 단자(178), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 또는 안테나 모듈(197)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)에는, 이 구성요소들 중 적어도 하나(예: 연결 단자(178))가 생략되거나, 하나 이상의 다른 구성요소가 추가될 수 있다. 어떤 실시예에서는, 이 구성요소들 중 일부들(예: 센서 모듈(176), 카메라 모듈(180), 또는 안테나 모듈(197))은 하나의 구성요소(예: 디스플레이 모듈(160))로 통합될 수 있다. 전자 장치(101)는 클라이언트, 단말기 또는 피어로 지칭될 수도 있다.1 is a block diagram of an electronic device 101 within a network environment 100, according to various embodiments. Referring to FIG. 1 , in a network environment 100, an electronic device 101 communicates with an electronic device 102 through a first network 198 (eg, a short-range wireless communication network) or through a second network 199. It may communicate with at least one of the electronic device 104 or the server 108 through (eg, a long-distance wireless communication network). According to one embodiment, the electronic device 101 may communicate with the electronic device 104 through the server 108 . According to an embodiment, the electronic device 101 includes a processor 120, a memory 130, an input module 150, an audio output module 155, a display module 160, an audio module 170, a sensor module ( 176), interface 177, connection terminal 178, haptic module 179, camera module 180, power management module 188, battery 189, communication module 190, subscriber identification module 196 , or the antenna module 197 may be included. In some embodiments, in the electronic device 101, at least one of these components (eg, the connection terminal 178) may be omitted or one or more other components may be added. In some embodiments, some of these components (eg, sensor module 176, camera module 180, or antenna module 197) are integrated into a single component (eg, display module 160). It can be. The electronic device 101 may also be referred to as a client, terminal, or peer.

프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 실행하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 저장하고, 휘발성 메모리(132)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일실시예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치 또는 어플리케이션 프로세서) 또는 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(123)(예: 그래픽 처리 장치, 신경망 처리 장치(NPU: neural processing unit), 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 예를 들어, 전자 장치(101)가 메인 프로세서(121) 및 보조 프로세서(123)를 포함하는 경우, 보조 프로세서(123)는 메인 프로세서(121)보다 저전력을 사용하거나, 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서(123)는 메인 프로세서(121)와 별개로, 또는 그 일부로서 구현될 수 있다.The processor 120, for example, executes software (eg, the program 140) to cause at least one other component (eg, hardware or software component) of the electronic device 101 connected to the processor 120. It can control and perform various data processing or calculations. According to one embodiment, as at least part of data processing or operation, the processor 120 transfers instructions or data received from other components (e.g., sensor module 176 or communication module 190) to volatile memory 132. , processing commands or data stored in the volatile memory 132 , and storing resultant data in the non-volatile memory 134 . According to one embodiment, the processor 120 may include a main processor 121 (eg, a central processing unit or an application processor) or a secondary processor 123 (eg, a graphic processing unit, a neural network processing unit ( NPU: neural processing unit (NPU), image signal processor, sensor hub processor, or communication processor). For example, when the electronic device 101 includes the main processor 121 and the auxiliary processor 123, the auxiliary processor 123 may use less power than the main processor 121 or be set to be specialized for a designated function. can The secondary processor 123 may be implemented separately from or as part of the main processor 121 .

보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 어플리케이션 실행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 디스플레이 모듈(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일실시예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부로서 구현될 수 있다. 일실시예에 따르면, 보조 프로세서(123)(예: 신경망 처리 장치)는 인공지능 모델의 처리에 특화된 하드웨어 구조를 포함할 수 있다. The secondary processor 123 may, for example, take the place of the main processor 121 while the main processor 121 is in an inactive (eg, sleep) state, or the main processor 121 is active (eg, running an application). ) state, together with the main processor 121, at least one of the components of the electronic device 101 (eg, the display module 160, the sensor module 176, or the communication module 190) It is possible to control at least some of the related functions or states. According to one embodiment, the auxiliary processor 123 (eg, image signal processor or communication processor) may be implemented as part of other functionally related components (eg, camera module 180 or communication module 190). there is. According to an embodiment, the auxiliary processor 123 (eg, a neural network processing device) may include a hardware structure specialized for processing an artificial intelligence model.

인공지능 모델은 기계 학습을 통해 생성될 수 있다. 이러한 학습은, 예를 들어, 인공지능 모델이 수행되는 전자 장치(101) 자체에서 수행될 수 있고, 별도의 서버(예: 서버(108))를 통해 수행될 수도 있다. 학습 알고리즘은, 예를 들어, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)을 포함할 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은, 복수의 인공 신경망 레이어들을 포함할 수 있다. 인공 신경망은 심층 신경망(DNN: deep neural network), CNN(convolutional neural network), RNN(recurrent neural network), RBM(restricted boltzmann machine), DBN(deep belief network), BRDNN(bidirectional recurrent deep neural network), 심층 Q-네트워크(deep Q-networks) 또는 상기 중 둘 이상의 조합 중 하나일 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은 하드웨어 구조 이외에, 추가적으로 또는 대체적으로, 소프트웨어 구조를 포함할 수 있다.AI models can be created through machine learning. Such learning may be performed, for example, in the electronic device 101 itself where the artificial intelligence model is performed, or may be performed through a separate server (eg, the server 108). The learning algorithm may include, for example, supervised learning, unsupervised learning, semi-supervised learning or reinforcement learning, but in the above example Not limited. The artificial intelligence model may include a plurality of artificial neural network layers. Artificial neural networks include deep neural networks (DNNs), convolutional neural networks (CNNs), recurrent neural networks (RNNs), restricted boltzmann machines (RBMs), deep belief networks (DBNs), bidirectional recurrent deep neural networks (BRDNNs), It may be one of deep Q-networks or a combination of two or more of the foregoing, but is not limited to the foregoing examples. The artificial intelligence model may include, in addition or alternatively, software structures in addition to hardware structures.

메모리(130)는, 전자 장치(101)의 적어도 하나의 구성요소(예: 프로세서(120) 또는 센서 모듈(176))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램(140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(130)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다. The memory 130 may store various data used by at least one component (eg, the processor 120 or the sensor module 176) of the electronic device 101 . The data may include, for example, input data or output data for software (eg, program 140) and commands related thereto. The memory 130 may include volatile memory 132 or non-volatile memory 134 .

프로그램(140)은 메모리(130)에 소프트웨어로서 저장될 수 있으며, 예를 들면, 운영 체제(142), 미들 웨어(144) 또는 어플리케이션(146)을 포함할 수 있다. The program 140 may be stored as software in the memory 130 and may include, for example, an operating system 142 , middleware 144 , or an application 146 .

입력 모듈(150)은, 전자 장치(101)의 구성요소(예: 프로세서(120))에 사용될 명령 또는 데이터를 전자 장치(101)의 외부(예: 사용자)로부터 수신할 수 있다. 입력 모듈(150)은, 예를 들면, 마이크, 마우스, 키보드, 키(예: 버튼), 또는 디지털 펜(예: 스타일러스 펜)을 포함할 수 있다. The input module 150 may receive a command or data to be used by a component (eg, the processor 120) of the electronic device 101 from the outside of the electronic device 101 (eg, a user). The input module 150 may include, for example, a microphone, a mouse, a keyboard, a key (eg, a button), or a digital pen (eg, a stylus pen).

음향 출력 모듈(155)은 음향 신호를 전자 장치(101)의 외부로 출력할 수 있다. 음향 출력 모듈(155)은, 예를 들면, 스피커 또는 리시버를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용될 수 있다. 리시버는 착신 전화를 수신하기 위해 사용될 수 있다. 일실시예에 따르면, 리시버는 스피커와 별개로, 또는 그 일부로서 구현될 수 있다.The sound output module 155 may output sound signals to the outside of the electronic device 101 . The sound output module 155 may include, for example, a speaker or a receiver. The speaker can be used for general purposes such as multimedia playback or recording playback. A receiver may be used to receive an incoming call. According to one embodiment, the receiver may be implemented separately from the speaker or as part of it.

디스플레이 모듈(160)은 전자 장치(101)의 외부(예: 사용자)로 정보를 시각적으로 제공할 수 있다. 디스플레이 모듈(160)은, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일실시예에 따르면, 디스플레이 모듈(160)은 터치를 감지하도록 설정된 터치 센서, 또는 상기 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 압력 센서를 포함할 수 있다. The display module 160 may visually provide information to the outside of the electronic device 101 (eg, a user). The display module 160 may include, for example, a display, a hologram device, or a projector and a control circuit for controlling the device. According to one embodiment, the display module 160 may include a touch sensor set to detect a touch or a pressure sensor set to measure the intensity of force generated by the touch.

오디오 모듈(170)은 소리를 전기 신호로 변환시키거나, 반대로 전기 신호를 소리로 변환시킬 수 있다. 일실시예에 따르면, 오디오 모듈(170)은, 입력 모듈(150)을 통해 소리를 획득하거나, 음향 출력 모듈(155), 또는 전자 장치(101)와 직접 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(102))(예: 스피커 또는 헤드폰)를 통해 소리를 출력할 수 있다.The audio module 170 may convert sound into an electrical signal or vice versa. According to one embodiment, the audio module 170 acquires sound through the input module 150, the sound output module 155, or an external electronic device connected directly or wirelessly to the electronic device 101 (eg: Sound may be output through the electronic device 102 (eg, a speaker or a headphone).

센서 모듈(176)은 전자 장치(101)의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태(예: 사용자 상태)를 감지하고, 감지된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 일실시예에 따르면, 센서 모듈(176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다. The sensor module 176 detects an operating state (eg, power or temperature) of the electronic device 101 or an external environmental state (eg, a user state), and generates an electrical signal or data value corresponding to the detected state. can do. According to one embodiment, the sensor module 176 may include, for example, a gesture sensor, a gyro sensor, an air pressure sensor, a magnetic sensor, an acceleration sensor, a grip sensor, a proximity sensor, a color sensor, an IR (infrared) sensor, a bio sensor, It may include a temperature sensor, humidity sensor, or light sensor.

인터페이스(177)는 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 직접 또는 무선으로 연결되기 위해 사용될 수 있는 하나 이상의 지정된 프로토콜들을 지원할 수 있다. 일실시예에 따르면, 인터페이스(177)는, 예를 들면, HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.The interface 177 may support one or more designated protocols that may be used to directly or wirelessly connect the electronic device 101 to an external electronic device (eg, the electronic device 102). According to one embodiment, the interface 177 may include, for example, a high definition multimedia interface (HDMI), a universal serial bus (USB) interface, an SD card interface, or an audio interface.

연결 단자(178)는, 그를 통해서 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 물리적으로 연결될 수 있는 커넥터를 포함할 수 있다. 일실시예에 따르면, 연결 단자(178)는, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.The connection terminal 178 may include a connector through which the electronic device 101 may be physically connected to an external electronic device (eg, the electronic device 102). According to one embodiment, the connection terminal 178 may include, for example, an HDMI connector, a USB connector, an SD card connector, or an audio connector (eg, a headphone connector).

햅틱 모듈(179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 일실시예에 따르면, 햅틱 모듈(179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.The haptic module 179 may convert electrical signals into mechanical stimuli (eg, vibration or motion) or electrical stimuli that a user may perceive through tactile or kinesthetic senses. According to one embodiment, the haptic module 179 may include, for example, a motor, a piezoelectric element, or an electrical stimulation device.

카메라 모듈(180)은 정지 영상 및 동영상을 촬영할 수 있다. 일실시예에 따르면, 카메라 모듈(180)은 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다.The camera module 180 may capture still images and moving images. According to one embodiment, the camera module 180 may include one or more lenses, image sensors, image signal processors, or flashes.

전력 관리 모듈(188)은 전자 장치(101)에 공급되는 전력을 관리할 수 있다. 일실시예에 따르면, 전력 관리 모듈(188)은, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구현될 수 있다.The power management module 188 may manage power supplied to the electronic device 101 . According to one embodiment, the power management module 188 may be implemented as at least part of a power management integrated circuit (PMIC), for example.

배터리(189)는 전자 장치(101)의 적어도 하나의 구성요소에 전력을 공급할 수 있다. 일실시예에 따르면, 배터리(189)는, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.The battery 189 may supply power to at least one component of the electronic device 101 . According to one embodiment, the battery 189 may include, for example, a non-rechargeable primary cell, a rechargeable secondary cell, or a fuel cell.

통신 모듈(190)은 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102), 전자 장치(104), 또는 서버(108)) 간의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(190)은 프로세서(120)(예: 어플리케이션 프로세서)와 독립적으로 운영되고, 직접(예: 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일실시예에 따르면, 통신 모듈(190)은 무선 통신 모듈(192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈은 제 1 네트워크(198)(예: 블루투스, WiFi(wireless fidelity) direct 또는 IrDA(infrared data association)와 같은 근거리 통신 네트워크) 또는 제 2 네트워크(199)(예: 레거시 셀룰러 네트워크, 5G 네트워크, 차세대 통신 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부의 전자 장치(104)와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성요소(예: 단일 칩)로 통합되거나, 또는 서로 별도의 복수의 구성요소들(예: 복수 칩들)로 구현될 수 있다. 무선 통신 모듈(192)은 가입자 식별 모듈(196)에 저장된 가입자 정보(예: 국제 모바일 가입자 식별자(IMSI))를 이용하여 제 1 네트워크(198) 또는 제 2 네트워크(199)와 같은 통신 네트워크 내에서 전자 장치(101)를 확인 또는 인증할 수 있다. The communication module 190 is a direct (eg, wired) communication channel or a wireless communication channel between the electronic device 101 and an external electronic device (eg, the electronic device 102, the electronic device 104, or the server 108). Establishment and communication through the established communication channel may be supported. The communication module 190 may include one or more communication processors that operate independently of the processor 120 (eg, an application processor) and support direct (eg, wired) communication or wireless communication. According to one embodiment, the communication module 190 is a wireless communication module 192 (eg, a cellular communication module, a short-range wireless communication module, or a global navigation satellite system (GNSS) communication module) or a wired communication module 194 (eg, : a local area network (LAN) communication module or a power line communication module). Among these communication modules, a corresponding communication module is a first network 198 (eg, a short-range communication network such as Bluetooth, wireless fidelity (WiFi) direct, or infrared data association (IrDA)) or a second network 199 (eg, legacy It may communicate with the external electronic device 104 through a cellular network, a 5G network, a next-generation communication network, the Internet, or a telecommunications network such as a computer network (eg, a LAN or a WAN). These various types of communication modules may be integrated as one component (eg, a single chip) or implemented as a plurality of separate components (eg, multiple chips). The wireless communication module 192 uses subscriber information (eg, International Mobile Subscriber Identifier (IMSI)) stored in the subscriber identification module 196 within a communication network such as the first network 198 or the second network 199. The electronic device 101 may be identified or authenticated.

무선 통신 모듈(192)은 4G 네트워크 이후의 5G 네트워크 및 차세대 통신 기술, 예를 들어, NR 접속 기술(new radio access technology)을 지원할 수 있다. NR 접속 기술은 고용량 데이터의 고속 전송(eMBB(enhanced mobile broadband)), 단말 전력 최소화와 다수 단말의 접속(mMTC(massive machine type communications)), 또는 고신뢰도와 저지연(URLLC(ultra-reliable and low-latency communications))을 지원할 수 있다. 무선 통신 모듈(192)은, 예를 들어, 높은 데이터 전송률 달성을 위해, 고주파 대역(예: mmWave 대역)을 지원할 수 있다. 무선 통신 모듈(192)은 고주파 대역에서의 성능 확보를 위한 다양한 기술들, 예를 들어, 빔포밍(beamforming), 거대 배열 다중 입출력(massive MIMO(multiple-input and multiple-output)), 전차원 다중입출력(FD-MIMO: full dimensional MIMO), 어레이 안테나(array antenna), 아날로그 빔형성(analog beam-forming), 또는 대규모 안테나(large scale antenna)와 같은 기술들을 지원할 수 있다. 무선 통신 모듈(192)은 전자 장치(101), 외부 전자 장치(예: 전자 장치(104)) 또는 네트워크 시스템(예: 제 2 네트워크(199))에 규정되는 다양한 요구사항을 지원할 수 있다. 일실시예에 따르면, 무선 통신 모듈(192)은 eMBB 실현을 위한 Peak data rate(예: 20Gbps 이상), mMTC 실현을 위한 손실 Coverage(예: 164dB 이하), 또는 URLLC 실현을 위한 U-plane latency(예: 다운링크(DL) 및 업링크(UL) 각각 0.5ms 이하, 또는 라운드 트립 1ms 이하)를 지원할 수 있다.The wireless communication module 192 may support a 5G network after a 4G network and a next-generation communication technology, for example, NR access technology (new radio access technology). NR access technologies include high-speed transmission of high-capacity data (enhanced mobile broadband (eMBB)), minimization of terminal power and access of multiple terminals (massive machine type communications (mMTC)), or high reliability and low latency (ultra-reliable and low latency (URLLC)). -latency communications)) can be supported. The wireless communication module 192 may support a high frequency band (eg, mmWave band) to achieve a high data rate, for example. The wireless communication module 192 uses various technologies for securing performance in a high frequency band, such as beamforming, massive multiple-input and multiple-output (MIMO), and full-dimensional multiplexing. Technologies such as input/output (FD-MIMO: full dimensional MIMO), array antenna, analog beam-forming, or large scale antenna may be supported. The wireless communication module 192 may support various requirements defined for the electronic device 101, an external electronic device (eg, the electronic device 104), or a network system (eg, the second network 199). According to one embodiment, the wireless communication module 192 is a peak data rate for eMBB realization (eg, 20 Gbps or more), a loss coverage for mMTC realization (eg, 164 dB or less), or a U-plane latency for URLLC realization (eg, Example: downlink (DL) and uplink (UL) each of 0.5 ms or less, or round trip 1 ms or less) may be supported.

안테나 모듈(197)은 신호 또는 전력을 외부(예: 외부의 전자 장치)로 송신하거나 외부로부터 수신할 수 있다. 일실시예에 따르면, 안테나 모듈(197)은 서브스트레이트(예: PCB) 위에 형성된 도전체 또는 도전성 패턴으로 이루어진 방사체를 포함하는 안테나를 포함할 수 있다. 일실시예에 따르면, 안테나 모듈(197)은 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다. 이런 경우, 제 1 네트워크(198) 또는 제 2 네트워크(199)와 같은 통신 네트워크에서 사용되는 통신 방식에 적합한 적어도 하나의 안테나가, 예를 들면, 통신 모듈(190)에 의하여 상기 복수의 안테나들로부터 선택될 수 있다. 신호 또는 전력은 상기 선택된 적어도 하나의 안테나를 통하여 통신 모듈(190)과 외부의 전자 장치 간에 송신되거나 수신될 수 있다. 어떤 실시예에 따르면, 방사체 이외에 다른 부품(예: RFIC(radio frequency integrated circuit))이 추가로 안테나 모듈(197)의 일부로 형성될 수 있다. The antenna module 197 may transmit or receive signals or power to the outside (eg, an external electronic device). According to one embodiment, the antenna module 197 may include an antenna including a radiator formed of a conductor or a conductive pattern formed on a substrate (eg, PCB). According to one embodiment, the antenna module 197 may include a plurality of antennas (eg, an array antenna). In this case, at least one antenna suitable for a communication method used in a communication network such as the first network 198 or the second network 199 is selected from the plurality of antennas by the communication module 190, for example. can be chosen A signal or power may be transmitted or received between the communication module 190 and an external electronic device through the selected at least one antenna. According to some embodiments, other components (eg, a radio frequency integrated circuit (RFIC)) may be additionally formed as a part of the antenna module 197 in addition to the radiator.

다양한 실시예에 따르면, 안테나 모듈(197)은 mmWave 안테나 모듈을 형성할 수 있다. 일실시예에 따르면, mmWave 안테나 모듈은 인쇄 회로 기판, 상기 인쇄 회로 기판의 제 1 면(예: 아래 면)에 또는 그에 인접하여 배치되고 지정된 고주파 대역(예: mmWave 대역)을 지원할 수 있는 RFIC, 및 상기 인쇄 회로 기판의 제 2 면(예: 윗 면 또는 측 면)에 또는 그에 인접하여 배치되고 상기 지정된 고주파 대역의 신호를 송신 또는 수신할 수 있는 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다.According to various embodiments, the antenna module 197 may form a mmWave antenna module. According to one embodiment, the mmWave antenna module includes a printed circuit board, an RFIC disposed on or adjacent to a first surface (eg, a lower surface) of the printed circuit board and capable of supporting a designated high frequency band (eg, mmWave band); and a plurality of antennas (eg, array antennas) disposed on or adjacent to a second surface (eg, a top surface or a side surface) of the printed circuit board and capable of transmitting or receiving signals of the designated high frequency band. can do.

상기 구성요소들 중 적어도 일부는 주변 기기들간 통신 방식(예: 버스, GPIO(general purpose input and output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))을 통해 서로 연결되고 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.At least some of the components are connected to each other through a communication method between peripheral devices (eg, a bus, general purpose input and output (GPIO), serial peripheral interface (SPI), or mobile industry processor interface (MIPI)) and signal ( e.g. commands or data) can be exchanged with each other.

일실시예에 따르면, 명령 또는 데이터는 제 2 네트워크(199)에 연결된 서버(108)를 통해서 전자 장치(101)와 외부의 전자 장치(104)간에 송신 또는 수신될 수 있다. 외부의 전자 장치(102, 또는 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 일실시예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 외부의 전자 장치들(102, 104, 또는 108) 중 하나 이상의 외부의 전자 장치들에서 실행될 수 있다. 예를 들면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로, 또는 사용자 또는 다른 장치로부터의 요청에 반응하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 하나 이상의 외부의 전자 장치들에게 그 기능 또는 그 서비스의 적어도 일부를 수행하라고 요청할 수 있다. 상기 요청을 수신한 하나 이상의 외부의 전자 장치들은 요청된 기능 또는 서비스의 적어도 일부, 또는 상기 요청과 관련된 추가 기능 또는 서비스를 실행하고, 그 실행의 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 상기 결과를, 그대로 또는 추가적으로 처리하여, 상기 요청에 대한 응답의 적어도 일부로서 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 모바일 에지 컴퓨팅(MEC: mobile edge computing), 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다. 전자 장치(101)는, 예를 들어, 분산 컴퓨팅 또는 모바일 에지 컴퓨팅을 이용하여 초저지연 서비스를 제공할 수 있다. 다른 실시예에 있어서, 외부의 전자 장치(104)는 IoT(internet of things) 기기를 포함할 수 있다. 서버(108)는 기계 학습 및/또는 신경망을 이용한 지능형 서버일 수 있다. 일실시예에 따르면, 외부의 전자 장치(104) 또는 서버(108)는 제 2 네트워크(199) 내에 포함될 수 있다. 전자 장치(101)는 5G 통신 기술 및 IoT 관련 기술을 기반으로 지능형 서비스(예: 스마트 홈, 스마트 시티, 스마트 카, 또는 헬스 케어)에 적용될 수 있다. According to an embodiment, commands or data may be transmitted or received between the electronic device 101 and the external electronic device 104 through the server 108 connected to the second network 199 . Each of the external electronic devices 102 or 104 may be the same as or different from the electronic device 101 . According to an embodiment, all or part of operations executed in the electronic device 101 may be executed in one or more external electronic devices among the external electronic devices 102 , 104 , or 108 . For example, when the electronic device 101 needs to perform a certain function or service automatically or in response to a request from a user or another device, the electronic device 101 instead of executing the function or service by itself. Alternatively or additionally, one or more external electronic devices may be requested to perform the function or at least part of the service. One or more external electronic devices receiving the request may execute at least a part of the requested function or service or an additional function or service related to the request, and deliver the execution result to the electronic device 101 . The electronic device 101 may provide the result as at least part of a response to the request as it is or additionally processed. To this end, for example, cloud computing, distributed computing, mobile edge computing (MEC), or client-server computing technology may be used. The electronic device 101 may provide an ultra-low latency service using, for example, distributed computing or mobile edge computing. In another embodiment, the external electronic device 104 may include an internet of things (IoT) device. Server 108 may be an intelligent server using machine learning and/or neural networks. According to one embodiment, the external electronic device 104 or server 108 may be included in the second network 199 . The electronic device 101 may be applied to intelligent services (eg, smart home, smart city, smart car, or health care) based on 5G communication technology and IoT-related technology.

서버(108)는 전자 장치(101)가 접속되며, 접속된 전자 장치(101)로 서비스를 제공할 수 있다. 또한, 서버(108)는 회원 가입 절차를 진행하여 그에 따라 회원으로 가입된 사용자의 각종 정보를 저장하여 관리하고, 서비스에 관련된 각종 구매 및 결제 기능을 제공할 수도 있다. 또한, 서버(108)는, 사용자 간에 서비스를 공유할 수 있도록, 복수의 전자 장치(101) 각각에서 실행되는 서비스 애플리케이션의 실행 데이터를 실시간으로 공유할 수도 있다. 이러한 서버(108)는 하드웨어적으로는 통상적인 웹 서버(Web Server) 또는 서비스 서버(Service Server)와 동일한 구성을 가질 수 있다. 그러나, 소프트웨어적으로는, C, C++, Java, Python, Golang, kotlin 등 여하한 언어를 통하여 구현되어 여러 가지 기능을 하는 프로그램 모듈(Module)을 포함할 수 있다. 또한, 서버(108)는 일반적으로 인터넷과 같은 개방형 컴퓨터 네트워크를 통하여 불특정 다수 클라이언트 및/또는 다른 서버와 연결되어 있고, 클라이언트 또는 다른 서버의 작업수행 요청을 접수하고 그에 대한 작업 결과를 도출하여 제공하는 컴퓨터 시스템 및 그를 위하여 설치되어 있는 컴퓨터 소프트웨어(서버 프로그램)를 뜻하는 것이다. 또한, 서버(108)는, 전술한 서버 프로그램 이외에도, 서버(108) 상에서 동작하는 일련의 응용 프로그램(Application Program)과 경우에 따라서는 내부 또는 외부에 구축되어 있는 각종 데이터베이스(DB: Database, 이하 "DB"라 칭함)를 포함하는 넓은 개념으로 이해되어야 할 것이다. 따라서, 서버(108)는, 회원 가입 정보와, 게임에 대한 각종 정보 및 데이터를 분류하여 DB에 저장시키고 관리하는데, 이러한 DB는 서버(108)의 내부 또는 외부에 구현될 수 있다. 또한, 서버(108)는, 일반적인 서버용 하드웨어에 윈도우(windows), 리눅스(Linux), 유닉스(UNIX), 매킨토시(Macintosh) 등의 운영체제에 따라 다양하게 제공되고 있는 서버 프로그램을 이용하여 구현될 수 있으며, 대표적인 것으로는 윈도우 환경에서 사용되는 IIS(Internet Information Server)와 유닉스환경에서 사용되는 CERN, NCSA, APPACH, TOMCAT 등을 이용하여 웹 서비스를 구현할 수 있다. 또한, 서버(108)는, 서비스의 사용자 인증이나 서비스와 관련된 구매 결제를 위한 인증 시스템 및 결제 시스템과 연동할 수도 있다.The server 108 is connected to the electronic device 101 and can provide a service to the connected electronic device 101 . In addition, the server 108 may proceed with a membership sign-up procedure, store and manage various types of information of users subscribed as members, and provide various purchase and payment functions related to services. In addition, the server 108 may share execution data of service applications executed in each of the plurality of electronic devices 101 in real time so that the service can be shared among users. This server 108 may have the same configuration as a conventional web server or service server in terms of hardware. However, in terms of software, it may include a program module that is implemented through any language such as C, C++, Java, Python, Golang, or kotlin and performs various functions. In addition, the server 108 is generally connected to an unspecified number of clients and/or other servers through an open computer network such as the Internet, and receives requests from clients or other servers to perform tasks and derives and provides work results. It means a computer system and the computer software (server program) installed for it. In addition, the server 108, in addition to the above-described server program, a series of application programs operating on the server 108 and various databases (DB: Database, hereinafter referred to as It should be understood as a broad concept including DB"). Accordingly, the server 108 classifies member registration information and various information and data about games, stores them in a DB, and manages them. This DB may be implemented inside or outside the server 108 . In addition, the server 108 may be implemented using server programs that are provided in various ways according to operating systems such as Windows, Linux, UNIX, and Macintosh on general server hardware, As a representative example, a web service can be implemented using IIS (Internet Information Server) used in a Windows environment and CERN, NCSA, APPACH, TOMCAT, etc. used in a Unix environment. In addition, the server 108 may interoperate with an authentication system and a payment system for user authentication of services or payment for purchases related to services.

제1 네트워크(198) 및 제2 네트워크(199)는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조 또는 서버(108)와 전자 장치들(101, 104)을 연결하는 망(Network)을 의미한다. 제1 네트워크(198) 및 제2 네트워크(199)는 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 3G, 4G, LTE, 5G, Wi-Fi 등이 포함되나 이에 한정되지는 않는다. 제1 네트워크(198) 및 제2 네트워크(199)는 LAN, WAN 등의 폐쇄형 제1 네트워크(198) 및 제2 네트워크(199)일 수도 있으나, 인터넷(Internet)과 같은 개방형인 것이 바람직하다. 인터넷은 TCP/IP 프로토콜, TCP, UDP(user datagram protocol) 등의 프로토콜 및 그 상위계층에 존재하는 여러 서비스, 즉 HTTP(HyperText Transfer Protocol), Telnet, FTP(File Transfer Protocol), DNS(Domain Name System), SMTP(Simple Mail Transfer Protocol), SNMP(Simple Network Management Protocol), NFS(Network File Service), NIS(Network Information Service)를 제공하는 전 세계적인 개방형 컴퓨터 제1 네트워크(198) 및 제2 네트워크(199) 구조를 의미한다.The first network 198 and the second network 199 are a connection structure capable of exchanging information between nodes such as terminals and servers, or a network connecting the server 108 and the electronic devices 101 and 104. means (Network). The first network 198 and the second network 199 include Internet, Local Area Network (LAN), Wireless Local Area Network (Wireless Local Area Network), Wide Area Network (WAN), Personal Area Network (PAN), and 3G , 4G, LTE, 5G, Wi-Fi, etc., but are not limited thereto. The first network 198 and the second network 199 may be closed first networks 198 and second networks 199 such as LAN and WAN, but are preferably open such as the Internet. The Internet includes protocols such as the TCP/IP protocol, TCP, and User Datagram Protocol (UDP), and various services that exist in the upper layer, such as HTTP (HyperText Transfer Protocol), Telnet, FTP (File Transfer Protocol), and DNS (Domain Name System). ), Simple Mail Transfer Protocol (SMTP), Simple Network Management Protocol (SNMP), Network File Service (NFS), and Network Information Service (NIS). ) structure.

데이터베이스는 데이터베이스 관리 프로그램(DBMS)을 이용하여 컴퓨터 시스템의 저장공간(하드디스크 또는 메모리)에 구현된 일반적인 데이터구조를 가질 수 있다. 데이터베이스는 데이터의 검색(추출), 삭제, 편집, 추가 등을 자유롭게 행할 수 있는 데이터 저장형태를 가질 수 있다. 데이터베이스는 오라클(Oracle), 인포믹스(Infomix), 사이베이스(Sybase), DB2와 같은 관계형 데이타베이스 관리 시스템(RDBMS)이나, 겜스톤(Gemston), 오리온(Orion), O2 등과 같은 객체 지향 데이타베이스 관리 시스템(OODBMS) 및 엑셀론(Excelon), 타미노(Tamino), 세카이주(Sekaiju) 등의 XML 전용 데이터베이스(XML Native Database)를 이용하여 본 개시의 일 실시예의 목적에 맞게 구현될 수 있고, 자신의 기능을 달성하기 위하여 적당한 필드(Field) 또는 엘리먼트들을 가질 수 있다.A database may have a general data structure implemented in a storage space (hard disk or memory) of a computer system using a database management program (DBMS). The database may have a data storage form in which data can be freely searched for (extracted), deleted, edited, added, and the like. Databases are relational database management systems (RDBMS) such as Oracle, Informix, Sybase, and DB2, or object-oriented database management such as Gemston, Orion, and O2. It can be implemented according to the purpose of an embodiment of the present disclosure using a system (OODBMS) and XML Native Databases such as Excelon, Tamino, and Sekaiju, and its functions may have appropriate fields or elements to achieve.

도 2는 일 실시예에 따른 프로그램의 구성을 나타내는 도면이다.2 is a diagram showing the configuration of a program according to an embodiment.

도 2은 다양한 실시예에 따른 프로그램(140)을 예시하는 블록도(200)이다. 일실시예에 따르면, 프로그램(140)은 전자 장치(101)의 하나 이상의 리소스들을 제어하기 위한 운영 체제(142), 미들웨어(144), 또는 상기 운영 체제(142)에서 실행 가능한 어플리케이션(146)을 포함할 수 있다. 운영 체제(142)는, 예를 들면, AndroidTM, iOSTM, WindowsTM, SymbianTM 또는 TizenTM 를 포함할 수 있다. 프로그램(140) 중 적어도 일부 프로그램은, 예를 들면, 제조 시에 전자 장치(101)에 프리로드되거나, 또는 사용자에 의해 사용 시 외부 전자 장치(예: 전자 장치(102 또는 104), 또는 서버(108))로부터 다운로드되거나 갱신 될 수 있다. 프로그램(140)의 전부 또는 일부는 뉴럴 네트워크를 포함할 수 있다. 2 is a block diagram 200 illustrating a program 140 according to various embodiments. According to one embodiment, the program 140 includes an operating system 142, middleware 144, or an application 146 executable in the operating system 142 for controlling one or more resources of the electronic device 101. can include The operating system 142 may include, for example, Android™, iOS™, Windows™, Symbian™ or Tizen™. At least some of the programs 140 are, for example, preloaded in the electronic device 101 at the time of manufacture, or when used by a user, an external electronic device (eg, the electronic device 102 or 104), or a server ( 108)) can be downloaded or updated. All or part of program 140 may include a neural network.

운영 체제(142)는 전자 장치(101)의 하나 이상의 시스템 리소스들(예: 프로세스, 메모리, 또는 전원)의 관리(예: 할당 또는 회수)를 제어할 수 있다. 운영 체제(142)는, 추가적으로 또는 대체적으로, 전자 장치(101)의 다른 하드웨어 디바이스, 예를 들면, 입력 모듈(150), 음향 출력 모듈(155), 디스플레이 모듈(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 또는 안테나 모듈(197)을 구동하기 위한 하나 이상의 드라이버 프로그램들을 포함할 수 있다.The operating system 142 may control management (eg, allocation or reclamation) of one or more system resources (eg, process, memory, or power) of the electronic device 101 . Operating system 142 may additionally or alternatively include other hardware devices of electronic device 101 , such as input module 150 , sound output module 155 , display module 160 , audio module 170 . , sensor module 176, interface 177, haptic module 179, camera module 180, power management module 188, battery 189, communication module 190, subscriber identification module 196, or It may include one or more driver programs for driving the antenna module 197.

미들웨어(144)는 전자 장치(101)의 하나 이상의 리소스들로부터 제공되는 기능 또는 정보가 어플리케이션(146)에 의해 사용될 수 있도록 다양한 기능들을 어플리케이션(146)으로 제공할 수 있다. 미들웨어(144)는, 예를 들면, 어플리케이션 매니저(201), 윈도우 매니저(203), 멀티미디어 매니저(205), 리소스 매니저(207), 파워 매니저(209), 데이터베이스 매니저(211), 패키지 매니저(213), 커넥티비티 매니저(215), 노티피케이션 매니저(217), 로케이션 매니저(219), 그래픽 매니저(221), 시큐리티 매니저(223), 통화 매니저(225), 또는 음성 인식 매니저(227)를 포함할 수 있다. The middleware 144 may provide various functions to the application 146 so that the function or information provided from one or more resources of the electronic device 101 may be used by the application 146 . The middleware 144 includes, for example, the application manager 201, the window manager 203, the multimedia manager 205, the resource manager 207, the power manager 209, the database manager 211, and the package manager 213. ), connectivity manager 215, notification manager 217, location manager 219, graphics manager 221, security manager 223, call manager 225, or voice recognition manager 227. can

어플리케이션 매니저(201)는, 예를 들면, 어플리케이션(146)의 생명 주기를 관리할 수 있다. 윈도우 매니저(203)는, 예를 들면, 화면에서 사용되는 하나 이상의 GUI 자원들을 관리할 수 있다. 멀티미디어 매니저(205)는, 예를 들면, 미디어 파일들의 재생에 필요한 하나 이상의 포맷들을 파악하고, 그 중 선택된 해당하는 포맷에 맞는 코덱을 이용하여 상기 미디어 파일들 중 해당하는 미디어 파일의 인코딩 또는 디코딩을 수행할 수 있다. 리소스 매니저(207)는, 예를 들면, 어플리케이션(146)의 소스 코드 또는 메모리(130)의 메모리의 공간을 관리할 수 있다. 파워 매니저(209)는, 예를 들면, 배터리(189)의 용량, 온도 또는 전원을 관리하고, 이 중 해당 정보를 이용하여 전자 장치(101)의 동작에 필요한 관련 정보를 결정 또는 제공할 수 있다. 일실시예에 따르면, 파워 매니저(209)는 전자 장치(101)의 바이오스(BIOS: basic input/output system)(미도시)와 연동할 수 있다.The application manager 201 may manage the life cycle of the application 146 , for example. The window manager 203 may manage one or more GUI resources used in a screen, for example. The multimedia manager 205 identifies, for example, one or more formats necessary for reproducing media files, and encodes or decodes a corresponding media file among the media files using a codec suitable for the selected format. can be done The resource manager 207 may manage a source code of the application 146 or a memory space of the memory 130 . The power manager 209 may manage, for example, the capacity, temperature, or power of the battery 189, and determine or provide related information necessary for the operation of the electronic device 101 by using corresponding information among them. . According to an embodiment, the power manager 209 may interoperate with a basic input/output system (BIOS) (not shown) of the electronic device 101 .

데이터베이스 매니저(211)는, 예를 들면, 어플리케이션(146)에 의해 사용될 데이터베이스를 생성, 검색, 또는 변경할 수 있다. 패키지 매니저(213)는, 예를 들면, 패키지 파일의 형태로 배포되는 어플리케이션의 설치 또는 갱신을 관리할 수 있다. 커넥티비티 매니저(215)는, 예를 들면, 전자 장치(101)와 외부 전자 장치 간의 무선 연결 또는 직접 연결을 관리할 수 있다. 노티피케이션 매니저(217)는, 예를 들면, 지정된 이벤트(예: 착신 통화, 메시지, 또는 알람)의 발생을 사용자에게 알리기 위한 기능을 제공할 수 있다. 로케이션 매니저(219)는, 예를 들면, 전자 장치(101)의 위치 정보를 관리할 수 있다. 그래픽 매니저(221)는, 예를 들면, 사용자에게 제공될 하나 이상의 그래픽 효과들 또는 이와 관련된 사용자 인터페이스를 관리할 수 있다. The database manager 211 may create, search, or change a database to be used by the application 146, for example. The package manager 213 may manage installation or update of applications distributed in the form of package files, for example. The connectivity manager 215 may manage, for example, a wireless connection or a direct connection between the electronic device 101 and an external electronic device. The notification manager 217 may provide a function for notifying a user of occurrence of a designated event (eg, an incoming call, message, or alarm), for example. The location manager 219 may manage location information of the electronic device 101, for example. The graphic manager 221 may manage, for example, one or more graphic effects to be provided to a user or a user interface related thereto.

시큐리티 매니저(223)는, 예를 들면, 시스템 보안 또는 사용자 인증을 제공할 수 있다. 통화(telephony) 매니저(225)는, 예를 들면, 전자 장치(101)에 의해 제공되는 음성 통화 기능 또는 영상 통화 기능을 관리할 수 있다. 음성 인식 매니저(227)는, 예를 들면, 사용자의 음성 데이터를 서버(108)로 전송하고, 그 음성 데이터에 적어도 일부 기반하여 전자 장치(101)에서 수행될 기능에 대응하는 명령어(command), 또는 그 음성 데이터에 적어도 일부 기반하여 변환된 문자 데이터를 서버(108)로부터 수신할 수 있다. 일 실시예에 따르면, 미들웨어(244)는 동적으로 기존의 구성요소를 일부 삭제하거나 새로운 구성요소들을 추가할 수 있다. 일 실시예에 따르면, 미들웨어(144)의 적어도 일부는 운영 체제(142)의 일부로 포함되거나, 또는 운영 체제(142)와는 다른 별도의 소프트웨어로 구현될 수 있다.Security manager 223 may provide system security or user authentication, for example. The telephony manager 225 may manage, for example, a voice call function or a video call function provided by the electronic device 101 . The voice recognition manager 227 transmits, for example, the user's voice data to the server 108, and at least partially based on the voice data, a command corresponding to a function to be performed in the electronic device 101; Alternatively, text data converted at least partially based on the voice data may be received from the server 108 . According to one embodiment, the middleware 244 may dynamically delete some existing components or add new components. According to one embodiment, at least part of the middleware 144 may be included as part of the operating system 142 or may be implemented as separate software different from the operating system 142 .

어플리케이션(146)은, 예를 들면, 홈(251), 다이얼러(253), SMS/MMS(255), IM(instant message)(257), 브라우저(259), 카메라(261), 알람(263), 컨택트(265), 음성 인식(267), 이메일(269), 달력(271), 미디어 플레이어(273), 앨범(275), 와치(277), 헬스(279)(예: 운동량 또는 혈당과 같은 생체 정보를 측정), 또는 환경 정보(281)(예: 기압, 습도, 또는 온도 정보 측정) 어플리케이션을 포함할 수 있다. 일실시예에 따르면, 어플리케이션(146)은 전자 장치(101)와 외부 전자 장치 사이의 정보 교환을 지원할 수 있는 정보 교환 어플리케이션(미도시)을 더 포함할 수 있다. 정보 교환 어플리케이션은, 예를 들면, 외부 전자 장치로 지정된 정보 (예: 통화, 메시지, 또는 알람)를 전달하도록 설정된 노티피케이션 릴레이 어플리케이션, 또는 외부 전자 장치를 관리하도록 설정된 장치 관리 어플리케이션을 포함할 수 있다. 노티피케이션 릴레이 어플리케이션은, 예를 들면, 전자 장치(101)의 다른 어플리케이션(예: 이메일 어플리케이션(269))에서 발생된 지정된 이벤트(예: 메일 수신)에 대응하는 알림 정보를 외부 전자 장치로 전달할 수 있다. 추가적으로 또는 대체적으로, 노티피케이션 릴레이 어플리케이션은 외부 전자 장치로부터 알림 정보를 수신하여 전자 장치(101)의 사용자에게 제공할 수 있다. The application 146 includes, for example, a home 251, a dialer 253, an SMS/MMS 255, an instant message (IM) 257, a browser 259, a camera 261, and an alarm 263. , Contacts (265), Voice Recognition (267), Email (269), Calendar (271), Media Player (273), Albums (275), Watch (277), Health (279) (e.g. exercise or blood sugar) measurement of biometric information) or environmental information 281 (eg, measurement of atmospheric pressure, humidity, or temperature information). According to an embodiment, the application 146 may further include an information exchange application (not shown) capable of supporting information exchange between the electronic device 101 and an external electronic device. The information exchange application may include, for example, a notification relay application configured to transmit designated information (eg, a call, message, or alarm) to an external electronic device, or a device management application configured to manage an external electronic device. there is. The notification relay application, for example, transmits notification information corresponding to a designated event (eg, mail reception) generated in another application (eg, the email application 269) of the electronic device 101 to an external electronic device. can Additionally or alternatively, the notification relay application may receive notification information from an external electronic device and provide the notification information to the user of the electronic device 101 .

장치 관리 어플리케이션은, 예를 들면, 전자 장치(101)와 통신하는 외부 전자 장치 또는 그 일부 구성 요소(예: 외부 전자장치의 디스플레이 모듈 또는 카메라 모듈)의 전원(예: 턴-온 또는 턴-오프) 또는 기능(예: 밝기, 해상도, 또는 포커스)을 제어할 수 있다. 장치 관리 어플리케이션은, 추가적으로 또는 대체적으로, 외부 전자 장치에서 동작하는 어플리케이션의 설치, 삭제, 또는 갱신을 지원할 수 있다.The device management application is, for example, a power source (eg, turn-on or turn-off) of an external electronic device that communicates with the electronic device 101 or some component thereof (eg, a display module or a camera module of the external electronic device). ) or functions (eg brightness, resolution, or focus). The device management application may additionally or alternatively support installation, deletion, or update of an application operating in an external electronic device.

본 명세서에 걸쳐, 뉴럴 네트워크(neural network), 신경망 네트워크, 네트워크 함수는, 동일한 의미로 사용될 수 있다. 뉴럴 네트워크는, 일반적으로 "노드"라 지칭될 수 있는 상호 연결된 계산 단위들의 집합으로 구성될 수 있다. 이러한 "노드"들은, "뉴런(neuron)"들로 지칭될 수도 있다. 뉴럴 네트워크는, 적어도 둘 이상의 노드들을 포함하여 구성된다. 뉴럴 네트워크들을 구성하는 노드(또는 뉴런)들은 하나 이상의 "링크"에 의해 상호 연결될 수 있다.Throughout this specification, a neural network, a neural network, and a network function may be used interchangeably. A neural network may consist of a set of interconnected computational units, which may be generally referred to as “nodes”. These “nodes” may also be referred to as “neurons”. A neural network includes at least two or more nodes. Nodes (or neurons) constituting neural networks may be interconnected by one or more “links”.

뉴럴 네트워크 내에서, 링크를 통해 연결된 둘 이상의 노드들은 상대적으로 입력 노드 및 출력 노드의 관계를 형성할 수 있다. 입력 노드 및 출력 노드의 개념은 상대적인 것으로서, 하나의 노드에 대하여 출력 노드 관계에 있는 임의의 노드는 다른 노드와의 관계에서 입력 노드 관계에 있을 수 있으며, 그 역도 성립할 수 있다. 전술한 바와 같이, 입력 노드 대 출력 노드 관계는 링크를 중심으로 생성될 수 있다. 하나의 입력 노드에 하나 이상의 출력 노드가 링크를 통해 연결될 수 있으며, 그 역도 성립할 수 있다.In a neural network, two or more nodes connected through a link may form a relative relationship of an input node and an output node. The concept of an input node and an output node is relative, and any node in an output node relationship with one node may have an input node relationship with another node, and vice versa. As described above, the input node to output node relationship can be created around the link. More than one output node can be connected to one input node through a link, and vice versa.

하나의 링크를 통해 연결된 입력 노드 및 출력 노드 관계에서, 출력 노드는 입력 노드에 입력된 데이터에 기초하여 그 값이 결정될 수 있다. 여기서, 입력 노드와 출력 노드를 상호 연결하는 노드는 가중치를 가질 수 있다. 가중치는 가변적일 수 있으며, 뉴럴 네트워크가 원하는 기능을 수행하기 위해, 사용자 또는 알고리즘에 의해 가변될 수 있다. 예를 들어, 하나의 출력 노드에 하나 이상의 입력 노드가 각각의 링크에 의해 상호 연결된 경우, 출력 노드는 상기 출력 노드와 연결된 입력 노드들에 입력된 값들 및 각각의 입력 노드들에 대응하는 링크에 설정된 가중치에 기초하여 출력 노드 값을 결정할 수 있다.In a relationship between an input node and an output node connected through one link, the value of the output node may be determined based on data input to the input node. Here, a node interconnecting the input node and the output node may have a weight. The weight may be variable, and may be changed by a user or an algorithm in order for the neural network to perform a desired function. For example, when one or more input nodes are interconnected by respective links to one output node, the output node is set to a link corresponding to values input to input nodes connected to the output node and respective input nodes. An output node value may be determined based on the weight.

전술한 바와 같이, 뉴럴 네트워크는, 둘 이상의 노드들이 하나 이상의 링크를 통해 상호연결 되어 뉴럴 네트워크 내에서 입력 노드 및 출력 노드 관계를 형성한다. 뉴럴 네트워크 내에서 노드들과 링크들의 개수 및 노드들과 링크들 사이의 연관관계, 링크들 각각에 부여된 가중치의 값에 따라, 신경망 네트워크의 특성이 결정될 수 있다. 예를 들어, 동일한 개수의 노드 및 링크들이 존재하고, 링크들 사이의 가중치 값이 상이한 두 신경망 네트워크가 존재하는 경우, 두 개의 신경망 네트워크들은 서로 상이한 것으로 인식될 수 있다.As described above, in a neural network, two or more nodes are interconnected through one or more links to form an input node and output node relationship in the neural network. Characteristics of the neural network may be determined according to the number of nodes and links in the neural network, an association between the nodes and links, and a weight value assigned to each link. For example, when there are two neural networks having the same number of nodes and links and different weight values between the links, the two neural networks may be recognized as different from each other.

도 3은 일 실시예에 따른 서버가 동영상 텍스트 리스트를 사용자 단말에게 전송하는 방법을 나타낸다. 도 3의 일 실시예는 본 개시의 다양한 실시예들과 결합될 수 있다.3 illustrates a method in which a server transmits a video text list to a user terminal according to an exemplary embodiment. One embodiment of FIG. 3 may be combined with various embodiments of the present disclosure.

도 3을 참조하면, 단계 S301에서, 서버는 외부 서버로부터 동영상을 수신할 수 있다.Referring to FIG. 3 , in step S301, a server may receive a video from an external server.

서버는 웹 크롤링을 통해 학습 컨텐츠와 관련된 웹 사이트들로부터 수집된 정보를 관리하고, 수집된 정보를 기반으로 사용자 단말에게 서비스를 제공하는 서버일 수 있다. 여기서, 웹 크롤링은 다양한 컴퓨터 소프트웨어 기술을 통해 웹 사이트들에게 필요한 정보를 추출하는 동작을 의미한다. 외부 서버는 동영상 플랫폼을 관리하는 서버로서, 복수의 동영상이 업로드된 웹 사이트를 관리하는 서버일 수 있다. 예를 들어, 서버 및 외부 서버는 도 1의 서버(108)일 수 있다. The server may be a server that manages information collected from web sites related to learning content through web crawling and provides a service to a user terminal based on the collected information. Here, web crawling means an operation of extracting necessary information from web sites through various computer software technologies. The external server is a server that manages a video platform and may be a server that manages a website on which a plurality of videos are uploaded. For example, the server and external server may be server 108 of FIG. 1 .

단계 S302에서, 서버는 상기 동영상으로부터 상기 동영상의 파일 크기 및 상기 동영상의 재생 시간, 상기 동영상의 프레임 크기 및 상기 동영상에 대한 색상 정보를 포함하는 동영상에 대한 정보를 추출할 수 있다.In step S302, the server may extract information about the video, including file size of the video, playback time of the video, frame size of the video, and color information about the video, from the video.

여기서, 동영상의 프레임 크기는 가로 방향의 픽셀 수와 세로 방향의 픽셀 수의 곱으로 나타낼 수 있다. 동영상에 대한 색상 정보는 색공간과 관련된 값을 포함할 수 있다. 예를 들어, 색공간은 RGB(red green blue), CMYK(cyan, magenta, yellow, black), YUV, YCbCr, HSV 등 다양한 방식으로 표현될 수 있다. 예를 들어, 색공간과 관련된 값은 동영상과 관련된 적어도 하나의 픽셀에 대한 적어도 하나의 색공간과 관련된 좌표 값을 행렬로 나타낸 값을 포함할 수 있다. 예를 들어, 동영상에 대한 색상 정보는 동영상에 포함된 각 픽셀에 대한 RGB 값들을 포함할 수 있다. 예를 들어, RGB는 빨강, 초록, 파랑 세 종류의 색상에 대한 좌표 값으로 나타낸 방식일 수 있다. 예를 들어, YUV는 y축은 밝기 성분을 U,V 두 축을 이용하여 색상을 표현할 수 있다. 여기서, U축은 파란색에서 밝기 성분을 뺀 값이고, V축은 빨간색에서 밝기 성분을 뺀 값일 수 있다. 예를 들어, YCbCr은 아날로그 신호의 색공간을 디지털화한 것으로, Y는 휘도 성분이며 Cb 와 Cr 은 색차 성분일 수 있다. 예를 들어, HSV는 색조(Hue), 채도(Saturation), 밝기 정보(예를 들어, 밸류(Value))를 고려한 방식일 수 있다. Here, the frame size of a video can be expressed as the product of the number of pixels in the horizontal direction and the number of pixels in the vertical direction. Color information for a video may include a value related to a color space. For example, the color space may be expressed in various ways such as red green blue (RGB), cyan, magenta, yellow, black (CMYK), YUV, YCbCr, and HSV. For example, the value related to the color space may include a value representing a matrix of coordinate values related to at least one color space for at least one pixel related to the video. For example, color information for a video may include RGB values for each pixel included in the video. For example, RGB may be a method expressed as coordinate values for three types of colors, red, green, and blue. For example, in YUV, color can be expressed using two axes, U and V, with a brightness component on the y-axis. Here, the U-axis may be a value obtained by subtracting the brightness component from blue, and the V-axis may be a value obtained by subtracting the brightness component from red. For example, YCbCr is a digitized color space of an analog signal, Y may be a luminance component, and Cb and Cr may be color difference components. For example, HSV may be a method that considers hue, saturation, and brightness information (eg, value).

단계 S303에서, 서버는 상기 동영상 및 상기 동영상에 대한 정보를 기반으로 제1 뉴럴 네트워크를 이용한 텍스트 인식 모델을 통해 상기 동영상의 재생 화면 내 제1 영역에 포함된 복수의 제1 텍스트 및 상기 동영상의 재생 화면 내 제2 영역에 포함된 복수의 제2 텍스트를 결정할 수 있다.In step S303, the server reproduces a plurality of first texts included in a first area in a playback screen of the video and the video through a text recognition model using a first neural network based on the video and information about the video. A plurality of second texts included in the second area of the screen may be determined.

상기 텍스트 인식 모델은 CRNN(convolutional recurrent neural network) 모델일 수 있다. CRNN 모델은 이미지로부터 시계열적 데이터를 인식하도록 설계된 신경망 모델이다. CRNN 모델은 CNN 모델과 RNN 모델을 결합함으로써, CNN 모델을 통해 이미지로부터 특징을 추출하고, 추출한 특징을 기반으로 RNN 모델을 통해 시퀀스별 글자를 예측하는 모델이다. The text recognition model may be a convolutional recurrent neural network (CRNN) model. The CRNN model is a neural network model designed to recognize time-series data from images. The CRNN model is a model that combines a CNN model and an RNN model to extract features from an image through the CNN model and predict letters for each sequence through the RNN model based on the extracted features.

예를 들어, 상기 제1 뉴럴 네트워크는 제1 입력 레이어, 하나 이상의 제1 히든 레이어 및 제1 출력 레이어를 포함할 수 있다. 복수의 동영상 및 정답 복수의 텍스트로 구성된 각각의 제1 뉴럴 네트워크의 학습을 위한 데이터는 상기 제1 뉴럴 네트워크의 상기 제1 입력 레이어에 입력되고, 상기 하나 이상의 제1 히든 레이어 및 제1 출력 레이어를 통과하여 제1 출력 벡터를 출력하고, 상기 제1 출력 벡터는 상기 제1 출력 레이어에 연결된 제1 손실함수 레이어에 입력되고, 상기 제1 손실함수 레이어는 상기 제1 출력 벡터와 각각의 학습 데이터에 대한 제1 정답 벡터를 비교하는 제1 손실 함수를 이용하여 제1 손실값을 출력하고, 상기 제1 뉴럴 네트워크의 파라미터가 상기 제1 손실값이 작아지는 방향으로 학습되는, 상기 텍스트 인식 모델이 생성될 수 있다.For example, the first neural network may include a first input layer, one or more first hidden layers, and a first output layer. Data for learning each of the first neural networks composed of a plurality of videos and a plurality of correct answer texts is input to the first input layer of the first neural network, and the one or more first hidden layers and the first output layer are input. Pass through and output a first output vector, the first output vector is input to a first loss function layer connected to the first output layer, and the first loss function layer is applied to the first output vector and each training data The text recognition model generates a first loss value by using a first loss function that compares a first answer vector for , and the parameters of the first neural network are learned in a direction in which the first loss value decreases. It can be.

예를 들어, 상기 제1 영역은 상기 동영상의 재생 화면에 자막이 위치하는 영역일 수 있다. 자막이 위치하는 영역을 상기 동영상의 최하단으로부터 특정 폭만큼 이격된 위치까지의 영역일 수 있다. 예를 들어, 특정 폭은 동영상의 하단에 자막이 포함된 폭들을 평균한 값일 수 있다. 동영상의 프레임의 크기에 따라 상기 제1 영역이 상이하게 설정될 수 있다. 즉, 제1 텍스트는 동영상의 자막을 포함할 수 있다. 상기 제2 영역은 상기 제1 영역 이외의 영역을 포함할 수 있다. 즉, 제2 텍스트는 상기 동영상의 자막 이외에 동영상에 표시된 문자일 수 있다. 예를 들어, 제2 텍스트는, 동영상의 재생 화면에 포함된 프레젠테이션 화면 또는 화이트 보드 등과 같이, 동영상의 재생 화면 내 설명 부분에 표시된 문자일 수 있다. 상기 복수의 제1 텍스트 및 상기 복수의 제2 텍스트는 최소 크기보다 큰 크기를 가진 텍스트일 수 있다. 상기 최소 크기는 상기 동영상의 프레임 크기, 상기 자막의 크기 및 상기 동영상의 색상 정보를 기반으로 결정될 수 있다. 여기서, 상기 자막의 크기는 상기 동영상의 정지 화면으로부터 자막이 위치한 영역, 즉 제1 영역에 표시된 문자를 인식함으로써, 결정될 수 있다.For example, the first area may be an area where subtitles are located on the reproduction screen of the video. The area where the subtitle is located may be an area from the lowermost end of the video to a position spaced apart by a specific width. For example, the specific width may be an average value of widths including subtitles at the bottom of the video. The first region may be set differently according to the frame size of the video. That is, the first text may include a subtitle of a video. The second area may include an area other than the first area. That is, the second text may be characters displayed in the video other than the subtitle of the video. For example, the second text may be a character displayed on a description part in a reproduction screen of a video, such as a presentation screen included in a reproduction screen of a video or a whiteboard. The plurality of first texts and the plurality of second texts may be texts having a size greater than a minimum size. The minimum size may be determined based on the frame size of the video, the size of the subtitle, and color information of the video. Here, the size of the caption may be determined by recognizing a region where the caption is located from the still screen of the moving picture, that is, a character displayed in the first region.

예를 들어, 상기 최소 크기는 하기 수학식 1에 의해 결정될 수 있다.For example, the minimum size may be determined by Equation 1 below.

Figure 112022124771246-pat00003
Figure 112022124771246-pat00003

상기 수학식 1에서, 상기 Tmin은 상기 최초 크기이고, 상기 nc는 상기 동영상에 포함된 RGB 값들의 분포에 기반하여 결정된 값이고, 상기 nd는 상기 동영상에 포함된 RGB 값들의 분포에 대한 기본 값이고, 상기 Sf는 상기 동영상의 프레임의 크기이고, 상기 Sd는 평균적인 프레임의 크기이고, 상기 Sc는 상기 동영상의 자막의 크기이고, 상기 Tr은 상기 인식 모델이 인식할 수 있는 최소 텍스트의 크기일 수 있다.In Equation 1, T min is the initial size, n c is a value determined based on the distribution of RGB values included in the video, and n d is the distribution of RGB values included in the video. It is a basic value, S f is the frame size of the video, S d is the average frame size, S c is the size of the subtitle of the video, and T r is the size of the video that the recognition model can recognize. It can be the minimum text size that exists.

여기서, 상기 동영상에 포함됨 RGB 값들의 분포에 기반하여 결정된 값은 상기 제2 영역에 대한 RGB 값들의 표준 편차일 수 있다. 상기 동영상에 포함된 RGB 값들의 분포에 대한 기본 값은 상기 nc 값의 크기를 결정하기 위한 기준 값으로서, 상기 서버에 사전 설정된 값일 수 있다. 상기 평균적인 프레임의 크기는 상기 동영상의 프레임의 크기를 결정하기 위한 기준 값으로서, 상기 서버에 사전 설정될 수 있다. 상기 인식 모델이 인식할 수 있는 최소 텍스트의 크기는 상기 서버의 성능에 따라 상이할 수 있고, 상기 인식 모델이 인식할 수 있는 최소 텍스트의 크기는 상기 서버에 사전 설정될 수 있다. 여기서, max 함수는 가장 큰 값을 선택하는 함수이다. 즉, max 함수로 인해 상기 최소 크기는 상기 인식 모델이 인식할 수 있는 최소 텍스트의 크기 이상의 값으로 결정될 수 있다.Here, the value determined based on the distribution of RGB values included in the video may be a standard deviation of RGB values for the second region. A basic value for the distribution of RGB values included in the video is a reference value for determining the size of the n c value, and may be a value preset in the server. The average frame size is a reference value for determining the frame size of the video, and may be preset in the server. The minimum text size that the recognition model can recognize may be different according to the performance of the server, and the minimum text size that the recognition model can recognize may be preset in the server. Here, the max function is a function that selects the largest value. That is, due to the max function, the minimum size may be determined as a value greater than or equal to the minimum text size that the recognition model can recognize.

예를 들어, 동영상에 포함된 RGB 값들의 분포에 기반하여 결정된 값이 클수록 다양한 색상들이 상기 동영상에 포함되기 때문에, 텍스트 인식 모델에 의해 인식되는 텍스트에 대한 최소 크기는 작게 결정될 수 있다. 또한, 동영상의 프레임의 크기가 평균적인 프레임의 크기보다 크고, 자막의 크기가 클수록, 텍스트 인식 모델에 의해 인식되는 텍스트에 대한 최소 크기는 크게 결정될 수 있다.For example, since various colors are included in the video as the value determined based on the distribution of RGB values included in the video increases, the minimum size of text recognized by the text recognition model may be determined to be small. In addition, the minimum size of text recognized by the text recognition model may be determined to be larger as the frame size of the video is larger than the average frame size and the size of the subtitle is larger.

이로 인해, 서버는 동영상의 재생 화면에 표시된 텍스트 중에서 동영상과 관련된 텍스트만을 인식할 수 있을 뿐만 아니라, 텍스트 인식 모델이 동영상과 관련된 텍스트를 인식하기 위한 최소 크기를 동영상의 프레임 크기, 자막 크기 및 동영상의 RGB 값들을 고려하여 효과적으로 결정할 수 있다. Due to this, the server can recognize only the text related to the video among the text displayed on the video playback screen, and the minimum size for the text recognition model to recognize the text related to the video is determined by the frame size of the video, the size of the subtitle, and the video. It can be effectively determined by considering the RGB values.

단계 S304에서, 서버는 상기 복수의 제1 텍스트 및 상기 복수의 제2 텍스트를 기반으로 제2 뉴럴 네트워크를 이용한 오타 교정 모델을 통해 복수의 제3 텍스트 및 복수의 제4 텍스트를 결정할 수 있다.In step S304, the server may determine a plurality of third texts and a plurality of fourth texts through a typo correction model using a second neural network based on the plurality of first texts and the plurality of second texts.

상기 복수의 제3 텍스트는 상기 복수의 제1 텍스트에 포함된 오타가 교정된 텍스트일 수 있다. 상기 복수의 제4 텍스트는 상기 복수의 제2 텍스트에 포함된 오타가 교정된 텍스트일 수 있다.The plurality of third texts may be texts in which typos included in the plurality of first texts are corrected. The plurality of fourth texts may be texts in which typos included in the plurality of second texts are corrected.

상기 오타 교정 모델은 양방향 LSTM(long short-term memory) 모델일 수 있다. 일반적으로 RNN(recurrent neural network)은 내부에 저장된 기존 입력에 대한 히든 레이어 값이 다음 입력 값에 대한 출력에서 고려되기 때문에, 시계열적 정보를 효과적으로 모델링할 수 있다. 그러나, RNN은 과거 관측 값에 의존하는 구조이므로, 기울기가 소실(vanishing gradient)되거나 기울기가 매우 큰 값(exploding gradient)을 가지게 되는 문제가 발생할 수 있다. 이를 해결하기 위한 모델이 LSTM이며, LSTM 내부의 노드는 메모리 셀로 대체함으로써, 정보를 축적하거나 과거 정보의 일부를 삭제가 가능하며, 상기 RNN의 문제를 보완할 수 있다. 또한, 양방향 LSTM은 양방향성을 갖는 LSTM으로, 정방향 LSTM과 역방향 LSTM을 포함할 수 있다. 예를 들어, 정방향 LSTM의 활성화 함수는 선형 함수가 사용될 수 있고, 역방향 LSTM의 활성화 함수는 시그모이드 함수가 사용될 수 있다.The typo correction model may be a bidirectional long short-term memory (LSTM) model. In general, a recurrent neural network (RNN) can effectively model time-series information because hidden layer values for an existing input stored therein are considered in an output for a next input value. However, since RNN is a structure that depends on past observation values, problems such as vanishing gradient or exploding gradient may occur. A model to solve this problem is LSTM, and by replacing nodes inside the LSTM with memory cells, information can be accumulated or some of past information can be deleted, and the problem of the RNN can be supplemented. In addition, the bidirectional LSTM is an LSTM having bidirectionality, and may include a forward LSTM and a backward LSTM. For example, a linear function may be used as an activation function of a forward LSTM, and a sigmoid function may be used as an activation function of a backward LSTM.

상기 제2 뉴럴 네트워크는 제2 입력 레이어, 하나 이상의 제2 히든 레이어 및 제2 출력 레이어를 포함할 수 있다.The second neural network may include a second input layer, one or more second hidden layers, and a second output layer.

복수의 텍스트 및 복수의 정답 텍스트로 구성된 각각의 제2 뉴럴 네트워크의 학습을 위한 데이터는 상기 제2 뉴럴 네트워크의 상기 제2 입력 레이어에 입력되고, 상기 하나 이상의 제2 히든 레이어 및 제2 출력 레이어를 통과하여 제2 출력 벡터를 출력하고, 상기 제2 출력 벡터는 상기 제2 출력 레이어에 연결된 제2 손실함수 레이어에 입력되고, 상기 제2 손실함수 레이어는 상기 제2 출력 벡터와 각각의 학습 데이터에 대한 제2 정답 벡터를 비교하는 제2 손실 함수를 이용하여 제2 손실값을 출력하고, 상기 제2 뉴럴 네트워크의 파라미터가 상기 제2 손실값이 작아지는 방향으로 학습되는, 상기 오타 교정 모델이 생성될 수 있다.Data for learning of each second neural network composed of a plurality of texts and a plurality of correct answer texts is input to the second input layer of the second neural network, and the one or more second hidden layers and the second output layer are input. Pass through and output a second output vector, the second output vector is input to a second loss function layer connected to the second output layer, and the second loss function layer is applied to the second output vector and each training data A second loss value is output using a second loss function that compares a second answer vector for , and the parameters of the second neural network are learned in a direction in which the second loss value becomes smaller. The typo correction model is generated. It can be.

일 실시예에 따라, 상기 복수의 제1 텍스트의 개수가 사전 설정된 임계 값 이상인 것에 기반하여, 상기 오타 교정 모델은 복수의 제1 오류 유형에 따라 상기 복수의 제1 텍스트 및 상기 복수의 제2 텍스트에 대해 검출할 수 있다.According to an embodiment, based on the fact that the number of the plurality of first texts is greater than or equal to a preset threshold value, the typo correction model determines the plurality of first texts and the plurality of second texts according to the plurality of first error types. can be detected for

상기 복수의 제1 텍스트의 개수가 사전 설정된 임계 값 미만인 것에 기반하여, 상기 오타 교정 모델은 복수의 제2 오류 유형에 따라 상기 복수의 제1 텍스트 및 상기 복수의 제2 텍스트에 대해 검출할 수 있다.Based on the fact that the number of the plurality of first texts is less than a preset threshold value, the typo correction model may detect the plurality of first texts and the plurality of second texts according to a plurality of second error types. .

상기 복수의 제1 오류 유형은 띄어쓰기에 대한 오류, 문장부호에 대한 오류, 수사에 대한 오류, 맞춤법 및 문법에 대한 1차 오류를 포함할 수 있다. The plurality of first error types may include a spacing error, a punctuation error, a numeral error, and a primary error regarding spelling and grammar.

여기서, 띄어쓰기에 대한 오류는 특정 언어의 띄어쓰기 규칙에 위배되는 오류일 수 있다. 문장부호에 대한 오류는 특정 언어의 문장 사이에 문장 부호가 빠지거나 잘못된 위치에 위치한 오류일 수 있다. 수사에 대한 오류는 양을 나타내는 양수사와 순서를 나타내는 서수사에 대한 오류일 수 있다. 예를 들어, 특정 언어가 한글인 경우, 수사에 대한 오류는'열한 시 오십 분'을 '열하나 시 오십 분' 또는 '열일 시 오십 분'으로 오타가 난 경우에 해당할 수 있다. 맞춤법 및 문법 오류는 특정 언어의 맞춤법 및 문법에 위배된 오류일 수 있다. 예를 들어, 특정 언어는 한글 또는 영어와 같은 다양한 언어를 포함할 수 있다. Here, the error about spacing may be an error that violates rules of spacing in a specific language. Punctuation errors can be errors in missing or misplaced punctuation marks between sentences in a particular language. Errors about numerals can be errors about positive numerals indicating quantity and ordinal numerals indicating order. For example, when a specific language is Korean, an error on numeral may correspond to a case where 'eleven: fifty' is misspelled as 'eleven: fifty' or 'ten one: fifty'. Spelling and grammatical errors may be errors that violate the spelling and grammar of a particular language. For example, a specific language may include various languages such as Korean or English.

상기 1차 오류는 특정 언어 자체에 대한 오류로서, 글자 삭제 오류, 글자 추가 오류, 글자 대체 오류 및 글자 분리 오류를 포함할 수 있다. The primary error is an error for a specific language itself, and may include a letter deletion error, a letter addition error, a letter substitution error, and a letter separation error.

여기서, 글자 삭제 오류는 특정 언어의 글자가 삭제된 오류일 수 있다. 글자 추가 오류는 특정 언어의 글자가 추가된 오류일 수 있다. 글자 대체 오류는 특정 언어의 단어가 다른 단어로 교체되거나 하나의 음절 안에서 음운의 순서가 변경된 오류일 수 있다.Here, the letter deletion error may be an error in which letters of a specific language are deleted. The character addition error may be an error in which characters of a specific language are added. A letter substitution error may be an error in which a word in a particular language is replaced with another word or the order of phonemes within a syllable is changed.

상기 복수의 제2 오류 유형은 상기 복수의 제1 오류 유형과 맞춤법 및 문법에 대한 2차 오류를 포함할 수 있다.The plurality of second error types may include the plurality of first error types and secondary errors for spelling and grammar.

상기 2차 오류는 특정 언어에 대한 외래어 및 신조어에 대한 오류일 수 있다. 외래어 변환 오류, 의미 오류 및 신조어 오류를 포함할 수 있다.The second error may be an error for a foreign word or a coined word for a specific language. Foreign word conversion errors, semantic errors, and neologism errors may be included.

여기서, 외래어 변환 오류는 특정 언어에 대한 외래어를 변환할 때 일어나는 오류일 수 있다. 의미 오류는 특정 언어에 대한 외래어가 문맥 상 의미가 잘못된 경우에 대한 오류일 수 있다. 신조어 오류는 특정 언어에 대한 신조어가 잘못 기재되거나 쓰여진 경우에 대한 오류일 수 있다.Here, the foreign word conversion error may be an error that occurs when converting a foreign word for a specific language. A semantic error may be an error when a foreign word for a specific language has an incorrect meaning in context. A neologism error may be an error in which a neologism for a specific language is incorrectly written or written.

예를 들어, 복수의 제1 오류 유형에 대한 데이터 및 복수의 제2 오류 유형에 대한 데이터는 크라우드 소싱 등과 같이 다양한 방식을 통해 상기 서버에 사전 저장될 수 있다. 예를 들어, 복수의 제1 오류 유형에 대한 데이터는 복수의 제1 오류 유형에 해당하는 오타가 발생한 텍스트와 복수의 제1 오류 유형에 해당하는 오타를 교정한 텍스트를 포함할 수 있다. 복수의 제2 오류 유형에 대한 데이터는 복수의 제2 오류 유형에 해당하는 오타가 발생한 텍스트와 복수의 제2 오류 유형에 해당하는 오타를 교정한 텍스트를 포함할 수 있다.For example, data for a plurality of first error types and data for a plurality of second error types may be pre-stored in the server through various methods such as crowdsourcing. For example, the data on the plurality of first error types may include text in which typos corresponding to the plurality of first error types occur and text in which typos corresponding to the plurality of first error types are corrected. Data on the plurality of second error types may include text in which typos corresponding to the plurality of second error types occur and text in which typos corresponding to the plurality of second error types are corrected.

단계 S305에서, 서버는 상기 동영상의 재생 화면 내 제1 영역에 표시된 상기 복수의 제1 텍스트가 변경되는 시점을 기준으로 상기 동영상의 제1 재생 시점과 상기 동영상의 재생 화면 내 제2 영역에 표시된 상기 복수의 제2 텍스트가 변경되는 시점을 기준으로 상기 동영상의 제2 재생 시점을 구분할 수 있다. In step S305, the server determines the first reproduction time of the video and the text displayed in the second region of the reproduction screen of the video based on the time when the plurality of first texts displayed in the first region of the reproduction screen of the video are changed. Based on the time point at which the plurality of second texts are changed, the second reproduction time point of the video may be distinguished.

단계 S306에서, 서버는 상기 동영상의 제1 재생 시점에 매칭된 상기 복수의 제3 텍스트와 상기 동영상의 제2 재생 시점에 매칭된 상기 복수의 제4 텍스트로 구성된 동영상 텍스트 리스트를 결정할 수 있다. In step S306, the server may determine a video text list composed of the plurality of third texts matched with the first reproduction time of the video and the plurality of fourth texts matched with the second reproduction time of the video.

예를 들어, 동영상의 재생 화면 내 제1 영역에 '제1 자막'이 표시된 시점이 0분 30초이고, 상기 동영상의 재생 화면 내 제1 영역에 '제1 자막'이'제2 자막'으로 변경될 때의 시점이 0분 40초일 수 있다. 이때, 복수의 제1 텍스트는 '제1 자막'과 '제2 자막'을 포함하고, '제1 자막'은 0분 30초, '제2 자막'은 0분 40초로 구분될 수 있다. For example, when 'first subtitle' is displayed in the first area of the video playback screen at 0:30, 'first subtitle' is displayed as 'second subtitle' in the first area of the video playback screen. The point in time when it is changed may be 0 minutes and 40 seconds. In this case, the plurality of first texts may include a 'first subtitle' and a 'second subtitle', and the 'first subtitle' may be divided into 0 minutes and 30 seconds, and the 'second subtitle' may be divided into 0 minutes and 40 seconds.

예를 들어, '제1 자막'이 오타 교정 모델을 통해 '제1 교정 자막'으로 결정된 경우, 동영상의 재생 화면 내 제1 영역에 '제1 자막'이 표시된 시점인 0분 30초에 '제1 교정 자막'이 매칭될 수 있다. For example, if the 'first subtitle' is determined to be the 'first corrective subtitle' through the typo correction model, the 'first subtitle' is displayed in the first area of the video playback screen at 0:30. 1 correction caption' may be matched.

동영상의 재생 화면 내 제2 영역에 '제1 문구'가 표시된 시점이 0분 35초이고, 상기 동영상의 재생 화면 내 제2 영역에 '제1 문구'가'제2 문구'로 변경될 때의 시점이 0분 45초일 수 있다. 이때, 복수의 제2 텍스트는 '제1 문구'와 '제2 문구'를 포함하고, '제1 문구'는 0분 35초, '제2 문구'는 0분 45초로 구분될 수 있다.When the 'first phrase' is displayed in the second area of the video playback screen at 0:35, and the 'first phrase' is changed to the 'second phrase' in the second area of the video playback screen The time point may be 0 minutes and 45 seconds. In this case, the plurality of second texts may include a 'first phrase' and a 'second phrase', and the 'first phrase' may be divided into 0 minutes and 35 seconds, and the 'second phrase' may be divided into 0 minutes and 45 seconds.

예를 들어, '제1 문구'가 오타 교정 모델을 통해 '제1 교정 문구'로 결정된 경우, 동영상의 재생 화면 내 제2 영역에 '제1 문구'가 표시된 시점인 0분 35초에 '제1 교정 문구'가 매칭될 수 있다. For example, if the 'first phrase' is determined to be the 'first correctional phrase' through the typo correction model, the 'first phrase' is displayed in the second area of the video playback screen at 0:35. 1 correction phrase' can be matched.

상기 동영상의 제1 재생 시점에 매칭된 상기 복수의 제3 텍스트와 상기 동영상의 제2 재생 시점에 매칭된 상기 복수의 제4 텍스트로 구성된 동영상 텍스트 리스트를 결정할 수 있다.A video text list composed of the plurality of third texts matched with the first reproduction time of the video and the plurality of fourth texts matched with the second reproduction time of the video may be determined.

예를 들어, 동영상 텍스트 리스트는 동영상의 제1 재생 시점에 따라 복수의 제3 텍스트가 순차적으로 정렬되고, 동영상의 제2 재생 시점에 따라 복수의 제4 텍스트가 순차적으로 정렬된 형태일 수 있다.For example, the video text list may have a form in which a plurality of third texts are sequentially arranged according to a first playback time of a video and a plurality of fourth texts are sequentially arranged according to a second playback time of a video.

부가적으로, 예를 들어, 동영상 텍스트 리스트는 복수의 제3 텍스트 중에서 교정되기 이전의 제1 텍스트 및 복수의 제4 텍스트 중에서 교정되기 이전의 제2 텍스트를 포함할 수 있다. 이때, 복수의 제3 텍스트 중에서 교정된 부분에 교정되기 이전의 제1 텍스트가 사용자 단말의 디스플레이 모듈에 별도로 표시될 수 있고, 복수의 제4 텍스트 중에서 교정된 부분에 교정되기 이전의 제2 텍스트가 사용자 단말의 디스플레이 모듈에 별도로 표시될 수 있다.Additionally, for example, the video text list may include first text before redaction among a plurality of third texts and second text before redaction among a plurality of fourth texts. In this case, the first text before correction may be separately displayed on the display module of the user terminal on the corrected portion of the plurality of third texts, and the second text before correction on the corrected portion among the plurality of fourth texts. It may be separately displayed on the display module of the user terminal.

단계 S307에서, 서버는 상기 동영상 텍스트 리스트를 사용자 단말에게 전송할 수 있다.In step S307, the server may transmit the video text list to the user terminal.

예를 들어, 사용자 단말이 상기 동영상에 대한 동영상 텍스트 리스트를 요청한 경우, 서버는 상기 사용자 단말에게 상기 동영상에 대한 동영상 텍스트 리스트를 전송할 수 있다.For example, when the user terminal requests a video text list for the video, the server may transmit the video text list for the video to the user terminal.

예를 들어, 동영상 텍스트 리스트는 사용자 단말에 설정된 인터페이스를 통해 동영상의 정지화면과 함께 디스플레이될 수 있다. 여기서, 동영상의 정지화면은 상기 동영상의 제1 재생 시점 및 상기 상기 동영상의 제2 재생 시점에 대응하는 정지화면을 포함할 수 있다. 인터페이스는 상기 서버에 사전 설정될 수 있고, 사용자 단말은 상기 서버로부터 인터페이스를 수신하고, 인터페이스를 설정할 수 있다.For example, the video text list may be displayed along with still images of the video through an interface set in the user terminal. Here, the still image of the video may include still images corresponding to the first playback time of the video and the second playback time of the video. An interface may be preset in the server, and a user terminal may receive the interface from the server and set the interface.

상기 사용자 단말에 의해 상기 동영상 텍스트 리스트에 포함된 상기 복수의 제3 텍스트 또는 상기 복수의 제4 텍스트 중에서 어느 하나의 텍스트가 선택되면, 선택된 텍스트에 매칭된 상기 동영상의 재생 시점부터 상기 동영상이 재생될 수 있다.When any one of the plurality of third texts or the plurality of fourth texts included in the video text list is selected by the user terminal, the video is played from the playback time of the video matching the selected text. can

예를 들어, 사용자 단말이 인터페이스를 통해 표시된 동영상 텍스트 리스트 중에서 상기 '제1 교정 문구'를 선택하면, '제1 교정 문구'에 매칭된 0분 35초로부터 상기 동영상이 재생될 수 있다.For example, when the user terminal selects the 'first correctional phrase' from the video text list displayed through the interface, the video may be played from 0:35 matched to the 'first correctional phrase'.

상기 동영상의 제1 재생 시점에 매칭된 상기 복수의 제3 텍스트와 상기 동영상의 제2 재생 시점에 매칭된 상기 복수의 제4 텍스트로 구성된 동영상 텍스트 리스트를 포함하는 동영상 텍스트 리스트를 결정할 수 있다.A video text list including a video text list composed of the plurality of third texts matched with the first reproduction time of the video and the plurality of fourth texts matched with the second reproduction time of the video may be determined.

예를 들어, 동영상 텍스트 리스트는 동영상의 제1 재생 시점에 따라 복수의 제3 텍스트가 순차적으로 정렬되고, 동영상의 제2 재생 시점에 따라 복수의 제4 텍스트가 순차적으로 정렬된 형태일 수 있다.For example, the video text list may have a form in which a plurality of third texts are sequentially arranged according to a first playback time of a video and a plurality of fourth texts are sequentially arranged according to a second playback time of a video.

부가적으로, 예를 들어, 서버는 사용자 단말의 로그 정보를 획득할 수 있고, 상기 로그 정보에 기반하여 상기 사용자 단말이 마지막에 시청한 동영상의 마지막 재생 시점을 상기 사용자 단말에 전송할 수 있다.Additionally, for example, the server may obtain log information of the user terminal, and based on the log information, the server may transmit to the user terminal the last playback time of the last video viewed by the user terminal.

도 4는 일 실시예에 따른 텍스트 인식 모델에 대한 도면이다. 도 4의 실시예는 본 개시의 다양한 실시예들과 결합될 수 있다.4 is a diagram of a text recognition model according to an embodiment. The embodiment of FIG. 4 can be combined with various embodiments of the present disclosure.

도 4를 참조하면, 텍스트 인식 모델은 CRNN 모델(400)일 수 있다. 여기서, CRNN 모델(400)은 CNN 모델과 RNN 모델로 구성되지만 하나의 손실 함수를 통해 공동으로 학습될 수 있다. Referring to FIG. 4 , the text recognition model may be a CRNN model 400. Here, the CRNN model 400 is composed of a CNN model and an RNN model, but may be jointly learned through one loss function.

일반적으로 텍스트 데이터의 길이가 상이하기 때문에 일반적인 알고리즘으로 정확한 인식률을 기대하는 것이 어려우나, 이러한 문제를 해결하기 위해 고안된 알고리즘이 CRNN 모델이다.In general, since the length of text data is different, it is difficult to expect an accurate recognition rate with a general algorithm, but the algorithm designed to solve this problem is the CRNN model.

CRNN 모델은 제1 뉴럴 네트워크를 포함할 수 있고, 제1 뉴럴 네트워크는 제1 입력 레이어(410), 하나 이상의 제1 히든 레이어(420) 및 제1 출력 레이어(430)를 포함할 수 있다. 또한, 하나 이상의 제1 히든 레이어(420)는 컨벌루션(convolution) 레이어, 리커런트(recurrent) 레이어 및 트랜스크립션(transcription) 레이어를 포함할 수 있다. The CRNN model may include a first neural network, and the first neural network may include a first input layer 410 , one or more first hidden layers 420 and a first output layer 430 . Also, one or more first hidden layers 420 may include a convolution layer, a recurrent layer, and a transcription layer.

구체적으로, 서버는 복수의 동영상에 대해 데이터 전처리를 통해 상기 복수의 동영상 각각에 대해 복수의 정지 화면 이미지를 추출하고, 복수의 정지 화면 이미지를 동일한 높이로 조정시킨 입력 벡터를 생성할 수 있다.Specifically, the server may extract a plurality of still screen images for each of the plurality of videos through data preprocessing, and generate an input vector obtained by adjusting the plurality of still screen images to have the same height.

컨벌루션 레이어는 1차원 배열의 형태로 평탄화된 행렬을 통해 이미지를 분류하는데 사용되는 계층인 완전 연결 레이어(fully connected layer)가 제외된, 컨벌루션 및 맥스-풀링 레이어(max-pooling layer)로 구성될 수 있다. 예를 들어, 컨벌루션 레이어는 입력 벡터로부터 특징 맵을 통해 특징 벡터의 시퀀스를 추출할 수 있다. 이때, 특징 벡터의 시퀀스는 리커런트 레이어에 대한 입력 값일 수 있다. 특징 벡터는 특징 맵의 좌측에서 우측으로 생성되기 때문에, i번째 특징 벡터가 모든 특징 맵의 i번째 열의 집합일 수 있고, 각 열의 너비는 단일 픽셀로 고정될 수 있다. 즉, 특징 벡터의 시퀀스에 포함된 각각의 특징 벡터는 정지 화면 이미지의 특정 영역에 대한 특징을 나타낼 수 있다. 여기서, 특정 영역을 프레임이라 지칭할 수 있다. 이때, 학습의 효율을 높이기 위해 정규화 기법 중 하나인 배치 정규화 레이어(batch normalization layer)를 추가함으로써, 과적합의 위험을 감소시킬 수 있다. 여기서, 배치 정규화 레이어는 학습 과정에서 각 배치 단위 별로 데이터가 다양한 분포를 가져도, 각 배치 별로 평균과 분산을 이용해 정규화하는 동작을 수행할 수 있다. 배치는 모델의 가중치를 한번 업데이트시킬 때 사용되는 샘플들의 묶음을 지칭한다.The convolution layer may consist of convolution and max-pooling layers, excluding the fully connected layer, which is a layer used to classify images through a flattened matrix in the form of a one-dimensional array. there is. For example, the convolutional layer may extract a sequence of feature vectors from an input vector through a feature map. In this case, the sequence of feature vectors may be an input value to the recursive layer. Since the feature vectors are generated from left to right of the feature map, the ith feature vector may be a set of the ith column of all feature maps, and the width of each column may be fixed to a single pixel. That is, each feature vector included in the sequence of feature vectors may indicate a feature of a specific region of the still image. Here, a specific region may be referred to as a frame. In this case, the risk of overfitting may be reduced by adding a batch normalization layer, which is one of normalization techniques, to increase learning efficiency. Here, the batch normalization layer can perform a normalization operation using the mean and variance for each batch even if the data has various distributions for each batch unit in the learning process. A batch refers to a group of samples used when updating the weights of a model once.

리커런트 레이어는 하나 이상의 정방향 LSTM 블록 및 하나 이상의 역방향 LSTM을 포함하고, 각 LSTM 블록은 메모리 셀(memory cell), 입력 게이트(input gate), 삭제 게이트(forget gate), 출력 게이트(output gate)를 포함할 수 있다.The recursive layer includes one or more forward LSTM blocks and one or more reverse LSTM blocks, and each LSTM block includes a memory cell, an input gate, an erase gate, and an output gate. can include

예를 들어, 메모리 셀은 활성화 함수를 통해 결과를 출력하는 노드이며, 상기 메모리 셀은 바로 이전 시점에서의 메모리 셀에서 출력된 값을 현재 시점에서 자신의 입력으로 사용하는 재귀적 동작을 수행할 수 있다. 예를 들어, 현재 시점이 t인 경우, 현재 시점 t에서 메모리 셀에 의해 출력되는 값은 과거의 메모리 셀들의 값에 영향을 받을 수 있다. 메모리 셀은 셀 스테이트(Ct) 값과 히든 스테이트(ht) 값을 출력할 수 있다. 즉, 메모리 셀은 t-1 시점의 메모리 셀이 전달한 셀 스테이트 값(Ct-1) 및 히든 스테이트 값(ht-1)을 t 시점의 셀 스테이트 값과 히든 스테이트 값을 계산하기 위한 입력 값으로 사용할 수 있다.For example, a memory cell is a node that outputs a result through an activation function, and the memory cell can perform a recursive operation of using a value output from a memory cell at a previous time as its input at a current time. there is. For example, when the current time point is t, a value output by a memory cell at the current time point t may be influenced by values of memory cells in the past. The memory cell may output a cell state (C t ) value and a hidden state (h t ) value. That is, the memory cell uses the cell state value (C t-1 ) and the hidden state value (h t-1 ) delivered by the memory cell at time t-1 as input values for calculating the cell state value and hidden state value at time t. can be used as

예를 들어, 입력 게이트, 삭제 게이트 및 출력 게이트는 모두 시그모이드 레이어를 포함하고, 시그모이드 레이어를 통해 입력된 정보가 얼마만큼 전달되는지를 나타낼 수 있다. 예를 들어, 시그모이드 레이어는 시그모이드 함수(

Figure 112022124771246-pat00004
)가 활성화 함수인 레이어일 수 있다. 입력 게이트, 삭제 게이트 및 출력 게이트를 통해 셀 스테이트가 제어되고, 각 게이트와 입력에 따른 가중치들이 존재할 수 있다.For example, an input gate, a deletion gate, and an output gate may all include a sigmoid layer and indicate how much information input through the sigmoid layer is transmitted. For example, a sigmoid layer is a sigmoid function (
Figure 112022124771246-pat00004
) may be a layer whose activation function is A cell state is controlled through an input gate, a deletion gate, and an output gate, and weights according to each gate and input may exist.

예를 들어, 컨벌루션 레이어로부터 특징 벡터의 시퀀스가 입력 게이트에 입력되고, 상기 삭제 게이트는 상기 특징 벡터의 시퀀스를 기반으로 생성된 ht-1(t-1 시점의 히든 스테이트)과 xt(t 시점의 입력 값)를 기반으로 0과 1 사이의 값을 Ct-1로 전달할 수 있다. 여기서, 0과 1사이의 값은 삭제 과정을 거친 정보의 양이며, 0에 가까울수록 정보가 많이 삭제되고, 1에 가까울수록 온전한 정보가 전달될 수 있다. For example, a sequence of feature vectors from the convolution layer is input to an input gate, and the deletion gate is generated based on the sequence of feature vectors h t-1 (hidden state at time t-1) and x t (t A value between 0 and 1 can be transferred to C t-1 based on the input value of the point in time). Here, a value between 0 and 1 is the amount of information that has gone through the deletion process. The closer to 0, the more information is deleted, and the closer to 1, the more intact information can be transmitted.

예를 들어, 입력 게이트는 시그모이드 레이어를 통해 업데이트할 값을 결정하고, tanh 레이어가 새로운 후보 값들인 Ct 벡터를 생성하고, 셀 스테이트에 저장시킬 수 있다. 과거 셀 스테이트인 Ct-1가 업데이트됨으로써, 새로운 셀 스테이트인 Ct가 생성될 수 있다. 즉, 셀 스테이트에 대해 상기 ft를 셀 스테이트에 곱하여 정보가 삭제되고, 업데이트 값을 스케일한 값이 추가될 수 있다. 예를 들어, tanh는 비선형 활성화 함수(하이퍼볼릭 탄젠트 함수)를 의미한다. For example, an input gate may determine a value to be updated through a sigmoid layer, and a tanh layer may generate C t vectors, which are new candidate values, and store them in a cell state. By updating the previous cell state C t-1 , a new cell state C t can be created. That is, for a cell state, information is deleted by multiplying f t by the cell state, and a value obtained by scaling the updated value may be added. For example, tanh means a nonlinear activation function (hyperbolic tangent function).

예를 들어, 출력 게이트는 시그모이드 레이어에서 특징 벡터의 시퀀스에 기반하여 출력할 셀 스테이트의 부분을 결정할 수 있고, 출력 게이트는 상기 시그모이드 레이어에서 결정된 셀 스테이트를 tanh 레이어를 통해 -1에서 1 사이의 값으로 출력된 값과 곱할 수 있다. For example, the output gate may determine a portion of a cell state to be output based on a sequence of feature vectors in the sigmoid layer, and the output gate converts the cell state determined in the sigmoid layer to -1 through a tanh layer. A value between 1 can be multiplied by the output value.

이러한 과정을 통해, 리커런트 레이어는 특징 벡터의 시퀀스와 관련된 값을 컨벌루션 레이어로 역전파시키고, 컨벌루션 레이어의 특징 맵을 특징 벡터의 시퀀스로 변화하는 동작을 업데이트시킴으로써, 컨벌루션 레이어로 피드백을 줄 수 있다. 여기서, 특징 벡터의 시퀀스와 관련된 값은 특징 벡터의 시퀀스에 대한 미분 값일 수 있다. 또한, 리커런트 레이어는 특징 벡터의 시퀀스에 대해 프레임 별 예측 값들을 트랜스크립션 레이어로 전송할 수 있다. Through this process, the recursive layer back-propagates the value related to the sequence of feature vectors to the convolution layer, and updates the operation of changing the feature map of the convolution layer to the sequence of feature vectors, thereby giving feedback to the convolution layer. . Here, a value related to the sequence of feature vectors may be a differential value with respect to the sequence of feature vectors. In addition, the recursive layer may transmit prediction values for each frame of the sequence of feature vectors to the transcription layer.

부가적으로, 예를 들어, 상기 삭제 게이트와 상기 입력 게이트가 합쳐진 LSTM 모델이 사용될 수 있다. 이러한 경우, 새로운 정보가 추가되는 이전 정보만 삭제됨으로써, 보다 빠르게 연산이 수행될 수 있다.Additionally, for example, an LSTM model in which the deletion gate and the input gate are combined may be used. In this case, since only the old information to which new information is added is deleted, the operation can be performed more quickly.

트랜스크립션 레이어는 CTC(connectionist temporal classification) 기법을 통해 리커런트 레이어에서 생성된 프레임 별 예측 값을 레이블 시퀀스(label sequence)로 변환시키고, 레이블 시퀀스를 정렬된 형태로 출력할 수 있다. CTC 기법은 학습 데이터에 클래스 라벨만 순서대로 있고, 각 클래스의 위치를 알 수 없는 시퀀스 데이터의 학습을 위해 사용되는 알고리즘이다.The transcription layer may convert prediction values for each frame generated in the recursive layer into a label sequence through a connectionist temporal classification (CTC) technique, and output the label sequence in an ordered form. The CTC technique is an algorithm used for learning sequence data in which only class labels are in order in the training data and the location of each class is unknown.

예를 들어, 트랜스크립션 레이어는 프레임 별 예측 값에 따라 가장 높은 확률을 가진 레이블 시퀀스를 검출할 수 있다. 트랜스크립션 레이어는 프레임 별 예측 값에 포함된 중첩 레이블(문자)를 제거하고, 제거된 예측 값에 1을 매칭할 수 있다. 또한, 트랜스크립션 레이어는 프레임 별 예측 값에 포함된 공백을 제거할 수 있다. 예를 들어, "고고-양-이이-"에 대한 프레임 별 예측 값의 경우, "-"는 공백을 의미하고, 트랜스크립션 레이어는 CTC 기법를 통해 중첩된 문자와 공백을 제외한 "고양이"로 결정될 수 있다. 즉, 트랜스크립션 레이어는 CTC 기법을 통해 프레임 별 예측 값에 대한 차원의 수를 기반으로 손실을 계산하고 그에 따른 그래디언트를 계산할 수 있다. For example, the transcription layer may detect a label sequence having the highest probability according to a prediction value for each frame. The transcription layer may remove overlapping labels (characters) included in prediction values for each frame and match 1 to the removed prediction values. Also, the transcription layer may remove spaces included in prediction values for each frame. For example, in the case of the predicted value for each frame for "go-go-yang-ii-", "-" means blank, and the transcription layer is determined as "cat" excluding overlapping characters and blanks through the CTC technique. can That is, the transcription layer may calculate a loss based on the number of dimensions of a predicted value for each frame through the CTC technique and calculate a gradient accordingly.

도 5는 일 실시예에 따른 오타 교정 모델에 대한 도면이다. 도 5의 실시예는 본 개시의 다양한 실시예들과 결합될 수 있다.5 is a diagram of a typo correction model according to an embodiment. The embodiment of FIG. 5 can be combined with various embodiments of the present disclosure.

도 5를 참조하면, 오타 교정 모델(500)은 양방향 LSTM 모델을 포함할 수 있다.Referring to FIG. 5 , the typo correction model 500 may include a bidirectional LSTM model.

오타 교정 모델(500)은 임베딩 및 인코더부, 양방향 LSTM을 포함하는 제2 뉴럴 네트워크 및 어텐션 레이어를 포함할 수 있다. The typo correction model 500 may include an embedding and encoder unit, a second neural network including a bidirectional LSTM, and an attention layer.

양방향 LSTM을 포함하는 제2 뉴럴 네트워크에 입력되는 벡터는 복수의 텍스트가 임베딩 및 인코더부를 통과하여 출력된 벡터일 수 있다. 예를 들어, 임베딩 및 인코더부는 복수의 토큰 임베딩 레이어 및 복수의 포지션 임베딩 레이어, 인코더를 포함할 수 있다. 예를 들어, 복수의 텍스트는 복수의 동영상의 재생 화면에 표시된 텍스트들을 포함할 수 있다.A vector input to the second neural network including the bidirectional LSTM may be a vector output by passing a plurality of texts through an embedding and encoder unit. For example, the embedding and encoder unit may include a plurality of token embedding layers, a plurality of position embedding layers, and an encoder. For example, the plurality of texts may include texts displayed on a playback screen of a plurality of videos.

토큰 임베딩 레이어는 복수의 텍스트에 대해 토크나이저(tokenizer)로 전처리된 입력 텍스트를 토큰이 포함된 토큰 벡터로 변환할 수 있다. 예를 들어, 토큰 임베딩 레이어를 통해 복수의 텍스트를 토크나이저로 전처리함으로써, 하나의 문장을 복수의 형태소로 토큰화시킨 토큰 벡터를 생성할 수 있다. 여기서, 형태소는 의미를 가지는 요소로서는 더 이상 분석할 수 없는 가장 작은 말의 단위를 의미한다.The token embedding layer may convert input text preprocessed with a tokenizer for a plurality of texts into a token vector including tokens. For example, a token vector obtained by tokenizing a sentence into a plurality of morphemes may be generated by preprocessing a plurality of texts with a tokenizer through a token embedding layer. Here, the morpheme means the smallest unit of speech that cannot be further analyzed as an element having meaning.

또한, 토큰 벡터에 대해 마스크드 언어 모델(masked language model)을 사용함으로써, 인코더는 주어진 시퀀스를 통해 전체 문장을 모델에 삽입한 후 공백에 해당하는 단어를 예측하여 학습하며, 문장을 학습한 후에는 해당 문장을 일련의 토큰으로 표시하고, 토큰 배열에서 공백으로 설정할 부분은 마스크(mask)로 설정할 수 있다.In addition, by using a masked language model for the token vector, the encoder inserts the entire sentence through the given sequence into the model, then predicts and learns the word corresponding to the blank, and after learning the sentence, The corresponding sentence is displayed as a series of tokens, and the part to be blank in the token array can be set as a mask.

포지션 임베딩 레이어는 하나의 문장을 복수의 형태소로 토큰화한 토큰 벡터에 대해 각 형태소의 위치를 나타내는 포지션 임베딩 벡터를 추가할 수 있다. 여기서, 토큰 벡터는 쿼리(query)를 나타내는 Q 벡터, 키(key)를 나타내는 K 벡터, 벨류(value)를 나타내는 V 벡터로 변환될 수 있다.The position embedding layer may add a position embedding vector indicating a position of each morpheme to a token vector obtained by tokenizing one sentence into a plurality of morphemes. Here, the token vector may be converted into a Q vector representing a query, a K vector representing a key, and a V vector representing a value.

이때, 서버는 포지션 임베딩 레이어를 통해 한 쌍의 단어 관계를 결정할 수 있다. 예를 들어, 각 단어의 밀접성을 결정하기 위해 서버는 스케일드 내적 어텐션(scaled dot-product attention)을 사용할 수 있다. 서버는 한 쌍의 단어 관계를 스케일드 내적 어텐션을 기반으로 하기 수학식 2에 의해 결정될 수 있다.At this time, the server may determine a pair of word relationship through the position embedding layer. For example, to determine the closeness of each word, the server can use scaled dot-product attention. The server may determine a pair of word relationships by Equation 2 below based on scaled inner product attention.

Figure 112022124771246-pat00005
Figure 112022124771246-pat00005

상기 수학식 2에서, 상기 Q는 디코더의 이전 레이어의 히든 스테이트에 대한 벡터이고, K는 인코더의 아웃풋 스테이트에 대한 벡터, V는 인코더의 아웃풋 스테이트에 대한 벡터이고, 상기 dk는 K 벡터의 차원일 수 있다. 즉, Q는 영향을 받는 디코더의 토큰, K는 영향을 주는 인코더의 토큰, V는 그 영향에 대한 가중치가 곱해질 인코더 토큰일 수 있다.In Equation 2, Q is a vector for the hidden state of the previous layer of the decoder, K is a vector for the output state of the encoder, V is a vector for the output state of the encoder, and d k is the dimension of the K vector. can be That is, Q may be the token of the affected decoder, K may be the token of the influencing encoder, and V may be the token of the encoder to be multiplied by the weight for the influence.

즉, 서버는 Q와 K는 코사인 유사성을 이용한 내적(dot-product)을 K 벡터의 차원에 대한 제곱근으로 나누고 소프트맥스(softmax) 함수를 적용함으로써 문장 내의 단어들에 대한 한 쌍의 행렬을 결정할 수 있다.That is, the server can determine a pair of matrices for words in a sentence by dividing the dot-product of Q and K using the cosine similarity by the square root of the dimension of the K vector and applying a softmax function. there is.

제2 뉴럴 네트워크는 제2 입력 레이어, 하나 이상의 제2 히든 레이어 및 제2 출력 레이어를 포함할 수 있다. 예를 들어, 상기 하나 이상의 제2 히든 레이어는 하나 이상의 정방향 LSTM 블록 및 하나 이상의 역방향 LSTM을 포함하고, 각 LSTM 블록은 메모리 셀(memory cell), 입력 게이트(input gate), 삭제 게이트(forget gate), 출력 게이트(output gate)를 포함할 수 있다.The second neural network may include a second input layer, one or more second hidden layers, and a second output layer. For example, the one or more second hidden layers include one or more forward LSTM blocks and one or more reverse LSTM blocks, and each LSTM block includes a memory cell, an input gate, and an erase gate , may include an output gate.

서버는 문장 내의 단어들에 대한 한 쌍의 행렬을 양방향 LSTM에 입력시키고, 양방향 LSTM을 통해 출력된 벡터를 어텐션 레이어에 입력시킬 수 있다. 이때, 서버는 양방향 LSTM을 통해 숨겨진 토큰을 연결함으로써, 오타 교정 모델을 미세 조정할 수 있다.The server may input a pair of matrices of words in the sentence to the bidirectional LSTM, and input the vectors output through the bidirectional LSTM to the attention layer. At this time, the server can fine-tune the typo correction model by connecting hidden tokens through bidirectional LSTM.

어텐션 레이어는 하나의 문장 정보를 문장 끝까지 입출력 할 수 있고, 첫 단어가 멀리 있는 단어와 상관 관계를 이룰 수 있게 처리할 수 있다. 이후, 출력 레이어는 소프트맥스 함수를 통해, 복수의 제1 오류 유형 또는 복수의 제2 오류 유형 중 어느 하나를 기반으로 가장 높은 확률을 가진 단어를 출력 값으로 결정할 수 있다.The attention layer can input and output information from one sentence to the end of the sentence, and can process the first word to form a correlation with words farther away. Then, the output layer may determine a word having the highest probability based on any one of the plurality of first error types and the plurality of second error types as an output value through a softmax function.

즉, 서버는 복수의 텍스트를 기반으로 양방향 LSTM 모델을 포함하는 오타 교정 모델을 학습시키고, 오타 교정 모델을 통해 상기 복수의 데이터에 대한 오타가 교정된 데이터를 결정할 수 있다.That is, the server may learn a typo correction model including a bidirectional LSTM model based on a plurality of texts, and determine data in which errors are corrected for the plurality of data through the typo correction model.

도 6은 일 실시예에 따른 서버가 동영상 텍스트 리스트를 사용자 단말에게 전송하는 방법에 대한 흐름도이다. 도 6의 실시예는 본 개시의 다양한 실시예들과 결합될 수 있다.6 is a flowchart of a method for a server to transmit a video text list to a user terminal according to an exemplary embodiment. The embodiment of FIG. 6 can be combined with various embodiments of the present disclosure.

도 6을 참조하면, 단계 S601에서, 서버는 외부 서버로부터 동영상을 수신하고, 상기 동영상에 대한 정보를 추출할 수 있다. Referring to FIG. 6 , in step S601, the server may receive a video from an external server and extract information about the video.

단계 S602에서, 서버는 동영상의 재생 화면에 표시된 텍스트를 인식하기 위한 최소 크기를 결정할 수 있다. 예를 들어, 최소 크기는 상술한 수학식 1에 의해 결정될 수 있다.In step S602, the server may determine a minimum size for recognizing text displayed on the video playback screen. For example, the minimum size may be determined by Equation 1 described above.

단계 S603에서, 서버는 최소 크기를 기반으로 상기 동영상에 대해 제1 뉴럴 네트워크를 이용한 텍스트 인식 모델을 통해 상기 동영상의 재생 화면에 표시된 텍스트를 인식할 수 있다. In step S603, the server may recognize text displayed on the playback screen of the video through a text recognition model using a first neural network for the video based on the minimum size.

단계 S604에서, 서버는 상기 인식된 텍스트가 상기 동영상의 재생 화면 내 제1 영역에 포함된 텍스트인지 여부를 결정할 수 있다. In step S604, the server may determine whether or not the recognized text is text included in a first area in the playback screen of the video.

예를 들어, 상기 동영상의 재생 화면 내 제1 영역은 서버에 사전 설정될 수 있다. 상기 동영상의 재생 화면 내 제1 영역은 동영상의 최하단으로부터 자막을 포함하도록 특정 폭만큼 이격된 영역들을 평균한 영역일 수 있다.For example, the first area in the playback screen of the video may be preset in the server. The first area in the playback screen of the video may be an average area of areas spaced apart by a specific width from the bottom of the video to include the subtitle.

단계 S605에서, 상기 인식된 텍스트가 상기 동영상의 재생 화면 내 제1 영역에 포함된 텍스트인 경우, 서버는 상기 인식된 텍스트를 제1 텍스트로 결정할 수 있다. In step S605, when the recognized text is text included in the first area of the video playback screen, the server may determine the recognized text as the first text.

단계 S606에서, 상기 인식된 텍스트가 상기 동영상의 재생 화면 내 제1 영역에 포함되지 않은 텍스트인 경우, 서버는 상기 인식된 텍스트를 제2 텍스트로 결정할 수 있다.In step S606, when the recognized text is text that is not included in the first area of the video playback screen, the server may determine the recognized text as second text.

단계 S607에서, 서버는 제1 텍스트의 개수가 사전 설정된 임계 값 이상인지 여부를 결정할 수 있다. 예를 들어, 사전 설정된 임계 값은 동영상의 재생 시간, 서버의 데이터 처리 속도 및 서버에 접속한 사용자 단말의 개수에 기반하여 결정될 수 있다.In step S607, the server may determine whether the number of first texts is greater than or equal to a preset threshold value. For example, the predetermined threshold value may be determined based on a playback time of a video, a data processing speed of a server, and the number of user terminals accessing the server.

예를 들어, 사전 설정된 임계 값은 하기 수학식 3에 의해 결정될 수 있다.For example, the preset threshold value may be determined by Equation 3 below.

Figure 112022124771246-pat00006
Figure 112022124771246-pat00006

상기 수학식 3에서, 상기 nth는 상기 사전 설정된 임계 값이고, 상기 n은 상기 서버에 업로드된 동영상의 개수이고, 상기 ti는 i번째의 동영상의 재생 시간이고, 상기 pv는 상기 서버의 1초당 처리 가능한 트랜잭션의 개수이고, 상기 nc는 상기 서버에 접속한 사용자 단말의 개수이고, 상기 nd는 상기 사전 설정된 임계 값에 대한 디폴트 값일 수 있다.In Equation 3, n th is the preset threshold value, n is the number of videos uploaded to the server, t i is the playing time of the ith video, and p v is the server The number of transactions that can be processed per second, n c is the number of user terminals accessing the server, and n d may be a default value for the preset threshold value.

여기서, 상기 동영상의 재생 시간은 초 단위일 수 있다. 상기 pv는 TPS(transaction per second) 단위일 수 있다. floor 함수는 가장 가까운 내림 값을 반영하는 함수이다. 예를 들어, 상기 디폴트 값은 상기 서버에 사전 설정될 수 있다. Here, the playback time of the video may be in seconds. The p v may be a transaction per second (TPS) unit. The floor function is a function that reflects the nearest rounding value. For example, the default value may be preset in the server.

동영상에 표시된 텍스트의 개수가 동일하여도, 상기 동영상의 재생 시간에 따라 서버가 데이터를 처리하는 속도가 상이할 수 있다. 특히, 동영상의 재생 시간이 긴 경우, 동영상의 재생 시간이 짧은 경우보다 동영상의 용량이 상대적으로 크기 때문에, 서버가 텍스트 데이터를 처리하기 위한 시간이 상대적으로 더 소요될 수 있다. 따라서, 상기 동영상의 재생 시간이 길수록 상기 사전 설정된 임계 값을 큰 값으로 설정함으로써, 서버가 더 많은 개수의 텍스트에 대해 상대적으로 개수가 적은 복수의 제1 오류 유형을 검출하여 서버에 대한 부하를 줄일 수 있다. Even if the number of texts displayed in the video is the same, the speed at which the server processes data may vary according to the playing time of the video. In particular, when the video playback time is long, the server may take more time to process the text data because the capacity of the video is relatively larger than when the video playback time is short. Therefore, by setting the preset threshold to a larger value as the playing time of the video is longer, the server detects a plurality of first error types with a relatively small number for a larger number of texts, thereby reducing the load on the server. can

예를 들어, 상기 TPS가 높을수록 서버는 더 많은 양의 데이터를 처리할 수 있으므로, 사전 설정된 임계 값을 낮춤으로써, 서버가 더 작은 개수의 텍스트에 대해 상대적으로 개수가 많은 복수의 제2 오류 유형을 검출하여 오류 검출에 대한 품질을 높일 수 있다.For example, since the server can process a larger amount of data as the TPS is higher, by lowering the preset threshold value, the server has a relatively large number of second error types for a smaller number of texts. can be detected to improve the quality of error detection.

예를 들어, 서버에 접속한 사용자 단말의 개수가 많을수록, 서버가 처리할 데이터가 증가하므로, 상기 사전 설정된 임계 값을 큰 값으로 설정함으로써, 서버가 더 많은 개수의 텍스트에 대해 상대적으로 개수가 적은 복수의 제1 오류 유형을 검출하여 서버에 대한 부하를 줄일 수 있다.For example, as the number of user terminals accessing the server increases, the data to be processed by the server increases. Therefore, by setting the preset threshold value to a large value, the server can obtain a relatively small number of texts for a larger number of texts. A load on a server may be reduced by detecting a plurality of first error types.

이를 통해, 서버의 데이터 처리 속도에 영향을 주는 다양한 요인들을 고려하여 사전 설정된 임계 값을 조절함으로써, 서버가 동영상에 표시된 텍스트에 대한 오타를 검출하는 품질을 높일 수 있다. Through this, by adjusting the preset threshold value in consideration of various factors affecting the data processing speed of the server, the quality of the server detecting typos in the text displayed in the video can be improved.

단계 S608에서, 제1 텍스트의 개수가 사전 설정된 임계 값 이상인 경우, 서버는 복수의 제1 오류 유형에 따라 제3 텍스트 및 제4 텍스트를 결정할 수 있다. 단계 S609에서, 제1 텍스트의 개수가 사전 설정된 임계 값 미만인 경우, 서버는 복수의 제2 오류 유형에 따라 제3 텍스트 및 제4 텍스트를 결정할 수 있다. 단계 S610에서, 서버는 동영상 텍스트 리스트를 사용자 단말에게 전송할 수 있다.In step S608, when the number of first texts is greater than or equal to a preset threshold, the server may determine third text and fourth text according to a plurality of first error types. In step S609, when the number of first texts is less than a preset threshold value, the server may determine third text and fourth text according to a plurality of second error types. In step S610, the server may transmit the video text list to the user terminal.

도 7은 일 실시예에 따른 서버의 구성을 나타내는 블록도이다. 도 7의 일 실시예는 본 개시의 다양한 실시예들과 결합될 수 있다.7 is a block diagram illustrating a configuration of a server according to an exemplary embodiment. One embodiment of FIG. 7 may be combined with various embodiments of the present disclosure.

도 7에 도시된 바와 같이, 서버(700)는 프로세서(710), 통신부(720) 및 메모리(730)를 포함할 수 있다. 그러나, 도 7에 도시된 구성 요소 모두가 서버(700)의 필수 구성 요소인 것은 아니다. 도 7에 도시된 구성 요소보다 많은 구성 요소에 의해 서버(700)가 구현될 수도 있고, 도 7에 도시된 구성 요소보다 적은 구성 요소에 의해 서버(700)가 구현될 수도 있다. 예를 들어, 일부 실시예에 따른 서버(700)는 프로세서(710), 통신부(720) 및 메모리(730) 이외에 사용자 입력 인터페이스(미도시), 출력부(미도시) 등을 더 포함할 수도 있다.As shown in FIG. 7 , the server 700 may include a processor 710 , a communication unit 720 and a memory 730 . However, not all components shown in FIG. 7 are essential components of the server 700 . The server 700 may be implemented with more components than those shown in FIG. 7 , or the server 700 may be implemented with fewer components than those shown in FIG. 7 . For example, the server 700 according to some embodiments may further include a user input interface (not shown) and an output unit (not shown) in addition to the processor 710, the communication unit 720, and the memory 730. .

프로세서(710)는, 통상적으로 서버(700)의 전반적인 동작을 제어한다. 프로세서(710)는 하나 이상의 프로세서를 구비하여, 서버(700)에 포함된 다른 구성 요소들을 제어할 수 있다. 예를 들어, 프로세서(710)는, 메모리(730)에 저장된 프로그램들을 실행함으로써, 통신부(720) 및 메모리(730) 등을 전반적으로 제어할 수 있다. 또한, 프로세서(710)는 메모리(730)에 저장된 프로그램들을 실행함으로써, 도 3 내지 도 6에 기재된 서버(700)의 기능을 수행할 수 있다.The processor 710 typically controls the overall operation of the server 700. The processor 710 may include one or more processors to control other elements included in the server 700 . For example, the processor 710 may generally control the communication unit 720 and the memory 730 by executing programs stored in the memory 730 . Also, the processor 710 may perform the functions of the server 700 described in FIGS. 3 to 6 by executing programs stored in the memory 730 .

통신부(720)는, 서버(700)가 다른 장치(미도시) 및 서버(미도시)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 다른 장치(미도시)는 서버(700)와 같은 컴퓨팅 장치이거나, 센싱 장치일 수 있으나, 이에 제한되지 않는다. 통신부(720)는 네트워크를 통해, 다른 전자 장치로부터의 사용자 입력을 수신하거나, 외부 장치로부터 외부 장치에 저장된 데이터를 수신할 수 있다. The communication unit 720 may include one or more components that allow the server 700 to communicate with other devices (not shown) and servers (not shown). Another device (not shown) may be a computing device such as the server 700 or a sensing device, but is not limited thereto. The communication unit 720 may receive a user input from another electronic device or data stored in an external device from an external device through a network.

메모리(730)는, 프로세서(710)의 처리 및 제어를 위한 프로그램을 저장할 수 있다. 예를 들어, 메모리(730)는 서버에 입력된 정보 또는 네트워크를 통해 다른 장치로부터 수신된 정보를 저장할 수 있다. 또한, 메모리(730)는 프로세서(710)에서 생성된 데이터를 저장할 수 있다. 메모리(730)는 서버(700)로 입력되거나 서버(700)로부터 출력되는 정보를 저장할 수도 있다. The memory 730 may store programs for processing and controlling the processor 710 . For example, the memory 730 may store information input to a server or information received from another device through a network. Also, the memory 730 may store data generated by the processor 710 . The memory 730 may store information input to or output from the server 700 .

메모리(730)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.The memory 730 may be a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (eg SD or XD memory, etc.), RAM (RAM, Random Access Memory) SRAM (Static Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, magnetic disk , an optical disk, and at least one type of storage medium.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The embodiments described above may be implemented as hardware components, software components, and/or a combination of hardware components and software components. For example, the devices, methods and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate (FPGA). array), programmable logic units (PLUs), microprocessors, or any other device capable of executing and responding to instructions. A processing device may run an operating system (OS) and one or more software applications running on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of software. For convenience of understanding, there are cases in which one processing device is used, but those skilled in the art will understand that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it can include. For example, a processing device may include a plurality of processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. The device can be commanded. Software and/or data may be any tangible machine, component, physical device, virtual equipment, computer storage medium or device, intended to be interpreted by or provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed on networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer readable media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program commands recorded on the medium may be specially designed and configured for the embodiment or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited drawings, those skilled in the art can apply various technical modifications and variations based on the above. For example, the described techniques may be performed in an order different from the method described, and/or components of the described system, structure, device, circuit, etc. may be combined or combined in a different form than the method described, or other components may be used. Or even if it is replaced or substituted by equivalents, appropriate results can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims are within the scope of the following claims.

Claims (5)

복수의 뉴럴 네트워크(neural network)를 이용하여 서버가 동영상 텍스트 리스트를 사용자 단말에게 전송하는 방법에 있어서,
외부 서버로부터 동영상을 수신하는 단계;
상기 동영상으로부터 상기 동영상의 파일 크기 및 상기 동영상의 재생 시간, 상기 동영상의 프레임 크기 및 상기 동영상에 대한 색상 정보를 포함하는 동영상에 대한 정보를 추출하는 단계;
상기 동영상 및 상기 동영상에 대한 정보를 기반으로 제1 뉴럴 네트워크를 이용한 텍스트 인식 모델을 통해 상기 동영상의 재생 화면 내 제1 영역에 포함된 복수의 제1 텍스트 및 상기 동영상의 재생 화면 내 제2 영역에 포함된 복수의 제2 텍스트를 결정하는 단계;
상기 복수의 제1 텍스트 및 상기 복수의 제2 텍스트를 기반으로 제2 뉴럴 네트워크를 이용한 오타 교정 모델을 통해 복수의 제3 텍스트 및 복수의 제4 텍스트를 결정하는 단계;
상기 복수의 제3 텍스트는 상기 복수의 제1 텍스트에 포함된 오타가 교정된 텍스트이고,
상기 복수의 제4 텍스트는 상기 복수의 제2 텍스트에 포함된 오타가 교정된 텍스트이고,
상기 동영상의 재생 화면 내 제1 영역에 표시된 상기 복수의 제1 텍스트가 변경되는 시점을 기준으로 상기 동영상의 제1 재생 시점과 상기 동영상의 재생 화면 내 제2 영역에 표시된 상기 복수의 제2 텍스트가 변경되는 시점을 기준으로 상기 동영상의 제2 재생 시점을 구분하는 단계;
상기 동영상의 제1 재생 시점에 매칭된 상기 복수의 제3 텍스트와 상기 동영상의 제2 재생 시점에 매칭된 상기 복수의 제4 텍스트로 구성된 동영상 텍스트 리스트를 결정하는 단계; 및
상기 동영상 텍스트 리스트를 사용자 단말에게 전송하는 단계;를 포함하되,
상기 사용자 단말에 의해 상기 동영상 텍스트 리스트에 포함된 상기 복수의 제3 텍스트 또는 상기 복수의 제4 텍스트 중에서 어느 하나의 텍스트가 선택되면, 선택된 텍스트에 매칭된 상기 동영상의 재생 시점부터 상기 동영상이 재생되는,
방법.
A method for a server to transmit a video text list to a user terminal using a plurality of neural networks, the method comprising:
Receiving a video from an external server;
extracting information about the video, including file size of the video, playback time of the video, frame size of the video, and color information about the video, from the video;
A text recognition model using a first neural network based on the video and information about the video is applied to a plurality of first texts included in a first area in a playback screen of the video and a second area in a playback screen of the video through a text recognition model using a first neural network. determining a plurality of included second texts;
determining a plurality of third texts and a plurality of fourth texts based on the plurality of first texts and the plurality of second texts through a typo correction model using a second neural network;
The plurality of third texts are texts in which typos included in the plurality of first texts are corrected;
The plurality of fourth texts are texts in which typos included in the plurality of second texts are corrected;
Based on the time when the plurality of first texts displayed in the first area of the video playback screen are changed, the first playback time of the video and the plurality of second texts displayed in the second area of the video playback screen Dividing a second play point of the video based on the changed point of time;
determining a video text list composed of the plurality of third texts matched with a first reproduction time of the video and the plurality of fourth texts matched with a second reproduction time of the video; and
Transmitting the video text list to a user terminal; including,
When any one of the plurality of third texts or the plurality of fourth texts included in the video text list is selected by the user terminal, the video is played from the playback time of the video matching the selected text. ,
method.
제 1항에 있어서,
상기 제1 영역은 상기 동영상의 재생 화면에 자막이 위치하는 영역이고,
상기 제2 영역은 상기 제1 영역 이외의 영역을 포함하고,
상기 복수의 제1 텍스트 및 상기 복수의 제2 텍스트는 최소 크기보다 큰 크기를 가진 텍스트이고,
상기 최소 크기는 상기 동영상의 프레임 크기, 상기 자막의 크기 및 상기 동영상의 색상 정보를 기반으로 결정되는,
방법.
According to claim 1,
The first area is an area where subtitles are located on the video playback screen;
The second area includes an area other than the first area,
The plurality of first texts and the plurality of second texts are texts having a size greater than a minimum size;
The minimum size is determined based on the frame size of the video, the size of the subtitle, and color information of the video.
method.
제 2항에 있어서,
상기 최소 크기는 하기 수학식에 의해 결정되고,
Figure 112022124771246-pat00007

상기 수학식에서, 상기 Tmin은 상기 최초 크기이고, 상기 nc는 상기 동영상에 포함된 RGB 값들의 분포에 기반하여 결정된 값이고, 상기 nd는 상기 동영상에 포함된 RGB 값들의 분포에 대한 기본 값이고, 상기 Sf는 상기 동영상의 프레임의 크기이고, 상기 Sd는 평균적인 프레임의 크기이고, 상기 Sc는 상기 동영상의 자막의 크기이고, 상기 Tr은 상기 인식 모델이 인식할 수 있는 최소 텍스트의 크기인,
방법.
According to claim 2,
The minimum size is determined by the following equation,
Figure 112022124771246-pat00007

In the above equation, T min is the initial size, n c is a value determined based on the distribution of RGB values included in the video, and n d is a basic value for the distribution of RGB values included in the video. , wherein S f is the frame size of the video, S d is the average frame size, S c is the size of the subtitle of the video, and T r is the minimum size that the recognition model can recognize. the size of the text,
method.
제 2항에 있어서,
상기 복수의 제1 텍스트의 개수가 사전 설정된 임계 값 이상인 것에 기반하여, 상기 오타 교정 모델은 복수의 제1 오류 유형에 따라 상기 복수의 제1 텍스트 및 상기 복수의 제2 텍스트에 대해 오타를 검출하고,
상기 복수의 제1 텍스트의 개수가 사전 설정된 임계 값 미만인 것에 기반하여, 상기 오타 교정 모델은 복수의 제2 오류 유형에 따라 상기 복수의 제1 텍스트 및 상기 복수의 제2 텍스트에 대해 오타를 검출하고,
상기 복수의 제1 오류 유형은 띄어쓰기에 대한 오류, 문장부호에 대한 오류, 수사에 대한 오류와 맞춤법 및 문법에 대한 1차 오류를 포함하고,
상기 1차 오류는 글자 삭제 오류, 글자 추가 오류, 글자 대체 오류 및 글자 분리 오류를 포함하고,
상기 복수의 제2 오류 유형은 상기 복수의 제1 오류 유형과 맞춤법 및 문법에 대한 2차 오류를 포함하고,
상기 2차 오류는 타이핑 오류, 외래어 변환 오류, 의미 오류 및 신조어 오류를 포함하는,
방법.
According to claim 2,
Based on the fact that the number of the plurality of first texts is greater than or equal to a preset threshold, the typo correction model detects typos in the plurality of first texts and the plurality of second texts according to the plurality of first error types; ,
Based on that the number of the plurality of first texts is less than a preset threshold, the typo correction model detects typos in the plurality of first texts and the plurality of second texts according to the plurality of second error types; ,
The plurality of first error types include errors in spacing, errors in punctuation marks, errors in rhetoric, and primary errors in spelling and grammar,
The primary error includes a letter deletion error, a letter addition error, a letter substitution error, and a letter separation error,
The plurality of second error types include the plurality of first error types and secondary errors for spelling and grammar;
The secondary error includes a typing error, a foreign word conversion error, a semantic error, and a neologism error.
method.
제 4항에 있어서,
상기 텍스트 인식 모델은 CRNN(convolutional recurrent neural network) 모델이고,
상기 제1 뉴럴 네트워크는 제1 입력 레이어, 하나 이상의 제1 히든 레이어 및 제1 출력 레이어를 포함하고,
복수의 동영상 및 정답 복수의 텍스트로 구성된 각각의 제1 뉴럴 네트워크의 학습을 위한 데이터는 상기 제1 뉴럴 네트워크의 상기 제1 입력 레이어에 입력되고, 상기 하나 이상의 제1 히든 레이어 및 제1 출력 레이어를 통과하여 제1 출력 벡터를 출력하고, 상기 제1 출력 벡터는 상기 제1 출력 레이어에 연결된 제1 손실함수 레이어에 입력되고, 상기 제1 손실함수 레이어는 상기 제1 출력 벡터와 각각의 학습 데이터에 대한 제1 정답 벡터를 비교하는 제1 손실 함수를 이용하여 제1 손실값을 출력하고, 상기 제1 뉴럴 네트워크의 파라미터가 상기 제1 손실값이 작아지는 방향으로 학습되는, 상기 텍스트 인식 모델이 생성되고,
상기 복수의 동영상에 대해 데이터 전처리를 통해 상기 복수의 동영상 각각에 대해 복수의 정지 화면 이미지가 추출되고,
상기 복수의 정지 화면 이미지를 동일한 높이로 조정시킴으로써 생성된 입력 벡터가 상기 제1 입력 레이어에 입력되고,
상기 정답 복수의 텍스트는 상기 복수의 정지 화면 이미지에 포함된 텍스트이고,
상기 오타 교정 모델은 양방향 LSTM(long short-term memory) 모델을 포함하고,
상기 제2 뉴럴 네트워크는 제2 입력 레이어, 하나 이상의 제2 히든 레이어 및 제2 출력 레이어를 포함하고,
복수의 텍스트 및 복수의 정답 텍스트로 구성된 각각의 제2 뉴럴 네트워크의 학습을 위한 데이터는 상기 제2 뉴럴 네트워크의 상기 제2 입력 레이어에 입력되고, 상기 하나 이상의 제2 히든 레이어 및 제2 출력 레이어를 통과하여 제2 출력 벡터를 출력하고, 상기 제2 출력 벡터는 상기 제2 출력 레이어에 연결된 제2 손실함수 레이어에 입력되고, 상기 제2 손실함수 레이어는 상기 제2 출력 벡터와 각각의 학습 데이터에 대한 제2 정답 벡터를 비교하는 제2 손실 함수를 이용하여 제2 손실값을 출력하고, 상기 제2 뉴럴 네트워크의 파라미터가 상기 제2 손실값이 작아지는 방향으로 학습되는, 상기 오타 교정 모델이 생성되고,
상기 복수의 텍스트는 상기 복수의 제1 텍스트 및 상기 복수의 제2 텍스트를 포함하고,
상기 복수의 정답 텍스트는 상기 복수의 제3 텍스트 및 상기 복수의 제4 텍스트를 포함하는,
방법.
According to claim 4,
The text recognition model is a convolutional recurrent neural network (CRNN) model,
The first neural network includes a first input layer, one or more first hidden layers and a first output layer;
Data for learning each of the first neural networks composed of a plurality of videos and a plurality of correct answer texts is input to the first input layer of the first neural network, and the one or more first hidden layers and the first output layer are input. Pass through and output a first output vector, the first output vector is input to a first loss function layer connected to the first output layer, and the first loss function layer is applied to the first output vector and each training data The text recognition model generates a first loss value by using a first loss function that compares a first answer vector for , and the parameters of the first neural network are learned in a direction in which the first loss value decreases. become,
A plurality of still screen images are extracted for each of the plurality of videos through data preprocessing for the plurality of videos,
An input vector generated by adjusting the plurality of still screen images to the same height is input to the first input layer;
The plurality of correct answer texts are text included in the plurality of still screen images,
The typo correction model includes a bidirectional long short-term memory (LSTM) model,
The second neural network includes a second input layer, one or more second hidden layers, and a second output layer;
Data for learning of each second neural network composed of a plurality of texts and a plurality of correct answer texts is input to the second input layer of the second neural network, and the one or more second hidden layers and the second output layer are input. Pass through and output a second output vector, the second output vector is input to a second loss function layer connected to the second output layer, and the second loss function layer is applied to the second output vector and each training data A second loss value is output using a second loss function that compares a second answer vector for , and the parameters of the second neural network are learned in a direction in which the second loss value becomes smaller. The typo correction model is generated. become,
The plurality of texts include the plurality of first texts and the plurality of second texts,
The plurality of correct answer texts include the plurality of third texts and the plurality of fourth texts,
method.
KR1020220157461A 2022-11-22 2022-11-22 Method and apparatus for transmitting a video text list to a user terminal using a plurality of neural networks by a server KR102501575B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220157461A KR102501575B1 (en) 2022-11-22 2022-11-22 Method and apparatus for transmitting a video text list to a user terminal using a plurality of neural networks by a server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220157461A KR102501575B1 (en) 2022-11-22 2022-11-22 Method and apparatus for transmitting a video text list to a user terminal using a plurality of neural networks by a server

Publications (1)

Publication Number Publication Date
KR102501575B1 true KR102501575B1 (en) 2023-02-21

Family

ID=85327839

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220157461A KR102501575B1 (en) 2022-11-22 2022-11-22 Method and apparatus for transmitting a video text list to a user terminal using a plurality of neural networks by a server

Country Status (1)

Country Link
KR (1) KR102501575B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102644779B1 (en) * 2023-07-10 2024-03-07 주식회사 스토리컨셉스튜디오 Method for recommending product fitting concept of online shopping mall

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220000758A (en) * 2020-06-26 2022-01-04 삼성전자주식회사 Image detection apparatus and method thereof
KR102382170B1 (en) * 2021-08-27 2022-04-08 로봇앤컴주식회사 Method and apparatus for data processing
KR102469076B1 (en) * 2022-07-08 2022-11-23 비엔비컴퍼니 주식회사 Method and apparatus for determining blockchain for minting digital files using a neural network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220000758A (en) * 2020-06-26 2022-01-04 삼성전자주식회사 Image detection apparatus and method thereof
KR102382170B1 (en) * 2021-08-27 2022-04-08 로봇앤컴주식회사 Method and apparatus for data processing
KR102469076B1 (en) * 2022-07-08 2022-11-23 비엔비컴퍼니 주식회사 Method and apparatus for determining blockchain for minting digital files using a neural network

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102644779B1 (en) * 2023-07-10 2024-03-07 주식회사 스토리컨셉스튜디오 Method for recommending product fitting concept of online shopping mall

Similar Documents

Publication Publication Date Title
KR102413770B1 (en) Method and apparatus for psychotheraphy using neural network
KR102360727B1 (en) Method and apparatus for garmet suggestion using neural networks
KR102501575B1 (en) Method and apparatus for transmitting a video text list to a user terminal using a plurality of neural networks by a server
KR102576380B1 (en) Method and system for managing products marked with a date overlaapied on a rectangular micro quick response code using neural networks
KR102476292B1 (en) System for processing pedal box photographing image data of a vehicle using artificial intelligence
KR102452577B1 (en) Method and apparatus for providing visualization information about a webtoon by a server using neural network
KR102559074B1 (en) Method and apparatus for providing english education services to a learner terminal and a parent terminal using a neural network
KR102484291B1 (en) Method and apparatus for providing an applicant list to a terminal using a neural network by a sever
KR102473506B1 (en) Method and apparatus for providing watermarked data using a neural network
KR102399945B1 (en) A method of optical character recognition of electronic device for children learning
KR20220158654A (en) Method for supporting creating, server and terminal performing the method using neural networks
KR20230151425A (en) Method and apparatus for providing information related to a psychological state based on an order in which color images are selected and the color images using neural network
US20220004701A1 (en) Electronic device and method for converting sentence based on a newly coined word
US20220130396A1 (en) Electronic device for managing user model and operating method thereof
KR20220087411A (en) Method and apparatus for psychotheraphy using neural network
KR102572321B1 (en) Method and apparatus for providing a message related an event to a terminal using a neural network by a server
KR102554242B1 (en) Method and apparatus for providing a message related an event to a terminal using a neural network by a server
KR102652009B1 (en) Method and apparatus for providing a video-based an e-book applying native language acquisition principles to a user terminal using a neural network
KR102479534B1 (en) Apparatus and method for providing user-customized one-stop printing service based on neural network
KR102525978B1 (en) Method and apparatus for providing mock exam service to a test taker terminal using a neural network
KR102585090B1 (en) Method and apparatus for providing a game linked with webtoon to a user terminal using neural networks
KR102581822B1 (en) Method and apparatus for recognizing characters in educational programs
KR102539564B1 (en) Voice message transmission system for providing quality assurance service related to a voice message based on a neural network
KR102501576B1 (en) Method and apparatus for transmitting information about diagram to a user terminal using a neural network
KR102658238B1 (en) Method and apparatus for providing an english writing service applying native language acquisition principles to user terminals using neural networks

Legal Events

Date Code Title Description
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant