WO2024112145A1

WO2024112145A1 - 인공지능 모델을 이용한 스케일링을 수행하는 전자 장치 및 그 동작 방법

Info

Publication number: WO2024112145A1
Application number: PCT/KR2023/019076
Authority: WO
Inventors: 도태원; 김용태; 이훈재; 투샤가우탐; 전혜영
Original assignee: 삼성전자 주식회사
Priority date: 2022-11-24
Filing date: 2023-11-24
Publication date: 2024-05-30

Abstract

일 실시예에 따라서, 전자 장치는, 메모리, 카메라 모듈, 통신 모듈, 및 상기 메모리, 상기 카메라 모듈 및 상기 통신 모듈에 동작적으로 연결된 적어도 하나의 프로세서를 포함할 수 있다. 상기 메모리는, 상기 적어도 하나의 프로세서에 의하여 실행될 때, 상기 전자 장치로 하여금, 상기 통신 모듈에 기반하여, 네트워크와 콜(call)의 연결(connection)을 수립하도록 야기할 수 있다. 상기 메모리는, 상기 적어도 하나의 프로세서에 의하여 실행될 때, 상기 전자 장치로 하여금, 상기 카메라 모듈에 기반하여 촬영된 제 1 이미지를 확인하도록 야기할 수 있다. 상기 메모리는, 상기 적어도 하나의 프로세서에 의하여 실행될 때, 상기 전자 장치로 하여금, 상기 네트워크와 상기 전자 장치 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하도록 야기할 수 있다. 상기 메모리는, 상기 적어도 하나의 프로세서에 의하여 실행될 때, 상기 전자 장치로 하여금, 고해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 저해상도 이미지를 출력하도록 트레이닝된 다운 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하도록 야기할 수 있다. 상기 메모리는, 상기 적어도 하나의 프로세서에 의하여 실행될 때, 상기 전자 장치로 하여금, 상기 통신 모듈에 기반하여, 상기 콜의 연결을 통하여, 상기 제 2 이미지를 송신하도록 야기할 수 있다. 그 밖의 다양한 실시예가 가능하다.

Description

인공지능 모델을 이용한 스케일링을 수행하는 전자 장치 및 그 동작 방법

본 개시는 인공지능(artificial intelligence model, AI) 모델을 이용한 스케일링을 수행하는 전자 장치 및 그 동작 방법에 관한 것이다.

멀티미디어 컨텐트를 송신하는 경우, 멀티미디어 컨텐트(예를 들어, 이미지)는, 데이터 압축 표준을 따르는 코덱(codec)에 의하여 인코딩될(encoded) 수 있다. 인코딩 결과에 의하여 생성된 비트스트림은 통신 채널을 통하여 송신될 수 있다. 예를 들어, 전자 장치가 화상 콜을 위한 연결(connection)을 수립한 경우, 콜을 위한 연결을 통하여 비트스트림이 송신될 수 있다.

비트스트림의 크기를 감소시키기 위하여, 멀티미디어 컨텐트, 예를 들어 이미지가 다운 스케일링(down scaling)될 수 있다. 다운 스케일링된 이미지는 원본 이미지보다 상대적으로 작은 데이터 크기를 가질 수 있다. 다운 스케일링된 이미지가 인코딩될 수 있으며, 인코딩 결과 생성된 비트스트림은 원본 이미지에 대응하는 비트스트림보다 상대적으로 작은 데이터 크기를 가질 수 있다. 수신 측의 전자 장치는, 비트스트림을 수신한 후 코덱을 이용하여 디코딩(decoding)을 수행할 수 있다. 수신 측의 전자 장치는, 디코딩 결과에 대하여 업 스케일링(up scaling)을 수행할 수 있다. 업 스케일링에 따라, 디코딩 결과 생성된 이미지보다 고해상도의 이미지가 생성 및/또는 제공될 수 있다. 다운 스케일링 및/또는 업 스케일링 시, 다운 스케일링 및/또는 업 스케일링을 위한 AI 모델이 이용될 수 있다.

일 실시예에 따라서, 전자 장치는, 메모리, 카메라 모듈, 통신 모듈, 및 상기 메모리, 상기 카메라 모듈 및 상기 통신 모듈에 동작적으로 연결된 적어도 하나의 프로세서를 포함할 수 있다. 상기 메모리는, 상기 적어도 하나의 프로세서에 의하여 실행될 때, 상기 전자 장치로 하여금, 상기 통신 모듈에 기반하여, 네트워크와 콜(call)의 연결(connection)을 수립하도록 야기할 수 있다. 상기 메모리는, 상기 적어도 하나의 프로세서에 의하여 실행될 때, 상기 전자 장치로 하여금, 상기 카메라 모듈에 기반하여 촬영된 제 1 이미지를 확인하도록 야기할 수 있다. 상기 메모리는, 상기 적어도 하나의 프로세서에 의하여 실행될 때, 상기 전자 장치로 하여금, 상기 네트워크와 상기 전자 장치 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하도록 야기할 수 있다. 상기 메모리는, 상기 적어도 하나의 프로세서에 의하여 실행될 때, 상기 전자 장치로 하여금, 고해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 저해상도 이미지를 출력하도록 트레이닝된 다운 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하도록 야기할 수 있다. 상기 메모리는, 상기 적어도 하나의 프로세서에 의하여 실행될 때, 상기 전자 장치로 하여금, 상기 통신 모듈에 기반하여, 상기 콜의 연결을 통하여, 상기 제 2 이미지를 송신하도록 야기할 수 있다.

일 실시예에 따라서, 전자 장치의 동작 방법은, 상기 전자 장치의 통신 모듈에 기반하여 네트워크와 콜 연결을 수립하는 하는 동작을 포함할 수 있다. 상기 전자 장치의 동작 방법은, 상기 전자 장치의 카메라 모듈에 기반하여 촬영된 제 1 이미지를 확인하는 동작을 포함할 수 있다. 상기 전자 장치의 동작 방법은, 상기 네트워크와 상기 전자 장치 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하는 동작을 포함할 수 있다. 상기 전자 장치의 동작 방법은, 고해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 저해상도 이미지를 출력하도록 트레이닝된 다운 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하는 동작을 포함할 수 있다. 상기 전자 장치의 동작 방법은, 상기 전자 장치의 통신 모듈에 기반하여, 상기 콜의 연결을 통하여, 상기 제 2 이미지를 송신하는 동작을 포함할 수 있다.

일 실시예에 따라서, 컴퓨터로 독출 가능한 적어도 하나의 인스트럭션을 저장하는 저장 매체에 있어서, 상기 적어도 하나의 인스트럭션은 전자 장치의 적어도 하나의 프로세서에 의하여 실행 시에, 상기 전자 장치로 하여금 적어도 하나의 동작을 수행하도록 야기할 수 있다. 상기 적어도 하나의 동작은, 통신 모듈에 기반하여 네트워크와 콜 연결을 수립하는 하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 전자 장치의 카메라 모듈에 기반하여 촬영된 제 1 이미지를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 네트워크와 상기 전자 장치 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 고해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 저해상도 이미지를 출력하도록 트레이닝된 다운 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 전자 장치의 통신 모듈에 기반하여, 상기 콜의 연결을 통하여, 상기 제 2 이미지를 송신하는 동작을 포함할 수 있다

일 실시예에 따라서, 전자 장치는, 메모리, 디스플레이 모듈, 통신 모듈, 및 상기 메모리, 상기 디스플레이 모듈 및 상기 통신 모듈에 동작적으로 연결된 적어도 하나의 프로세서를 포함할 수 있다. 상기 메모리는, 상기 적어도 하나의 프로세서에 의하여 실행될 때, 상기 전자 장치로 하여금, 상기 통신 모듈에 기반하여, 네트워크와 콜(call)의 연결(connection)을 수립하도록 야기할 수 있다. 상기 메모리는, 상기 적어도 하나의 프로세서에 의하여 실행될 때, 상기 전자 장치로 하여금, 상기 통신 모듈에 기반하여, 상기 콜의 연결을 통하여, 제 1 이미지를 수신하도록 야기할 수 있다. 상기 메모리는, 상기 적어도 하나의 프로세서에 의하여 실행될 때, 상기 전자 장치로 하여금, 상기 네트워크와 상기 전자 장치 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하도록 야기할 수 있다. 상기 메모리는, 상기 적어도 하나의 프로세서에 의하여 실행될 때, 상기 전자 장치로 하여금, 저해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 고해상도 이미지를 출력하도록 트레이닝된 업 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하도록 야기할 수 있다. 상기 메모리는, 상기 적어도 하나의 프로세서에 의하여 실행될 때, 상기 전자 장치로 하여금, 상기 제 2 이미지의 적어도 일부를 표시하도록 상기 디스플레이 모듈을 제어하도록 야기할 수 있다.

일 실시예에 따라서, 전자 장치의 동작 방법은, 상기 통신 모듈에 기반하여, 네트워크와 콜(call)의 연결(connection)을 수립하는 동작을 포함할 수 있다. 전자 장치의 동작 방법은, 상기 전자 장치의 통신 모듈에 기반하여, 상기 콜의 연결을 통하여, 제 1 이미지를 수신하는 동작을 포함할 수 있다. 전자 장치의 동작 방법은, 상기 네트워크와 상기 전자 장치 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하는 동작을 포함할 수 있다. 전자 장치의 동작 방법은, 저해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 고해상도 이미지를 출력하도록 트레이닝된 업 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하는 동작을 포함할 수 있다. 전자 장치의 동작 방법은, 상기 제 2 이미지의 적어도 일부를 표시하도록 상기 전자 장치의 디스플레이 모듈을 제어하는 동작을 포함할 수 있다.

일 실시예에 따라서, 컴퓨터로 독출 가능한 적어도 하나의 인스트럭션을 저장하는 저장 매체에 있어서, 상기 적어도 하나의 인스트럭션은 전자 장치의 적어도 하나의 프로세서에 의하여 실행 시에, 상기 전자 장치로 하여금 적어도 하나의 동작을 수행하도록 야기할 수 있다. 상기 적어도 하나의 동작은, 상기 전자 장치의 통신 모듈에 기반하여, 상기 콜의 연결을 통하여, 제 1 이미지를 수신하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 네트워크와 상기 전자 장치 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 저해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 고해상도 이미지를 출력하도록 트레이닝된 업 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 제 2 이미지의 적어도 일부를 표시하도록 상기 전자 장치의 디스플레이 모듈을 제어하는 동작을 포함할 수 있다.

일 실시예에 따라서, 다운 스케일링을 위한 제 1 AI 모델 및 업 스케일링을 위한 제 2 AI 모델을 트레이닝하기 위한 전자 장치는, 메모리 및 적어도 하나의 프로세서를 포함한다. 메모리는 상기 적어도 하나의 프로세서에 의하여 실행될 때 상기 전자 장치로 하여금, 고해상도 이미지인 제 1 이미지, 및 비트레이트와 연관된 제 1 정보를 포함하는 트레이닝 데이터를 확인하도록 야기할 수 있다. 상기 메모리는 상기 적어도 하나의 프로세서에 의하여 실행될 때 상기 전자 장치로 하여금, 상기 제 1 이미지 및 상기 제 1 정보를 상기 제 1 AI 모델로 입력함에 기반하여, 상기 제 1 AI 모델로부터 출력되는 저해상도 이미지인 제 2 이미지를 확인하도록 야기할 수 있다. 상기 메모리는 상기 적어도 하나의 프로세서에 의하여 실행될 때 상기 전자 장치로 하여금, 상기 제 2 이미지 및 상기 제 1 정보를 상기 제 2 AI 모델로 입력함에 기반하여, 상기 제 2 AI 모델로부터 출력되는 고해상도 이미지인 제 3 이미지를 확인하도록 야기할 수 있다. 상기 메모리는 상기 적어도 하나의 프로세서에 의하여 실행될 때 상기 전자 장치로 하여금, 상기 제 1 이미지를 다운 스케일링하여 제 4 이미지를 확인하도록 야기할 수 있다. 상기 메모리는 상기 적어도 하나의 프로세서에 의하여 실행될 때 상기 전자 장치로 하여금, 상기 제 1 이미지 및 상기 제 3 이미지에 대응하는 제 1 손실 및 상기 제 2 이미지 및 상기 제 4 이미지에 대응하는 제 2 손실에 기반하여 전체 손실을 확인하도록 야기할 수 있다. 상기 메모리는 상기 적어도 하나의 프로세서에 의하여 실행될 때 상기 전자 장치로 하여금, 상기 전체 손실에 기반하여, 상기 제 1 AI 모델 및 상기 제 2 AI 모델의 적어도 일부를 트레이닝하도록 야기할 수 있다.

일 실시예에 따라서, 다운 스케일링을 위한 제 1 AI 모델 및 업 스케일링을 위한 제 2 AI 모델의 트레이닝 방법은, 고해상도 이미지인 제 1 이미지, 및 비트레이트와 연관된 제 1 정보를 포함하는 트레이닝 데이터를 확인하는 동작을 포함할 수 있다. 상기 트레이닝 방법은, 상기 제 1 이미지 및 상기 제 1 정보를 상기 제 1 AI 모델로 입력함에 기반하여, 상기 제 1 AI 모델로부터 출력되는 저해상도 이미지인 제 2 이미지를 확인하는 동작을 포함할 수 있다. 상기 트레이닝 방법은, 상기 제 2 이미지 및 상기 제 1 정보를 상기 제 2 AI 모델로 입력함에 기반하여, 상기 제 2 AI 모델로부터 출력되는 고해상도 이미지인 제 3 이미지를 확인하는 동작을 포함할 수 있다. 상기 트레이닝 방법은, 상기 제 1 이미지를 다운 스케일링하여 제 4 이미지를 확인하는 동작을 포함할 수 있다. 상기 트레이닝 방법은, 상기 제 1 이미지 및 상기 제 3 이미지에 대응하는 제 1 손실 및 상기 제 2 이미지 및 상기 제 4 이미지에 대응하는 제 2 손실에 기반하여 전체 손실을 확인하는 동작을 포함할 수 있다. 상기 트레이닝 방법은, 상기 전체 손실에 기반하여, 상기 제 1 AI 모델 및 상기 제 2 AI 모델의 적어도 일부를 트레이닝하는 동작을 포함할 수 있다.

일 실시예에 따라서, 컴퓨터로 독출 가능한 적어도 하나의 인스트럭션을 저장하는 저장 매체에 있어서, 상기 적어도 하나의 인스트럭션은 전자 장치의 적어도 하나의 프로세서에 의하여 실행 시에, 상기 전자 장치로 하여금 적어도 하나의 동작을 수행하도록 야기할 수 있다. 상기 적어도 하나의 동작은, 고해상도 이미지인 제 1 이미지, 및 비트레이트와 연관된 제 1 정보를 포함하는 트레이닝 데이터를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 제 1 이미지 및 상기 제 1 정보를 다운 스케일링을 위한 제 1 AI 모델로 입력함에 기반하여, 상기 제 1 AI 모델로부터 출력되는 저해상도 이미지인 제 2 이미지를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 제 2 이미지 및 상기 제 1 정보를 업 스케일링을 위한 제 2 AI 모델로 입력함에 기반하여, 상기 제 2 AI 모델로부터 출력되는 고해상도 이미지인 제 3 이미지를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 제 1 이미지를 다운 스케일링하여 제 4 이미지를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 제 1 이미지 및 상기 제 3 이미지에 대응하는 제 1 손실 및 상기 제 2 이미지 및 상기 제 4 이미지에 대응하는 제 2 손실에 기반하여 전체 손실을 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 전체 손실에 기반하여, 상기 제 1 AI 모델 및 상기 제 2 AI 모델의 적어도 일부를 트레이닝하는 동작을 포함할 수 있다.

도 1은, 일 실시예들에 따른, 네트워크 환경 내의 전자 장치의 블록도이다.

도 2는 일 실시예에 따른 전자 장치의 동작을 설명하기 위한 도면이다.

도 3a는, 일 실시예에 따른 비교예를 설명하기 위한 도면이다.

도 3b는, 일 실시예에 따른 비교예를 설명하기 위한 도면이다.

도 4는 일 실시예에 따른 전자 장치의 동작을 설명하기 위한 흐름도를 도시한다.

도 5는 일 실시예에 따른 송신 측 전자 장치 및 수신 측 전자 장치를 설명하기 위한 도면이다.

도 6은 일 실시예에 따른 전자 장치의 동작을 설명하기 위한 흐름도를 도시한다.

도 7은 비교예 및 실시예에 따른 VMAF 스코어를 도시한다.

도 8a는 본 개시의 실시예에 따른 다운 스케일링을 위한 AI 모델을 설명하기 위한 도면이다.

도 8b는 본 개시의 실시예에 따른 업 스케일링을 위한 AI 모델을 설명하기 위한 도면이다.

도 8c는 일 실시예와의 비교에 따른 다운 스케일링을 위한 AI 모델 및 업 스케일링을 위한 AI 모델의 트레이닝을 설명하기 위한 흐름도이다.

도 8d는, 일 실시예에 따른 다운 스케일링을 위한 AI 모델 및 업 스케일링을 위한 AI 모델의 트레이닝을 설명하기 위한 도면이다.

도 8e는 일 실시예에 따른 다운 스케일링을 위한 AI 모델 및 업 스케일링을 위한 AI 모델의 트레이닝을 설명하기 위한 흐름도이다.

도 8f는, 일 실시예에 따른 업 스케일링을 위한 AI 모델의 트레이닝을 설명하기 위한 도면이다.

도 9a는 본 개시의 실시예에 따른 다운 스케일링을 위한 AI 모델을 설명하기 위한 도면이다.

도 9b는 본 개시의 실시예에 따른 업 스케일링을 위한 AI 모델을 설명하기 위한 도면이다.

도 9c는 일 실시예에 따른 다운 스케일링을 위한 AI 모델 및 업 스케일링을 위한 AI 모델의 트레이닝을 설명하기 위한 흐름도이다.

도 9d는, 일 실시예에 따른 다운 스케일링을 위한 AI 모델 및 업 스케일링을 위한 AI 모델의 트레이닝을 설명하기 위한 도면이다.

도 9e는 일 실시예에 따른 다운 스케일링을 위한 AI 모델 및 업 스케일링을 위한 AI 모델의 트레이닝을 설명하기 위한 흐름도이다.

도 9f는, 일 실시예에 따른 업 스케일링을 위한 AI 모델의 트레이닝을 설명하기 위한 도면이다.

도 10은 일 실시예에 따른 이미지 인핸싱을 설명하기 위한 도면이다.

도 11a는, 일 실시예에 따른 전자 장치의 동작 방법을 설명하기 위한 흐름도를 도시한다.

도 11b는, 일 실시예에 따른 통신 환경을 설명하기 위한 도면이다.

도 12a는, 일 실시예에 따른 전자 장치에 의한 이미지 송신을 설명하기 위한 도면이다.

도 12b는, 일 실시예에 따른 전자 장치에 의한 이미지 수신을 설명하기 위한 도면이다.

도 13a는, 일 실시예에 따른 전자 장치에 의한 이미지 송신을 설명하기 위한 도면이다.

도 13b는, 일 실시예에 따른 전자 장치에 의한 이미지 수신을 설명하기 위한 도면이다.

도 1을 참조하면, 네트워크 환경(100)에서 전자 장치(101)는 제 1 네트워크(198)(예: 근거리 무선 통신 네트워크)를 통하여 외부 전자 장치(102)와 통신하거나, 또는 제 2 네트워크(199)(예: 원거리 무선 통신 네트워크)를 통하여 외부 전자 장치(104) 또는 서버(108)와 통신할 수 있다. 일실시예에 따르면, 전자 장치(101)는 서버(108)를 통하여 외부 전자 장치(104)와 통신할 수 있다. 일실시예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 모듈(150), 음향 출력 모듈(155), 디스플레이 모듈(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 연결 단자(178), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 또는 안테나 모듈(197)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)에는, 이 구성요소들 중 적어도 하나(예: 연결 단자(178))가 생략되거나, 하나 이상의 다른 구성요소가 추가될 수 있다. 어떤 실시예에서는, 이 구성요소들 중 일부들(예: 센서 모듈(176), 카메라 모듈(180), 또는 안테나 모듈(197))은 하나의 구성요소(예: 디스플레이 모듈(160))로 통합될 수 있다.

프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 실행하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 저장하고, 휘발성 메모리(132)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일실시예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치 또는 어플리케이션 프로세서) 또는 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(123)(예: 그래픽 처리 장치, 신경망 처리 장치(NPU: neural processing unit), 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 예를 들어, 전자 장치(101)가 메인 프로세서(121) 및 보조 프로세서(123)를 포함하는 경우, 보조 프로세서(123)는 메인 프로세서(121)보다 저전력을 사용하거나, 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서(123)는 메인 프로세서(121)와 별개로, 또는 그 일부로서 구현될 수 있다.

보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 어플리케이션 실행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 디스플레이 모듈(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일실시예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부로서 구현될 수 있다. 일실시예에 따르면, 보조 프로세서(123)(예: 신경망 처리 장치)는 AI 모델의 처리에 특화된 하드웨어 구조를 포함할 수 있다. AI 모델은 기계 학습을 통해 생성될 수 있다. 이러한 학습은, 예를 들어, 인공지능이 수행되는 전자 장치(101) 자체에서 수행될 수 있고, 별도의 서버(예: 서버(108))를 통해 수행될 수도 있다. 학습 알고리즘은, 예를 들어, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)을 포함할 수 있으나, 전술한 예에 한정되지 않는다. AI 모델은, 복수의 인공 신경망 레이어들을 포함할 수 있다. 인공 신경망은 심층 신경망(DNN: deep neural network), CNN(convolutional neural network), RNN(recurrent neural network), RBM(restricted boltzmann machine), DBN(deep belief network), BRDNN(bidirectional recurrent deep neural network), 심층 Q-네트워크(deep Q-networks) 또는 상기 중 둘 이상의 조합 중 하나일 수 있으나, 전술한 예에 한정되지 않는다. AI 모델은 하드웨어 구조 이외에, 추가적으로 또는 대체적으로, 소프트웨어 구조를 포함할 수 있다.

메모리(130)는, 전자 장치(101)의 적어도 하나의 구성요소(예: 프로세서(120) 또는 센서 모듈(176))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램(140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(130)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.

프로그램(140)은 메모리(130)에 소프트웨어로서 저장될 수 있으며, 예를 들면, 운영 체제(142), 미들 웨어(144) 또는 어플리케이션(146)을 포함할 수 있다.

입력 모듈(150)은, 전자 장치(101)의 구성요소(예: 프로세서(120))에 사용될 명령 또는 데이터를 전자 장치(101)의 외부(예: 사용자)로부터 수신할 수 있다. 입력 모듈(150)은, 예를 들면, 마이크, 마우스, 키보드, 키(예: 버튼), 또는 디지털 펜(예: 스타일러스 펜)을 포함할 수 있다.

음향 출력 모듈(155)은 음향 신호를 전자 장치(101)의 외부로 출력할 수 있다. 음향 출력 모듈(155)은, 예를 들면, 스피커 또는 리시버를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용될 수 있다. 리시버는 착신 전화를 수신하기 위해 사용될 수 있다. 일실시예에 따르면, 리시버는 스피커와 별개로, 또는 그 일부로서 구현될 수 있다.

디스플레이 모듈(160)은 전자 장치(101)의 외부(예: 사용자)로 정보를 시각적으로 제공할 수 있다. 디스플레이 모듈(160)은, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일실시예에 따르면, 디스플레이 모듈(160)은 터치를 감지하도록 설정된 터치 센서, 또는 상기 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 압력 센서를 포함할 수 있다.

오디오 모듈(170)은 소리를 전기 신호로 변환시키거나, 반대로 전기 신호를 소리로 변환시킬 수 있다. 일실시예에 따르면, 오디오 모듈(170)은, 입력 모듈(150)을 통해 소리를 획득하거나, 음향 출력 모듈(155), 또는 전자 장치(101)와 직접 또는 무선으로 연결된 외부 전자 장치(예: 외부 전자 장치(102))(예: 스피커 또는 헤드폰)를 통해 소리를 출력할 수 있다.

센서 모듈(176)은 전자 장치(101)의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태(예: 사용자 상태)를 감지하고, 감지된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 일실시예에 따르면, 센서 모듈(176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.

인터페이스(177)는 전자 장치(101)가 외부 전자 장치(예: 외부 전자 장치(102))와 직접 또는 무선으로 연결되기 위해 사용될 수 있는 하나 이상의 지정된 프로토콜들을 지원할 수 있다. 일실시예에 따르면, 인터페이스(177)는, 예를 들면, HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.

연결 단자(178)는, 그를 통해서 전자 장치(101)가 외부 전자 장치(예: 외부 전자 장치(102))와 물리적으로 연결될 수 있는 커넥터를 포함할 수 있다. 일실시예에 따르면, 연결 단자(178)는, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.

햅틱 모듈(179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 일실시예에 따르면, 햅틱 모듈(179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.

카메라 모듈(180)은 정지 영상 및 동영상을 촬영할 수 있다. 일실시예에 따르면, 카메라 모듈(180)은 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다.

전력 관리 모듈(188)은 전자 장치(101)에 공급되는 전력을 관리할 수 있다. 일실시예에 따르면, 전력 관리 모듈(188)은, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구현될 수 있다.

배터리(189)는 전자 장치(101)의 적어도 하나의 구성요소에 전력을 공급할 수 있다. 일실시예에 따르면, 배터리(189)는, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.

통신 모듈(190)은 전자 장치(101)와 외부 전자 장치(예: 외부 전자 장치(102), 외부 전자 장치(104), 또는 서버(108)) 간의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(190)은 프로세서(120)(예: 어플리케이션 프로세서)와 독립적으로 운영되고, 직접(예: 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일실시예에 따르면, 통신 모듈(190)은 무선 통신 모듈(192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈은 제 1 네트워크(198)(예: 블루투스, wifi(wireless fidelity) direct 또는 IrDA(infrared data association)와 같은 근거리 통신 네트워크) 또는 제 2 네트워크(199)(예: 레거시 셀룰러 네트워크, 5G 네트워크, 차세대 통신 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부의 전자 장치(104)와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성요소(예: 단일 칩)로 통합되거나, 또는 서로 별도의 복수의 구성요소들(예: 복수 칩들)로 구현될 수 있다. 무선 통신 모듈(192)은 가입자 식별 모듈(196)에 저장된 가입자 정보(예: 국제 모바일 가입자 식별자(IMSI))를 이용하여 제 1 네트워크(198) 또는 제 2 네트워크(199)와 같은 통신 네트워크 내에서 전자 장치(101)를 확인 또는 인증할 수 있다.

무선 통신 모듈(192)은 4G 네트워크 이후의 5G 네트워크 및 차세대 통신 기술, 예를 들어, NR 접속 기술(new radio access technology)을 지원할 수 있다. NR 접속 기술은 고용량 데이터의 고속 전송(eMBB(enhanced mobile broadband)), 단말 전력 최소화와 다수 단말의 접속(mMTC(massive machine type communications)), 또는 고신뢰도와 저지연(URLLC(ultra-reliable and low-latency communications))을 지원할 수 있다. 무선 통신 모듈(192)은, 예를 들어, 높은 데이터 전송률 달성을 위해, 고주파 대역(예: mmWave 대역)을 지원할 수 있다. 무선 통신 모듈(192)은 고주파 대역에서의 성능 확보를 위한 다양한 기술들, 예를 들어, 빔포밍(beamforming), 거대 배열 다중 입출력(massive MIMO(multiple-input and multiple-output)), 전차원 다중입출력(FD-MIMO: full dimensional MIMO), 어레이 안테나(array antenna), 아날로그 빔형성(analog beam-forming), 또는 대규모 안테나(large scale antenna)와 같은 기술들을 지원할 수 있다. 무선 통신 모듈(192)은 전자 장치(101), 외부 전자 장치(예: 전자 장치(104)) 또는 네트워크 시스템(예: 제 2 네트워크(199))에 규정되는 다양한 요구사항을 지원할 수 있다. 일실시예에 따르면, 무선 통신 모듈(192)은 eMBB 실현을 위한 Peak data rate(예: 20Gbps 이상), mMTC 실현을 위한 손실 Coverage(예: 164dB 이하), 또는 URLLC 실현을 위한 U-plane latency(예: 다운링크(DL) 및 업링크(UL) 각각 0.5ms 이하, 또는 라운드 트립 1ms 이하)를 지원할 수 있다.

안테나 모듈(197)은 신호 또는 전력을 외부(예: 외부의 전자 장치)로 송신하거나 외부로부터 수신할 수 있다. 일실시예에 따르면, 안테나 모듈(197)은 서브스트레이트(예: PCB) 위에 형성된 도전체 또는 도전성 패턴으로 이루어진 방사체를 포함하는 안테나를 포함할 수 있다. 일실시예에 따르면, 안테나 모듈(197)은 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다. 이런 경우, 제 1 네트워크(198) 또는 제 2 네트워크(199)와 같은 통신 네트워크에서 사용되는 통신 방식에 적합한 적어도 하나의 안테나가, 예를 들면, 통신 모듈(190)에 의하여 상기 복수의 안테나들로부터 선택될 수 있다. 신호 또는 전력은 상기 선택된 적어도 하나의 안테나를 통하여 통신 모듈(190)과 외부의 전자 장치 간에 송신되거나 수신될 수 있다. 어떤 실시예에 따르면, 방사체 이외에 다른 부품(예: RFIC(radio frequency integrated circuit))이 추가로 안테나 모듈(197)의 일부로 형성될 수 있다.

일 실시예에 따르면, 안테나 모듈(197)은 mmWave 안테나 모듈을 형성할 수 있다. 일실시예에 따르면, mmWave 안테나 모듈은 인쇄 회로 기판, 상기 인쇄 회로 기판의 제 1 면(예: 아래 면)에 또는 그에 인접하여 배치되고 지정된 고주파 대역(예: mmWave 대역)을 지원할 수 있는 RFIC, 및 상기 인쇄 회로 기판의 제 2 면(예: 윗 면 또는 측 면)에 또는 그에 인접하여 배치되고 상기 지정된 고주파 대역의 신호를 송신 또는 수신할 수 있는 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다.

상기 구성요소들 중 적어도 일부는 주변 기기들간 통신 방식(예: 버스, GPIO(general purpose input and output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))을 통해 서로 연결되고 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.

일실시예에 따르면, 명령 또는 데이터는 제 2 네트워크(199)에 연결된 서버(108)를 통해서 전자 장치(101)와 외부의 전자 장치(104)간에 송신 또는 수신될 수 있다. 외부의 전자 장치(102, 또는 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 일실시예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 외부의 전자 장치들(102, 104, 또는 108) 중 하나 이상의 외부의 전자 장치들에서 실행될 수 있다. 예를 들면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로, 또는 사용자 또는 다른 장치로부터의 요청에 반응하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 하나 이상의 외부의 전자 장치들에게 그 기능 또는 그 서비스의 적어도 일부를 수행하라고 요청할 수 있다. 상기 요청을 수신한 하나 이상의 외부의 전자 장치들은 요청된 기능 또는 서비스의 적어도 일부, 또는 상기 요청과 관련된 추가 기능 또는 서비스를 실행하고, 그 실행의 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 상기 결과를, 그대로 또는 추가적으로 처리하여, 상기 요청에 대한 응답의 적어도 일부로서 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 모바일 에지 컴퓨팅(MEC: mobile edge computing), 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다. 전자 장치(101)는, 예를 들어, 분산 컴퓨팅 또는 모바일 에지 컴퓨팅을 이용하여 초저지연 서비스를 제공할 수 있다. 다른 실시예에 있어서, 외부의 전자 장치(104)는 IoT(internet of things) 기기를 포함할 수 있다. 서버(108)는 기계 학습 및/또는 신경망을 이용한 지능형 서버일 수 있다. 일실시예에 따르면, 외부의 전자 장치(104) 또는 서버(108)는 제 2 네트워크(199) 내에 포함될 수 있다. 전자 장치(101)는 5G 통신 기술 및 IoT 관련 기술을 기반으로 지능형 서비스(예: 스마트 홈, 스마트 시티, 스마트 카, 또는 헬스 케어)에 적용될 수 있다.

도 2를 참조하면, 일 실시예에 따라서, 전자 장치(101)(예를 들어, 프로세서(120))는, 통신 모듈(190)에 기반하여 화상 콜을 위한 연결(250)(또는, 세션 또는 채널이라 명명될 수도 있음)을 수립할 수 있다. 예를 들어, 전자 장치(101)는, 네트워크(200)를 통하여, IMS(IP(internet protocol) multimedia subsystem) 표준에 따른 콜을 위한 연결(250)을 수립하기 위한 적어도 하나의 절차를 수행할 수 있으나 제한은 없다. 전자 장치(101)는, MO(mobile origination) 장치일 수 있거나, 또는 MT(mobile termination) 장치일 수 있으며, 제한이 없다.

일 실시예에 따라서, 전자 장치(101)는, 카메라 모듈(180)에 기반하여 촬영된 이미지(212)를 확인할 수 있다. 예를 들어, 전자 장치(101)는, 촬영된 이미지(또는, 다운 스케일링된 이미지)(212)를 표시하도록 디스플레이 모듈(160)을 제어할 수도 있으나 제한은 없다. 후술할 것으로, 전자 장치(101)는 촬영된 이미지(212)를 다운 스케일링할 수 있으며, 다운 스케일링된 이미지를 인코딩하여 비트스트림을 생성할 수 있다. 전자 장치(101)는, 생성된 비트스트림을, 연결(250)을 통하여 외부 전자 장치(220)로 송신할 수 있다. 외부 전자 장치(220)는, 비트스트림을 수신할 수 있다. 후술할 것으로, 외부 전자 장치(220)는, 수신된 비트스트림을 디코딩할 수 있으며, 디코딩된 이미지를 업 스케일링할 수 있다. 외부 전자 장치(220)는, 업 스케일링된 이미지(223)를 표시하도록 디스플레이 모듈(221)을 제어할 수 있다. 한편, 외부 전자 장치(220)도, 카메라 모듈(미도시)에 의하여 촬영된 이미지(224)를 표시하도록 디스플레이 모듈(221)을 제어할 수 있다. 외부 전자 장치(220)는, 촬영된 이미지(224)를 다운 스케일링 이미지를 인코딩하여 비트스트림을 생성할 수 있다. 외부 전자 장치(220)는, 생성된 비트스트림을, 연결(250)을 통하여, 전자 장치(101)로 송신할 수 있다. 전자 장치(101)는, 수신된 비트스트림을 디코딩할 수 있다. 전자 장치(101)는, 디코딩 이미지에 대하여 업 스케일링을 수행하고, 업 스케일링 결과에 기반하여 이미지(211)를 표시하도록 디스플레이 모듈(160)을 제어할 수 있다. 이에 따라, 디스플레이 모듈(160)은, 전자 장치(101)의 카메라 모듈(180)에 의하여 촬영된 이미지(212) 및 외부 전자 장치(220)로부터 송신된 이미지(211)를 표시할 수 있다. 외부 전자 장치(220)는, 촬영된 이미지(224) 및 전자 장치(101)로부터 송신된 이미지(223)를 표시할 수 있다.

일 실시예에 따라서, 전자 장치(101)는, 다운 스케일링을 위한 AI 모델을 이용하여, 촬영된 이미지를 다운 스케일링할 수 있다. 예를 들어, AI 모델은, 고해상도 이미지 및 비트레이트와 연관된 정보를 입력값으로서 수신하여, 저해상도 이미지(또는, 다운 스케일링된 이미지라 명명될 수 있음)를 출력하도록 트레이닝될 수 있다. 일 실시예에 따라서, 전자 장치(101)는, 업 스케일링을 위한 AI 모델을 이용하여, 수신되어 디코딩된 이미지를 업 스케일링할 수 있다. 예를 들어, AI 모델은, 저해상도 이미지 및 비트레이트와 연관된 정보를 입력값으로서 수신하여, 고해상도 이미지(또는, 업 스케일링된 이미지라 명명될 수 있음)를 출력하도록 트레이닝될 수 있다. 다운 스케일링을 위한 AI 모델 및/또는 업 스케일링을 위한 AI 모델의 구조 및/또는 트레이닝에 대하여서는 후술하도록 한다.

도 3a를 참조하면, 도 3a에 기반한 비교예 및/또는 본 개시의 다른 비교예에 의한 동작들 중 적어도 일부는, 본 개시의 실시예에 따른 전자 장치(101)에 의하여 수행될 수 있다.

비교 예에 따라서, 전자 장치(101)는, 카메라 모듈(180)에 의하여 촬영된 고해상도 이미지(301)를 확인할 수 있다. 고해상도 이미지(301)는, 예를 들어 VGA(video graphic array)급의 해상도 또는 HD(high definition)급의 해상도를 가질 수 있으나, 이는 예시적인 것으로 고해상도 이미지(301)의 해상도에는 제한이 없다. 전자 장치(101)에 의하여 동작하는 필터(310)는, 고해상도 이미지(301)를 다운 스케일링하여 저해상도 이미지(302)를 출력할 수 있다. 필터(310)는, 예를 들어 normal 필터로서, Bicubic 방식 또는 lanczos 방식에 기반하여 다운 스케일링을 수행할 수 있으나, 다운 스케일링의 방식에는 제한이 없다. 저해상도 이미지(302)는, 예를 들어 QVGA(quarter VGA)급의 해상도 또는 nHD 급의 해상도를 가질 수 있으나, 이는 예시적인 것으로 저해상도 이미지(302)의 해상도에는 제한이 없다.

전자 장치(101)에 의하여 동작하는 인코더(311)는, 저해상도 이미지(302)를 인코딩하여 비트스트림을 생성할 수 있다. 인코더(311)는, 코덱(예를 들어, MPEG-2, H.264, MPEG-4, HEVC, VC-1, VP8, VP9 또는 AV1)을 이용하여 인코딩을 수행할 수 있으나, 코덱의 종류에는 제한이 없다. 비트스트림은 예를 들어 RTP(real-time transport protocol) 패킷화되어 전송될 수 있다. 전자 장치(101)에 의하여 동작하는 네트워크 예측 모듈(313)은, 전자 장치(101) 및 네트워크(200) 사이의 통신 환경을 예측할 수 있다. 네트워크 예측 모듈(313)은, 네트워크 파라미터(예를 들어, one-way delay, perceived bitrate 및/또는 packet loss rate)에 기반하여 전자 장치(101) 및 네트워크(200) 사이의 통신 환경을 예측할 수 있다. 네트워크 예측 모듈(313)에 의한 전자 장치(101) 및 네트워크(200) 사이의 통신 환경의 예측에 대한 설명은 후술하도록 한다. 인코딩을 위한 비트레이트는 전자 장치(101) 및 네트워크(200) 사이의 통신 환경 예측 결과에 기반하여 설정될 수 있다. 예를 들어, 전자 장치(101) 및 네트워크(200) 사이의 통신 환경이 상대적으로 양호한 것으로 예측되는 경우에는 비트레이트가 상대적으로 높게 설정될 수 있으나, 이는 단순한 예시이며 제한은 없다. 비트레이트가 결정되면, 인코딩을 위한 나머지 코덱 파라미터(예를 들어, 해상도(resolution) 및/또는 프레임레이트(framerate)(또는, 초당 프레임 수(frame per second, FPS))가 결정될 수 있다. 예를 들어, 비트레이트가 전자 장치(101) 및 네트워크(200) 사이의 통신 환경에 기반하여 결정되면, 결정된 비트레이트 및 코덱의 압축률에 기반하여, 해상도 및/또는 프레임레이트가 결정될 수 있다. 인코더(311)의 인코딩 결과 생성된 비트스트림은, 통신 모듈(190)을 통하여 수신측 전자 장치의 통신 모듈(190a)로 제공될 수 있다. 수신된 비트스트림은, 수신 측 전자 장치(예를 들어, 전자 장치(101)와 동일할 수 있음)에 의하여 동작하는 디코더(320)에 의하여 디코딩될 수 있다. 디코딩된 이미지(323)는, 수신 측 전자 장치에 의하여 동작하는 렌더러(renderer)(321)에 의하여 렌더링 될 수 있으며, 이에 따라 디코딩된 이미지(323)의 적어도 일부가 수신 측 전자 장치에서 표시될 수 있다. 한편, 도 3a의 비교예에 따라서는, 디코딩된 이미지(323)가 다운 스케일된 저해상도 이미지(302)와 동일한 해상도를 가질 수 있다. 이에 따라, 수신 측 전자 장치에서는, 상대적으로 작은 해상도의 이미지가 표시될 수 있다.

도 3b를 참조하면, 비교예에 의한 동작들 중 적어도 일부는, 본 개시의 실시예에 따른 전자 장치(101)에 의하여 수행될 수 있다.

비교 예에 따라서, 전자 장치(101)는, 카메라 모듈(180)에 의하여 촬영된 고해상도 이미지(301)를 확인할 수 있다. 고해상도 이미지(331)는, 예를 들어 VGA급의 해상도 또는 HD급의 해상도를 가질 수 있으나, 이는 예시적인 것으로 고해상도 이미지(331)의 해상도에는 제한이 없다. 전자 장치(101)에 의하여 동작하는 다운 스케일러(314)는, 고해상도 이미지(331)를 다운 스케일링하여 저해상도 이미지(332)를 출력할 수 있다. 다운 스케일러(314)는, 예를 들어 AI 모델로 구현될 수 있으나, 다운 스케일링을 수행할 수 있다면 제한이 없다. AI 모델로 구현된 경우, 다운 스케일러(314)를 AI 스케일러라 명명할 수도 있다. 저해상도 이미지(332)는, 예를 들어 QVGA급의 해상도 또는 nHD 급의 해상도를 가질 수 있으나, 이는 예시적인 것으로 저해상도 이미지(332)의 해상도에는 제한이 없다. 전자 장치(101)에 의하여 동작하는 인코더(311)는, 저해상도 이미지(332)를 인코딩하여 비트스트림을 생성할 수 있다. 전자 장치(101)에 의하여 동작하는 네트워크 예측 모듈(313)은, 전자 장치(101) 및 네트워크(200) 사이의 통신 환경을 예측할 수 있다. 인코딩을 위한 비트레이트는 전자 장치(101) 및 네트워크(200) 사이의 통신 환경 예측 결과에 기반하여 설정될 수 있다. 예를 들어, 비트레이트가 전자 장치(101) 및 네트워크(200) 사이의 통신 환경에 기반하여 결정되면, 결정된 비트레이트 및 코덱의 압축률에 기반하여, 해상도 및/또는 프레임레이트가 결정될 수 있다. 인코더(311)의 인코딩 결과 생성된 비트스트림은, 통신 모듈(190)을 통하여 수신측 전자 장치의 통신 모듈(190a)로 제공될 수 있다. 수신된 비트스트림은, 수신 측 전자 장치(예를 들어, 전자 장치(101)와 동일할 수 있음)에 의하여 동작하는 디코더(320)에 의하여 디코딩될 수 있다.

업 스케일러(335)는, 디코딩된 이미지(332)를 업 스케일링하여, 고해상도 이미지(334)를 제공할 수 있다. 업 스케일러(335)는, 예를 들어 AI 모델로 구현될 수 있으나, 업 스케일링을 수행할 수 있다면 제한이 없다. AI 모델로 구현된 경우, 업 스케일러(335)를 AI 스케일러라 명명할 수도 있다. 고해상도 이미지(334)는, 예를 들어, 송신 측 전자 장치(101)에 의하여 촬영된 고해상도 이미지(331)와 실질적으로 동일한 해상도를 가질 수 있다. 고해상도 이미지(334)는, 수신 측 전자 장치에 의하여 동작하는 렌더러 (321)에 의하여 렌더링 될 수 있으며, 이에 따라 고해상도 이미지(334)의 적어도 일부가 수신 측 전자 장치에서 표시될 수 있다. 한편, 다른 예시에서는, 도 3a에서와 같이, 수신 측 전자 장치(101)가 업 스케일링 과정 없이 디코딩된 저해상도 이미지(332)를 렌더링할 수도 있다.

상술한 바에 따라서, 송신 측 전자 장치(101)에서 촬영된 이미지와 실질적으로 동일한 해상도를 가지는 고해상도 이미지가, 수신 측 전자 장치에 의하여 제공될 수 있다. 아울러, 인코더(311)의 코덱 파라미터(예를 들어, 비트레이트, 해상도, 및/또는 프레임레이트)가 전자 장치(101) 및 네트워크(200) 사이의 통신 환경에 기반하여 설정될 수 있으므로, 만약 전자 장치(101) 및 네트워크(200) 사이의 통신 환경이 불량한 경우에는 품질이 낮은 비트스트림이 전송될 수 있어, 딜레이(delay) 또는 손실(loss)이 방지될 수 있다. 하지만, 도 3b의 예시에서는, 다운 스케일링 및/또는 업 스케일링 시에 전자 장치(101) 및 네트워크(200) 사이의 통신 환경이 고려되지 않는다. 송신되는 인코딩된 비트레이트에 따라서, 수신 측에서의 품질(예를 들어, blocky한지 여부)이 영향을 받으므로, 실시간으로(또는, 준 실시간으로) 비트레이트를 고려하는 AI 스케일러의 도입이 요구될 수 있다. 본 개시의 실시예들에서는, 예를 들어 전자 장치(101) 및 네트워크(200) 사이의 통신 환경에 기반하여 설정된 비트레이트와 연관된 정보가 고려된 AI 모델이 다운 스케일링 및/또는 업 스케일링을 위하여 이용되거나, 및/또는 트레이닝될 수 있다.

도 4는 일 실시예에 따른 전자 장치의 동작을 설명하기 위한 흐름도를 도시한다. 도 4의 실시예는, 도 5를 참조하여 설명하도록 한다.

도 4 및 도 5를 함께 참조하면, 일 실시예에 따라서, 전자 장치(101)(예를 들어, 프로세서(120))는, 401 동작에서, 통신 모듈(190)에 기반하여, 네트워크와 콜의 연결을 수립할 수 있다. 상술한 바와 같이, 예를 들어, 전자 장치(101)는, IMS 표준에 따른 절차를 수행할 수 있으나, 이는 예시적인 것으로 콜의 연결을 수립하기 위한 절차에는 제한이 없다. 전자 장치(101)는, 403 동작에서, 카메라 모듈(180)에 기반하여 촬영된 제 1 이미지(501)를 확인할 수 있다. 제 1 이미지(501)는, 예를 들어 고해상도 이미지로서, VGA급의 해상도 또는 HD급의 해상도를 가질 수 있으나 이는 예시적인 것으로 고해상도 이미지의 해상도에는 제한이 없다. 전자 장치(101)는, 405 동작에서, 네트워크와 전자 장치(101) 사이의 통신 환경에 기반하여, 제 1 이미지(501)에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인할 수 있다. 하나의 예에서, 비트레이트와 연관된 정보인 BPP(bit per pixel)는, 수학식 1과 같이 표현될 수 있다.

수학식 1에서의 비트레이트(bitrate)는, 예를 들어 통신 환경에 기반하여 결정될 수 있다. 예시적으로, 통신 환경이 상대적으로 양호한 경우에 상대적으로 높은 비트레이트가 결정될 수 있으며, 통신 환경이 상대적으로 불량한 경우에 상대적으로 낮은 비트레이트가 결정될 수 있으나, 이는 예시적인 것으로 제한이 없다. 예를 들어, 통신 환경은 복수 개의 범위로 카테고리화될 수 있으며, 카테고리 별로 비트레이트가 매핑되어 관리될 수 있으나 이는 예시적인 것으로, 통신 환경을 나타내는 지표(또는, 형식) 및/또는 지표에 대응하는 비트레이트를 결정하는 방식에는 제한이 없다. 통신 환경과 연관된 실시예에 대하여서는 후술하도록 한다. 비트레이트가 결정되면, 나머지 코덱 파라미터인 해상도(resolution) 및/또는 프레임레이트(framerate)가 결정될 수 있다. 예를 들어, 코덱 압축률에 기반하여, 비트레이트에 대응하는 해상도 및/또는 프레임레이트가 결정될 수 있으나, 이는 예시적인 것으로 결정 방식에는 제한이 없다. 하나의 예에서, 네트워크 예측 모듈(313)에 의하여 통신 환경이 결정될 수 있다. 통신 환경에 대응하는 비트레이트는, 네트워크 예측 모듈(313) 또는 인코더(311) 중 적어도 하나에 의하여 결정될 수도 있다. 비트레이트에 대응하는 나머지 코덱 파라미터(예를 들어, 해상도 및/또는 프레임레이트)는, 네트워크 예측 모듈(313) 또는 인코더(311) 중 적어도 하나에 의하여 결정될 수도 있다. 비트레이트와 연관된 정보(예를 들어, 수학식 1과 같은 BPP)는, 네트워크 예측 모듈(313) 또는 인코더(311) 중 적어도 하나에 의하여 결정될 수도 있다. 한편, 네트워크 예측 모듈(313) 및/또는 인코더(311)의 동작은, 예를 들어 프로세서(120)에 의하여 수행될 수 있으나 제한은 없다.

일 실시예에 따라서, 전자 장치(101)는, 407 동작에서, 다운 스케일링을 위한 제 1 AI 모델(510)에, 제 1 이미지(501) 및 제 1 정보(예를 들어, BPP)를 입력시킴으로써, 제 1 AI 모델(510)로부터 출력되는 제 1 이미지(501)에 대응하는 제 2 이미지(502)를 확인할 수 있다. 도 3b의 비교예에서의 다운 스케일러(314)가 고해상도 이미지(331)만을 입력값으로서 수신하여 이에 대응하는 저해상도 이미지(332)를 제공하도록 구성되는 것과는 대조적으로, 도 4 및 도 5의 제 1 AI 모델(510)은, 제 1 이미지(501) 뿐만 아니라, 비트레이트와 연관된 정보(예를 들어, BPP)도 입력값으로써 수신하여, 저해상도인 제 2 이미지(502)를 제공하도록 구성될 수 있다. 제 1 AI 모델(510)은, 예를 들어 제 1 이미지(501)에 대응하는 이미지 특징을 추출하기 위한 신경망(neural network) 및 비트레이트와 연관된 정보(예를 들어, BPP)에 대응하는 메타 정보 특징을 추출하기 위한 신경망을 포함하고, 이미지 특징 및 메타 정보 특징의 곱 연산을 수행하는 구조를 가질 수 있으나, 제한은 없으며, 이에 대한 설명 및 제 1 AI 모델(510)의 트레이닝에 대하여서는 후술하도록 한다. 전자 장치(101)는, 409 동작에서, 통신 모듈(190)에 기반하여, 콜의 연결을 통하여 제 2 이미지(502)를 송신할 수 있다. 여기에서, 제 2 이미지(502)의 송신은, 예를 들어 제 2 이미지(502)의 인코딩에 기반한 비트스트림의 생성 및 비트스트림의 송신을 포함할 수도 있다. 도 5에서와 같이, 인코더(311)는, 제 2 이미지(502)를 인코딩하여 비트스트림을 생성할 수 있다. 상술한 바와 같이, 인코더(311)는, 통신 환경에 기반하여 결정된 비트레이트, 및 비트레이트에 기반하여 설정된 해상도 및/또는 프레임레이트에 기반하여, 인코딩을 수행함으로써 비트스트림을 생성할 수 있다. 상술한 바와 같이, 비트레이트, 해상도, 및/또는 프레임레이트를 포함하는 코덱 파라미터의 적어도 일부는, 인코더(311)에 의하여 이용될 뿐만 아니라, 다운 스케일링을 위한 제 1 AI 모델(510)의 입력값 중 적어도 일부로서 이용될 수도 있다. 비트스트림은 통신 모듈(190)을 통하여 수신 측 전자 장치(예를 들어, 전자 장치(101)와 동일한 장치일 수 있음)로 제공될 수 있다. 만약, 통신 환경의 변경을 실시간으로 반영하고자 다양한 비트레이트 별로 복수 개의 AI 모델을 설정하고, 복수 개의 AI 모델 중 어느 하나를 선택하여 다운 스케일링을 수행한다면, 전자 장치(101)에 저장되어야 하는 정보(예를 들어, 라이브러리(library))의 크기가 급증할 수 있다. 이와는 대조적으로, 일 실시예에 따른 전자 장치(101)는 비트레이트와 연관된 정보 및 고해상도 이미지를 입력값으로 수신하여, 고해상도 이미지에 대응하는 저해상도 이미지를 출력하도록 트레이닝된 AI 모델을 이용하여 다운 스케일링을 수행할 수 있어, 다양한 비트레이트 별로 복수 개의 AI 모델들을 설정한 경우에 비하여, AI 모델의 정보량의 크기가 상대적으로 작을 수 있다. 한편, 도 5의 수신 측의 전자 장치의 동작은 도 6을 참조하여 설명하도록 한다. 상술한 바에 따라서, 콜 채널의 상태가 상대적으로 좋지 않은 상황에서도 컨텐츠 품질의 열화(저해상도/Blocky/Delay)없이 고품질의 컨텐츠가 수신측 장치에 제공될 수 있다.

도 6은 일 실시예에 따른 전자 장치의 동작을 설명하기 위한 흐름도를 도시한다. 도 6의 실시예는, 도 5를 참조하여 설명하도록 한다.

도 5 및 도 6을 함께 참조하면, 일 실시예에 따라서, 전자 장치(101)(예를 들어, 프로세서(120))는, 601 동작에서, 통신 모듈(190)에 기반하여, 네트워크와 콜의 연결을 수립할 수 있다. 한편, 도 5에서는, 수신 측 전자 장치가 통신 모듈(190a)을 포함하는 것과 같이 도시되어 있다. 하지만, 일 실시예에 따른 전자 장치(101)는, 도 5의 수신 측 전자 장치의 동작을 수행할 수 있다. 전자 장치(101)는, 예를 들어, IMS 표준에 따른 절차를 수행함에 기반하여, 콜의 연결을 수립할 수 있으나 수립의 방식에는 제한이 없다. 전자 장치(101)는, 603 동작에서, 통신 모듈(190)에 기반하여, 콜의 연결을 통하여 제 2 이미지(505)를 수신할 수 있다. 여기에서, 제 2 이미지(505)의 수신은, 예를 들어 제 2 이미지가 인코딩됨에 따라서 생성된 비트스트림의 수신 및 디코더(320)에 의한 비트스트림의 디코딩을 포함할 수 있다. 디코더(320), 네트워크 예측 모듈(515), 및/또는 렌더러(321)에 의하여 수행되는 동작은, 전자 장치(101)의 프로세서(120)에 의하여 수행될 수 있으나 제한은 없다. 전자 장치(101)는, 605 동작에서, 제 2 비트레이트와 연관된 제 2 정보를 확인할 수 있다. 예를 들어, 네트워크 예측 모듈(515) 및/또는 디코더(320)에 의하여 추정된 제 2 비트레이트 및 제 2 비트레이트에 대응하는 제 2 정보(예를 들어, BPP)가 확인될 수 있다. 제 2 정보의 확인에 대하여서는 후술하도록 한다.

일 실시예에 따라서, 전자 장치(101)는, 607 동작에서, 업 스케일링을 위한 제 2 AI 모델(512)에, 제 2 이미지(505) 및 제 2 정보(예를 들어, BPP)를 입력시킴으로써, 제 2 AI 모델(512)로부터 출력되는 제 2 이미지(505)에 대응하는 제 3 이미지(507)를 확인할 수 있다. 전자 장치(101)는, 609 동작에서, 제 3 이미지(507)(또는, 적어도 일부)를 표시할 수 있다. 제 2 AI 모델(512)은, 예를 들어 제 2 이미지(505)에 대응하는 이미지 특징을 추출하기 위한 신경망(neural network) 및 비트레이트와 연관된 정보(예를 들어, BPP)에 대응하는 메타 정보 특징을 추출하기 위한 신경망을 포함하고, 이미지 특징 및 메타 정보 특징의 곱 연산을 수행하는 구조를 가질 수 있으나, 제한은 없으며, 이에 대한 설명 및 제 2 AI 모델(512)의 트레이닝에 대하여서는 후술하도록 한다. 만약, 통신 환경의 변경을 실시간으로 반영하고자 다양한 비트레이트 별로 복수 개의 AI 모델을 설정하고, 복수 개의 AI 모델 중 어느 하나를 선택하여 업 스케일링을 수행한다면, 전자 장치(101)에 저장되어야 하는 정보(예를 들어, 라이브러리(library))의 크기가 급증할 수 있다. 이와는 대조적으로, 일 실시예에 따른 전자 장치(101)는 비트레이트와 연관된 정보 및 저해상도 이미지를 입력값으로 수신하여, 저해상도 이미지에 대응하는 고해상도 이미지를 출력하도록 트레이닝된 AI 모델을 이용하여 업 스케일링을 수행할 수 있어, 다양한 비트레이트 별로 복수 개의 AI 모델들을 설정한 경우에 비하여, AI 모델의 정보량의 크기가 상대적으로 작을 수 있다.

도 7은 비교예 및 실시예에 따른 VMAF 스코어를 도시한다.

도 7을 참조하면, 실시예에 따른 비트레이트와 연관된 정보(예를 들어, BPP) 및 고해상도 이미지를 입력값으로 수신하여 저해상도 이미지를 출력하는 다운 스케일링을 위한 AI 모델 및 비트레이트와 연관된 정보(예를 들어, BPP) 및 저해상도 이미지를 입력값으로 수신하여 고해상도 이미지를 출력하는 업 스케일링을 위한 AI 모델이 이용된 경우의 비트레이트에 대한 VMAF(video multimethod assessment fusion) 스코어(701)가 도시된다. VMAF는, 예를 들어 서던캘리포니아대학교, 낭트대학교의 IPI/LS2N 연구소, 낭트대학교의 이미지 및 비디오 공학 연구소, 및 넷플릭스가 개발한 객관적인 전체 참조 동영상 품질 메트릭일 수 있으며, 이는 예시적인 것으로 화질을 나타내는 평가 스코어에는 제한이 없다. 비교예에 따른 고해상도 이미지를 입력값으로 수신하여 저해상도 이미지를 출력하는 다운 스케일링을 위한 AI 모델 및 저해상도 이미지를 입력값으로 수신하여 고해상도 이미지를 출력하는 업 스케일링을 위한 AI 모델이 이용된 경우의 비트레이트에 대한 VMAF 스코어(702)가 도시된다. 비교예에 따른 AI 모델이 이용되지 않는 경우에 대한 VMAF 스코어(703)가 도시된다. 실시예에 따른 VMAF 스코어(701)가, 다른 경우에 대한 VMAF 스코어들(702,703)에 비하여 높은 것을 확인할 수 있다.

도 8a를 참조하면, 비교 예에 따라서, 전자 장치(101)는, 카메라 모듈(180)에 의하여 촬영된 제 1 이미지(801)(또는, 트레이닝 데이터 셋에 포함된 이미지)를 확인할 수 있다. 전자 장치(101)는, 다운 스케일링을 위한 AI 모델을 이용하여, 제 1 이미지(801)를 제 2 이미지(803)로 다운 스케일링할 수 있다. 한편, 도 8a에서는, AI 모델의 적용 과정에 대하여 설명되었지만, 도 8a의 실시예는 트레이닝 과정 중에서 수행될 수도 있으며 이는 도 8c 및 8d를 참조하여 설명하도록 한다. 도 8a의 비교예에서, AI 모델은, 예를 들어 ResNet의 구조를 가질 수 있다. 이에 따라, 화상 콜을 위한 모바일용 전자 장치(101)에서 상대적으로 작은 연산량으로 AI 모델을 이용할 수 있으나, 이는 예시적인 것으로 다운 스케일링을 위한 구조라면 제한이 없음을 당업자는 이해할 것이다. 한편, ResNet은, 예를 들어 이미지 스케일링보다는 레지듀얼 라인을 향상시킴을 통하여 전반적인 해상도를 향상시키도록 트레이닝될 수 있으나 제한은 없다. 예를 들어, Raw YUV 420 방식이 이용될 수 있고, 레거시 스케일링에 기반한 UV가 생성되는 동안 Y(luma) 채널이 향상되도록 트레이닝될 수 있으나 제한은 없다. 비교 예에 따른 AI 모델은, Bicubic 다운 스케일링을 위한 부분(810), 이미지 특징 추출 및 인핸싱(enhancing)/레지듀얼(residual) 이미지 구성을 위한 부분(812), 및 Bilinear 업 스케일링을 위한 이미지 합산기(814)를 포함할 수 있으나, 이는 예시적인 것으로 제한은 없다. Bicubic 다운 스케일링을 위한 부분(810)(또는, AI 모델)은, 예를 들어 Bicubic 방식에 기반한 다운 스케일링을 수행할 수 있으나, 다운 스케일링의 방식에는 제한이 없다. Bicubic 방식에 기반하여, 예를 들어 제 1 이미지(801)의 1/4배의 해상도를 가지는 제 2 이미지(803)가 생성될 수 있으나 제한은 없다. 다운 스케일링을 위한 부분(810)은, ResNet에서, Residual에 대응하는 부분은 제외한 부분일 수 있다. 이미지 특징 추출 및 인핸싱/레지듀얼 이미지 구성을 위한 부분(812)은, ResNet에서 Residual에 대응하는 부분으로, 예를 들어 컨볼루션 레이어를 포함할 수 있으나, 제한은 없으며, 복수 개의 서브 AI 구조를 포함할 수도 있다. Bilinear 업 스케일링을 위한 이미지 합산기(814)는, ResNet에서 정의되는 원본 이미지(본, 비교예에서는 다운 스케일링된 원본 이미지) 및 residual에 대응하는 이미지를 합산할 수 있는 합산기 일 수 있다. 한편, 비교예에서는, 수학식 2와 같은 CLIP 함수가 출력 이미지(예를 들어, 제 2 이미지(803))를 위하여 이용될 수 있다.

수학식 2에서의 Output은 ResNet으로부터 출력되는 이미지(예를 들어, 도 8a에서의 제 2 이미지(803))일 수 있다. CLIP 함수에 의하여, "Downscale + Residual", 예를 들어 부분(810)의 결과 및 부분(812)의 결과의 합산이, 최소 픽셀(MIN pixel) 내지 최대 픽셀(MAX pixel) 사이로 조정될 수 있다. 상술한 바와 같이, 비교예에 따라서, ResNet에 기반한 다운 스케일링된 이미지인 제 2 이미지(803)가 제공될 수 있다. 하지만, 상술한 바와 같이, 비교예에 따른 AI 모델은, 비트레이트와 연관된 정보를 이용하지는 않는다.

한편, 도 8b에서는, AI 모델의 적용 과정에 대하여 설명되었지만, 도 8b의 실시예는 트레이닝 과정 중에서 수행될 수도 있으며 이는 도 8c 및 8d를 참조하여 설명하도록 한다.

도 8b를 참조하면, 비교 예에 따라서, 전자 장치(101)는, 업 스케일링을 위한 AI 모델을 이용하여, 제 2 이미지(803)를 제 3 이미지(805)로 업 스케일링할 수 있다. 비교 예에 따른 AI 모델은, Bilinear 업 스케일링을 위한 부분(814), 이미지 특징 추출 및 인핸싱/레지듀얼 이미지 구성을 위한 부분(816), 및 이미지 합산기(818)를 포함할 수 있으나, 이는 예시적인 것으로 제한은 없다. Bilinear 업 스케일링을 위한 부분(814)(또는, AI 모델)은, 예를 들어 Bilinear 방식에 기반한 업 스케일링을 수행할 수 있으나, 업 스케일링의 방식에는 제한이 없다. Bilinear 방식에 기반하여, 예를 들어 제 2 이미지(803)의 4배의 해상도를 가지는 제 3 이미지(805)가 생성될 수 있으나 제한은 없다. 업 스케일링을 위한 부분(814)은, ResNet에서, Residual에 대응하는 부분은 제외한 부분일 수 있다. 이미지 특징 추출 및 인핸싱/레지듀얼 이미지 구성을 위한 부분(816)은, ResNet에서 Residual에 대응하는 부분으로, 예를 들어 컨볼루션 레이어를 포함할 수 있으나, 제한은 없으며, 복수 개의 서브 AI 구조를 포함할 수도 있다. 합산기(818)는, ResNet에서 정의되는 원본 이미지(본, 비교예에서는 업 스케일링된 원본 이미지) 및 residual에 대응하는 이미지를 합산할 수 있는 합산기 일 수 있다. 상술한 바와 같이, 비교예에 따라서, ResNet에 기반한 업 스케일링된 이미지인 제 3 이미지(805)가 제공될 수 있다. 하지만, 상술한 바와 같이, 비교예에 따른 AI 모델은, 비트레이트와 연관된 정보를 이용하지는 않는다. 예를 들어, 도 8a을 참조하여 설명한 다운 스케일링을 위한 AI 모델 및 도 8b를 참조하여 설명한 업 스케일링을 위한 AI 모델은 함께 트레이닝될 수 있으며, 이를 도 8c 및 도 8d를 참조하여 설명하도록 한다.

도 8c는 일 실시예에 따른 다운 스케일링을 위한 AI 모델 및 업 스케일링을 위한 AI 모델의 트레이닝을 설명하기 위한 흐름도이다. 도 8c의 실시예는 도 8d를 참조하여 설명하도록 한다.

비교예 및/또는 실시예에 따라서, 적어도 하나의 AI 모델의 트레이닝은, 트레이너(trainer)에 의하여 수행될 수 있다. 트레이닝은, 예를 들어 서버(108)(또는, 다른 컴퓨팅 장치일 수도 있음)에 의하여 수행되거나, 및/또는 AI 모델을 실행하는 전자 장치(101)에 의하여 수행될 수도 있다. 본 개시에서의 트레이너에 의하여 수행되는 동작은, 전자 장치(101) 및/또는 서버(108)에 의하여 수행되는 것으로 이해될 수 있다.

도 8c 및 8d를 함께 참조하면, 트레이너는, 831 동작에서, 제 1 이미지(801)를 다운 스케일링을 위한 제 1 AI 모델(821)에 입력시켜 제 2 이미지(803)를 확인할 수 있다. 제 1 AI 모델(821)은, 예를 들어 도 8a에서 설명된 ResNet일 수 있으나, 제한은 없다. 트레이너는, 832 동작에서, 제 2 이미지(803)를 업 스케일링을 위한 제 2 AI 모델(823)에 입력시켜 제 3 이미지(805)를 확인할 수 있다. 제 2 AI 모델(823)은, 예를 들어 도 8b에서 설명된 ResNet일 수 있으나, 제한은 없다. 트레이너는, 833 동작에서, 제 1 이미지(801) 및 제 3 이미지(805) 사이의 유사도에 기반한 제 1 손실(Loss1: Up-Similarity)을 확인할 수 있다. 트레이너는, 834 동작에서, 제 2 이미지(803)를 업 스케일링한 제 4 이미지(807)를 확인할 수 있다. 예를 들어, 트레이너는, lanczos 방식을 이용하는 업 스케일러(825)에 기반하여, 제 4 이미지(807)를 확인할 수 있으나, 제한이 없다. 트레이너는, 835 동작에서, 제 1 이미지(801) 및 제 4 이미지(807) 사이의 유사도에 기반한 제 2 손실(Loss2: Legacy-Similarity)을 확인할 수 있다. 트레이너는, 836 동작에서, 제 1 손실(Loss1) 및 제 2 손실(Loss2)에 기반하여, 제 1 AI 모델(821) 및 제 2 AI 모델(823)을 트레이닝할 수 있다. 예를 들어, 전체 손실(Total Loss)은, 수학식 3과 같을 수 있다.

수학식 3에서, α 및 β는 가중치들일 수 있다. 트레이너는, 전체 손실(Total Loss)을 최소화하도록 트레이닝을 수행할 수 있다. 상술한 바와 같이, 다운 스케일링을 위한 제 1 AI 모델(821) 및 업 스케일링을 위한 제 2 AI 모델(823)이 함께 트레이닝될 수 있다. 손실 및/또는 손실의 계산은, 예를 들어 L2 손실(mean square error), SSIM 손실(negative structural similarity index), 또는 GL1 손실(absolute error after Gaussian filter)에 기반할 수 있으나, 이는 예시적인 것으로 타입에는 제한이 없다.

도 8e는 일 실시예에 따른 다운 스케일링을 위한 AI 모델 및 업 스케일링을 위한 AI 모델의 트레이닝을 설명하기 위한 흐름도이다. 도 8e의 실시예는 도 8f를 참조하여 설명하도록 한다.

도 8e 및 8f를 함께 참조하면, 트레이너는, 851 동작에서, 제 1 이미지(871)를, 고정된(fixed) 다운 스케일링을 위한 제 1 AI 모델(872)에 입력시켜 제 2 이미지(873)를 확인할 수 있다. 도 8e 및 8f의 비교예에서는, 제 1 AI 모델(872)의 파라미터는 고정된 값을 가지도록 설정될 수 있다. 예를 들어, 제 1 AI 모델(872)의 파라미터는, 도 8c 및 도 8d에 기반하여 설명된 트레이닝에 기반하여 결정될 수 있으며, 제 1 AI 모델(872)의 파라미터는 도 8e 및 8f의 실시예에서는 추가적으로 트레이닝되지 않으므로 "고정"의 단어가 이용됨을 당업자는 이해할 것이다. 트레이너는, 852 동작에서, 제 2 이미지(873)를 인코더(874)를 이용하여 인코딩할 수 있다. 트레이너는, 853 동작에서, 디코더(875)를 이용하여 인코딩된 제 2 이미지를 디코딩하여 제 3 이미지(876)를 확인할 수 있다. 예를 들어, 인코딩 및/또는 디코딩은, 고정된 QP 값을 이용할 수 있다. 실제 화상 통화 스트리밍에서는 constant/variable bitrate mode(CBR/VBR)가 이용될 수 있으며, 비트레이트는 통신 환경에 따라 실시간으로 변경될 수 있다. 트레이너는, 854 동작에서, 제 3 이미지(876)를 업 스케일링을 위한 제 2 AI 모델(877)에 입력시켜 제 4 이미지(878)를 확인할 수 있다. 트레이너는, 855 동작에서, 제 1 이미지(871) 및 제 4 이미지(878) 사이의 유사도에 기반한 손실(Loss1: Up-Similarity)을 확인할 수 있다. 트레이너는, 856 동작에서, 손실(Loss1)에 기반하여 제 2 AI 모델(877)을 트레이닝할 수 있다. 트레이너는, 손실을 최소화하도록 제 2 AI 모델(877)을 트레이닝할 수 있다. 예를 들어, 트레이너는, 도 8c 및 8d에 기반하여 설정된 트레이닝 및/또는 도 8e 및 8f에 기반하여 설정된 트레이닝을 수행함으로써, 다운 스케일링을 위한 AI 모델 및/또는 업 스케일링을 위한 AI 모델이 트레이닝될 수 있다.

도 9a를 참조하면, 일 실시예에 따라서, 전자 장치(101)는, 카메라 모듈(180)에 의하여 촬영된(또는, 트레이닝 데이터 셋으로부터 선택된) 제 1 이미지(901)를 확인할 수 있다. 전자 장치(101)는, 다운 스케일링을 위한 AI 모델을 이용하여, 제 1 이미지(901)를 제 2 이미지(902)로 다운 스케일링할 수 있다. 한편, 도 9a에서는, AI 모델의 적용 과정에 대하여 설명되었지만, 도 9a의 실시예는 트레이닝 과정 중에서 수행될 수도 있으며 이는 도 9c 및 9d를 참조하여 설명하도록 한다. 도 9a의 실시예에서, AI 모델은, 예를 들어 ResNet의 구조를 가질 수 있다. 한편, ResNet은, 예를 들어 이미지 스케일링보다는 레지듀얼 라인을 향상시킴을 통하여 전반적인 해상도를 향상시키도록 트레이닝될 수 있으나 제한은 없다.

일 실시예에 따른 AI 모델은, Bicubic 다운 스케일링을 위한 부분(911), 이미지 특징 추출을 위한 부분(912), 이미지 곱셈기(913), 인핸싱/레지듀얼 이미지 구성을 위한 부분(914), 비트레이트와 연관된 정보 특징 추출을 위한 부분(915), 및 이미지 합산기(916)를 포함할 수 있으나, 이는 예시적인 것으로 제한은 없다. Bicubic 다운 스케일링을 위한 부분(911)(또는, AI 모델)은, 예를 들어 Bicubic 방식에 기반한 다운 스케일링을 수행할 수 있으나, 다운 스케일링의 방식에는 제한이 없다. Bicubic 방식에 기반하여, 예를 들어 제 1 이미지(901)의 1/4배의 해상도를 가지는 제 2 이미지(902)가 생성될 수 있으나 제한은 없다. 다운 스케일링을 위한 부분(911)은, ResNet에서, Residual에 대응하는 부분은 제외한 부분일 수 있다. 이미지 특징 추출 부분(912)은, 예를 들어 특징을 추출하기 위한 적어도 하나의 컨볼루션 레이어를 포함할 수 있으나, 이는 예시적인 것으로 이미지 특징 추출 부분(912)의 구현에는 제한이 없으며, RNN 등의 다른 신경망도 이용될 수도 있음을 당업자는 이해할 것이다.

일 실시예에 따라서, 비트레이트와 연관된 정보 특징 추출을 위한 부분(915)은, 비트레이트와 연관된 정보(예를 들어, BPP)를 입력값으로서 수신하여, 특징을 출력하도록 구성될 수 있다. 한편, BPP 이외에도 다른 값들이 부분(915)으로의 입력값으로 구현될 수 있으며, 부분(915)에 대한 입력 정보를 메타 정보라 명명할 수도 있다. 메타 정보는, 예를 들어 비트레이트와 연관된 정보로서 BPP를 포함할 수 있으나 이는 예시적인 것으로, 카메라 모듈(180)의 사양, 영상 통화가 수행되는 위치, 카메라 모듈(180)의 모드(예를 들어, 전방 촬영 모드, 또는 후방 촬영 모드), 네트워크 상태, 네트워크 종류, 통화 중 조명(lightning) 사용 여부, 및/또는 비디오 프레임 관련 정보(예를 들어, 대면(face to face) 비디오 프레임, 노변(road side) 비디오 프레임, 다수 인물(multi-person) 비디오 프레임, 인물이 포함되지 않은(no-person) 비디오 프레임일 수 있으나 제한이 없음)를 포함할 수도 있으며, 제한이 없다. 예를 들어, 비트레이트와 연관된 정보 특징 추출을 위한 부분(915)은, 적어도 하나의 fully-connected 레이어를 포함할 수 있다. 비트레이트와 연관된 정보 특징 추출을 위한 부분(915)은, Dense Network로 구현될 수 있으나, 이는 예시적인 것으로 그 타입에는 제한이 없다. 곱셈기(913)는, 부분(912)의 출력 및 부분(915)의 출력을 교차 곱셈(cross multiplication)할 수 있다. 인핸싱/레지듀얼 이미지 구성을 위한 부분(914)은, 교차 곱셈 결과를 입력받아, 인핸싱/레지듀얼 구성을 수행하여 출력할 수 있다. 합산기(916)는, 인핸싱/레지듀얼 이미지 구성을 위한 부분(914)으로부터의 출력을, 다운 스케일링을 위한 부분(911)으로부터의 출력과 합산을 수행할 수 있으며, 이에 따라 제 2 이미지(902)가 출력될 수 있다. 도 8a에서 설명된 AI 모델과는 대조적으로, 도 9a에서 설명된 AI 모델은, 고해상도 이미지(예를 들어, 제 1 이미지(901)) 및 비트레이트와 연관된 값(예를 들어, BPP)을 입력값으로서 수신받아, 저해상도 이미지(예를 들어, 제 2 이미지(902))를 출력할 수 있다. 이에 따라, 다양한 비트레이트(또는, 코덱 파라미터)에 대한 트레이닝이 수행될 수 있으며, 통신 환경의 변경에 따른 코덱 파타미터가 변경되는 환경을 위한 AI 모델이 제공될 수 있다. AI 모델은, 레지듀얼 라인을 향상시키도록 트레이닝될 수 있으나, 제한은 없다. 예를 들어, 레지듀얼 라인의 향상을 위하여, 레지듀얼 라인은 Y(luma) 채널에 이용될 수 있으나 제한은 없다. 예를 들어, 상대적으로 낮은 비트레이트 범위에서의 인코딩 시에는, 상대적으로 높은 비트레이트 범위보다 상대적으로 낮은 품질의 비트스트림이 생성되므로, 상대적으로 낮은 비트레이트 범위에서 업 스케일링의 레지듀얼 라인은 더 강한 효과를 가져야 할 수 있다.

도 9b를 참조하면, 일 실시예에 따라서, 전자 장치(101)는, 상대적으로 저해상도인 제 2 이미지(902)를 확인할 수 있다. 전자 장치(101)는, 업 스케일링을 위한 AI 모델을 이용하여, 제 2 이미지(902)를 제 3 이미지(903)로 업 스케일링할 수 있다. 한편, 도 9b에서는, AI 모델의 적용 과정에 대하여 설명되었지만, 도 9b의 실시예는 트레이닝 과정 중에서 수행될 수도 있으며 이는 도 9c 및 9d를 참조하여 설명하도록 한다. 도 9b의 실시예에서, AI 모델은, 예를 들어 ResNet의 구조를 가질 수 있다. 한편, ResNet은, 예를 들어 이미지 스케일링보다는 레지듀얼 라인을 향상시킴을 통하여 전반적인 해상도를 향상시키도록 트레이닝될 수 있으나 제한은 없다.

일 실시예에 따라서, 업 스케일링을 위한 AI 모델은, Bilinear 업 스케일링을 위한 부분(921), 이미지 특징 추출을 위한 부분(922), 곱셈기(923), 인핸싱/레지듀얼 이미지 구성을 위한 부분(924), 비트레이트와 연관된 정보 특징 추출을 위한 부분(925), 및 합산기(926)를 포함할 수 있다. Bilinear 업 스케일링을 위한 부분(921)은, 제 2 이미지(902)를 업 스케일링하여, 업 스케일링된 이미지를 출력할 수 있다. 업 스케일링된 이미지는, 제 2 이미지(902)에 비하여 4배의 해상도를 가질 수 있으나, 제한은 없으며, Bilinear 방식 또한 예시적인 것이다. 이미지 특징 추출을 위한 부분(922) 및/또는 인핸싱/레지듀얼 이미지 구성을 위한 부분(924)은, 적어도 하나의 컨볼루션 레이어로 구성될 수 있으나, 이는 예시적인 것으로 제한이 없다. 비트레이트와 연관된 정보 특징 추출을 위한 부분(925)은, 예를 들어 비트레이트와 연관된 정보(예를 들어, BPP)를 입력받아, 이에 대응하는 특징을 출력할 수 있다. 부분(925)은, 예를 들어 fully-connected 레이어를 포함할 수 있으나, 제한은 없다. 부분(925)은, 예를 들어 Dense Network로 구현될 수 있으나 제한은 없다. 한편, BPP 이외에도 다른 값들이 부분(925)으로의 입력값으로 구현될 수 있으며, 부분(925)에 대한 입력 정보를 메타 정보라 명명할 수도 있다. 곱셈기(923)는, 부분(922)의 출력 및 부분(925)의 출력을 교차 곱셈(cross multiplication)할 수 있다. 인핸싱/레지듀얼 이미지 구성을 위한 부분(924)은, 교차 곱셈 결과를 입력받아, 인핸싱/레지듀얼 구성을 수행하여 출력할 수 있다. 합산기(926)는, 인핸싱/레지듀얼 이미지 구성을 위한 부분(924)으로부터의 출력을, 업 스케일링을 위한 부분(921)으로부터의 출력과 합산을 수행할 수 있으며, 이에 따라 제 3 이미지(903)가 출력될 수 있다. 도 8b에서 설명된 AI 모델과는 대조적으로, 도 9b에서 설명된 AI 모델은, 저해상도 이미지(예를 들어, 제 2 이미지(902)) 및 비트레이트와 연관된 값(예를 들어, BPP)을 입력값으로서 수신받아, 고해상도 이미지(예를 들어, 제 3 이미지(903))를 출력할 수 있다. 이에 따라, 다양한 비트레이트(또는, 코덱 파라미터)에 대한 트레이닝이 수행될 수 있으며, 통신 환경의 변경에 따른 코덱 파타미터가 변경되는 환경을 위한 AI 모델이 제공될 수 있다. 한편, 도 8c 및 8d를 참조하여 설명된 바와 같이, 업 스케일링을 위한 AI 모델 및 다운 스케일링을 위한 AI 모델은 함께 트레이닝될 수 있으며, 이를 도 9c 및 9d를 참조하여 설명하도록 한다.

도 9c는 일 실시예에 따른 다운 스케일링을 위한 AI 모델 및 업 스케일링을 위한 AI 모델의 트레이닝을 설명하기 위한 흐름도이다. 도 9c의 실시예는 도 9d를 참조하여 설명하도록 한다.

도 9c 및 9d를 함께 참조하면, 트레이너는, 931 동작에서, 제 1 이미지(941) 및 제 1 정보를 다운 스케일링을 위한 제 1 AI 모델(942)에 입력시켜 제 2 이미지(943)를 확인할 수 있다. 제 1 AI 모델(942)은, 예를 들어 도 9a에서 설명된 ResNet일 수 있으나, 제한은 없다. 도 9a에서 설명된 바와 같이, 제 1 AI 모델(942)은, 고해상도 이미지(예를 들어, 제 1 이미지(941))와 함께 제 1 정보를 입력값으로서 수신할 수 있다. 제 1 정보는, 예를 들어 비트레이트와 연관된 정보인 BPP를 포함하는 메타 정보일 수 있으며, 제한이 없다. 트레이너는, 932 동작에서, 제 2 이미지(943) 및 제 1 정보를 업 스케일링을 위한 제 2 AI 모델(944)에 입력시켜 제 3 이미지(945)를 확인할 수 있다. 제 2 AI 모델(944)은, 예를 들어 도 9b에서 설명된 ResNet일 수 있으나, 제한은 없다. 도 9b에서 설명된 바와 같이, 제 2 AI 모델(944)은, 저해상도 이미지(예를 들어, 제 2 이미지(943))와 함께 제 1 정보를 입력값으로서 수신할 수 있다.

트레이너는, 933 동작에서, 제 1 이미지(941) 및 제 3 이미지(945) 사이의 유사도에 기반한 제 1 손실(Loss1: Up-Similarity)을 확인할 수 있다. 트레이너는, 934 동작에서, 제 1 이미지(941)를 다운 스케일링한 제 4 이미지(947)를 확인할 수 있다. 예를 들어, 트레이너는, lanczos 방식을 이용하여 제1 이미지(941)를 다운 스케일링하는 다운 스케일러(946)에 기반하여, 제 4 이미지(947)를 확인할 수 있으나, 제한이 없다. 트레이너는, 935 동작에서, 비트레이트와 연관된 제 1 정보에 기반하여 제 4 이미지를 인핸싱한 제 5 이미지(949)를 확인할 수 있다. 예를 들어, 트레이너는, 제 1 정보에 기반한 인핸서(948)를 이용하여, 제 5 이미지(949)를 출력할 수 있으나 제한은 없으며, 인핸싱 과정에 대하여서는 후술하도록 한다. 트레이너는, 936 동작에서, 제 2 이미지(943) 및 제 5 이미지(949) 사이의 유사도에 기반한 제 2 손실(Loss2: Legacy-Similarity)을 확인할 수 있다. 트레이너는, 937 동작에서, 제 1 손실(Loss1) 및 제 2 손실(Loss2)에 기반하여, 제 1 AI 모델(942) 및 제 2 AI 모델(944)을 트레이닝할 수 있다. 예를 들어, 전체 손실(Total Loss)은, 전술한 수학식 3과 같을 수 있다. 트레이너는, 전체 손실(Total Loss)을 최소화하도록 트레이닝을 수행할 수 있다. 상술한 바와 같이, 다운 스케일링을 위한 제 1 AI 모델(942) 및 업 스케일링을 위한 제 2 AI 모델(944)이 함께 트레이닝될 수 있다. 손실 및/또는 손실의 계산은, 예를 들어 L2 손실(mean square error), SSIM 손실(negative structural similarity index), 또는 GL1 손실(absolute error after Gaussian filter)에 기반할 수 있으나, 이는 예시적인 것으로 타입에는 제한이 없다. 트레이닝 시에는, 예를 들어 mini batch gradient decent 방식의 지도 학습(supervised learning)이 이용될 수 있으나, 제한은 없다. 각 트레이닝 시마다 이용되는 트레이닝 데이터들 각각은 다양한 해상도, 프레임레이트, 및/또는 비트레이트로 구성될 수 있으며, 이에 따라 네트워크 환경에 따라 변경되는 코덱 파라미터에 강인한 AI 모델들이 제공될 수 있다. 예를 들어, 인핸서(948)의 인핸싱 과정에서 지각(perceptual) 필터(filter)가 이용될 수 있다. 지각 필터가 이용됨에 따라서, 입력되는 이미지의 상태에 따라서 코덱의 성능이 변경되는 효과가 표현될 수 있다. 지각 필터가 이용됨에 따라서, 인코딩의 품질이 향상될 수 있다. 이미지가 제공되면, 사전 인코딩 최적화 필터(pre encoding optimizer filter)인 AWA(적응 가중 평균), TBil(Threshold bilateral), 또는 JND(just noticeable-distortion) profiled motion-compensated residue) 중 어느 하나가 지각 필터로서 이용될 수 있으나 제한은 없다. 트레이닝의 목표는, 예를 들어 다운 스케일링 및 업 스케일링을 수행한 결과가, 원본 이미지와 실질적으로 동일(또는, 유사)한 것일 수 있다. 트레이닝의 목표는, 예를 들어 다운 스케일링을 위한 관련 기술의 AI 모델의 다운 스케일러에 의한 다운 스케일링 결과와 실질적으로 동일(또는, 유사)한 것일 수 있다.

도 9e는 일 실시예에 따른 다운 스케일링을 위한 AI 모델 및 업 스케일링을 위한 AI 모델의 트레이닝을 설명하기 위한 흐름도이다. 도 9e의 실시예는 도 9f를 참조하여 설명하도록 한다.

도 9e 및 9f를 함께 참조하면, 트레이너는, 951 동작에서, 제 1 이미지(961) 및 제 1 정보(962)를, 고정된(fixed) 다운 스케일링을 위한 제 1 AI 모델(963)에 입력시켜 제 2 이미지(964)를 확인할 수 있다. 도 9e 및 9f에서는, 업 스케일링을 위한 제 2 인공 지능 모델(968)이 트레이닝될 수 있으며, 제 1 AI 모델(963)의 파라미터는 고정된 값을 가지도록 설정될 수 있다. 트레이너는, 952 동작에서, 비트레이트와 연관된 제 1 정보에 기반하여, 제 2 이미지(964)를 인코더(965)를 이용하여 인코딩할 수 있다. 트레이너는, 953 동작에서, 디코더(966)를 이용하여 인코딩된 제 2 이미지를 디코딩하여 제 3 이미지(967)를 확인할 수 있다. 예를 들어, 인코딩 및/또는 디코딩은, 고정된 QP(quantization parameter) 값을 이용할 수 있다. 트레이너는, 954 동작에서, 제 3 이미지(967) 및 비트레이트와 연관된 제 1 정보(962)를 업 스케일링을 위한 제 2 AI 모델(968)에 입력시켜 제 4 이미지(969)를 확인할 수 있다. 트레이너는, 955 동작에서, 비트레이트와 연관된 제 1 정보(962)에 기반하여 제 1 이미지(961)를 인핸싱(971)한 제 5 이미지(972)를 확인할 수 있다. 트레이너는, 956 동작에서, 제 1 이미지(961) 및 제 4 이미지(969) 사이의 유사도에 기반한 제 1 손실(Loss1: Up-similarity), 및 제 4 이미지(969) 및 제 5 이미지(972) 사이의 유사도에 기반한 제 2 손실(Loss2: Enhanced-image-Similarity)을 확인할 수 있다. 트레이너는, 957 동작에서, 제 1 손실(Loss1) 및 제 2 손실(Loss2)에 기반하여 제 2 AI 모델(968)을 트레이닝할 수 있다. 예를 들어, 전체 손실(Total Loss)은 전술한 수학식 3과 같이 표현될 수 있으며, β는 1- α일 수도 있다. α는 BPP에 기반하여 설정될 수도 있으나 제한은 없다. 트레이너는, 전체 손실을 최소화하도록 제 2 AI 모델(968)을 트레이닝할 수 있다. 예를 들어, 트레이너는, 도 9c 및 9d에 기반하여 설정된 트레이닝 및/또는 도 9e 및 9f에 기반하여 설정된 트레이닝을 수행함으로써, 다운 스케일링을 위한 AI 모델 및/또는 업 스케일링을 위한 AI 모델이 트레이닝될 수 있다. 인핸싱(971)을 위한 툴은 도 10을 참조하여 설명하도록 한다. 상대적으로 높은 비트레이트 범위에서 원본 비디오 프레임과 유사해지는 것을 목표로 트레이닝이 수행될 수 있으며, 상대적으로 낮은 비트레이트 범위에서는 코덱 손실이 이미 높기 때문에 코덱 손실을 향상하기 위한 트레이닝이 수행될 수 있다. 한편, 도 9c 및 9d의 트레이닝을 위하여서는 손실 함수를 거리 기반 메트릭인 L1L2, L1, 또는 L2를 이용하고, 도 9e 및 9f의 트레이닝을 위하여서는 손실 함수를 SSIM, 또는 GL1의 유사도 측정 방식을 이용할 수 있으나, 이는 예시적인 것으로 제한은 없다.

도 10을 참조하면, 일 실시예에 따라서, 트레이너는, 이미지(1001)를, 가우시안 필터(1002)를 이용하여 스무딩(smooting)할 수 있다. 가우시안 필터(1002)는, 이미지(1001)를 스무딩할 수 있으며, 이에 따라 스무딩된 이미지(1003)가 제공될 수 있다. 인핸싱 툴(enhancing tool)(1004)는, 스무딩된 이미지(1003) 및 이미지(1001)를 이용하여, 인핸싱된 이미지(1005)를 제공할 수 있다. 예를 들어, 인핸싱된 이미지(1005)는, 여기에서, 인핸싱된 이미지(1005)는, 수학식 4와 같이 표현될 수 있다.

수학식 4에서의 k는 [0.0, 10.0] 사이의 값일 수 있으며, 스코어(예를 들어, VMAF)이 최댓값을 가지도록 k가 설정될 수도 있다. 한편, 상술한 인핸싱 방식은 단순히 예시적인 것으로, 인핸싱 방식에는 제한이 없음을 당업자는 이해할 것이다. 상술한 바에 따라서, 인핸싱된 이미지(1005)가 제공될 수 있으며, 도 9f에서 설명된 바와 같이, 인핸싱된 이미지(제 5 이미지(972))가 트레이닝에서 이용될 수 있다. 인핸싱된 이미지가 트레이닝에 이용됨에 따라, 보다 원본 이미지에 가까운 출력을 제공할 수 있는 AI 모델이 제공될 수 있다.

도 11a는, 일 실시예에 따른 전자 장치의 동작 방법을 설명하기 위한 흐름도를 도시한다. 도 11a의 실시예는, 도 11b를 참조하여 설명하도록 한다.

도 11a 및 도 11b를 참조하면, 일 실시예에 따라서, 전자 장치(101)(예를 들어, 프로세서(120))는, 1101 동작에서, 적어도 하나의 파라미터를 확인할 수 있다. 전자 장치(101)는, 1103 동작에서, 적어도 하나의 파라미터에 기반하여 통신 환경을 예측할 수 있다. 전자 장치(101)는, 1105 동작에서, 예측 결과에 기반하여 비트레이트, 해상도, 및/또는 프레임레이트를 확인할 수 있다. 예를 들어, 전자 장치(101)는, RTCP를 기반으로 통신 환경을 예측할 수 있으며, 통신 환경이 상대적으로 양호하면 상대적으로 높은 비트레이트를 설정할 수 있으며, 통신 환경이 상대적으로 불량하면 상대적으로 낮은 비트레이트를 설정할 수 있다. 비트레이트가 실시간으로(또는, 준 실시간으로) 설정될 수 있으며, 이에 대응하는 프레임레이트 및/또는 해상도 또한 실시간으로(또는, 준 실시간으로) 설정될 수 있다.

예를 들어, 전자 장치(101)는, 네트워크에서 허용하는 대역폭(bandwidth)을 예측하고, 그 허용 수치 내에서 비트레이트를 결정하고 패킷을 전송할 것이 요구될 수 있다. 예를 들어, 전자 장치(101)는, RTCP에 기반하여 피드백받는 파라미터에 기반하여 대역폭을 예측할 수 있다. 하나의 예에서, 통신 환경은, 도 11b에서와 같이 3가지 상태들(1123,1124,1125)로 분류될 수 있다. 제 1 상태(1123)는, 예를 들어 "unloaded 상태"로 명명될 수 있으며, 제 1 상태(1123)에서는 딜레이(delay), 패킷 손실(packet loss) 및/또는 패킷 드롭(drop)이 발생하지 않을 수 있다. 제 2 상태(1124)는, 예를 들어 "loaded 상태"로 명명될 수 있으며, 제 2 상태(1124)에서는, 로드가 네트워크에서 허용하는 대역폭에 근접하거나 또는 임계치 이내만큼 넘어설 수 있다. 제 2 상태(1124)에서는, 예를 들어 딜레이의 fluctuation이 발생하거나, 또는 상대적으로 큰 값의 딜레이가 발생할 수 있다. 예를 들어, 상대적으로 큰 값의 딜레이가 확인되거나, 딜레이의 증감의 반복이 확인되거나, 및/또는 상대적으로 낮은 수준의 패킷 손실이 확인되는 경우, 통신 환경이 제 2 상태(1124)로서 확인될 수 있으나 제한은 없다. 제 3 상태(1125)는, 예를 들어 "congested 상태"라 명명될 수 있으며, 제 3 상태(1125)에서는, 패킷 드롭이 상대적으로 다수 발생할 수 있다. 예를 들어, 네트워크의 엔티티에서 병목(bottleneck)이 발생할 수 있으며, 이에 따라 로드가 허용하는 대역폭을 넘는 경우에는 지속적인 딜레이가 발생하거나, 또는 상대적으로 큰 패킷 손실이 발생할 수 있다. 패킷 손실율(loss rate)는, RTCP의 RR 내의 lost fraction에 기반하여 확인될 수도 있다. 순간 RTT(1121) 및 스무딩된 RTT(1122)는, 예를 들어 제 1 상태(1123)에서 상대적으로 작은 값을 가지며, 변화량 또한 상대적으로 작을 수 있다. 순간 RTT(1121) 및 스무딩된 RTT(1122)는, 예를 들어 제 2 상태(1124)에서 제 1 상태(1123)에 비하여 상대적으로 큰 값을 가질 수 있다. 순간 RTT(1121) 및 스무딩된 RTT(1122)는, 예를 들어 제 3 상태(1125)에서, 타임아웃이 없는 경우라면 지속적으로 증가할 수 있다. Congestion이 해소된 상태(1126)에서는, 순간 RTT(1121) 및 스무딩된 RTT(1122)가 감소할 수 있다. 표 1은, 파라미터 별 통신 환경의 상태 구분의 예시이다. 한편, 표 1의 예시는, 예를 들어 네트워크 별(예를 들어, 4G, 5G, WIFI 별)로 상이하게 설정될 수도 있으나, 제한은 없다.

	제 1 상태(1123)	제 2 상태(1124)	제 3 상태(1125)
One way delay(OWD)	< prevOWD X 1.2	> = prevOWD X 1.2	> = prevOWD X 1.2
Perceived bitrate	Sending bitrate와 동일	Sending bitrate보다 작음	Sending bitrate보다 작음
Packet loss rate	손실이 확인되지 않음	< = 5%, 또는임계 기간 이하의 손실 발생	> 5%, 또는 임계 기간 초과의 손실 발생

표 1에서와 같이, 현재 시점에서 측정된 one way delay가, 이전 one way delay(prevOWD)보다 1.2배 미만인 경우에는 제 1 상태(1123)로 분류될 수 있으며, 1.2 배 이상인 경우에는 제 2 상태(1124) 또는 제 3 상태(1125)로 분류될 수 있다. One way dealy는, 예를 들어 RTT에 기반하여 예측될 수 있다. 상대적으로 통신 환경이 불량한 경우에는 one way delay가 증가될 수 있다. RTT는, RTCP SR 및/또는 RR의 정보에 기반하여 계산될 수 있다. 한편, prevOWD 대비 1.2배 미만인지 여부는 단순히 예시적인 것으로 그 수치에는 제한이 없으며, 또는 딜레이의 절댓값(예를 들어, 50ms) 미만인지 여부에 따라 제 1 상태(1123)인지 여부가 결정될 수도 있다.한편, 통신 환경이 상대적으로 양호한 경우에는, sending bits의 총량과 receiving bits의 총량이 동일할 수 있다. 하지만, 통신 환경이 상대적으로 불량한 경우에는, receiving bits의 총량이 sending bits의 총량보다 낮을 수 있다. 표 1에서와 같이, perceived bitrate가 sending bitrate와 동일한 경우에는 제 1 상태(1132)로 분류될 수 있다. perceived bitrate가 sending bitrate와 작은 경우에는 제 2 상태(1124) 또는 제 3 상태(1125)로 분류될 수 있다. Perceived bitrate는, 상대 측에 도달되는 실제 비트레이트를 의미할 수 있으며, 대역폭이 제한되는 경우에는 perceived bitrate는 제한된 대역폭 값을 가질 가능성이 높을 수 있다. 표 3에서와 같이, 패킷 손실이 없는 경우에는 제 1 상태(1132)로 분류될 수 있다. 만약, 패킷 손실율이 임계 비율(예를 들어, 5%) 이하이거나, 또는 패킷 손실이 지정된 기간의 임계 기간(예를 들어, 3주기) 이하인 경우에는, 제 2 상태(1124)로 분류될 수 있다. 예를 들어, 패킷 손실율이 임계 비율(예를 들어, 5%) 초과이거나, 또는 패킷 손실이 지정된 기간의 임계 기간(예를 들어, 3주기) 초과인 경우에는, 제 3 상태(1125)로 분류될 수 있다. 패킷 손실율은, RTCP RR의 lost fraction 정보에 기반하여 계산될 수도 있다.

도 12a를 참조하면, 일 실시예에 따라서, 전자 장치(101)(예를 들어, 프로세서(120))는, AI 스케일링 매니저(1203)를 실행할 수 있다. AI 스케일링 매니저(1203)는, 다운 스케일링을 위한 AI 모델(1205)의 입력값 중 일부인 비트레이트와 연관된 정보(예를 들어, BPP)(또는, 메타 정보라고 명명될 수도 있음)를 제공할 수 있다. 네트워크 예측 모듈(1201)은, 예를 들어 도 11a 및 11b를 참조하여 설명한 바와 같이, 통신 환경을 제공할 수 있거나, 또는 통신 환경에 대응하는 비트레이트를 제공할 수 있다. AI 스케일링 매니저(1203)는, 네트워크 예측 모듈(1201)로부터 제공된 통신 환경에 대응하는 비트레이트를 확인하거나, 또는 네트워크 예측 모듈(1201)로부터 제공된 비트레이트를 확인할 수 있다. AI 스케일링 매니저(1203)는, 확인된 비트레이트에 기반하여, 비트레이트와 연관된 정보(예를 들어, BPP)를 확인할 수 있다. AI 스케일링 매니저(1203)는, 예를 들어, 카메라 모듈(180)의 프레임레이트 및/또는 해상도를 포함하는 카메라 파라미터를 제공받을 수도 있다. AI 스케일링 매니저(1203)는, 예를 들어 비트레이트, 프레임레이트, 해상도에 기반하여 BPP를, 비트레이트와 연관된 정보로서 결정할 수도 있으나, 이는 예시적인 것으로 비트레이트에 의하여 영향을 받는 정보라면 비트레이트와 연관된 정보(또는, 메타 정보)로 이용될 수 있음을 당업자는 이해할 수 있을 것이다. 다운 스케일링을 위한 AI 모델(1205)은, 카메라 모듈(180)로부터 제공되는 이미지(예를 들어, 고해상도 이미지) 및 AI 스케일링 매니저(1203)로부터 제공되는 비트레이트와 연관된 정보(예를 들어, BPP)를 입력값으로서 수신하여, 저해상도 이미지를 출력할 수 있다. 인코더(1207)는, 다운 스케일링을 위한 AI 모델(1205)로부터 제공되는 저해상도 이미지를 인코딩하여, 인코딩된 이미지(또는, 비트스트림)를 제공할 수 있으며, 이는 통신 모듈(190)을 통하여 송신될 수 있다. 인코더(1207)는, 예를 들어 비트스트림을 포함하는 코덱 파라미터를 이용하여, 인코딩을 수행할 수도 있다. 예를 들어, 비트레이트는, 이전에 사용된 비트레이트로 설정될 수 있다.

일 실시예에 따라서, AI 스케일링 매니저(1203)는, 하나의 예에서는, 네트워크 예측 모듈(1201)로부터 제공된(또는, 제공된 정보에 기반하여 확인된) 비트레이트에 기반하여, AI 모델(1205)로 입력되는 BPP를 확인할 수 있으며, 이 경우 BPP는 수학식 1에서 설명된 바와 같이, 현재 비트레이트를 프레임레이트 및 해상도의 곱으로 나눈 값으로 결정될 수 있다. 한편, 다른 예에서, AI 스케일링 매니저(1203)는, 지정된 개수(예를 들어, K라 표기하고, K는 1이상의 자연수일 수 있음)의 인코딩된 이미지의 크기의 평균을 해상도로 나눈 값을, BPP로서 확인할 수도 있으며, 이는 수학식 5와 같이 표기될 수 있다.

수학식 5에서의 "Average encoded size"는 상술한 지정된 개수 K의 인코딩된 이미지의 크기의 평균일 수 있으며, "resolution"은 해상도일 수 있다.

AI 스케일링 매니저(1203)는, 통신 환경과 연관된 BPP(예를 들어, 수학식 1에 따른 BPP) 또는 인코딩된 이미지의 크기의 평균과 연관된 BPP(예를 들어, 수학식 5에 따른 BPP) 중 어느 하나를 선택하여, AI 모델(1205)로 제공할 수 있다. 하나의 예에서, AI 스케일링 매니저(1203)는, 누적된 인코딩된 이미지의 개수가 지정된 개수(K) 미만인 경우에는, 통신 환경과 연관된 BPP(예를 들어, 수학식 1에 따른 BPP)를 선택할 수 있다. 하나의 예에서, AI 스케일링 매니저(1203)는, 네트워크 예측 모듈(1201)에 기반하여 확인되는 비트레이트가 급변하는 경우(또는, 통신 환경이 급변하는 경우, 또는 패킷 손실(packet loss)가 큰 경우), 통신 환경과 연관된 BPP(예를 들어, 수학식 1에 따른 BPP)를 선택할 수 있다. 한편, 상술한 BPP의 선택 조건들은 예시적인 것으로 제한이 없다.

도 12b를 참조하면, 일 실시예에 따라서, 전자 장치(101)(예를 들어, 프로세서(120))는, 비트스트림 수신 시, 수신된 비트스트림을 디코더(1217)를 이용하여 디코딩할 수 있다. 전자 장치(101)는, 비트스트림 수신 시, AI 스케일링 매니저(1213)를 실행할 수 있다. AI 스케일링 매니저(1213)는, 업 스케일링을 위한 AI 모델(1215)의 입력값 중 일부인 비트레이트와 연관된 정보(예를 들어, BPP)(또는, 메타 정보라고 명명될 수도 있음)를 제공할 수 있다. 비트레이트는, 인코딩 과정에서 이용되는 정보로서, 기존에는 수신 측에서는 이용되지 않았다. 하지만, 일 실시예에 따른 전자 장치(101)는, 비트레이트와 연관된 정보를, AI 모델(1215)의 입력값 중 일부로서 이용할 수 있다. 이에 따라, 비트스트림을 수신하는 경우에도, 전자 장치(101)는 비트레이트와 연관된 정보(예를 들어, BPP)를 확인할 수 있다. 예를 들어, 전자 장치(101)는, 네트워크 예측 모듈(1211)로부터의 정보에 기반하여 비트레이트를 확인할 수 있다. AI 스케일링 매니저(1213)는, 비트레이트와, 확인된 프레임레이트 및 해상도를 이용하여 BPP를 확인할 수 있다. AI 스케일링 매니저(1213)는, 확인된 BPP를 업 스케일링을 위한 AI 모델(1215)로 제공할 수 있다. AI 모델(1215)은, AI 스케일링 매니저(1213)로부터 제공된 BPP 및 디코더(1217)로부터 제공된 저해상도 이미지를 입력값으로서 수신하고, 업 스케일링된 고해상도 이미지를 출력할 수 있다. 렌더러(1219)는, 고해상도 이미지를 렌더링할 수 있다. 예를 들어, 비트레이트는, 이전에 사용된 비트레이트로 설정될 수 있다. 예를 들어, 비트레이트는, 네트워크 예측 모듈(1211)에 의하여 측정된 수신 측에서의 대역폭에 기반하여 설정될 수 있다. 예를 들어, 비트레이트는, 초기에 인코더(1207)에 의하여 이용된 비트레이트가 공유되어 이용될 수도 있다.

일 실시예에 따라서, 수신 측의 AI 스케일링 매니저(1213)는, 복수의 방식 중 어느 하나의 방식으로 비트스트림과 연관된 정보(예를 들어, BPP)를 확인할 수 있다. 예를 들어, AI 스케일링 매니저(1213)는, 통신 환경과 연관된 BPP(예를 들어, 수학식 1에 따른 BPP) 또는 인코딩된 이미지의 크기의 평균과 연관된 BPP(예를 들어, 수학식 5에 따른 BPP) 중 어느 하나를 선택하여, AI 모델(1215)로 제공할 수 있다. 하나의 예에서, AI 스케일링 매니저(1213)는, 누적된 인코딩된 이미지의 개수가 지정된 개수(K) 미만인 경우에는, 통신 환경과 연관된 BPP(예를 들어, 수학식 1에 따른 BPP)를 선택할 수 있다. 디코더(1217)는 AI 스케일링 매니저(1213)로 수신된 인코딩된 프레임의 크기에 대한 정보를 제공할 수 있으며, 이에 따라 AI 스케일링 매니저(1213)는, 인코딩된 프레임의 크기에 대한 정보에 기반한 BPP(예를 들어, 수학식 5에 따른 BPP)를 확인할 수도 있다. 하나의 예에서, AI 스케일링 매니저(1213)는, 네트워크 예측 모듈(1201)에 기반하여 확인되는 비트레이트가 급변하는 경우(또는, 통신 환경이 급변하는 경우), 통신 환경과 연관된 BPP(예를 들어, 수학식 1에 따른 BPP)를 선택할 수 있다. 하나의 예에서, AI 스케일링 매니저(1213)는, 패킷 손실이 지정된 임계 손실값을 초과하는 경우, 통신 환경과 연관된 BPP(예를 들어, 수학식 1에 따른 BPP)를 선택할 수 있다. 네트워크 예측 모듈(1211)은, 패킷 손실을 확인하여 이를 AI 스케일링 매니저(1213)로 제공할 수도 있으며, 이에 따라 AI 스케일링 매니저(1213)는 패킷 손실이 지정된 임계 손실값을 초과하는지 여부를 확인할 수 있다. 한편, 상술한 BPP의 선택 조건들은 예시적인 것으로 제한이 없다.

도 13a를 참조하면, 일 실시예에 따라서, 전자 장치(101)(예를 들어, 프로세서(120))는, AI 스케일링 매니저(1301) 및 다운 스케일링을 위한 AI 모델(1302)을 실행할 수 있다. 카메라 모듈(180)에 의하여 촬영된 상대적으로 고해상도인 이미지는, AI 스케일링 매니저(1301)를 통하여 AI 모델(1302)로 제공될 수 있거나, 또는 카메라 모듈(180)로부터 AI 모델(1302)로 직접 제공될 수도 있다. AI 스케일링 매니저(1301)는, 지정된 개수(예를 들어, K라 표기하고, K는 1이상의 자연수일 수 있음)의 인코딩된 이미지의 크기의 평균값을 수신할 수 있다. AI 스케일링 매니저(1301)는, 프레임레이트 및 해상도를 포함하는 코덱 파라미터를 수신할 수 있다. AI 스케일링 매니저(1301)는, 예를 들어 평균값을 해상도로 나눈 값의 BPP(예를 들어, 수학식 5에서와 같은 BPP)를 확인할 수 있다. AI 스케일링 매니저(1301)는, 이미지 및 BPP를 AI 모델(1302)로 제공할 수 있다. AI 모델(1302)은, 이미지 및 BPP를 입력값으로서 수신하여, 저해상도 이미지를 출력할 수 있다. 한편, 도 13a에서의 실시예에서는, AI 스케일링 매니저(1301)가 평균값을 해상도로 나눈 값의 BPP를 이용하기로 선택한 경우가 설명되었지만 이는 예시적인 것이다. 예를 들어, AI 스케일링 매니저(1301)는, 기 인코딩된 이미지의 개수가 지정된 개수(K) 이상임에 기반하여 평균값을 해상도로 나눈 값의 BPP를 이용하기로 선택할 수 있으나, 만약 기 인코딩된 이미지의 개수가 지정된 개수(K) 미만인 경우에는 수학식 1과 같은 비트레이트를 프레임레이트 및 해상도의 곱으로 나눈 값(예를 들어, 수학식 1에서와 같은 BPP)을 이용하도록 설정될 수도 있다. 또는, AI 스케일링 매니저(1301)는, 비트레이트가 급변되지 않음에 기반하여 평균값을 해상도로 나눈 값의 BPP를 이용하기로 선택할 수 있으나, 만약 비트레이트가 급변하는 경우에는 수학식 1과 같은 비트레이트를 프레임레이트 및 해상도의 곱으로 나눈 값(예를 들어, 수학식 1에서와 같은 BPP)을 이용하도록 설정될 수도 있다.

도 13b를 참조하면, 일 실시예에 따라서, 전자 장치(101)(예를 들어, 프로세서(120))는, AI 스케일링 매니저(1321) 및 업 스케일링을 위한 AI 모델(1323)을 실행할 수 있다. AI 모델(1323)은, 상대적으로 저해상도인 이미지를 수신할 수 있다. 예를 들어, AI 모델(1323)은, 디코더에 의하여 디코딩된 상대적으로 저해상도인 이미지를 수신할 수 있다. AI 스케일링 매니저(1321)는, 지정된 개수(예를 들어, K라 표기하고, K는 1이상의 자연수일 수 있음)의 인코딩된 이미지의 크기의 평균값을 수신할 수 있다. 예를 들어, 디코더는, 수신된 인코딩된 이미지(또는, 비트스트림)의 크기를 확인하여 AI 스케일링 매니저(1321)로 제공하거나, 또는 평균값을 확인하여 AI 스케일링 매니저(1321)로 제공할 수도 있다. 만약, 디코더로부터 수신된 인코딩된 이미지(또는, 비트스트림)의 크기가 수신되는 경우에는, AI 스케일링 매니저(1321)가 평균값을 확인하도록 설정될 수도 있음을 당업자는 이해할 것이다. AI 스케일링 매니저(1321)는, 프레임레이트 및 해상도를 포함하는 코덱 파라미터를 수신할 수 있다. AI 스케일링 매니저(1321)는, 예측된 비트레이트를 수신할 수 있다.

일 실시예에 따라서, AI 스케일링 매니저(1321)는, 패킷 손실율이 임계 손실율(Th)을 초과하는 지 여부를 확인할 수 있다. 만약, 패킷 손실율이 상대적으로 큰 경우에는, 송신 측에서 이용된 지정된 개수(K)에 대한 평균값과, 수신측에서 이용된 지정된 개수(K)에 대한 평균값이 차이가 발생할 가능성이 있다. 이에 따라, 패킷 손실율이 임계 손실율(Th)을 초과하는 경우(1322-Yes), AI 스케일링 매니저(1321)는 비트레이트를 프레임레이트 및 해상도의 곱으로 나눈 값(예를 들어, 수학식 1에 따른 BPP)을 AI 모델(1323)의 입력값의 일부로서 제공할 수 있다. 만약, 패킷 손실율이 임계 손실율(Th) 이하인 경우(1322-No), AI 스케일링 매니저(1321)는 평균값을 해상도로 나눈값(예를 들어 수학식 5에 따른 BPP)을 AI 모델(1323)의 입력값의 일부로서 제공할 수 있다. 이에 따라, AI 모델(1323)은, 이미지 및 BPP를 입력값으로서 수신할 수 있으며, 이에 대응하는 고해상도 이미지를 제공할 수 있다.

일 실시예에 따라서, 전자 장치(101)는, 메모리(130), 카메라 모듈(180), 통신 모듈(190), 및 상기 메모리(130), 상기 카메라 모듈(180) 및 상기 통신 모듈(190)에 동작적으로 연결된 적어도 하나의 프로세서(120)를 포함할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 통신 모듈(190)에 기반하여, 네트워크와 콜(call)의 연결(connection)을 수립하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 카메라 모듈(180)에 기반하여 촬영된 제 1 이미지를 확인하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 네트워크와 상기 전자 장치(101) 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 고해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 저해상도 이미지를 출력하도록 트레이닝된 다운 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 통신 모듈(190)에 기반하여, 상기 콜의 연결을 통하여, 상기 제 2 이미지를 송신하도록 야기할 수 있다.

일 실시예에 따라서, 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 1 이미지에 대응하는 상기 제 1 비트레이트와 연관된 상기 제 1 정보를 확인하는 동작의 적어도 일부로, 상기 제 1 비트레이트를, 상기 제 1 이미지와 연관된 제 1 프레임레이트 및 상기 제 1 이미지와 연관된 해상도의 곱으로 나눈 제 1 BPP(bit per pixel)을 상기 제 1 정보로서 확인하도록 야기할 수 있다.

일 실시예에 따라서, 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 1 이미지에 대응하는 상기 제 1 비트레이트와 연관된 상기 제 1 정보를 확인하는 동작의 적어도 일부로, 적어도 하나의 제 1 조건이 만족됨에 기반하여, 상기 제 1 BPP를 상기 제 1 비트레이트와 연관된 상기 제 1 정보로서 확인하도록 야기할 수 있다.

일 실시예에 따라서, 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 1 이미지에 대응하는 상기 제 1 비트레이트와 연관된 상기 제 1 정보를 확인하는 동작의 적어도 일부로, 상기 적어도 하나의 제 1 조건과 상이한 적어도 하나의 제 2 조건이 만족되거나 또는 상기 적어도 하나의 제 1 조건이 만족되지 않음에 기반하여, 지정된 개수의 기 인코딩된 이미지의 크기의 평균을 상기 해상도로 나눈 제 2 BPP를 상기 제 1 정보로서 확인하도록 야기할 수 있다.

일 실시예에 따라서, 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 2 이미지를 송신하는 동작의 적어도 일부로, 상기 제 2 이미지를 인코딩하여 비트스트림을 생성하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 2 이미지를 송신하는 동작의 적어도 일부로, 상기 비트스트림을 상기 콜의 연결을 통하여 송신하도록 야기할 수 있다.

일 실시예에 따라서, 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 단방향 딜레이(one way delay), 인지된 비트레이트(perceived bitrate), 패킷 손실율(packet loss rate), 또는 대역폭(bandwidth) 중 적어도 하나에 기반하여, 상기 통신 환경을 확인하도록 야기할 수 있다.

일 실시예에 따라서, 상기 다운 스케일링을 위한 인공지능 모델은, 상기 제 1 이미지의 피처(feature)를 추출하는 제 1 부분, 상기 제 1 정보의 피처를 추출하는 제 2 부분, 상기 제 1 이미지의 피처 및 상기 제 1 정보의 피처를 교차 곱셈하는 곱셈기, 상기 곱셈기의 교차 곱셈의 결과의 인핸싱 및 레지듀얼 이미지 구성을 위한 제 3 부분, 상기 제 1 이미지를 다운 스케일링하기 위한 제 4 부분 및 상기 제 3 부분의 출력 결과 및 상기 제 4 부분의 출력 결과를 합산하는 합산기를 포함할 수 있다. 상기 합산기의 합산 결과가 상기 제 2 이미지로서 제공될 수 있다.

일 실시예에 따라서, 상기 다운 스케일링을 위한 인공지능 모델은, ResNet일 수 있다. 상기 제 1 부분은 적어도 하나의 컨볼루션 레이어를 포함할 수 있다. 상기 제 2 부분은 DenseNet일 수 있다. 상기 제 3 부분은 적어도 하나의 컨볼루션 레이어를 포함할 수 있다. 상기 제 4 부분은 Bicubic 다운 스케일러일 수 있다.

일 실시예에 따라서, 전자 장치(101)의 동작 방법은, 상기 전자 장치(101)의 통신 모듈(190)에 기반하여, 네트워크와 콜의 연결을 수립하는 동작을 포함할 수 있다. 상기 전자 장치(101)의 동작 방법은, 상기 전자 장치(101)의 카메라 모듈(180)에 기반하여 촬영된 제 1 이미지를 확인하는 동작을 포함할 수 있다. 상기 전자 장치(101)의 동작 방법은, 상기 네트워크와 상기 전자 장치(101) 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하는 동작을 포함할 수 있다. 상기 전자 장치(101)의 동작 방법은, 고해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 저해상도 이미지를 출력하도록 트레이닝된 다운 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하는 동작을 포함할 수 있다. 상기 전자 장치(101)의 동작 방법은, 상기 전자 장치(101)의 통신 모듈(190)에 기반하여, 상기 콜의 연결을 통하여, 상기 제 2 이미지를 송신하는 동작을 포함할 수 있다.

일 실시예에 따라서, 컴퓨터로 독출 가능한 적어도 하나의 인스트럭션을 저장하는 저장 매체에 있어서, 상기 적어도 하나의 인스트럭션은 전자 장치(101)의 적어도 하나의 프로세서(120)에 의하여 실행 시에, 상기 전자 장치(101)로 하여금 적어도 하나의 동작을 수행하도록 야기할 수 있다. 상기 적어도 하나의 동작은, 상기 전자 장치(101)의 통신 모듈(190)에 기반하여, 네트워크와 콜의 연결을 수립하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 전자 장치(101)의 카메라 모듈(180)에 기반하여 촬영된 제 1 이미지를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 네트워크와 상기 전자 장치(101) 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 고해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 저해상도 이미지를 출력하도록 트레이닝된 다운 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 전자 장치(101)의 통신 모듈(190)에 기반하여, 상기 콜의 연결을 통하여, 상기 제 2 이미지를 송신하는 동작을 포함할 수 있다.

일 실시예에 따라서, 전자 장치(101)는, 메모리(130), 디스플레이 모듈, 통신 모듈(190), 및 상기 메모리(130), 상기 디스플레이 모듈 및 상기 통신 모듈(190)에 동작적으로 연결된 적어도 하나의 프로세서(120)를 포함할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 통신 모듈(190)에 기반하여, 네트워크와 콜(call)의 연결(connection)을 수립하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 통신 모듈(190)에 기반하여, 상기 콜의 연결을 통하여, 제 1 이미지를 수신하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 네트워크와 상기 전자 장치(101) 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 저해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 고해상도 이미지를 출력하도록 트레이닝된 업 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 2 이미지의 적어도 일부를 표시하도록 상기 디스플레이 모듈을 제어하도록 야기할 수 있다.

일 실시예에 따라서, 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 1 이미지를 수신하는 동작의 적어도 일부로, 상기 콜의 연결을 통하여 비트스트림을 수신하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 1 이미지를 수신하는 동작의 적어도 일부로, 상기 비트스트림을 디코딩하여 상기 제 1 이미지를 확인하도록 야기할 수 있다.

일 실시예에 따라서, 상기 업 스케일링을 위한 인공지능 모델은, 상기 제 1 이미지의 피처(feature)를 추출하는 제 1 부분, 상기 제 1 정보의 피처를 추출하는 제 2 부분, 상기 제 1 이미지의 피처 및 상기 제 1 정보의 피처를 교차 곱셈하는 곱셈기, 상기 곱셈기의 교차 곱셈의 결과의 인핸싱 및 레지듀얼 이미지 구성을 위한 제 3 부분, 상기 제 1 이미지를 업 스케일링하기 위한 제 4 부분 및 상기 제 3 부분의 출력 결과 및 상기 제 4 부분의 출력 결과를 합산하는 합산기를 포함할 수 있다. 상기 합산기의 합산 결과가 상기 제 2 이미지로서 제공될 수 있다.

일 실시예에 따라서, 전자 장치(101)의 동작 방법은, 상기 통신 모듈(190)에 기반하여, 네트워크와 콜(call)의 연결(connection)을 수립하는 동작을 포함할 수 있다. 전자 장치(101)의 동작 방법은, 상기 전자 장치(101)의 통신 모듈(190)에 기반하여, 상기 콜의 연결을 통하여, 제 1 이미지를 수신하는 동작을 포함할 수 있다. 전자 장치(101)의 동작 방법은, 상기 네트워크와 상기 전자 장치(101) 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하는 동작을 포함할 수 있다. 전자 장치(101)의 동작 방법은, 저해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 고해상도 이미지를 출력하도록 트레이닝된 업 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하는 동작을 포함할 수 있다. 전자 장치(101)의 동작 방법은, 상기 제 2 이미지의 적어도 일부를 표시하도록 상기 전자 장치(101)의 디스플레이 모듈을 제어하는 동작을 포함할 수 있다.

일 실시예에 따라서, 컴퓨터로 독출 가능한 적어도 하나의 인스트럭션을 저장하는 저장 매체에 있어서, 상기 적어도 하나의 인스트럭션은 전자 장치(101)의 적어도 하나의 프로세서(120)에 의하여 실행 시에, 상기 전자 장치(101)로 하여금 적어도 하나의 동작을 수행하도록 야기할 수 있다. 상기 적어도 하나의 동작은, 상기 전자 장치(101)의 통신 모듈(190)에 기반하여, 상기 콜의 연결을 통하여, 제 1 이미지를 수신하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 네트워크와 상기 전자 장치(101) 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 저해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 고해상도 이미지를 출력하도록 트레이닝된 업 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 제 2 이미지의 적어도 일부를 표시하도록 상기 전자 장치(101)의 디스플레이 모듈을 제어하는 동작을 포함할 수 있다.

일 실시예에 따라서, 상기 비트레이트와 연관된 제 1 정보는, 상기 비트레이트를, 상기 제 1 이미지와 연관된 제 1 프레임레이트 및 상기 제 1 이미지와 연관된 해상도의 곱으로 나눈 BPP(bit per pixel)일 수 있다.

일 실시예에 따라서, 상기 트레이닝 방법은, 상기 제 1 이미지 및 상기 제 1 정보를 상기 제 1 AI 모델로 입력함에 기반하여, 상기 제 1 AI 모델로부터 출력되는 저해상도 이미지인 제 5 이미지를 확인하는 동작을 더 포함할 수 있다. 상기 트레이닝 방법은, 상기 제 5 이미지를 인코딩하고, 상기 인코딩의 결과를 디코딩하여 제 6 이미지를 확인하는 동작을 더 포함할 수 있다. 상기 트레이닝 방법은, 상기 제 6 이미지 및 상기 제 1 정보를 상기 제 2 AI 모델로 입력함에 기반하여, 상기 제 2 AI 모델로부터 출력되는 고해상도 이미지인 제 7 이미지를 확인하는 동작을 더 포함할 수 있다. 상기 트레이닝 방법은, 상기 제 1 이미지를 인핸싱한 제 8 이미지를 확인하는 동작을 더 포함할 수 있다. 상기 트레이닝 방법은, 상기 제 7 이미지 및 상기 제 8 이미지에 기반하여 전체 손실을 확인하는 동작을 더 포함할 수 있다. 상기 트레이닝 방법은, 상기 전체 손실에 기반하여, 상기 제 2 AI 모델을 트레이닝하는 동작을 더 포함할 수 있다.

일 실시예에 따라서, 상기 제 2 이미지 및 상기 제 4 이미지에 대응하는 제 2 손실은, 상기 제 2 이미지 및 상기 제 4 이미지를 인핸싱한 이미지 사이의 손실일 수 있다.

일 실시예에 따라서, 다운 스케일링을 위한 제 1 AI 모델 및 업 스케일링을 위한 제 2 AI 모델을 트레이닝하기 위한 전자 장치(101)는, 메모리(130) 및 적어도 하나의 프로세서(120)를 포함한다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 고해상도 이미지인 제 1 이미지, 및 비트레이트와 연관된 제 1 정보를 포함하는 트레이닝 데이터를 확인하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 1 이미지 및 상기 제 1 정보를 상기 제 1 AI 모델로 입력함에 기반하여, 상기 제 1 AI 모델로부터 출력되는 저해상도 이미지인 제 2 이미지를 확인하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 2 이미지 및 상기 제 1 정보를 상기 제 2 AI 모델로 입력함에 기반하여, 상기 제 2 AI 모델로부터 출력되는 고해상도 이미지인 제 3 이미지를 확인하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 1 이미지를 다운 스케일링하여 제 4 이미지를 확인하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 4 이미지를 인핸싱하여 제 5 이미지를 확인하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 1 이미지 및 상기 제 3 이미지에 대응하는 제 1 손실 및 상기 제 2 이미지 및 상기 제 5 이미지에 대응하는 제 2 손실에 기반하여 전체 손실을 확인하도록 야기할 수 있다. 상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 전체 손실에 기반하여, 상기 제 1 AI 모델 및 상기 제 2 AI 모델의 적어도 일부를 트레이닝하도록 야기할 수 있다.

일 실시예에 따라서, 컴퓨터로 독출 가능한 적어도 하나의 인스트럭션을 저장하는 저장 매체에 있어서, 상기 적어도 하나의 인스트럭션은 전자 장치(101)의 적어도 하나의 프로세서(120)에 의하여 실행 시에, 상기 전자 장치(101)로 하여금 적어도 하나의 동작을 수행하도록 야기할 수 있다. 상기 적어도 하나의 동작은, 고해상도 이미지인 제 1 이미지, 및 비트레이트와 연관된 제 1 정보를 포함하는 트레이닝 데이터를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 제 1 이미지 및 상기 제 1 정보를 다운 스케일링을 위한 제 1 AI 모델로 입력함에 기반하여, 상기 제 1 AI 모델로부터 출력되는 저해상도 이미지인 제 2 이미지를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 제 2 이미지 및 상기 제 1 정보를 업 스케일링을 위한 제 2 AI 모델로 입력함에 기반하여, 상기 제 2 AI 모델로부터 출력되는 고해상도 이미지인 제 3 이미지를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 제 1 이미지를 다운 스케일링하여 제 4 이미지를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 제 4 이미지를 인핸싱하여 제 5 이미지를 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 제 1 이미지 및 상기 제 3 이미지에 대응하는 제 1 손실 및 상기 제 2 이미지 및 상기 제 5 이미지에 대응하는 제 2 손실에 기반하여 전체 손실을 확인하는 동작을 포함할 수 있다. 상기 적어도 하나의 동작은, 상기 전체 손실에 기반하여, 상기 제 1 AI 모델 및 상기 제 2 AI 모델의 적어도 일부를 트레이닝하는 동작을 포함할 수 있다.

본 문서에 개시된 일 실시예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치(예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.

본 문서의 일 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에, "기능적으로" 또는 "통신적으로"라는 용어와 함께 또는 이런 용어 없이, "커플드" 또는 "커넥티드"라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제 3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.

본 문서의 일 실시예들에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로와 같은 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.

본 문서의 일 실시예들은 기기(machine)(예: 전자 장치(101)) 의해 읽을 수 있는 저장 매체(storage medium)(예: 내장 메모리(136) 또는 외장 메모리(138))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램(140))로서 구현될 수 있다. 예를 들면, 기기(예: 전자 장치(101))의 프로세서(예: 프로세서(120))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.

일실시예에 따르면, 본 문서에 개시된 일 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory(CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어^TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트 폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

일 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있으며, 복수의 개체 중 일부는 다른 구성요소에 분리 배치될 수도 있다. 일 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 일 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims

전자 장치(101)에 있어서,

메모리(130);

카메라 모듈(180);

통신 모듈(190); 및

상기 메모리(130), 상기 카메라 모듈(180) 및 상기 통신 모듈(190)에 동작적으로 연결된 적어도 하나의 프로세서(120)를 포함하고,

상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금:

상기 통신 모듈(190)에 기반하여, 네트워크와 콜(call)의 연결(connection)을 수립하고,

상기 카메라 모듈(180)에 기반하여 촬영된 제 1 이미지를 확인하고,

상기 네트워크와 상기 전자 장치(101) 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하고,

고해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 저해상도 이미지를 출력하도록 트레이닝된 다운 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하고,

상기 통신 모듈(190)에 기반하여, 상기 콜의 연결을 통하여, 상기 제 2 이미지를 송신하도록 야기하는 전자 장치(101).
제 1 항에 있어서,

상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 1 이미지에 대응하는 상기 제 1 비트레이트와 연관된 상기 제 1 정보를 확인하는 동작의 적어도 일부로:

상기 제 1 비트레이트를, 상기 제 1 이미지와 연관된 제 1 프레임레이트 및 상기 제 1 이미지와 연관된 해상도의 곱으로 나눈 제 1 BPP(bit per pixel)을 상기 제 1 정보로서 확인하도록 야기하는 전자 장치(101).
제 1 항 내지 제 2 항 중 어느 하나에 있어서,

상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 1 이미지에 대응하는 상기 제 1 비트레이트와 연관된 상기 제 1 정보를 확인하는 동작의 적어도 일부로:

적어도 하나의 제 1 조건이 만족됨에 기반하여, 상기 제 1 BPP를 상기 제 1 비트레이트와 연관된 상기 제 1 정보로서 확인하도록 야기하는 전자 장치(101).
제 1 항 내지 제 3 항 중 어느 하나에 있어서,

상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 1 이미지에 대응하는 상기 제 1 비트레이트와 연관된 상기 제 1 정보를 확인하는 동작의 적어도 일부로:

상기 적어도 하나의 제 1 조건과 상이한 적어도 하나의 제 2 조건이 만족되거나 또는 상기 적어도 하나의 제 1 조건이 만족되지 않음에 기반하여, 지정된 개수의 기 인코딩된 이미지의 크기의 평균을 상기 해상도로 나눈 제 2 BPP를 상기 제 1 정보로서 확인하도록 야기하는 전자 장치(101).
제 1 항 내지 제 4 항 중 어느 하나에 있어서,

상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금, 상기 제 2 이미지를 송신하는 동작의 적어도 일부로,

상기 제 2 이미지를 인코딩하여 비트스트림을 생성하고,

상기 비트스트림을 상기 콜의 연결을 통하여 송신하도록 야기하는 전자 장치(101).
제 1 항 내지 제 5 항 중 어느 하나에 있어서,

상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금:

단방향 딜레이(one way delay), 인지된 비트레이트(perceived bitrate), 패킷 손실율(packet loss rate), 또는 대역폭(bandwidth) 중 적어도 하나에 기반하여, 상기 통신 환경을 확인하도록 야기하는 전자 장치(101).
제 1 항 내지 제 6 항 중 어느 하나에 있어서,

상기 다운 스케일링을 위한 인공지능 모델은,

상기 제 1 이미지의 피처(feature)를 추출하는 제 1 부분, 상기 제 1 정보의 피처를 추출하는 제 2 부분, 상기 제 1 이미지의 피처 및 상기 제 1 정보의 피처를 교차 곱셈하는 곱셈기, 상기 곱셈기의 교차 곱셈의 결과의 인핸싱 및 레지듀얼 이미지 구성을 위한 제 3 부분, 상기 제 1 이미지를 다운 스케일링하기 위한 제 4 부분 및 상기 제 3 부분의 출력 결과 및 상기 제 4 부분의 출력 결과를 합산하는 합산기를 포함하고,

상기 합산기의 합산 결과가 상기 제 2 이미지로서 제공되는 전자 장치(101).
제 1 항 내지 제 7 항 중 어느 하나에 있어서,

상기 다운 스케일링을 위한 인공지능 모델은, ResNet이며,

상기 제 1 부분은 적어도 하나의 컨볼루션 레이어를 포함하고,

상기 제 2 부분은 DenseNet이며,

상기 제 3 부분은 적어도 하나의 컨볼루션 레이어를 포함하고,

상기 제 4 부분은 Bicubic 다운 스케일러인 전자 장치(101).
제 1 항 내지 제 8 항 중 어느 하나에 있어서,

상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금,

고해상도 이미지인 제 1 이미지, 및 비트레이트와 연관된 제 1 정보를 포함하는 트레이닝 데이터를 확인하고,

상기 제 1 이미지 및 상기 제 1 정보를 다운 스케일링을 위한 제 1 AI 모델로 입력함에 기반하여, 상기 제 1 AI 모델로부터 출력되는 저해상도 이미지인 제 2 이미지를 확인하고,

상기 제 2 이미지 및 상기 제 1 정보를 업 스케일링을 위한 제 2 AI 모델로 입력함에 기반하여, 상기 제 2 AI 모델로부터 출력되는 고해상도 이미지인 제 3 이미지를 확인하고,

상기 제 1 이미지를 다운 스케일링하여 제 4 이미지를 확인하고,

상기 제 1 이미지 및 상기 제 3 이미지에 대응하는 제 1 손실 및 상기 제 2 이미지 및 상기 제 4 이미지에 대응하는 제 2 손실에 기반하여 전체 손실을 확인하고,

상기 전체 손실에 기반하여, 상기 제 1 AI 모델 및 상기 제 2 AI 모델의 적어도 일부를 트레이닝하도록 야기하는, 전자 장치(101).
제 1 항 내지 제 9 항 중 어느 하나에 있어서,

상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금,

상기 제 1 이미지 및 상기 제 1 정보를 상기 제 1 AI 모델로 입력함에 기반하여, 상기 제 1 AI 모델로부터 출력되는 저해상도 이미지인 제 5 이미지를 확인하고,

상기 제 5 이미지를 인코딩하고, 상기 인코딩의 결과를 디코딩하여 제 6 이미지를 확인하고,

상기 제 6 이미지 및 상기 제 1 정보를 상기 제 2 AI 모델로 입력함에 기반하여, 상기 제 2 AI 모델로부터 출력되는 고해상도 이미지인 제 7 이미지를 확인하고,

상기 제 1 이미지를 인핸싱한 제 8 이미지를 확인하고,

상기 제 7 이미지 및 상기 제 8 이미지에 기반하여 전체 손실을 확인하고,

상기 전체 손실에 기반하여, 상기 제 2 AI 모델을 트레이닝하도록 야기하는, 전자 장치(101).
전자 장치(101)에 있어서,

메모리(130);

디스플레이 모듈;

통신 모듈(190); 및

상기 메모리(130), 상기 디스플레이 모듈 및 상기 통신 모듈(190)에 동작적으로 연결된 적어도 하나의 프로세서(120)를 포함하고,

상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금:

상기 통신 모듈(190)에 기반하여, 네트워크와 콜(call)의 연결(connection)을 수립하고,

상기 통신 모듈(190)에 기반하여, 상기 콜의 연결을 통하여, 제 1 이미지를 수신하고,

상기 네트워크와 상기 전자 장치(101) 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하고,

저해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 고해상도 이미지를 출력하도록 트레이닝된 업 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하고,

상기 제 2 이미지의 적어도 일부를 표시하도록 상기 디스플레이 모듈을 제어하도록 야기하는 전자 장치(101).
제 11 항에 있어서,

상기 메모리(130)는, 상기 적어도 하나의 프로세서(120)에 의하여 실행될 때, 상기 전자 장치(101)로 하여금:

고해상도 이미지인 제 1 이미지, 및 비트레이트와 연관된 제 1 정보를 포함하는 트레이닝 데이터를 확인하고,

상기 제 1 이미지 및 상기 제 1 정보를 다운 스케일링을 위한 제 1 AI 모델로 입력함에 기반하여, 상기 제 1 AI 모델로부터 출력되는 저해상도 이미지인 제 2 이미지를 확인하고,

상기 제 2 이미지 및 상기 제 1 정보를 상기 제 2 AI 모델로 입력함에 기반하여, 업 스케일링을 위한 제 2 AI 모델로부터 출력되는 고해상도 이미지인 제 3 이미지를 확인하고,

상기 제 1 이미지를 다운 스케일링하여 제 4 이미지를 확인하고,

상기 제 1 이미지 및 상기 제 3 이미지에 대응하는 제 1 손실 및 상기 제 2 이미지 및 상기 제 4 이미지에 대응하는 제 2 손실에 기반하여 전체 손실을 확인하고,

상기 전체 손실에 기반하여, 상기 제 1 AI 모델 및 상기 제 2 AI 모델의 적어도 일부를 트레이닝하도록 야기하는 전자 장치(101).
제 11 항 또는 제 12 항 중 어느 하나에 있어서,

상기 제 1 이미지 및 상기 제 1 정보를 상기 제 1 AI 모델로 입력함에 기반하여, 상기 제 1 AI 모델로부터 출력되는 저해상도 이미지인 제 5 이미지를 확인하고,

상기 제 5 이미지를 인코딩하고, 상기 인코딩의 결과를 디코딩하여 제 6 이미지를 확인하고,

상기 제 6 이미지 및 상기 제 1 정보를 상기 제 2 AI 모델로 입력함에 기반하여, 상기 제 2 AI 모델로부터 출력되는 고해상도 이미지인 제 7 이미지를 확인하고,

상기 제 1 이미지를 인핸싱한 제 8 이미지를 확인하고,

상기 제 7 이미지 및 상기 제 8 이미지에 기반하여 전체 손실을 확인하고,

상기 전체 손실에 기반하여, 상기 제 2 AI 모델을 트레이닝 하도록 야기하는 전자 장치(101).
제 11 항 내지 제 13 항에 있어서,

상기 제 2 이미지 및 상기 제 4 이미지에 대응하는 제 2 손실은, 상기 제 2 이미지 및 상기 제 4 이미지를 인핸싱한 이미지 사이의 손실인 전자 장치(101).
컴퓨터로 독출 가능한 적어도 하나의 인스트럭션을 저장하는 컴퓨터로 독출 가능한 하나 이상의 저장 매체에 있어서, 상기 적어도 하나의 인스트럭션은 전자 장치(101)의 적어도 하나의 프로세서(120)에 의하여 실행 시에, 상기 전자 장치(101)로 하여금 동작들을 수행하도록 야기하고, 상기 동작들은:

상기 전자 장치(101)의 통신 모듈(190)에 기반하여, 네트워크와 콜(call)의 연결(connection)을 수립하는 동작;

상기 전자 장치(101)의 카메라 모듈(180)에 기반하여 촬영된 제 1 이미지를 확인하는 동작;

상기 네트워크와 상기 전자 장치(101) 사이의 통신 환경에 기반하여, 상기 제 1 이미지에 대응하는 제 1 비트레이트와 연관된 제 1 정보를 확인하는 동작;

고해상도 이미지 및 비트레이트와 연관된 정보를 입력 값으로서 수신하여 저해상도 이미지를 출력하도록 트레이닝된 다운 스케일링을 위한 인공지능 모델에, 상기 제 1 이미지 및 상기 제 1 정보를 입력시킴으로써, 상기 인공지능 모델로부터 출력되는 상기 제 1 이미지에 대응하는 제 2 이미지를 확인하는 동작; 및

상기 통신 모듈(190)에 기반하여, 상기 콜의 연결을 통하여, 상기 제 2 이미지를 송신하는 동작을 포함하는 저장 매체.