Journal of Broadcast Engineering
[ Regular Paper ]
JOURNAL OF BROADCAST ENGINEERING - Vol. 30, No. 3, pp.418-426
ISSN: 1226-7953 (Print) 2287-9137 (Online)
Print publication date 31 May 2025
Received 12 Mar 2025 Revised 07 Apr 2025 Accepted 08 Apr 2025
DOI: https://doi.org/10.5909/JBE.2025.30.3.418

ECM 기반 서브 블록 단위 화면내 템플릿 매칭 예측 방법

강재하a) ; 임웅b) ; 최해철a),
a)국립한밭대학교 지능미디어공학과
b)한국전자통신연구원
Sub-block based Intra Template Matching Prediction for ECM
Jaeha Kanga) ; Woong Limb) ; Haechul Choia),
a)Department of Intelligence Media Engineering, Hanbat National University
b)Electronics and Telecommunications Research Institute

Correspondence to: 최해철(Haechul Choi) E-mail: choihc@hanbat.ac.kr Tel: +82-42-821-1149

Copyright © 2025 Korean Institute of Broadcast and Media Engineers. All rights reserved.
“This is an Open-Access article distributed under the terms of the Creative Commons BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited and not altered.”

초록

국제 표준 공동 그룹인 Joint Video Experts Team에서는 차세대 비디오 부호화 표준을 준비하기 위해 기술 탐색을 진행 중이며, Enhanced Compression Model (ECM) 참조 소프트웨어에 고효율 부호화 기술을 집약하고 있다. 본 논문에서는 비디오 부호화 효율을 향상시키기 위해 ECM에 채택된 기존의 화면내 템플릿 매칭 예측(Intra Template Matching Prediction, IntraTMP) 기술을 개선하는 방법을 제안한다. IntraTMP 기술은 현재 부호화하려는 블록 주변의 복원된 화소로 구성된 템플릿을 사용하여, 현재 영상의 복원된 영역 내에서 유사한 참조 블록을 탐색하는 기술이다. 이는 높은 부호화 효율을 갖지만, 현재 블록의 우하단 화소와 같이 화소 위치가 템플릿과 멀수록 예측 정확도가 낮아질 수 있다는 한계점을 갖는다. 이를 개선하기 위해, 제안 방법은 현재 부호화 중인 블록을 분할하고, 각 서브 블록마다 별도 템플릿을 구성 및 탐색함으로써 정밀한 참조 블록을 찾고 예측 정확도를 높인다. ECM-10.0 기반 실험 결과, All Intra 부호화 조건에서 평균 약 0.01%의 BD-Rate 이득을 보인다.

Abstract

The Joint Video Experts Team, an international standardization group, is conducting technology exploration for the next-generation video coding standard and integrating high-efficiency coding tools into the Enhanced Compression Model (ECM) reference software. This paper proposes an improved Intra Template Matching Prediction (IntraTMP) method adopted in ECM to enhance video coding efficiency. IntraTMP predicts the current block by searching for similar reference blocks within the reconstruction area of the current frame using a template composed of reconstructed pixels neighboring the current block. While this approach provides high coding efficiency, it has a limitation where prediction accuracy decreases for pixels farther from the template, such as the lower-right pixels of the current block. To address this issue, the proposed method divides the current block into sub-blocks, constructs separate templates for each sub-block, and performs independent searches to identify precise reference blocks, thereby improving prediction accuracy. Experimental results based on ECM-10.0 demonstrate an average BD-Rate gain of approximately 0.01% under All Intra coding conditions.

Keywords:

Video Compression, Intra Prediction, Intra Template Matching, Enhanced Compression Model

Ⅰ. 서 론

최근 디지털 미디어 콘텐츠의 증가와 비디오 산업의 빠른 성장으로 고품질 동영상 수요가 크게 확대되어 효율적인 비디오 압축 기술의 중요성은 더욱 부각되고 있다. ISO/IEC JTC 1/SC 29 (Moving Picture Experts Group)과 ITU-T Q.6/SG16의 Video Coding Experts Group은 이러한 요구를 충족시키기 위해, 공동 그룹인 Joint Video Experts Team (JVET)을 구성하여 새로운 비디오 부호화 표준의 개발을 주도하고 있다. JVET은 2020년에 Versatile Video Coding (VVC) 비디오 부호화 표준[1]을 성공적으로 제정한 이후, 이를 뛰어넘는 차세대 비디오 부호화 기술을 탐색하고 있으며 현재 Enhanced Compression Model (ECM) 참조 소프트웨어를 기반으로 다양한 신기술을 개발 중이다.

ECM-10.0[2]은 VVC 대비, 모든 프레임을 독립적으로 부호화하는 All Intra 부호화 조건에서 약 12.49%, 높은 압축 효율과 임의 접근을 지원하는 Random Access 조건에서 약 22.23%의 부호화 이득을 보인다[3]. ECM은 VVC보다 다양한 고효율 압축 기술을 포함하여 상당한 부호화 이득을 달성했으며, 특히 화면내 예측 기술의 성능이 대폭 향상되었다. 본 논문에서는 그중에서도 높은 부호화 효율을 갖는 화면내 템플릿 매칭 예측(Intra Template Matching Prediction, IntraTMP)[4] 기술에 주목한다.

IntraTMP 기술은 부호화하려는 현재 블록의 주변 템플릿을 이용하여 현재 프레임의 복원된 영역에 대해 템플릿 매칭으로 블록 벡터(Block Vector, BV)를 선정한 후, 이 블록 벡터가 지시하는 참조 블록을 예측 신호로 사용하는 방식을 취한다. 이는 인코더와 디코더에서 템플릿 매칭 알고리즘을 수행하여 동일한 블록 벡터를 유도할 수 있어 블록 벡터를 위한 추가 정보 전송 없이 현재 블록과 유사한 참조 블록을 예측으로 사용할 수 있는 부호화 기술이다. 그림 1은 이러한 템플릿 탐색 방법을 나타낸다. 그러나 템플릿 기반 탐색 방법은, 현재 부호화 하려는 블록 내에서 템플릿과 거리가 가까운 화소는 비교적 정확한 예측이 가능한 반면, 거리가 멀어질수록 예측 정확도가 떨어질 수 있다는 한계점이 존재한다.

Fig. 1.

Template Matching Method for IntraTMP

따라서 템플릿과 멀리 떨어진 현재 블록 내의 화소 값을 정확하게 예측하기 위해 현재 부호화 중인 블록을 분할하여 서브 블록으로 구성한 후, 서브 블록 단위로 템플릿 탐색을 수행하면 템플릿과 부호화 하려는 화소 간의 거리를 줄일 수 있으므로 부호화 효율이 증가할 수 있을 것이다. 이처럼 정확한 예측을 제공하면서도 추가적인 정보 전송 없이 부호화 효율을 향상시키기 위해, 기존 IntraTMP 과정에 추가적으로 두 가지 과정을 제안한다. 첫째, 현재 블록의 모든 서브 블록이 공유할 블록 벡터를 선정하기 위해 기존 IntraTMP 방법으로 템플릿 매칭을 수행하고, 이를 통해 얻은 블록 벡터를 기준 블록 벡터로 정한다. 이후 현재 블록을 분할하여 얻은 각 서브 블록에 대해 개별적으로 템플릿 매칭을 수행한다. 둘째, 서브 블록 단위로 탐색한 예측 블록과 기준 블록 벡터가 지시하는 예측 블록 중 실제 예측에 활용할 블록을 템플릿 비용 비교를 통해 적응적으로 결정한다. 이때, 서브 블록 단위로 찾은 예측 블록을 활용하는 것으로 결정되면 서브 블록 간의 경계에 불연속성이 발생할 수 있다. 이를 보완하기 위해 기준 블록 벡터가 지시하는 블록 단위의 예측 신호와 서브 블록 단위의 예측 신호를 혼합하여 사용한다. 이를 통해 제안 방법을 적응적으로 적용할 수 있으며, 서브 블록 간의 불연속성을 효과적으로 완화할 수 있다.


Ⅱ. 제안 방법

1. 제안 방법의 개요

본 논문의 제안 방법은 현재 부호화하려는 블록과 유사한 예측 블록을 생성하여 현재 블록과의 차분 신호를 줄이고, 이를 통해 전송되는 비트량을 감소시킴으로써 부호화 효율을 향상시키는 것을 목표로 한다. 이를 위해 템플릿 매칭을 통한 예측을 서브 블록 단위로 수행하는 방법을 제안하며, 제안 방법은 다음 총 3가지 단계로 구성된다.

먼저, 1단계에서는 기존 IntraTMP의 과정을 수행한다. 구체적으로, 사전 정의된 탐색 영역 내에서 현재 블록의 템플릿과 가장 유사한 템플릿의 위치를 찾기 위해 3개 화소 단위로 이동하며 탐색한다[5]. 이때 현재 블록의 템플릿과 참조 블록의 템플릿 간의 Sum of Absolute Differences (SAD)를 계산하여 유사도를 측정하며, 이 값이 낮은 순서대로 최대 30개의 블록 벡터가 담긴 후보 리스트를 구성한다[6]. 이처럼 구성된 블록 벡터 후보 리스트는 3개 화소 단위의 거친 탐색(Rough Search)으로 얻기 때문에, 각 블록 벡터의 주변 3 × 3 영역에서는 유사도가 탐색되지 않는다. 따라서 더욱 정밀한 후보 리스트 구성을 위해, 각 블록 벡터 주변 3 × 3 영역에 대해 추가적으로 세밀한 템플릿 탐색을 수행하여 최종적으로 19개의 블록 벡터 후보 리스트를 구성한다. 이러한 후보 리스트 구성 방법은 인코더와 디코더에서 동일하게 수행되며, 인코더에서는 Rate-Distortion Optimization (RDO)[7] 과정에서 최종 선택된 블록 벡터의 인덱스만 전송한다. 디코더는 인코더와 동일한 과정을 통해 후보 리스트를 구성하고, 그 후보 리스트에서 인코더로부터 전송된 블록 벡터의 인덱스로 최종 선택된 블록 벡터를 알 수 있다. 본 논문에서는 현재 블록에 대해 최종 선택된 블록 벡터를 기준 블록 벡터로 부른다.

2단계에서는 앞서 구성된 19개의 블록 벡터 후보 리스트에 대해 RDO 과정을 통해 실제로 예측 블록을 생성해보며 어떤 블록 벡터가 우수한지 경쟁한다. 이 과정에서 그림 2와 같이 현재 부호화 중인 블록을 분할하여 서브 블록 단위로 템플릿 매칭을 수행하고, 서브 블록에 최적화된 참조 블록으로 예측을 수행한다. 이때 서브 블록으로 분할하는 방법은 현재 블록을 동일한 크기의 4개 서브 블록으로 나누며, 2행 2열의 형태로 배치된다. 그림 2에서 Base BV는 기준 블록 벡터, Sub-block BV는 서브 블록의 블록 벡터, Search Range는 서브 블록 단위로 최적의 블록 벡터를 찾을 때 탐색 영역, Current CU는 현재 부호화하려는 블록, Left top sub-block과 Right top sub-block은 현재 블록을 동일한 크기로 4등분 했을 때 각각 좌상단 서브 블록과 우상단 서브 블록을 나타낸다. 이 서브 블록 단위의 템플릿 매칭을 통해 템플릿과 예측 블록 내부의 거리가 줄어 예측 정확도를 높일 수 있다. 2단계의 구체적인 방법은 2-2절에서 설명한다.

Fig. 2.

Sub-block based template matching method

3단계는 제안 방법을 적응적으로 활용할 수 있도록 서브 블록 단위로 찾은 참조 블록들의 템플릿 비용과 기준 블록 벡터가 지시하는 참조 블록의 템플릿 비용을 비교한다. 비교한 결과, 서브 블록 단위로 찾은 참조 블록들의 템플릿 비용이 우수할 때, 이 참조 블록들을 예측에 활용하는 것으로 결정한다. 이때 서브 블록 단위로 찾은 예측 블록들을 하나의 CU로 구성함에 따라 서브 블록간 경계의 불연속성이 발생할 수 있다. 이러한 불연속성 문제를 해결하기 위해, 제안 방법은 2단계에서 예측한 서브 블록과 1단계에서 찾은 기존 IntraTMP의 예측 블록을 혼합하여 현재 CU의 최종 예측으로 사용한다. 여러 예측 블록을 효과적으로 혼합하면 잡음이 적은 예측을 생성할 수 있으며, 결과적으로 차분 신호의 크기를 줄여 더욱 효율적인 압축을 가능하게 한다. 3단계의 구체적인 방법은 2-3절에서 설명한다.

2. 서브 블록 단위 템플릿 구성 및 블록 벡터 탐색

1단계에서 블록 벡터 후보 리스트를 구성하면, RDO 과정에서 후보 리스트 상의 모든 블록 벡터에 대하여 제안 방법을 수행한다. 이때, 리스트 상의 블록 벡터를 기준 블록 벡터로 사용하며, 제안 방법을 통해 이를 각 서브 블록에 최적화된 블록 벡터로 보정하여 부호화 효율을 개선한다.

서브 블록 단위 템플릿 매칭을 수행하기 위해서는 먼저 서브 블록 단위로 템플릿을 구성하는 단계가 선행되어야 한다. 서브 블록 단위의 템플릿 구성 방법은 기존 IntraTMP에서 사용하는 템플릿 구성 방법과 유사하나, 좌상단 서브 블록을 제외한 모든 서브 블록에서는 템플릿 구성 시에 필요한 주변 복원 화소가 가용하지 않을 수 있다. 이러한 경우는 기준 블록 벡터가 지시하는 참조 블록에서 대응 위치의 화소 값을 이용하여 템플릿을 구성한다. 예를 들면, 좌상단에 위치한 서브 블록은 주변에 복원된 화소가 모두 존재하여 템플릿 구성에 어려움이 없다. 그러나 그림 3과 같이 우상단 서브 블록의 경우, 상단 템플릿 영역은 모두 복원되어 있어 문제가 없으나 좌측 템플릿 영역은 복원된 화소가 없어 템플릿 구성에 어려움이 따른다. 따라서 이러한 경우에 그림 3과 같이 기준 블록 벡터가 지시하는 참조 블록에서 현재 서브 블록의 템플릿 위치와 대응하는 영역을 참조하여 우상단 서브 블록의 템플릿을 구성한다.

Fig. 3.

Sub-block Template Construction Method (Example: Top-right sub block)

앞서 기술한 방법으로 각 서브 블록에 대한 템플릿을 구성한 후, 서브 블록마다 템플릿 매칭을 수행한다. 구체적으로, 기준 블록 벡터를 중심으로 N × N 영역에서 현재 서브 블록의 템플릿과 가장 유사한 블록 벡터를 탐색한다. 유사도는 현재 서브 블록의 템플릿과 탐색 중인 템플릿 간의 SAD 연산 결과를 따르며, 가장 낮은 값을 갖는 위치의 블록 벡터를 서브 블록에 최적화된 블록 벡터로 선정한다. 이후, 이 블록 벡터가 지시하는 블록을 현재 서브 블록의 예측으로 활용한다. 이러한 서브 블록 단위 템플릿 매칭 과정은 1단계에서 얻은 19개의 블록 벡터 후보에 대해 모두 수행된다. 이를 통해 각 서브 블록에 대해 정밀하게 탐색된 예측 신호를 얻을 수 있어 복잡한 장면에서도 세부적인 텍스처를 효과적으로 처리할 수 있다.

3. 적응적 서브 블록 분할 결정 및 혼합 방법

템플릿 매칭 방법은 현재 부호화 중인 블록의 원본 신호와 가장 유사한 블록을 직접 탐색하는 방법이 아니므로 예측 신호는 원본 신호와 차이가 있을 수 있으며, 그 차이에 대한 분산도 클 수 있다. 예측 신호는 원본 신호에 잡음이 섞인 신호로 간주할 수 있기 때문에 여러 예측 신호를 혼합하면 잡음을 줄여 정확한 예측 블록을 얻을 수 있다. 또한, 서브 블록 간의 경계에 불연속성이 발생할 수 있으므로 이를 완화하기 위해 기존 IntraTMP 예측 블록과 제안하는 서브 예측 블록을 혼합하여 불연속성을 줄이는 방법을 제안한다.

제안 방법은 현재 CU를 부호화하기 위해서 기준 블록 벡터가 지시하는 예측 블록만 이용할지 혹은 기준 블록 벡터의 예측 블록과 서브 블록 단위로 찾은 예측 블록을 혼합하여 이용할지를 적응적으로 결정한다. 이 적응적 결정을 위한 조건은 기준 블록 벡터의 템플릿 비용과 서브 블록들의 템플릿 비용 평균값으로 다음 식 (1)과 같이 정의한다.

14i=14SADs,iAreas,i<SADoAreao(1) 

여기서 SADs,ii번째 서브 블록에 대하여 SAD 연산으로 현재 템플릿과 참조 템플릿 간의 차이를 계산한 템플릿 비용을 의미하며, Areas,i는 해당 서브 블록 템플릿의 면적을 의미한다. 이와 마찬가지로, SADoAreao는 각각 기준 블록 벡터의 템플릿 비용과 템플릿 면적을 의미한다. 서브 블록 템플릿과 기존 템플릿의 면적이 다르므로 면적에 대해 정규화된 결과로 비교를 수행한다. 식 (1)의 결정 조건에 따라, 모든 서브 블록에 대한 화소 당 템플릿 비용의 평균이 기준 블록 벡터의 화소 당 템플릿 비용보다 낮은 경우, 그림 4와 같이 기준 블록 벡터가 지시하는 참조 블록과 제안하는 방법으로 찾은 모든 서브 블록에 대해 혼합을 수행한다. 반대로, 결정 조건에 만족하지 않는 경우 기준 블록 벡터가 가리키는 참조 블록만 예측으로 활용한다. 이러한 결정 조건을 통해 서브 블록 분할 여부를 적응적으로 결정할 수 있으며, 더 나아가 각 서브 블록마다 참조 블록의 위치가 달라 서브 블록 간의 경계에 불연속성이 존재할 수 있으므로 기준 블록 벡터와 서브 블록 단위 블록 벡터를 모두 예측에 활용하여 이러한 불연속성을 완화시킬 수 있다. 모든 서브 블록에 대한 예측이 종료된 이후에는 CU 단위로 변환(Transform)[8]이 적용되며, 후속 부호화 단계가 진행된다.

Fig. 4.

Adaptive blending method


Ⅲ. 실험 결과

1. 성능 평가

제안 방법은 ECM-10.0 참조 소프트웨어[9] 기반으로 구현되었으며, 제안 방법이 화면내 부호화 방법이므로 All Intra 부호화 조건에서 실험을 진행하였다. All Intra 부호화 조건은 화면내 예측 기술만을 사용하여 부호화 및 복호화를 수행하는 I-프레임으로만 구성되며, 주로 화면내 예측 기술의 성능을 평가하는 데 활용된다. 또한, 제안 방법은 기존 IntraTMP 기술을 대체하는 방법으로 구현되었다. 실험 영상은 JVET에서 제공하는 ECM Common Test Condition[10]의 Class A1, A2, B, C, E, F, TGM을 사용하였고, 서브 블록 템플릿 탐색 영역의 N은 실험적으로 8로 설정하였다. Class A1, A2, B, C, E, F, TGM는 각각 3, 3, 5, 4, 3, 4, 4개의 테스트 영상을 포함한다. 본 연구에서는 비디오 압축 성능을 정량적으로 평가하기 위해 Bjøntgaard delta rate (BD-Rate)[11]를 평가 지표로 사용하여 부호화 이득을 나타내었다. BD-Rate는 동일한 화질에서 비트레이트를 비교하여 두 기술 간의 압축 효율 차이를 나타내며, 그 결과가 낮을수록 더욱 효율적인 압축 기술임을 나타낸다.

표 1에서는 ECM-10.0 대비 제안 방법의 부호화 성능 실험 결과를 나타내며, 모든 시퀀스에 대해 평균적으로 약 0.01%의 부호화 이득을 보인다. 특히, Johnny 시퀀스에서 0.1%의 부호화 이득을 확인할 수 있으며, 그림 5그림 6은 Johnny 시퀀스 및 BQMall 시퀀스에서 제안 방법을 시각화한 결과를 나타내었다. 적색 박스는 제안 방법으로 부호화된 서브 블록을 나타내며, 황색 박스는 제안하는 템플릿 매칭 방법으로 탐색한 참조 블록을 나타낸다. 이는 반복적이고 미세한 패턴을 제안 방법으로 정밀하게 예측하고 효과적으로 잔차 신호를 줄여 큰 부호화 이득을 보였음을 알 수 있다.

Compression performance of the proposed Sub-block based Template Matching method over ECM-10.0

Fig. 5.

Visualization of Blocks encoded with the proposed method in the 320th frame of the Johnny sequence

Fig. 6.

Visualization of Blocks encoded with the proposed method in the 297th frame of the BQMall sequence

복잡도 분석을 위해서 제안 방법으로 Class C의 4개 테스트 영상에 대해 인코딩 및 디코딩 시간을 측정한 결과, ECM-10.0 대비 인코더는 105%로 증가하는 결과를 보이고, 디코더는 98%로 감소하는 결과를 보였다. 인코더에서는 서브 블록 단위로 탐색하는 과정을 RDO 과정에서 모두 수행하므로 인코딩 시간이 다소 증가하는 경향을 보인다. 그러나 이 과정은 더욱 정밀한 예측이 가능하게 하여 부호화 효율 향상에 기여한다. 반면, 디코더는 RDO 측면에서 최적인 기준 블록 벡터의 인덱스를 전송받기 때문에, 서브 블록 단위 템플릿 탐색을 1번만 수행하며 이에 따라 디코딩 시간이 증가하지 않는다. 오히려 제안 방법에 의해 서브 블록 단위 탐색이 지원되므로 기존보다 비교적 큰 크기의 CU로 효율적인 부호화가 가능해져 디코딩 시간이 감소할 수도 있다. 이처럼, 제안 방법은 인코더 측면 복잡도가 다소 증가하는 특성이 있으나, 이에 상응하는 부호화 효율 향상 및 디코더 복잡도 절감이라는 이점을 제공함으로써 전체적인 부호화 성능을 균형 있게 향상시킬 수 있다.

2. Ablation Study

본 절에서는 두 가지 추가 실험을 통해 제안 방법의 성능을 검증한다. 먼저 제안하는 적응적 서브 블록 결정 및 혼합 방법의 효과를 검증하기 위해, 수식 (1)의 결정 조건을 사용하지 않고 항상 서브 블록 단위로 탐색된 블록 벡터의 참조 블록만 예측에 사용하는 방법에 대해 실험을 진행하였다. 표 2는 이 방법을 ECM-10과 비교했을 때의 부호화 성능이다. 기존 제안 방법의 성능을 나타내는 표 1과 적응적 서브 블록 결정 및 혼합 방법을 사용하지 않는 방법의 성능을 나타내는 표 2를 비교해 보면, 적응적 방법을 사용하지 않을 경우 전반적으로 부호화 이득이 다소 감소함을 보인다. 이러한 결과는 항상 서브 블록 단위 예측 블록을 사용하는 것보다, 추가적인 정보 전송 없이 템플릿 비용을 기반으로 서브 블록 단위의 예측 신호를 적응적으로 결정하는 것이 효율적임을 보인다. 또한, 제안하는 혼합 방법이 서브 블록 간 경계에서 발생하는 불연속성을 줄이고, 잡음을 제거하여 부호화 효율을 개선하는 데 효과적임을 증명한다.

Ablation study 1 - experimental results without adaptive blending method

제안 방법으로 여러 서브 블록을 하나의 CU로 구성하여 변환을 수행할 경우, 이에 최적화된 변환 커널이 없어 변환 결과가 최적이 아닐 수 있다. 또한, 서브 블록의 템플릿에 CU 단위로 찾은 예측값이 포함될 경우 템플릿의 부정확성으로 인해 예측 결과가 정확하지 않을 수 있다. 따라서 서브 블록 단위로 템플릿 매칭 예측 및 복원을 순차적으로 수행하여 템플릿 구성 시에 서브 블록 주변의 복원 화소를 활용할 수 있는 방법을 실험하였다. 이 방법은 하나의 서브 블록에 대해 템플릿 매칭으로 예측한 잔차 신호에 변환 및 양자화[12]를 적용한 후, 역변환 및 역양자화를 적용하여 복호화 과정을 수행한다. 다음 서브 블록은 이전 서브 블록이 복원되어 있으므로 주변의 복원된 화소로 템플릿을 구성할 수 있다. 즉, 그림 3과 같이 템플릿 구성을 위해 주변에 복원되지 않은 화소가 발생하지 않는다. 이 방법은 서브 블록의 잔차 신호에 최적화된 변환 커널을 선택적으로 수행할 수 있으나 각 서브 블록마다 변환에 대한 정보를 전송해야 한다. 표 3은 ECM-10 대비 이 방법의 부호화 성능을 나타낸다. 표 1의 결과와 비교했을 때 대부분 부호화 이득이 감소함을 확인할 수 있다. 이는 템플릿 정확도가 높아져 예측 성능은 향상되었으나, 서브 블록 단위로 변환 정보가 추가로 전송되어야 하므로 전송 오버헤드가 증가하여 부호화 이득이 감소하는 것으로 분석된다.

Ablation study 2 – experimental results for sub-block level transform


Ⅳ. 결 론

본 논문에서는 비디오의 화면내 부호화 성능 개선을 위하여, 서브 블록 단위로 템플릿 매칭을 수행하여 예측 정확도를 높이는 방법과 여러 예측 블록을 적응적으로 혼합하는 방식을 제안하였으며, 복잡한 화면에서 정밀한 예측을 통해 부호화 효율을 개선할 수 있음을 보였다. 실험 결과, ECM-10.0 대비 All Intra 부호화 조건에서 평균적으로 약 -0.01%의 BD-Rate 성능 이득을 보였으며, 특히 Class E 시퀀스에 대해서는 평균적으로 약 -0.03%의 BD-Rate 성능 이득을 보였다. 제안 방법의 성능 개선 폭이 크지는 않지만, VVC보다 많은 화면내 부호화 방법이 포함되어 높은 부호화 효율을 보이는 ECM에 적용한 결과임을 고려할 때 의미 있는 부호화 이득으로 볼 수 있다. 향후 서브 블록 단위의 최적 분할 크기의 적응적 결정 방법과 서브 블록 단위의 예측에 적합한 변환 커널 연구를 통해 추가적인 성능 향상을 기대할 수 있을 것이다.

Acknowledgments

이 논문은 2025년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원(No. 2017-0-00072, 초실감 테라미디어를 위한 AV 부호화 및 LF 미디어 원천기술 개발)과 2022년도 정부(방위사업청)의 재원으로 국방기술진흥연구소(KRIT-CT-22-047, 우주계층 지능통신망 특화연구실)의 지원을 받아 수행된 연구임.

References

  • B. Bross, Y.-K. Wang, Y. Ye, S. Liu, J. Chen, G. J. Sullivan, and J.-R. Ohm, “Overview of the Versatile Video Coding (VVC) Standard and its Applications,” IEEE Transactions on Circuits and Systems for Video Technology. pp.3736-3764, October 2021. [https://doi.org/10.1109/TCSVT.2021.3101953]
  • M. Coban, R.-L. Liao, K. Naser, J. Strom, L. Zhang, “Algorithm description of Enhanced Compression Model 10 (ECM 10),” Joint Video Experts Team (JVET), JVET- AE2025, Geneva, July 2023.
  • V. Seregin, J. Chen, R. Chernyak, F. L. Leannec, and K. Zhang, “JVET AHG report: ECM software development (AHG6),” Joint Video Experts Team (JVET), JVET- AF0006, Hannover, October 2023.
  • T. K. Tan, C. S. Boon, Y. Suzuki, “Intra prediction by template matching,” 2006 International Conference on Image Processing. pp.1693-1696, October 2006. [https://doi.org/10.1109/ICIP.2006.312685]
  • K. Naser, T. Poirier, F. Galpin, A. Robert, “IntraTMP Adaptation for Camera Captured Contents,” Joint Video Experts Team (JVET), JVET-AA0043, Teleconference, July 2022.
  • F. Wang, L. Zhang, Y. Yu, H. Yu, D. Wang, “EE2-1.10 Multi-candidate IntraTMP,” Joint Video Experts Team (JVET), JVET-AD0073, Antalya, April 2023.
  • D. T. Hoang, P. M. Long, J. S. Vitter, “Efficient cost measures for motion estimation at low bit rates,” IEEE Transactions on Circuits and Systems for Video Technology. pp.488-500, August 1998. [https://doi.org/10.1109/76.709413]
  • W. Park, B. Lee, M. Kim, “Fast computation of integer DCT-V, DCT-VIII, and DST-VII for video coding,” IEEE Transactions on Image Processing. pp.5839-5851, December 2019. [https://doi.org/10.1109/TIP.2019.2900653]
  • ECM reference software, “https://vcgit.hhi.fraunhofer.de/ecm/ECM/-/tree/ECM-10.0?ref_type=tags, ” (accessed Jan. 17, 2025).
  • M. Karczewicz, Y. Ye, “Common test conditions and evaluation procedures for enhanced compression tool testing,” Joint Video Experts Team (JVET), JVET-AE2017, Geneva, July 2023.
  • G. Bjøntgaard, “Calculation of Average PSNR Differences between RD-Curves,” ITU-T SG16 Q.6 VCEG, VCEG-M33, Texas, April 2001.
  • H. Schwarz et al., “Quantization and entropy coding in the versatile video coding (VVC) standard,” IEEE Transactions on circuits and systems for video technology. pp.3891-3906, October 2021. [https://doi.org/10.1109/TCSVT.2021.3072202]
강 재 하

- 2023년 : 한밭대학교 정보통신공학과 학사

- 2025년 : 한밭대학교 지능미디어공학과 석사

- ORCID : https://orcid.org/0009-0007-0551-4181

- 주관심분야 : 영상처리, 비디오 압축, 컴퓨터 비전, 딥러닝

임 웅

- 2008년 : 광운대학교 컴퓨터공학과 졸업(공학사)

- 2010년 : 광운대학교 컴퓨터공학과 졸업(공학석사)

- 2016년 : 광운대학교 컴퓨터공학과 졸업(공학박사)

- 2016년 ~ 현재 : 한국전자통신연구원 초실감메타버스연구소 선임연구원

- ORCID : https://orcid.org/0000-0002-1772-0683

- 주관심분야 : 비디오 부호화, 영상처리, 컴퓨터 비전, 딥러닝

최 해 철

- 1997년 : 경북대학교 전자공학과 졸업(공학사)

- 1999년 : 한국과학기술원 전기및전자공학과 졸업(공학석사)

- 2004년 : 한국과학기술원 전기및전자공학과 졸업(공학박사)

- 2004년 ~ 2010년 : 한국전자통신연구원(ETRI) 방송미디어연구부 선임연구원

- 2010년 ~ 현재 : 국립한밭대학교 지능미디어공학과 교수

- ORCID : https://orcid.org/0000-0002-7594-0828

- 주관심분야 : 비디오 부호화, 컴퓨터 비젼, 딥러닝

Fig. 1.

Fig. 1.
Template Matching Method for IntraTMP

Fig. 2.

Fig. 2.
Sub-block based template matching method

Fig. 3.

Fig. 3.
Sub-block Template Construction Method (Example: Top-right sub block)

Fig. 4.

Fig. 4.
Adaptive blending method

Fig. 5.

Fig. 5.
Visualization of Blocks encoded with the proposed method in the 320th frame of the Johnny sequence

Fig. 6.

Fig. 6.
Visualization of Blocks encoded with the proposed method in the 297th frame of the BQMall sequence

Table 1.

Compression performance of the proposed Sub-block based Template Matching method over ECM-10.0

Class Sequence BD-Rate
Y U V
Class A1 Tango2 -0.01% 0.22% 0.05%
FoodMarket4 0.02% 0.06% 0.06%
Campfire 0.00% -0.03% -0.24%
Class A2 CatRobot -0.01% 0.00% 0.05%
DaylightRoad2 -0.01% 0.11% -0.08%
ParkRunning3 0.00% 0.00% -0.02%
Class B MarketPlace 0.00% -0.02% -0.02%
RitualDance -0.01% 0.16% 0.04%
Cactus 0.01% 0.02% -0.05%
BasketballDrive 0.02% -0.15% 0.21%
BQTerrace -0.01% -0.03% -0.29%
Class C BasketballDrill -0.02% 0.08% 0.25%
BQMall -0.04% 0.02% 0.26%
PartyScene 0.01% -0.09% -0.16%
RaceHorses -0.01% -0.04% 0.09%
Class E FourPeople 0.03% -0.03% -0.22%
Johnny -0.10% -0.27% -0.38%
KristenAndSara 0.00% -0.10% -0.17%
Nature Sequences Overall -0.01% 0.00% -0.05%
Class F BasketballDrillText -0.02% -0.01% -0.01%
ArenaOfValor 0.01% 0.01% 0.08%
SlideEditing 0.07% 0.17% 0.21%
SlideShow -0.17% -0.19% 0.12%
Class TGM FlyingGraphic -0.02% -0.07% -0.04%
Desktop 0.01% 0.04% -0.01%
Console -0.01% -0.12% -0.02%
ChineseEditing 0.04% -0.02% 0.10%
Screen Contents Overall -0.01% -0.02% 0.05%

Table 2.

Ablation study 1 - experimental results without adaptive blending method

Class Overall BD-Rate
Y U V
Class C -0.01% -0.01% 0.12%
Class E 0.04% -0.10% -0.11%
Class F -0.02% 0.17% 0.11%
Class TGM -0.01% -0.04% -0.02%

Table 3.

Ablation study 2 – experimental results for sub-block level transform

Class Overall BD-Rate
Y U V
Class C -0.01% 0.11% 0.17%
Class E 0.00% 0.07% -0.29%
Class F -0.04% 0.03% 0.08%
Class TGM 0.02% 0.04% 0.03%