Journal of Broadcast Engineering
[ Special Paper ]
JOURNAL OF BROADCAST ENGINEERING - Vol. 30, No. 3, pp.312-319
ISSN: 1226-7953 (Print) 2287-9137 (Online)
Print publication date 31 May 2025
Received 31 Mar 2025 Revised 28 Apr 2025 Accepted 29 Apr 2025
DOI: https://doi.org/10.5909/JBE.2025.30.3.312

VCM을 위한 휘도 채널 보정 기법

이예지b) ; 윤경로a), ; 이진영b) ; 정순흥b)
a)건국대학교
b)한국전자통신연구원
Luma Channel Enhancement for VCM
Yegi Leeb) ; Kyongro Yoona), ; Jin Young Leeb) ; Soon-heung Jungb)
a)Konkuk University
b)ETRI

Correspondence to: 윤경로(Kyoungro Yoon) E-mail: yoonk@konkuk.ac.kr Tel: +82-2-450-4129

Copyright © 2025 Korean Institute of Broadcast and Media Engineers. All rights reserved.
“This is an Open-Access article distributed under the terms of the Creative Commons BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited and not altered.”

초록

기존의 비디오 압축 표준은 인간의 시각적 인지 특성에 기반하여 설계되었기 때문에, 기계 중심의 영상 분석에는 최적화되어 있지 않을 수 있다. 이에 따라, 지능형 영상 분석에 적합한 압축 기술에 대한 연구가 활발히 진행되고 있으며, MPEG은 2019년 VCM AhG를 설립하여 관련 기술을 표준화하고 있다. VCM은 압축 효율 향상을 위한 방법 중 하나로 Bit Depth Truncation 기법[1]을 채택하고 있으며, 이는 휘도 채널의 양자화 비트를 1비트 감소시켜 부호화를 수행함으로써 비트 수를 절감하는 방식이다. 본 논문에서는 Bit Depth Truncation 이후 손실된 휘도 채널을 보정하기 위한 기법을 수행하여 머신 성능을 높이고자 한다. 제안된 기법은 비트 절감의 이점을 유지하면서도 영상 내 대비를 효과적으로 회복하여, 기계 기반 영상 분석 성능을 향상시키는 데 기여한다.

Abstract

Conventional video coding standards have been designed based on human visual perception and may not be optimized for machine-centric video analysis. Accordingly, research on compression technologies suitable for intelligent video understanding is actively under standardization. In response to this trend, MPEG established VCM AhG in 2019 to standardize related technologies. VCM adopts the Bit Depth Truncation technique as a method to improve compression efficiency, where the quantization bit depth of the luma channel is reduced by 1 bit to perform encoding with a lower bit rate. In this paper, we propose a method to enhance machine performance by restoring the degraded luma channel contrast caused by Bit Depth Truncation. The proposed approach preserves the bitrate reduction benefits while effectively recovering visual contrast, thereby improving the performance of machine-based video analysis.

Keywords:

VCM, Luma Enhancement, Video Compression, VCM-RS, MPEG

Ⅰ. 서 론

최근 머신 비전 기반의 지능형 영상 분석 수요가 증가함에 따라, 전통적인 사람을 위한 영상 압축 기술이 아닌 머신 분석 및 활용을 위한 새로운 영상 압축 기술에 대한 필요성이 높아지고 있다. 이에 따라 MPEG(Moving Picture Experts Group)은 2019년 VCM(Video Coding for Machines) AhG(Adhoc Group)을 설립하고, 머신이 영상을 이해하는데 최적화된 압축 기술 개발에 대한 논의를 진행하고 있다. 140차 MPEG 회의에서는 CfP(Call for Proposal)[2]을 통해 VCM 후보 기술들에 대한 논의를 진행하였으며, 이를 기반으로 현재 WG(Working Group) 4 비디오 부호화 그룹으로 이관되어 논의가 지속되고 있다.

VCM은 현재 MPEG-AI Part 2로 표준 개발이 진행중이며, 인코딩된 비디오의 비트스트림 구조, 디코딩 절차, 그리고 디코딩 이후 비트 전송률과 머신 작업 성능을 고려한 효율적인 기술들을 포함하고 있다. 144차 회의에서는 NP(New Proposal)가 제안[3]되어 2024년 1월에 승인되었으며, 현재는 WD(Working Draft) 단계[4]에 있다. 150차 회의에서는 CD(Committee Draft) 단계 진입을 위한 준비가 진행 중이며, 향후 표준화 일정은 2025년 7월 DIS(Draft International Standard), 2026년 1월 FDIS(Final Draft International Standard), 2026년 7월 IS(International Standard) 발간을 목표로 하고 있다[5].

VCM에서 채택된 표준은 VCMRS(VCM Reference Software)[6]에 통합되고 있으며, 프레임워크 구조는 그림 1과 같다. 이 중 Temporal Resampling 기술[7][8]은 전체 시퀀스 중 일부 프레임만을 인코딩하고, 복호화 단계에서 중간 프레임을 보간하는 방식으로 압축 효율을 향상시킨다. 프레임의 복원에는 RIFE(Real-time Intermediate Flow Estimation)[9] 기반의 신경망이 사용된다. 현재 VCMRS에서는 AI e2e(All Intra end-to-end) 인코딩 모드를 제외한 모든 모드에 Temporal Resampling이 적용되고 있으며, LD e2e(Low Delay end-to-end)는 네 개의 연속된 영상 프레임에서 두 개 프레임만 인코딩하여 디코더 단에서 앞에 두 장의 프레임을 기반으로 뒤의 두 프레임을 복원하며, 그 외 다른 모드에서는 네 개의 연속된 영상 프레임에서 한 개의 프레임만 인코딩하여 중간의 세 개의 프레임을 보간한다.

Fig. 1.

Architecture of the VCMRS framework[6]

Spatial Resampling[10]의 MI-RPR(Machine Inference-based Reference Picture Resampling)은 Yolo v7[11]을 사용하여 관심 영역을 추출한 후 프레임별로 Spatial Resampling factor를 결정하고, 해당 정보를 VVC(Versatile Video Coding) 내부에 전달하여 VVC 내 RPR 기술을 통해 공간적 리샘플링을 수행하여 머신 성능을 높게 유지하면서 압축 효율을 향상 시켰다.

ROI(Region of Interest) 기술은 표준화 초창기에 CE(Core Experiment)을 통해 기술[12]이 채택되었다. 해당 기술은 인코더 단에서 객체 탐지 신경망을 통해 객체 탐지 및 추적에서 중요한 객체 영역을 찾은 후 그 외 배경 영역을 제외하는 기술이며, 인근 객체 그룹핑, 마진 영역 확장, GOP(Group of Pictures) 단위로 객체 영역 누적 등 기술이 포함되어 머신 성능은 높게 유지하면서 배경 영역 인코딩을 제외하여 비트율을 낮게 유지하였다. 여기에 더불어 객체 영역 외 영역 부호화를 줄이기 위해 리타겟팅 기술[13]이 제안되었으며, 프레임별 관심 영역을 모두 포괄하는 outline을 구성한 후, 해당 정보를 다시 모아 가장 큰 outline 영역을 계산하고, 그 외 영역을 잘라 해상도를 줄인다. 그 후, 관심 영역 그룹에 대해 각 프레임별 줄어든 해상도에 대하여 영역을 확장하는 기술이다. 또한 관심 영역 사이의 거리가 좁으면 배경 영역의 픽셀 값을 127로 설정하는 것이 아니라 블러링을 수행함으로써 인접한 영역에서 픽셀 값의 변화가 크게 변동되는 것을 막았다.

Bit depth truncation 기술[1]은 머신 성능이 비트 심도 변화에 덜 민감하다는 특성을 활용하여, 부호화 측에서 휘도 채널의 양자화 비트를 1비트 감소시켜 부호화를 수행함으로써 비트 수를 절감하는 방식이다. 예를들어, 0부터 1023까지 표현되던 10비트 휘도 샘플 값이 쉬프트 연산에 의해 0부터 511의 값으로 축소되며, 전체적으로 프레임의 밝기가 낮아짐으로 인해 높은 압축률을 달성할 수 있게 된다. 또한, 높은 해상도에서는 영상의 밝기를 나타내는 휘도 정보에 대한 민감도가 낮아진다는 점을 강조하여, 복호화 측에서는 해상도에 따라 휘도 샘플 값을 다시 왼쪽으로 이동시켜 원래의 비트 심도를 복원하는 방식이 적용된다.

본 논문에서는 VCM에서 채택된 여러 기술 중 Bit Depth Truncation에 주목하여, 이로 인해 어두워진 영상의 대비를 향상시키는 방법을 통해 머신 성능을 개선할 수 있는 방법을 제안한다. 실험을 통해, 제한된 비트레이트 환경에서도 휘도 대비를 효과적으로 보정하면 기계 학습 기반 분석 성능을 향상시킬 수 있음을 보이고자 한다.

논문의 구성은 다음과 같다. 2장에서는 Bit Depth Truncation 기술의 동작 방식과 그 한계점을 기술하고, 3장에서는 이를 보완하기 위한 휘도 대비 향상 기법과 실험 결과를 서술한다. 마지막으로 4장에서는 결론 및 향후 연구 방향을 정리한다.


Ⅱ. Bit Depth Truncation 기술

Bit Depth Truncation은 머신 비전이 비트 심도 변화에 대한 민감도가 낮다는 점을 활용하여 압축 효율을 개선하는 기술이다. 이 방식은 휘도 성분의 샘플 값을 인코더에서 1비트 오른쪽으로 이동시켜 비트 수를 줄이고, 이를 통해 전체 비트레이트를 절감할 수 있도록 한다. 반면, 크로마 성분은 데이터의 비중이 상대적으로 낮아 변경하지 않는다. 이러한 연산을 통해 휘도 값은 기존 10비트 범위에서 9비트 범위로 줄어들게 되며, 이후 디코더에서는 해상도에 따라 다시 왼쪽으로 이동시켜 비트 심도를 복원할 수 있도록 설계되어 있다.

인코더에서는 이러한 비트 쉬프트 정보를 디코더 측에서 해석할 수 있도록 비트스트림에 함께 전송하며, 이를 위한 신택스가 정의되어 있다. 인코딩 시에는 bit_depth_shift_flag를 통해 해당 기능의 적용 여부를 판단하고, 적용 시 휘도와 크로마에 대해 각각 비트 쉬프트 크기를 전달한다. 이 방식은 머신 기반 영상 분석의 성능을 크게 저하시키지 않으면서도 효과적인 비트 절감 효과를 제공한다.

복호화 과정에서는 해상도를 기준으로 조건부 복원을 수행한다. 1920×1080 이상의 해상도를 가지는 고해상도 영상에 대해서는 복원 처리를 생략하며, 그보다 낮은 해상도 영상에 대해서만 왼쪽 쉬프트를 통해 원래의 비트 심도로 복원한다. 이는 고해상도에서는 프레임 내 픽셀 수가 많아 개별 픽셀의 휘도 값 정확도가 머신 분석 성능에 미치는 영향이 낮다는 분석에 기반한 것이다.

그림 1은 이러한 비트 심도 변환 과정을 시각적으로 보여준다. 첫 번째는 원본 영상 프레임(10비트), 두 번째는 1비트 오른쪽 쉬프트를 적용하여 9비트로 변환된 영상, 세 번째는 복호화 시 다시 10비트로 복원된 영상을 나타낸다. 각 행은 전체 색 공간, 휘도 공간 그리고 휘도 및 크로마(Cb, Cr)의 히스토그램을 각각 보여준다.

Fig. 2.

Comparison of original (10-bit), truncated (9-bit), and reconstructed (10-bit) frames and histograms[1]

해당 기술은 MPEG 144차 회의에서 제안되었으며, VCMRS v0.6 대비 높은 압축 효율을 보였다. SFU-HW 데이터셋[16]을 기준으로 객체 탐지 성능을 평가한 결과, Class A에서는 최대 -47.78%의 BD-rate 감소율을 기록하였으며, 전반적인 평균 감소율은 AI에서 –12.86%, LD에서 -15.97%, RA(Random Access)에서 -18.08%로 나타났다. 또한 TVD-video 데이터셋을 활용한 객체 추적 실험에서는 AI에서 -25.72%, LD에서 -19.76%, RA에서 -18.93%의 BD-rate 감소율을 달성하였다. 이와 같은 결과는 비트 심도를 단순히 줄이는 방식만으로도 머신 분석 성능을 유지하면서 높은 압축 효율을 실현할 수 있음을 보여준다.

Bit Depth Truncation 기술이 높은 압축 효율을 달성했지만 머신 성능이 약간 낮아지는 문제가 있다. SFU-HW 데이터셋에서는 평균적으로 약 6%p의 mAP(mean Average Precision) 값이 감소하였으며, TVD-video 데이터셋[17]에서 평균 약 8.7%p의 MOTA(Multiple Object Tracking Accuracy) 값이 감소하였다. 본 논문에서는 어두운 영상에 대해 대비 향상 기법을 적용함으로써 비트율을 유지하면서 객체의 대비를 높여 머신 인식 성능을 향상시키는 방안에 대해 연구하고자 한다.


Ⅲ. 휘도 채널 향상 기법

본 논문에서는 휘도 채널의 대비 향상을 위하여 CLAHE(Contrast Limited Adaptive Histogram Equalization)를 적용하는 방법을 제안한다. 기존의 히스토그램 평활화 기법은 영상 전체의 픽셀 분포를 기반으로 휘도 채널의 대비를 향상시키는 전역 처리 방식으로, 저조도 환경이나 명암 분포가 불균형한 영상에서 시각적 품질을 개선하는 데 활용되어 왔다. 그러나 이 방식은 전역적인 밝기 분포만을 고려하므로, 영상 내 지역적인 밝기 차이나 세부 구조를 반영하지 못하고, 과도한 대비 증가나 화질 왜곡을 유발할 수 있다. 특히, 밝기 분포가 편향된 영상에서는 세부 정보가 손실되거나 특정 영역이 지나치게 강조되는 문제가 발생할 수 있다.

이러한 한계를 보완하기 위해 사용되는 기법이 CLAHE이다. CLAHE는 영상을 여러 개의 작은 타일 단위로 분할한 뒤, 각 타일에 대해 독립적으로 히스토그램 평활화를 수행하여 지역적 명암 분포에 따른 대비 향상을 가능하게 한다. 이후 타일 간 경계에서 발생할 수 있는 불연속성을 줄이기 위하여 양선형 보간을 적용하여 자연스럽게 연결한다. 또한 CLAHE는 대비 제한 기법을 함께 적용하여, 히스토그램의 특정 구간에 픽셀이 과도하게 집중되는 현상을 억제함으로써 과도한 대비 향상을 방지한다. 이를 위해 클리핑 제한 값을 설정하고, 이를 초과하는 히스토그램 빈 값은 주변 구간에 분산시켜 부드러운 명암 조정을 가능하게 한다. 그림 3은 CLAHE 적용 과정을 시각적으로 보여준다. 첫 번째는 원본 영상 프레임(10비트), 두 번째는 오른쪽 쉬프트를 적용하여 9비트로 변환된 영상, 세 번째는 복호화 시 왼쪽 쉬프트를 적용하지 않는 높은 해상도에 대하여 CLAHE를 적용한 결과이다.

Fig. 3.

Comparison of original (10-bit), truncated (9-bit), and CLAHE-processed (9-bit) frames and histograms[1]

이와 같은 처리 과정은 영상의 구조적 정보를 유지하면서도 지역적 대비를 향상시킬 수 있으며, 특히 어두운 영상에서 객체의 경계나 형태를 부각 시킬 수 있다. 해당 방법은 주관적인 화질 개선은 크지 않지만 머신 인식 성능 향상에 기여할 수 있다. 본 논문에서는 이러한 CLAHE 기법을 Bit Depth Truncation 후 왼쪽 쉬프트로 복원을 하지 않는 높은 해상도에 대해 휘도 채널 보정을 적용함으로써, 영상의 시각적 품질과 머신 분석 성능을 동시에 향상시키는 방안을 제안한다. 표 1표 2는 SFU-HW와 TVD 데이터셋에 대해 VCMRS v0.11 앵커 대비 BD-rate 성능을 비교한 결과이며, 일부 LD 구성에서 성능 저하가 나타난 경우도 있으나, 전반적으로 성능 향상이 되는 것을 확인하였다. 특히 TVD 데이터셋의 AI e2e에서는 -8.87%의 BD-rate 감소율을 기록하여, 높은 압축 효율을 달성하였다. 제안된 방법은 디코더 단에서 휘도 대비 향상 처리를 수행하므로, 비트스트림 자체는 변하지 않으며, 머신 분석 성능 향상에 기인한 효율 개선임을 의미하며, VCM 그룹에 채택되어 VCMRS v0.12에 통합되어 있다.

Experimental results on the SFU-HW dataset(unit: BD-rate(%))

Experimental results on the TVD-video dataset(unit: BD-rate(%))

최근 150차 MPEG 회의에서는 CLAHE 기법의 적용 시 연산 복잡도를 줄이기 위한 방안[14]으로, Temporal Resampling 이전 단계에서 CLAHE를 수행하거나, ROI 외의 영역에 대해서는 처리를 생략하는 방식 등이 제안되었다. 이러한 접근은 복잡도를 낮추면서도 압축 효율이 약간 높아지는 효과를 가져왔다. 또한, CLAHE 적용 이후 배경 영역의 비중이 큰 시퀀스에 대해서는 대비 정규화 기법[15]을 추가적으로 활용한 휘도 대비 향상 방안도 제안되었으며, Bit Depth Truncation으로 인해 낮아진 대비를 높이는 다양한 기술적 논의가 진행되고 있다.


Ⅳ. 결 론

본 논문에서는 VCM 환경에서 Bit Depth Truncation 기술이 제공하는 압축 효율을 유지하면서, 그로 인해 발생할 수 있는 영상의 명암 대비 저하 문제를 해결하기 위한 방안으로 CLAHE 기반의 휘도 대비 향상 기법을 제안하였다. 기존 Bit Depth Truncation 기술은 비트 수를 줄이는 과정에서 영상이 어두워지고, 그로 인해 객체의 경계가 흐려져 머신 인식 성능이 저하될 수 있는 한계를 가지고 있었다.

제안된 기법은 디코더 측에서 휘도 채널에 대해 CLAHE를 적용함으로써, 영상 내 지역적 대비를 개선하고 머신 분석에 필요한 시각적 정보를 보강할 수 있도록 하였다. 실험 결과, SFU-HW 및 TVD 데이터셋을 대상으로 한 평가에서 대부분의 인코딩 구성에서 VCMRS v0.11 앵커 대비 BD-rate 성능이 향상되었으며, 특히 AI e2e에서는 최대 -8.87%의 성능 개선을 확인하였다. 이는 CLAHE 기법이 비트스트림 변경 없이도 머신 분석 성능을 실질적으로 향상시킬 수 있음을 보여준다.

향후 연구에서는 CLAHE 외의 다양한 대비 향상 기법에 대한 비교 분석과 함께, 인코딩 과정 내에서의 사전 대비 조정 기법, 또는 학습 기반의 적응형 대비 향상 방법까지도 통합적으로 고려함으로써, VCM 환경에서의 효율성과 성능을 동시에 극대화할 수 있는 방안을 모색할 예정이다.

Acknowledgments

This work was supported by Institute of Information & Communications Technology Planning & Evaluation (IITP) grant funded by the Korea government (MSIT) (No. 2020-0-00011, Video Coding for Machine)

References

  • D. Ding, et. al., “[VCM] Bitwise Efficiency: Truncating Bit Depth for Machine Video Coding,” ISO/IEC JTC1/SC29/WG4 input document m65525, Oct. 2023.
  • WG 02, “CfP response report for Video Coding for Machines,” ISO/IEC JTC1/SC29/WG2 output document N00248, Oct. 2022.
  • WG 04, “NWIP for ISO/IEC 23888-2 for Video coding for machines,” ISO/IEC JTC1/SC29/WG2 output document N00434, Oct. 2023.
  • WG 04, “Working draft 6 of video coding for machines,” ISO/IEC JTC1/SC29/WG4 output document N00637, Jan. 2025.
  • WG 04, “Recommendations of 18th Meeting,” ISO/IEC JTC1/SC29/WG4 output docu ment N00612, January 2025.
  • VCM Reference Software, https://git.mpeg.expert/MPEG/Video/VCM/VCM-RS, , (accessed March, 22nd, 2025).
  • H. Wang, et al., “CE4.2 Temporal Resample coding from China Telecom,” ISO/IEC JTC1/SC29/WG4 input document m63086 , April 2023.
  • L. Fang, et al., “[VCM] Temporal Extrapolation Method for VCM E2E_LD Mode,” ISO/IEC JTC1/SC29/WG4 input document m68859, July 2024.
  • Huang, Zhewei, et al. “Real-time intermediate flow estimation for video frame interpolation,” in European Conference on Computer Vision (EECV) , pp. 624-642, 2022. [https://doi.org/10.1007/978-3-031-19781-9_36]
  • A. Kim, et al, “[VCM] Test results for VCM CE3.2,” ISO/IEC JTC1/SC29/WG4 input document m66168 , Jan. 2024.
  • W. Chien-Yao, A. Bochkovskiy, and H. M. Liao. “YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (CVPR) , pp. 7464-7475, 2023. [https://doi.org/10.1109/CVPR52729.2023.00721]
  • S-K. Kim, et. al., “[VCM Track 2] CfP response: Region-of-Interest (RoI) based video coding for machine,” ISO/IEC JTC1/SC29/WG4 input document m61463, Oct. 2022.
  • S. Różek, et al., “[VCM] Improved RoI preprocessing and retargeting for VCM,” ISO/IEC JTC1/SC29/WG4 input document m66523, Jan. 2024.
  • K. Lida, X. Zhao, Z. Liu and S. Liu, “[VCM] Improvement of luma enhancement process in decoder complexity,” ISO/IEC JTC1/SC29/WG4 input document m72188, April 2025.
  • S. Rhee, X. Zhao, Z. Liu and S. Liu, “[VCM] Contrast Normalization based Luma Contrast Enhancement,” ISO/IEC JTC1/SC29/WG4 input document m72209, April 2025.
  • H. Choi, et. al., “A dataset of labelled objects on raw video sequences,” Data in Brief, vol. 34, pp. 106701, 2021. [https://doi.org/10.1016/j.dib.2020.106701]
  • Gao, Wen, et al. “An open dataset for video coding for machines standardization,” 2022 IEEE International Conference on Image Processing (ICIP), pp. 4008-4012, 2022. [https://doi.org/10.1109/ICIP46576.2022.9897525]
이 예 지

- 2018년 2월 : 극동대학교 스마트모바일학과 졸업 (학사)

- 2020년 2월 : 건국대학교 스마트ICT융합과 졸업 (석사)

- 2025년 2월 : 건국대학교 컴퓨터공학과 졸업 (박사)

- 2025년 2월 ~ 현재 : 한국전자통신연구원 박사후연수연구원

- ORCID : https://orcid.org/0000-0002-0292-160X

- 주관심분야 : 영상처리, 인공지능, 컴퓨터비전

윤 경 로

- 1987년 2월 : 연세대학교 전자전산기공학과 졸업 (학사)

- 1989년 12월 : University of Michigan, Ann Arbor, 전기전산기공학과 졸업 (석사)

- 1999년 5월 : Syracuse University, 전산과학과 졸업 (박사)

- 1999년 6월 ~ 2003년 8월 : LG전자기술원 책임연구원/그룹장

- 2003년 9월 ~ 현재 : 건국대학교 컴퓨터공학부 교수

- 2017년 10월 ~ 현재 : 국립전파연구원 멀티미디어부호화 전문위원회 (JTC1 SC29K) 대표전문위원

- 2019년 10월 ~ 현재 : IEEE SA 2888 WG 의장

- 2024년 10월 ~ 현재 : IEEE SA 디지털콘텐츠기술 표준화 위원회 의장

- ORCID : https://orcid.org/0000-0002-1153-4038

- 주관심분야 : 스마트미디어시스템, 멀티미디어검색, 영상처리, 컴퓨터비전, 멀티미디어/메타데이터 처리

이 진 영

- 1998년 5월 : B.S. EECS Michigan State University

- 1999년 12월 : M.S. EECS Michigan State University

- 2008년 12월 : Ph.D. EECS Michigan State University

- 2004년 3월 ~ 현재 : 한국전자통신연구원

- ORCID : https://orcid.org/0000-0002-8718-1961

- 주관심분야 : AI기반 영상처리, 멀티미디어 시스템, 메타데이터 처리

정 순 흥

- 2001년 2월 : 부산대학교 전자공학 (학사)

- 2003년 2월 : KAIST 전기및전자공학 (석사)

- 2016년 2월 : KAIST 전기및전자공학 (박사)

- 2005년 4월 ~ 현재 : 한국전자통신연구원 책임연구원

- ORCID : https://orcid.org/0000-0003-2041-5222

- 주관심분야 : 실감미디어, 컴퓨터 비전, 머신러닝, 영상부호화, 영상처리

Fig. 1.

Fig. 1.
Architecture of the VCMRS framework[6]

Fig. 2.

Fig. 2.
Comparison of original (10-bit), truncated (9-bit), and reconstructed (10-bit) frames and histograms[1]

Fig. 3.

Fig. 3.
Comparison of original (10-bit), truncated (9-bit), and CLAHE-processed (9-bit) frames and histograms[1]

Table 1.

Experimental results on the SFU-HW dataset(unit: BD-rate(%))

RA inner LD inner AI inner RA e2e LD e2e AI e2e
Class A -1.97% 0.84% -2.55% -3.21% -0.05% 0.48%
Class B 0.62% -0.58% -2.91% -0.94% 0.81% -2.79%
Class C 0.00% 0.00% 0.03% -0.11% 0.24% 0.14%
Class D -0.01% -0.09% -0.04% 0.04% 0.01% 0.18%
Average -0.01% -0.11% -0.94% -0.53% 0.28% -0.55%

Table 2.

Experimental results on the TVD-video dataset(unit: BD-rate(%))

RA inner LD inner AI inner RA e2e LD e2e AI e2e
TVD-01-1 -0.53% 0.47% -4.78% -0.31% 2.24% -10.54%
TVD-01-2 -5.47% -1.86% -3.35% -0.26% -2.21% -43.64%
TVD-01-3 -1.94% 5.03% -0.52% 2.00% 2.29% -13.43%
TVD-02-1 1.23% -0.19% 0.73% 0.15% -2.91% -6.11%
TVD-03-1 0.66% 0.30% -0.38% 1.80% 2.06% -1.56%
TVD-03-2 -0.37% -1.81% -0.67% -0.90% 0.49% -1.03%
TVD-03-3 -0.18% 0.65% -0.49% -0.10% 0.43% 14.22%
Average -0.94% 0.37% -1.35% 0.34% 0.34% -8.87%