
웨이블릿 기반 특징을 융합한 DenseNet 모델의 폐렴 탐지 기법
Copyright © 2025 Korean Institute of Broadcast and Media Engineers. All rights reserved.
“This is an Open-Access article distributed under the terms of the Creative Commons BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited and not altered.”
초록
본 연구는 DenseNet-121 기반의 화소값 영역 특징과 Haar 웨이블릿 변환으로부터 얻은 저주파 성분을 결합한 이중 도메인 분류 모델을 활용하여 흉부 X-ray 영상에서 폐렴 진단의 정확도와 신뢰성을 높였다. 기존 딥러닝 모델은 화소값 영역 정보에만 의존해 해부학적 구조 중첩이나 흐릿한 병변 경계 인식에 한계가 있었다. 이를 개선하기 위해, 웨이블릿에서 얻은 저주파수 성분의 계수를 별도의 컨볼루션 경로로 학습시키고 DenseNet에서 추출한 특징과 융합하였다. ChestXRay2017 Dataset 실험 결과, 모든 평가 지표에서 DenseNet-121 대비 의미 있는 성능 향상을 얻었다. 특히 정상 케이스에서 Precision과 Recall의 균형 개선이 확인되어 모델의 일반화 성능이 강화되었음을 확인할 수 있었다. 또한, 주파수 기반 정보가 미세하거나 넓게 퍼진 병변 탐지에 도움을 주어 진단 신뢰성을 높였으며, 폐렴 외 다양한 흉부 질환으로의 적용 가능성도 시사하였다.
Abstract
This study presents a dual-domain classification model for pneumonia diagnosis in chest X-ray images, integrating pixel-domain features from DenseNet-121 and low-frequency components derived through Haar wavelet transform. Conventional deep learning models often struggle to recognize overlapping anatomical structures and indistinct lesion boundaries due to their reliance on pixel-domain information alone. To overcome these limitations, the model separately learns the approximation coefficient from wavelet decomposition via a dedicated convolutional path and fuses it with DenseNet-extracted features. Experimental results on the ChestXRay2017 dataset reveal significant improvements over baseline DenseNet-121 across all metrics, with notable gains in the balance between precision and recall for NORMAL cases—demonstrating strengthened generalization. This frequency-based enhancement allows better detection of subtle or diffuse patterns, increasing diagnostic reliability. The combined pixel-frequency approach also shows promising potential for extending automated diagnosis to other thoracic diseases beyond pneumonia.
Keywords:
DenseNet, Wavelet, Dual-domain, Detection, PneumoniaⅠ. 서 론
폐렴은 전 세계적으로 높은 이환율과 사망률을 보이는 주요 감염성 호흡기 질환으로, 특히 소아 및 고령자에서 심각한 결과를 초래할 수 있어 조기 진단의 중요성이 강조된다. 흉부 X선(Chest X-ray, CXR)은 폐렴을 비롯한 다양한 흉부 질환의 1차적 영상 진단 도구로 임상 현장에서 가장 널리 활용되며, 상대적으로 저렴한 비용과 빠른 검사 속도, 낮은 방사선 노출 등의 이점으로 CT나 MRI에 비해 접근성이 높다. 그러나 흉부 X선 영상은 심장, 폐, 늑골 등 복잡한 해부학적 구조가 2차원 영상에 중첩되어 나타나기 때문에 병변의 경계가 흐릿하거나 저대조 영역에 위치한 경우 진단의 정확도와 판독자 간 일치도가 저하될 수 있다.
최근 딥러닝, 특히 합성곱 신경망(Convolutional Neural Network, CNN)을 기반으로 한 의료 영상 분석 기술이 폐렴 등 흉부 질환 진단의 정확성과 신뢰도 향상에 중요한 역할을 하고 있다. DenseNet[1]은 각 층이 이전 모든 층의 출력을 입력으로 받아들이는 밀집 연결 구조를 특징으로 하는데, 이 설계는 정보 및 그래디언트의 손실을 최소화하고 특징 재사용을 극대화해 학습 효율성과 일반화 성능을 높인다. 실제로 DenseNet(예: DenseNet-121, DenseNet-201)은 폐렴 분류에서 기존 CNN이나 ResNet 등과 비교해 적은 파라미터로도 높은 진단 정확도를 달성하며[2][3], 전이학습의 적용을 통해 의료 영상 데이터의 부족 문제를 효과적으로 보완할 수 있음이 여러 연구[4][5][6][7]에서 보고되고 있다.
그러나 기존 대부분의 CNN 구조는 주로 화소값 영역의 특징만을 학습하기 때문에, 해부학적 구조의 중첩, 흐릿한 경계, 저대조 영역에 존재하는 미세 병변 등 복잡한 임상 상황에서 오탐지나 미탐지의 한계를 보였다. 이러한 문제를 보완하기 위해 주파수 도메인 분석 기법, 특히 이산 웨이블릿 변환(Discrete Wavelet Transform, DWT)이 부각되고 있다. DWT는 영상을 다양한 해상도의 저주파와 고주파 성분으로 분해하여, 화소값 영역에서 드러나지 않는 미세 구조와 반복 패턴, 강한 노이즈가 포함된 영역을 보다 효과적으로 분석할 수 있다. 특히 웨이블릿 기반 CNN 모델은 전통적인 다운샘플링보다 구조 보존 및 노이즈 억제에 유리하여, 노이즈에 강인한 특성 표현과 미세 병변 검출 효과가 탁월함이 선행연구[8]에서 입증되고 있다.
이에 본 연구에서는 DenseNet의 화소값 영역의 특징 추출 능력과 Haar 웨이블릿 기반의 저주파 특징을 결합한 이중 도메인 기반 폐렴 탐지 모델을 제안한다. 제안 모델은 화소값 영역 및 주파수 영역의 상호보완적 정보를 모두 활용함으로써 기존 단일 도메인 모델이 가지는 저대조·흐릿한 병변 탐지의 한계에 직면하는 문제를 극복하는 것을 목표로 한다. 이는 흉부 X선 영상 분석의 정확성을 획기적으로 향상시키는 새로운 접근법을 제시한다는 점에서 의의가 있다. 다양한 선행 연구에서 입증되었듯이, 이러한 결합 구조는 실제 임상 환경에서 높은 진단 정확도, 신뢰도, 그리고 일관성을 제공할 수 있으며, 향후 자동화 의료 진단 시스템 구축을 위한 실질적 기반이 될 수 있다.
본 논문의 구성은 다음과 같다. Ⅱ장에서는 폐렴 진단을 위한 최근 딥러닝 기반 영상 분석 연구 동향과 DenseNet 및 웨이블릿 변환 적용 사례를 고찰한다. Ⅲ장에서는 제안하는 이중 도메인 모델의 구조와 특징 결합 방식을 상세히 기술하며, Ⅳ장에서는 실험 환경, Dataset, 성능 평가 결과를 비교·분석한다. 마지막으로 Ⅴ장에서는 연구 결과의 함의를 요약하고 향후 연구 방향을 논의한다.
Ⅱ. 기존 연구
1. DenseNet 기반 폐렴 진단 연구
흉부 X선 영상 자동 진단을 위해 다양한 딥러닝 구조가 제안되어 왔으며, 그중 DenseNet은 제한적인 의료 영상 데이터 환경에서도 전이학습 기법과 결합하여 뛰어난 성능을 보이는 대표적인 딥러닝 모델로 평가받고 있다. 실제로 DenseNet121, DenseNet169, ResNet101과 같은 고성능 사전 학습 모델을 활용한 평가에서 DenseNet121이 98.68%의 최고 검증 정확도를 달성하며 가장 우수한 성능을 보였다[3]. 이처럼 DenseNet은 정보 흐름을 극대화하고 기울기 소실 문제를 완화하는 밀집 연결 구조를 특징으로 하는데, 이 설계는 특징 재사용을 극대화하여 학습 효율성과 일반화 성능을 높인다. 특히 의료 영상처럼 미세 병변 탐지가 중요한 분야에서 초기 층의 저수준 시각 특징과 후기 층의 고수준 의미 특징을 동시에 효과적으로 활용할 수 있다.
선행 연구에 따르면, DenseNet-121을 기반으로 구현된 폐렴 탐지 및 분류 모델은 평균 96% 이상의 정확도를 기록했으며, 원형 구조만으로도 의료 영상 판독에서 우수한 성능을 보였다[4]. DenseNet-121 구조에 Batch Normalization, Dropout, MaxPooling 등을 적용하여 과적합을 완화하고 일반화 성능을 높인 연구에서는 97.03%의 정확도를 달성하였다[5]. 또한 DenseNet-201 구조 기반 연구에서는 데이터 규모와 전이학습을 활용하여 COVID-19과 폐렴을 효과적으로 분류하였고, 네트워크의 깊이 증가가 진단 성능 향상에 기여할 수 있음을 확인하였다[6]. 더 나아가 DenseNet, MobileNet, Vision Transformer 등을 결합한 앙상블 기법은 단일 모델 대비 Accuracy, Precision, Recall을 유의미하게 개선하여, 다양한 구조적 편차와 영상 조건에 대한 강건성을 높이는 효과를 보였다[7]. [7]에서 제안된 앙상블 네트워크 구조를 그림 1에 표시하였다.
이러한 결과들은 DenseNet 계열 모델이 흉부 X선의 복잡한 해부학적 중첩과 저대조 영역에서도 비교적 강인한 특징 표현을 확보하며, 폐렴 분류의 기본 골격(backbone)으로서 높은 실용성을 지님을 시사한다. 그러나 이러한 연구들은 본질적으로 화소값 영역의 특징에 의존한다는 한계를 가지며, 저대비 영역이나 경계가 불명확한 병변의 경우에는 진단 성능이 제한적일 수 있다.
2. 웨이블릿 기반 주파수 보완 기법
화소값 영역 중심의 딥러닝 모델은 영상의 형태와 구조적 정보를 효율적으로 학습할 수 있지만, 저명도 병변·흐릿한 경계·침윤성 패턴 등 시각적으로 불분명한 임상 특징 검출에서는 한계를 가진다. 이러한 문제를 보완하기 위해 주파수 도메인 정보, 특히 DWT가 부각되고 있다. DWT는 영상을 다양한 해상도의 저주파와 고주파 성분으로 분해하여, 화소값 영역에서 드러나지 않는 미세 구조와 반복 패턴, 강한 노이즈가 포함된 영역을 보다 효과적으로 분석할 수 있다. 특히 웨이블릿 기반 CNN 모델은 전통적인 다운샘플링보다 구조 보존 및 노이즈 억제에 유리하며, 이는 일반 이미지 분류에서 노이즈에 강인한 특성 표현이 탁월하다는 점이 선행 연구[8]에서 입증되었다. WaveCNet[8]은 전통적 다운샘플링 기법을 DWT로 대체한 모델로, 입력 이미지의 다중 해상도 표현을 활용하여 고주파 성분을 제거한 저주파 성분만을 네트워크에 전달함으로써 중요한 구조적 정보 보존과 노이즈에 대한 강건성을 확보하도록 설계되었다. 기존 CNN에서 사용되는 다운샘플링 연산과 이를 DWT 기반으로 대체한 WaveCNet의 차이를 그림 2에 표시하였다.
그중 DenseNet121 구조에 대칭 웨이블릿(Haar, Cohen 등)을 적용한 WDenseNet121은 ImageNet과 같은 대규모 일반 이미지 Dataset에서 분류 정확도를 개선하였으며, 웨이블릿 기반 구조 보존 및 잡음 억제 기법이 딥러닝 모델 성능 향상에 기여함을 입증하였다. 웨이블릿을 네트워크에 통합하는 접근은 일반 이미지 분류 분야에서 구조 보존과 노이즈 강건성 측면에서 이점을 입증하였으나, 의료 영상에 직접적으로 적용된 사례는 제한적이다. 특히 [8]은 DenseNet-121을 포함한 모델에 DWT를 적용한 사례를 제시하였으나, 이는 다운샘플링 연산을 치환하는 구조적 변형에 가까운 방식이다. 반면, DenseNet의 화소값 영역 특징 추출 구조를 유지하면서 웨이블릿 특징을 병렬적으로 융합하는 접근은 기존 연구에서 상대적으로 덜 다루어진 영역이다.
종합하면, 기존 연구들은 DenseNet 구조를 보강하거나[5], 모델들의 앙상블을 통해 성능을 개선하는 방식[7]으로 폐렴 분류 성능을 높여왔다. 그러나 이러한 접근은 모델의 복잡도를 증가시키거나, 화소값 영역 정보에 과도하게 의존한다는 문제를 안고 있다. 한편, [8]은 CNN의 다운샘플링을 DWT로 대체하여 주파수 정보를 보존하는 구조적 개선을 제안하였으나, 네트워크 아키텍처 내부를 변형해야 하는 특성이 있다. 따라서 본 연구에서는 DenseNet의 화소값 영역 특징 학습 능력을 유지하면서, 웨이블릿 변환을 통해 얻어진 저주파 기반 특징을 병렬적으로 결합하는 이중 도메인 융합 접근을 제안한다. 이를 통해 기존 연구에서 지적된 한계, 즉 화소값 영역 의존성과 구조 변형의 제약을 동시에 극복하고자 한다.
Ⅲ. 제안하는 아이디어
1. 제안하는 시스템의 구조
기존의 흉부 X선 영상 기반 폐렴 분류 모델은 주로 병변의 위치, 형태, 밝기 차이 등 화소값 영역의 시각적 특징에 의존하여 학습이 이루어진다. 이러한 화소값 기반 특징 추출은 정상 조직과 병변 간 구조적 차이를 직관적으로 반영할 수 있으나, 영상 내 세부 질감이나 경계의 흐림, 미세 패턴, 주기적 무늬 등 주파수 영역 정보는 활용하기에 한계가 있다. 특히 폐렴의 침윤 병변처럼 경계가 불명확하고 전폐적으로 확산되어 나타나는 경우, 단순히 화소값 정보만으로는 병변의 영역을 명확히 분리하거나 심각도를 정확히 평가하기 어렵다. 예를 들어, 고해상도 영상에서도 병변과 정상 폐 조직의 픽셀값 차이가 미세하거나 혈관 및 늑골 음영이 중첩될 때, 화소값 특징만으로는 구분 성능의 한계가 뚜렷하게 나타난다.
이러한 한계를 극복하기 위해서는 화소값 특징만이 아니라, 영상의 주파수 영역에서 얻어지는 구조적·전역적 정보를 함께 활용할 필요가 있다. 웨이블릿 변환은 입력 영상을 다중 해상도로 분해할 수 있으며, 한 번의 변환을 통해 저주파(cA)와 고주파(cH, cV, cD) 성분으로 구분할 수 있다. 그림 3과 같이, 2차원 영상에 대해 Haar 웨이블릿 변환을 수행하면 영상은 Approximation(cA), Horizontal detail(cH), Vertical detail(cV), 그리고 Diagonal detail(cD)의 네 가지 성분으로 분해된다. 여기서 Approximation(cA)가 영상의 전체적인 구조, 밝기 분포, 그리고 폐렴과 같은 넓게 확산된 병변 등 주요 거시적 패턴을 담고 있는 저주파 성분이 되고, 나머지 세 성분(cH, cV, cD)은 각각 수평, 수직, 대각선 방향의 뼈 경계, 노이즈, 혈관 음영과 같은 미세한 변화를 포착하는 고주파 성분이 된다.
이러한 성분들의 특성을 고려할 때, 본 연구에서는 경계 노이즈와 골격 경계에 의한 혼선 가능성을 최소화하기 위해 고주파 성분을 배제하고, 저주파(cA) 정보만을 DenseNet 기반 화소값 특징과 통합한다. 이러한 결합 방식은 화소값 및 저주파 영역의 상호보완성을 높여 경계 흐림 및 영상 내 잡음에 대한 강건성을 제공할 수 있다. 특히 고주파 제거로 노이즈 영향이 감소하며, 병변이 전폐적으로 퍼져 있거나 저대비 영역에 위치할 때도 전역적 구조를 안정적으로 학습할 수 있다. DenseNet이 제공하는 밀집 연결 구조의 효율성 또한 저주파 특징 결합으로 더욱 강화되어, 기존 CNN 접근법이 간과하기 쉬운 전역 패턴을 효과적으로 반영한다. 결과적으로, 경계가 불명확하거나 병변이 넓게 확산된 폐렴 영상에서도 기존 방법 대비 우수한 분류 성능과 높은 진단 신뢰도를 기대할 수 있다.
이를 바탕으로, 본 연구는 기존 연구들의 흐름을 계승하면서도, DenseNet의 기본 구조를 유지한 상태에서 웨이블릿 변환을 병렬적으로 결합하는 방식을 제안한다. 구체적으로, 입력 영상을 Haar 웨이블릿 변환하여 저주파 성분(cA)만을 추출하고, 이를 DenseNet이 추출한 화소값 특징과 함께 Global Average Pooling(GAP)을 거쳐 concatenate한다. 이후 이중 도메인에서 결합된 특징을 최종 분류기로 전달하여 폐렴 여부를 예측한다. 즉, 본 연구의 접근은 CNN 내부 연산을 DWT로 치환하는 [8]의 방식과 달리, DenseNet의 화소값 특징과 웨이블릿 저주파 특징을 병렬적으로 결합하는 이중 도메인 앙상블 구조라는 점에서 차별성을 가진다. 제안하는 모델의 네트워크 구조를 그림 4에 표시하였다.
기존 연구들은 [7]에서처럼 여러 네트워크를 앙상블하여 화소값 특징의 다양성을 확보하거나, [5]와 같이 DenseNet 내부 구조를 변형하여 화소값 정보 활용을 강화하였다. 또한 [9]에서는 CNN 내부의 다운샘플링 연산을 DWT로 치환하여 주파수 정보를 보존하였다. 그러나 이들 방법은 모두 단일 도메인 내 변형에 해당하며, 화소값과 주파수 특징을 분리·융합하지는 않았다. 그림 5 (a)는 이러한 기존 단일 도메인 기반 구조를 보여준다. 반면, 본 연구에서는 그림 5 (b)와 같이 화소값-주파수 간 상호보완성을 확보하는 병렬 구조를 채택한다는 점에서 차별적이다. 이때 빨간색으로 표시된 블록은 본 연구에서 추가적으로 제안하는 주파수 특징 추출 경로와 결합 과정을 의미하며, 기존의 화소값 특징 경로와 구분하여 강조한 것이다.
2. Haar Wavelet 변환
입력 영상의 주파수 성분 추출을 위해 본 연구에서는 Haar 웨이블릿을 사용한다. Haar 웨이블릿은 가장 단순한 형태의 직교 웨이블릿으로, 신호를 저주파와 고주파 성분으로 효율적으로 분리할 수 있으며, 필터 구조가 간단하고 연산량이 적어 대규모 의료 영상 처리에도 적합하다. 특히 저주파 성분은 영상의 전반적인 구조, 밝기 분포, 그리고 폐렴과 같이 넓게 분포하는 병변 패턴을 안정적으로 반영할 수 있어 본 연구의 목표와 부합한다.
기본 Haar 웨이블릿 함수 ψ(x)는 [0,1) 구간을 두 개의 절반으로 나누어 각각 +1과 -1의 값을 가지는 계단 함수 형태로, 다음과 같이 정의된다.
| (1) |
위 수식에서 x는 영상 픽셀의 정규화된 위치 또는 좌표를 의미한다. 즉, 0부터 1까지의 값으로 매핑된 픽셀 위치를 나타내어 웨이블릿 함수가 각 픽셀에 어떻게 적용되는지를 정의한다. 그리고, 그림 3에서 설명하는 각 성분은 다음과 같은 행렬 연산으로 정의된다.
| (2) |
| (3) |
| (4) |
| (5) |
여기서 I는 입력 영상이며, *는 행렬 곱(matrix multiplication)을 의미한다. 은 인접 픽셀의 평균을 계산하여 전반적인 밝기 및 전역적 구조를 포착하는 저주파 필터이다. 은 인접 픽셀 간의 차이를 계산하여 경계나 세부 질감과 같은 세밀한 변화를 포착하는 고주파 필터이다.
연산 후에는 행과 열 방향으로 각각 2배 다운샘플링이 이루어지는데, 이러한 웨이블릿 변환 기반의 다운샘플링은 단순히 최댓값을 취하는 Max-Pooling과 달리 정보 손실을 최소화하고 영상의 구조적 정보를 효과적으로 보존한다는 장점이 있다. 이는 미세 병변의 형태나 경계가 불분명한 폐렴 영상 분석에서 특히 유리하다.
본 연구에서는 1단계(1-level) 변환만 적용한다. 이는 단일 레벨만으로도 폐 구조와 광범위 병변 패턴 등 주요 저주파 정보를 효과적으로 포착할 수 있으며, 2단계 이상의 변환은 해상도를 급격히 저하시키고 미세 병변 정보가 손실될 가능성이 높기 때문이다. 또한 1-level 변환은 연산 복잡도를 억제하고, 이후 DenseNet 기반의 화소값 특징과 결합 시 과적합 가능성을 줄이는 데 유리하다. 이렇게 추출된 cA 성분은 후속 단계에서 DenseNet이 학습한 화소값 영역 특징과 결합되어, 화소값-주파수 융합 기반의 폐렴 분류를 수행한다.
3. Global Average Pooling (GAP) 기반 특징 결합
추출된 cA 성분은 별도의 컨볼루션 블록을 통해 저대비·경계가 흐릿한 침윤 병변의 경계 및 구조적 패턴을 강화한다. 이는 주파수 도메인에서 얻어진 구조 정보가 화소값 영역 특징과 결합될 때 더 뚜렷한 차별성을 제공하도록 한다.
이후, 처리된 cA 특징 맵은 GAP 과정을 거쳐 1 × 1 크기의 채널 벡터로 변환된다. 이를 그림 6에 표시하였다. 여기서 GAP는 마지막 convolution layer의 각 채널별 평균값을 계산하여 벡터를 생성하는 연산으로, Fully Connected layer 대비 파라미터 수를 대폭 줄여 과적합 위험을 감소시키며, 추가적인 학습 파라미터 없이도 의미 있는 구조적 특징을 유지한다. 또한 GAP는 채널 단위의 전역적인 응답을 직접 학습에 반영하게 하여, 병변이 영상의 어느 위치에 존재하더라도 해당 채널이 강하게 활성화될 수 있도록 유도한다.
마지막으로, GAP를 거친 주파수 영역 특징 벡터와 DenseNet이 추출한 화소값 영역 특징 벡터를 concatenate하여 최종 분류기로 전달한다. 이 과정에서 화소값 정보는 병변의 위치와 형태를, 주파수 정보는 미세 텍스처와 전역 구조를 보완적으로 제공함으로써, 폐렴 병변 검출의 정확도를 향상시킨다.
Ⅳ. 실험 환경 및 실험 결과
1. Dataset
본 연구에서는 학습 데이터 5,216장(정상 1,341장, 폐렴 3,875장), 테스트 데이터 624장(정상 234장, 폐렴 390장)으로 구성된 ChestXRay2017 Dataset[9]을 사용하였다. 해당 Dataset은 주로 1~5세 소아 환자의 흉부 X-ray 영상으로 구성되어 있다. 그림 7은 정상 환자의 흉부 X-ray 예시 이미지를, 그림 8은 폐렴 환자의 흉부 X-ray 예시 이미지를 나타낸다.
소아 X-ray 영상은 성인과 비교할 때 뚜렷한 해부학적‧영상학적 차이를 보인다. 예컨대, 소아는 해부학적으로 흉곽 크기가 작고, 연조직 발달이 미흡하며, 뼈조직의 석회화가 완전히 이루어지지 않아 X-ray의 투과도가 성인에 비해 높다. 그 결과, 폐 실질의 혼탁과 폐렴 병변에 의한 음영 증강 등 구조 변화가 영상 상에서 더욱 명확하게 드러나게 된다. 이러한 점은 폐렴 병변의 위치와 확산 형태를 비교적 선명하게 관찰할 수 있게 하며, 이는 인공지능 모델이 소아 영상에 대해 상대적으로 높은 진단 민감도와 특이도를 달성할 수 있는 잠재적 이점을 제공한다.
임상적으로도 소아와 성인 폐렴은 영상 소견에서 차이를 보인다. 소아 폐렴은 주로 폐포성 병변이 많고, 폐 실질의 뚜렷한 음영 증가 및 침윤이 영상에서 직접적으로 나타난다. 이에 반해, 성인 폐렴은 간질성 침윤 패턴, 기저 폐질환(만성 폐쇄성 폐질환, 폐 섬유화 등) 동반, 노화에 의한 해부학적 변화 등이 복합적으로 작용하여 영상의 비특이성과 구조적 복잡성이 커지는 경향이 있다. 이러한 성인의 해부·병리학적 요인은 실제 진단 과정에서 영상 판독 일관성과 정확도를 저하시킬 수 있다.
또한, 성인은 만성 폐쇄성 폐질환(COPD), 심부전, 폐 섬유화 등 다양한 만성 질환의 기저 질환을 보유할 수 있으므로, 폐렴 병변이 다른 구조물과 중복되거나 명확한 경계 없이 복합적으로 나타나는 경우가 많다. 반대로, 소아 환자는 기저 질환이 거의 없고, 영상 상에 단독 병변이 드러나는 경우가 상대적으로 많아 딥러닝 기반 진단 모델의 성능 산출에 유리한 환경을 제공한다.
이러한 특성에 따라, 본 연구에서 제안하는 DenseNet 및 웨이블릿 변환 기반 이중 도메인 모델은 소아 폐렴 영상에 대해 높은 진단 정확도를 기대할 수 있지만, 동일한 모델을 성인 흉부 X-ray 영상에 그대로 적용할 경우에는 해부학적·병리학적 차이로 인한 한계점이 존재할 수 있음을 엄밀히 인지하였다. 따라서 연구 결론에서는 본 연구의 제한점을 명확히 언급하면서, 향후 DenseNet과 웨이블릿 변환을 결합한 이중 도메인 기반 모델이 성인 흉부 X-ray 영상에서도 진단 성능 및 신뢰성을 높일 수 있는지에 대한 추가적인 연구 확장의 필요성을 제시하였다. 이와 같이, 본 연구는 Dataset의 연령 특성과 의료 영상 해부학적 다양성을 충분히 고려하여 실험 설계 및 모델 평가를 수행하였고, Dataset의 구조적 한계와 임상 실제 적용 범위에 대한 객관적 인식을 바탕으로 연구의 신뢰성과 확장 가능성을 높이고자 하였다.
2. 실험 환경
실험은 Anaconda 가상 환경의 Jupyter Notebook에서 Python 언어로 수행되었으며, 사용한 하드웨어 환경은 다음과 같다.
3. 실험 결과
본 연구에서는 ChestXRay2017 Dataset을 기반으로 공개된 DenseNet-121 폐렴 진단 코드[10]를 참조하여, 주파수 기반 보완 기법의 실제 성능을 검증하였다. 표 2와 표 3은 제안하는 방법을 적용하기 전후의 성능 비교 결과를 나타낸다.
제안된 방법을 적용하기 전후의 비교 결과, DenseNet-121 단일 모델과 비교했을 때 이중 도메인(주파수 + 화소값) 모델의 성능이 모든 주요 평가 지표에서 의미 있게 향상된 것으로 나타났다. 모델의 Accuracy는 0.969에서 0.987로 약 1.8%포인트 증가했다. 정상(NORMAL) 클래스의 Precision은 0.91에서 0.98로, 재현율(Recall)은 0.97에서 0.98로 개선되었으며, 폐렴(PNEUMONIA) 클래스의 Precision은 0.99로 유지되었으나 Recall은 0.97에서 0.99로 상승하였다. 이와 같은 정상 클래스 Precision의 큰 폭 향상은 폐렴이 아닌 환자를 폐렴으로 오진하는 의료 현장에서의 오류(False Positive)를 효과적으로 줄일 수 있음을 의미한다. 또한, 두 클래스 간 평가 지표의 균형이 맞춰져 F1 Score 또한 정상 클래스에서 0.94에서 0.97로, 폐렴 클래스에서 0.98에서 0.99로 증가하여 모델의 전반적인 일반화 성능이 강화되었음을 확인할 수 있다.
제안된 모델의 성능 향상 원인을 보다 명확히 분석하기 위해, 웨이블릿 변환에서 사용된 주파수 성분의 영향을 추가적으로 검토하였다. 이를 위해 저주파(Approximation, cA) 성분만을 사용한 모델과, 고주파(Horizontal, Vertical, Diagonal; cH, cV, cD) 성분을 동시에 결합한 모델을 동일한 학습 조건에서 비교하였다.
표 4에서 확인되듯, 고주파(cH+cV+cD) 결합 모델은 cA-only 대비 NORMAL 클래스의 Precision이 0.98에서 0.91로, Recall이 0.98에서 0.95로 하락하였다. PNEUMONIA 클래스 역시 Recall이 0.99에서 0.97로 소폭 감소하여, 고주파 성분 결합이 양성 판별 성능의 추가적 개선을 유도하지 못하는 양상을 보였다. 이러한 결과는 고주파 성분이 늑골·혈관·촬영 노이즈 등 미세한 구조적 변동에 민감하게 반응하여 정상 영상의 예측 오류(False Positive)가 증가한 데 기인한 것으로 보인다.

Comparison of Classification Metrics Between Low-Frequency (cA-only) and High-Frequency (cH+cV+cD) Models
반면, cA-only 모델은 영상의 전역 구조와 저대비 패턴을 안정적으로 반영함으로써 두 클래스에서 Precision과 Recall의 균형을 더 잘 유지하였다. 종합하면, 웨이블릿 변환 이후 저주파(cA) 단독 결합이 가장 안정적이고 효율적인 구성임을 실험적으로 뒷받침한다.
추가로 표 5와 표 6에서는 동일한 Dataset과 DenseNet-121 구조를 활용한 기존 연구와 본 연구의 성능을 비교하였다.
기존 연구 [4]의 Accuracy는 0.96, [5]의 Accuracy는 0.9703이지만, 제안 방법은 0.987로 가장 높은 Accuracy를 기록하였다. Precision, Recall, F1 Score 등 세부 평가에서도 제안 모델은 상위 값을 기록했고, NORMAL 클래스 Precision이 기존 0.95~0.97에서 0.98로 상승하여, 전체 Dataset에서의 분류 안정성이 향상되었으며, 이는 모델이 클래스 간 특성 차이를 보다 명확하게 구분하도록 학습되었음을 시사한다. 결과적으로, 실험 결과는 제안하는 주파수 기반 보완 기법이 DenseNet-121 단일 모델보다 모든 측정 지표에서 우수한 성능을 보였으며, 특히 오진율 감소와 안정적인 진단 지원 측면에서 임상 활용 가치를 높일 수 있음을 시사하였다.
제안된 방법은 DenseNet-121 구조에 웨이블릿 기반 특징 추출 블록을 추가하여 주파수 영역 정보를 보완하였다. 그러나 이러한 구조 확장은 모델의 파라미터 수와 학습 복잡도에 영향을 미칠 수 있으므로, 웨이블릿 블록 추가 전후의 모델 복잡도를 정량적으로 비교하였다.
비교 결과, 총 파라미터 수는 5,120개(0.07%) 증가하였으며, 전체 모델 크기는 27.38MB에서 27.40MB로 약 0.02MB(0.07%) 증가하였다. 이러한 증가는 DenseNet-121 전체 구조 대비 매우 미미한 수준으로, 웨이블릿 블록 추가에 따른 연산 및 메모리 사용량의 영향이 극히 제한적임을 확인할 수 있었다.
따라서 제안된 웨이블릿 특징 추출 블록은 모델의 경량성을 유지하면서도 성능을 유의하게 향상시킨 효율적 구조로 판단된다.
Ⅴ. 결 론
본 연구는 흉부 X-ray 영상에서 폐렴 진단 성능 및 신뢰도를 향상시키기 위해 DenseNet-121 기반 화소값 특징과 Haar 웨이블릿을 통한 주파수 저주파 성분(cA)을 결합한 이중 도메인 모델을 제시하였다. ChestXRay2017 Dataset을 활용한 실험 결과, 모든 주요 평가 지표(Accuracy, Precision, Recall, F1 Score)에서 기존 DenseNet-121 모델 대비 유의한 성능 향상을 확인하였다.
특히 정상 클래스의 Precision과 Recall이 각각 0.98로 개선되어, 정상과 폐렴의 경계가 모호한 상황에서도 오분류율이 현저히 감소하였으며, F1 Score 균형이 향상되었다. 이는 주파수 기반 보완 기법이 병변 경계가 불투명하거나 넓게 분포하는 패턴을 효과적으로 포착하고, 화소값 특징과 융합함으로써 진단 신뢰성을 크게 높였기 때문이다. 다만, 본 연구의 제한점으로는 주요 실험 Dataset이 소아 폐렴 영상에 집중되어 있어, 다양한 연령대나 임상 환경에서의 범용성 검증이 필요하다는 점을 들 수 있다. 향후에는 연령·질환 다양성을 반영한 확장 Dataset, 다양한 웨이블릿 함수, 선택적 고주파 성분 통합 등의 전략을 통해 모델의 범용성과 정밀도를 추가 검증할 필요가 있다.
종합적으로 이중 도메인 기반 신경망은 폐렴 진단 정확도를 높이고, 정상 분류의 오진율을 감소시키는 효과를 보여주었으며, 이는 향후 다양한 흉부 질환 분석 및 임상 진단 자동화 시스템에 활용될 수 있다는 점에서 중요한 의의를 가진다. 앞으로 확장된 임상 환경 연구를 통해 모델의 실용성과 신뢰성을 지속적으로 향상시킬 수 있을 것이다.
Acknowledgments
이 논문의 결과 중 일부는 한국방송·미디어공학회 2025년 하계학술대회에서 발표한 바 있음
This work was supported by the faculty research fund of Sejong University in 2025
References
-
G. Huang, Z. Liu, L. Van Der Maaten, and K. Q. Weinberger, “Densely connected convolutional networks,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp.4700–4708, 2017.
[https://doi.org/10.1109/CVPR.2017.243]
-
T. Rahman, M. E. H. Chowdhury, A. Khandakar, K. R. Islam, K. F. Islam, Z. B. Mahbub, M. A. Kadir, and S. Kashem, “Transfer learning with deep convolutional neural network (CNN) for pneumonia detection using chest X-ray,” Applied Sciences, Vol.10, No.9, Article No.3233, 2020.
[https://doi.org/10.3390/app10093233]
-
E. Shakeri and B. Far, “Advancing Pneumonia Classification and Detection: Comparative Analysis of Deep Learning Models Using Convolutional Neural Networks,” 2024 IEEE International Conference on Information Reuse and Integration for Data Science (IRI), San Jose, CA, USA, pp. 108-113, 2024.
[https://doi.org/10.1109/IRI62200.2024.00033]
-
S. Pappula, T. Nadendla, N. B. Lomadugu, and S. R. Nalla, “Detection and classification of pneumonia using deep learning by the DenseNet-121 model,” Proceedings of the 2023 9th International Conference on Advanced Computing and Communication Systems (ICACCS), Coimbatore, India, pp.1671-1675, 2023.
[https://doi.org/10.1109/ICACCS57279.2023.10113110]
-
T. S. Arulananth, S. W. Prakash, R. K. Ayyasamy, V. P. Kavitha, P. G. Kuppusamy, and P. Chinnasamy, “Classification of paediatric pneumonia using modified DenseNet-121 deep-learning model,” IEEE Access, Vol.12, pp.35716–35727, 2024.
[https://doi.org/10.1109/ACCESS.2024.3371151]
-
H. A. Sanghvi, R. H. Patel, A. Agarwal, S. Gupta, V. Sawhney, and A. S. Pandya, “A deep learning approach for classification of COVID and pneumonia using DenseNet 201,” International Journal of Imaging Systems and Technology, Vol.33, No.1, pp.18–38, 2023.
[https://doi.org/10.1002/ima.22812]
-
A. Mabrouk, R. P. Diaz Redondo, A. Dahou, M. Abd Elaziz, and M. Kayed, “Pneumonia detection on chest X-ray images using ensemble of deep convolutional neural networks,” Applied Sciences, Vol.12, No.13, Article No.6448, 2022.
[https://doi.org/10.3390/app12136448]
-
Q. Li, L. Shen, S. Guo, and Z. Lai, “Wavelet integrated CNNs for noise-robust image classification,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), WA, USA, pp.7245–7254, 2020.
[https://doi.org/10.1109/CVPR42600.2020.00727]
- Labeled optical coherence tomography (OCT) and chest X-ray images for classification, https://data.mendeley.com/datasets/rscbjbr9sj/2, (accessed May 14, 2025).
- Chest X-Ray DenseNet-98, https://www.kaggle.com/code/mainiyash2004/chest-x-ray-densenet-98, (accessed May 14, 2025).
- 2023년 3월 ~ 현재 : 세종대학교 전자정보통신공학과 학사과정
- ORCID : https://orcid.org/0009-0008-5955-766X
- 주관심분야 : 비디오 코덱, 영상 신호처리, 인공지능
- 1992년 : KAIST 전기및전자공학과 공학사
- 1994년 : KAIST 전기및전자공학과 공학석사
- 1999년 : KAIST 전기및전자공학과 공학박사
- 1999년 3월 ~ 2001년 8월 : 삼성전자 DM연구소 책임연구원
- 2001년 9월 ~ 현재 : 세종대학교 전자정보통신공학과 교수
- 2008년 9월 ~ 2009년 8월 : University California San Diego (UCSD) Visiting Scholar
- ORCID : https://orcid.org/0000-0002-5036-7199
- 주관심분야 : 비디오 코덱, 영상 신호처리, 정보 압축, 방송 시스템








