[논문] ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds

1. Motivation CLAP(Contrastive Language-Audio Pre-training) 모델은 제로샷 오디오 분류(ZSAC) 작업에서 우수한 성능을 보이지만, 여전히 표준 지도학습 방법보다 성능이 낮다. 이는 다음 세 가지 주요 이유 때문이다. 대규모 오디오-캡션 데이터셋 접근의 한계: CLAP은 CLIP과 달리 대규모 오픈소스 오디오-캡션 데이터셋으로 훈련되지 않았기 때문에 다양한 오디오와 언어 상호작용을 완전히 이해하는 능력이 제한된다. 훈련 카테고리 레이블 너머의 일반화 부족: CLAP은 훈련에 사용된 특정 카테고리 레이블을 넘어 일반화하는 데 어려움을 겪는다. 예를 들어, AudioSet에서 “Sound of a toothbrush"로 훈련된 모델이 ESC50 데이터셋의 “brushing teeth"와 같은 유사한 레이블에 정확히 일반화하지 못할 수 있다. ZSAC용 수작업 프롬프트의 한계: 현재 ZSAC 설정은 데이터셋 카테고리 레이블에 직접 대응하는 수작업 프롬프트에 의존한다. 이러한 프롬프트는 레이블 자체를 넘어 추가적인 컨텍스트를 제공하지 못한다. 2. Related Work CLAP 이후로 여러 연구가 CLAP의 성능을 향상시키기 위해 노력했다. Wu 등은 CLAP을 630k 오디오-캡션 쌍으로 확장했고, Elizade 등은 4.6M 오디오-캡션 쌍까지 데이터를 확장하고 음성 샘플도 훈련에 포함시켰다. Ghosh 등은 오직 공개 도메인 데이터만 사용하여 660k 쌍으로 CompA-CLAP을 구축했다. CLAP은 텍스트-오디오 생성, 오디오 캡셔닝, 오디오 채팅 모델 등 다양한 기초 오디오 처리 작업의 오디오나 텍스트 백본으로도 활용되고 있다. ...

[논문] A Multi-Resolution Front-End for End-to-End Speech Anti-Spoofing

1. Motivation 기존 음성 신호 분류 작업에서 시간-주파수 해상도의 최적 선택은 성능에 중요한 영향을 미치지만, 어떤 해상도가 가장 적합한지는 명확하지 않다. 특히, 스푸핑 방지를 위한 음성 분류에서는 다양한 시간-주파수 스케일이 필요하다. 기존 연구는 고정된 해상도에서 작업하여 정보 손실 가능성이 있으며, 이는 분류 성능을 제한할 수 있다. 이 논문은 다중 해상도 기반의 전처리(front-end) 방식을 제안하여 이러한 문제를 해결하고자 한다. 2. Related Work 기존 연구에서는 다중 해상도 또는 다중 스케일 구조를 통해 분류 성능을 개선하려는 시도가 있었다. 예를 들어: ...

[논문] MATPC: Masked Latent Prediction and Classification for Self Supervised Audio Representation Learning

MATPAC: Masked Latent Prediction and Classification for Self Supervised Audio Representation Learning 1. Motivation 최근 마스크 잠재 예측(masked latent prediction)에 기반한 자기지도 학습(SSL) 방법들이 입력 데이터를 강력한 표현으로 인코딩하는 데 효과적임이 입증되었다. 그러나 학습 과정에서 학습된 잠재 공간을 더 높은 수준의 정보를 추출하도록 변환하면 다운스트림 분류 작업에 더 적합할 수 있다. 이 논문은 두 가지 사전 작업(pretext task)을 결합하여 오디오 표현 학습의 성능을 향상시키는 새로운 방법론인 MATPAC(MAsked latenT Prediction And Classification)을 제안한다. 첫 번째 사전 작업은 마스크 잠재 예측이며, 두 번째는 비지도 분류로, 잠재 표현을 활용하여 교사(teacher)와 학생(student) 모델 간의 확률 분포를 일치시킨다. ...

[논문] Sparse Binarization for Fast Keyword Spotting

1. Motivation 음성 기반 디바이스와 애플리케이션의 증가로 키워드 스포팅(Keyword Spotting, KWS)은 실시간 음성 인식을 가능하게 하며, 엣지 디바이스에서의 프라이버시와 대역폭 효율성을 높인다. 엣지 디바이스는 메모리와 연산 속도가 제한되어 있어 KWS 모델의 경량화와 최적화가 필수적이다. 이 논문에서는 효율적이고 정확한 KWS를 위한 새로운 방법으로 Sparse Binarization을 기반으로 한 모델 SparkNet을 제안한다. SparkNet은 기존 최첨단(SOTA) 모델 대비 4배 빠르면서도 더 높은 정확도를 제공하며, 소음 환경에서도 더 강력한 성능을 보여준다. 2. Related Work Keyword Spotting (KWS) KWS는 음성 데이터를 실시간으로 분석해 특정 단어를 탐지하는 기술이다. 기존 연구는 소형 CNN, RNN, 또는 하이브리드 네트워크를 사용하여 엣지 디바이스에서 최적화된 모델을 설계해왔다. 주요 기법으로는 양자화(Quantization), 프루닝(Pruning), 그리고 **1D 깊이분리 합성곱(Depthwise Separable Convolution)**이 활용되었다. 3. Proposed Method Method Overview Sparse Binarization: 입력 데이터에서 유효하지 않은 특징을 제거하고, 예측에 유용한 정보를 유지하기 위해 이진화된 표현을 학습한다. 모델 구조: SparkNet은 입력 데이터를 이진화하여 선형 분류기로 전달하며, 효율적인 계산을 위해 **1D 시간-채널 분리 합성곱(Time-Channel Separable Convolution)**을 사용한다. SparkNet Architecture 입력 데이터: 멜 주파수 스펙트럼(MFCC)을 기반으로 한 (F \times T) 크기의 입력 데이터를 사용한다. 구조: 4개의 블록으로 구성된 1D 깊이분리 합성곱 레이어. 배치 정규화와 ReLU 활성화를 포함. 마지막 출력 레이어는 1x1 합성곱으로 구성되며 Tanh 활성화를 사용한다. 출력: 12개의 키워드 범주로 매핑되며, 여기에는 10개의 타겟 단어, “Unknown”, 그리고 “Silence"가 포함된다. Sparse Binarized Representation Learning 학습 과정: 입력 데이터를 이진화하기 위해 가우시안 기반의 이완된 Bernoulli 분포를 활용한다. 학습 중, 스파스 표현을 강화하기 위해 정규화 손실((L_{sparse}))을 추가. 효과: 입력 데이터의 시공간적 특징을 간결하게 유지하여, 계산량은 줄이면서 높은 정확도를 보장한다. Classification Learning 학습 목표: 이진화된 표현을 평균 풀링한 후, 단일 선형 레이어로 타겟 키워드를 예측. 손실 함수: (L = L_{sparse} + \lambda L_{ce}), 여기서 (L_{ce})는 크로스 엔트로피 손실. 4. Experiments Experimental Setup 데이터셋: Google Speech Commands 버전 1(V1) 및 2(V2). 각각 30개와 35개의 키워드 범주를 포함하며, 1초 길이의 샘플로 구성. MFCC를 사용하여 32개의 주파수 빈으로 전처리. 평가 지표: Top-1 정확도와 Multiply-Accumulate Operations(MACs). 소음 환경에서의 강건성: 다양한 신호대잡음비(SNR)에서 모델의 성능을 측정. Results 속도와 정확도: SparkNet은 SOTA 모델(BC-ResNet)보다 4배 빠르며, 동일하거나 더 높은 정확도를 달성. SparkNet[C=32]: SC2 데이터셋에서 97.0%의 정확도를 기록하며 BC-ResNet을 초과. 소음 강건성: 다양한 SNR에서 SparkNet이 BC-ResNet 대비 일관되게 높은 정확도를 보임. Ablation Study 모델 구성 요소 검증: 이진화 과정(Lsparse)이 모델 성능에 가장 큰 기여를 함을 확인. 보조 분류기를 추가했을 때, 성능 향상이 없었음을 실험적으로 입증. 5. Conclusion & Limitation Conclusion SparkNet은 효율성과 정확성을 동시에 달성한 KWS 모델로, 엣지 디바이스에 최적화되었다. 소음 환경에서도 강건성을 가지며, 기존 모델보다 적은 계산량으로 높은 성능을 보인다. Limitation 이 모델은 감독 학습(Supervised Learning)에 기반하며, 자가 지도 학습(Self-Supervised Learning)으로 확장이 필요함. 더욱 소형화된 디바이스를 대상으로 한 추가 최적화 가능성이 존재. Related Works BC-ResNet: Broadcasted Residual Learning 기반의 KWS 모델. MatchboxNet: 1D 시간-채널 분리 합성곱 구조를 사용한 KWS 모델. TinySpeech: 엣지 디바이스에서 경량화를 위해 설계된 Attention 기반 모델. Key References Svirsky et al., “SG-VAD: Stochastic Gates Based Speech Activity Detection” (ICASSP 2023) Kim et al., “Broadcasted Residual Learning for Efficient Keyword Spotting” (Interspeech 2021) Majumdar et al., “MatchboxNet: 1D Time-Channel Separable CNN for Speech Commands Recognition” (2020)

[논문] Keyword Transformer: A Self-Attention Model for Keyword Spotting

1. Motivation Transformer 구조는 자연어 처리뿐만 아니라 이미지 처리와 음성 인식 등 다양한 도메인에서 성공적으로 사용되고 있다. 하지만 키워드 스포팅 분야에서는 주로 Transformer가 기존의 CNN이나 RNN 같은 구조 위에 추가적으로 사용되어 왔다. 이를 해결하기 위해, 이 논문은 키워드 스포팅에 Transformer를 직접 적용하는 모델인 Keyword Transformer(KWT)를 제안한다. KWT는 별도의 사전 학습이나 추가 데이터를 필요로 하지 않으면서 기존의 복잡한 혼합 구조보다 뛰어난 성능을 보이며, Google Speech Commands 데이터셋에서 최고 수준의 정확도를 달성했다. ...

[논문] BEATS : Audio Pre-Training with Acoustic Tokenizercategories

1. Motivation 최근 자기지도학습(SSL)은 언어, 비전, 음성에서 큰 성과를 보여주고 있지만, 오디오 도메인에서는 여전히 복원 손실(reconstruction loss)이 주로 사용되고 있다. 복원 손실은 저수준 시간-주파수 특징을 재현하는 데 초점이 맞춰져, 고수준의 의미 정보를 제대로 반영하지 못하는 한계가 있다. BEATS는 연속적인 오디오 데이터를 이산적(discrete) 라벨로 변환해 고수준의 의미적 정보를 학습하는 새로운 프레임워크를 제안한다. 이를 통해 기존 방식보다 효율적이고 의미 중심적인 학습이 가능하도록 한다. 2. Related Work 오디오 사전 학습은 크게 지도 학습과 자기지도학습으로 나뉜다. ...

[논문] Filterbank Learning for Noise-Robust Small-Footprint Keyword Spotting

Filterbank Learning for Noise-Robust Small-Footprint Keyword Spotting 1. Motivation 키워드 스포팅(KWS)은 보통 Log-Mel이나 MFCC 같은 수작업 특징을 사용함. 학습 가능한 필터뱅크가 기존 특징을 대체하려는 시도는 있었으나, 큰 성과는 없었음. 필터뱅크 채널 수를 줄이면 학습된 필터뱅크가 성능을 유지하면서도 에너지 소비를 크게 줄일 수 있다는 것을 주장함. 항상 켜져 있는 저자원 KWS 시스템에 특히 중요함. 2. Related Works SincNet: 학습 가능한 필터뱅크를 CNN 기반 KWS에 적용한 연구. 수작업 특징과의 직접 비교는 부족했음. 기존 연구에서는 Log-Mel과 MFCC가 여전히 더 우수하다고 결론지음. 이 논문에서는 필터뱅크 채널을 줄일 때 성능 개선 가능성을 증명함. 드롭아웃 사용으로 소음 강건성과 일반화 능력을 높임. 3. Proposed Method 필터뱅크 학습: 입력 신호의 STFT를 계산 후 필터뱅크 레이어로 필터링함. 학습 가능한 필터뱅크 행렬 ( W )를 통해 필터링된 출력 ( Y ) 생성. 드롭아웃을 통해 일반화 성능 개선. 에너지 절약: 필터뱅크 채널 수를 줄이면 곱셈 연산량이 감소 → 에너지 소비 절감. 학습 구조: CNN 백엔드를 사용하며, 잔차 연결과 시간-주파수 패턴 포착. 키워드 존재 탐지. 4. Experiments 데이터셋 Google Speech Commands Dataset 사용. 소음 추가 (차량 내부, 카페 등), SNR 범위는 -10dB ~ 20dB. 결과 필터뱅크 학습은 소음 환경에서 더 높은 강건성 제공. 특히 드롭아웃 사용 시 효과가 더 좋음. Log-Mel (40채널) vs. 학습 필터뱅크 (8채널): 정확도 3.5% 감소, 에너지 소비 6.3배 절감. 8채널 vs. 5채널: 정확도 유지, 에너지 소비 2배 절감. 학습된 필터뱅크가 소음 환경(보이지 않는 소음 포함)에서도 더 나은 성능 발휘. 5. Conclusion & Limitation 결론 필터뱅크 채널 수를 줄이면 학습 가능한 필터뱅크가 수작업 특징보다 우수. 드롭아웃이 소음 강건성과 일반화 성능에 큰 기여. 저자원 환경에서 특히 유용함. 한계 및 향후 연구 필터뱅크 설계와 소음 강건성 최적화를 위한 추가 연구 필요. 더 나은 특징 설계를 목표로 함.

[논문] Noise-Robust Keyword Spotting throught Self-Supervised Pretraikning

Noise-Robust Keyword Spotting throught Self-Supervised Pretraikning 1. Motivation 현대의 음성 비서는 거의 모든 컴퓨터와 스마트 기기에서 사용 가능함 음성 비서는 ASR(자동 음성 인식) 모델을 사용하지만, 이는 계산 비용이 높아 작은 기기에서 실행하기 어려움 대신 키워드 스팟팅(KWS) 알고리즘을 통해 특정 키워드가 발화되었을 때 ASR을 활성화함 현재 최신 KWS 모델들은 지도학습 방식으로 학습되어 많은 양의 레이블된 데이터가 필요한 상황 레이블이 없는 데이터를 활용할 수 있는 자기지도학습의 활용이 필요한 상황 2. Related Works Data2Vec 프레임워크를 사용한 transformer 기반 KWS 모델의 사전학습이 성능 향상에 도움이 된다는 연구가 있었음 하지만 이전 연구는 깨끗한 오디오 입력만을 가정했고, 실제 환경의 노이즈는 고려하지 않았음 ASR 분야에서는 자기지도학습을 통한 노이즈 강건성 연구가 진행되어 왔음 KWS에서는 대부분 지도학습 기반의 multi-style training이나 adversarial training 방식으로 노이즈 강건성을 확보 3. Proposed Method Data2Vec 프레임워크를 기반으로 한 세 가지 사전학습 방식 제안: ...

[논문] Survey: Efficient Large Language Models

Efficient Large Language Models Introduction 본 글은 Yizhang Jin et al “Efficient Multimodal Large Language Models” 서베이에 기반한다. 2023년 중후반부터 멀티모달 기반 대형 언어 모델(Multimodal Large Language Models, MLMMs)의 발전은 텍스트 기반을 넘어 시각적 이해 및 추론 작업에서 놀라운 성과를 보였다. 그러나 LLM과 마찬가지로 모델 크기가 매우 크고, 훈련 및 추론 비용이 높아 학계와 산업계에서 광범위한 응용을 제한시켰다. 이에 따라 로컬 장치, 엣지 컴퓨팅 등의 요구 사항을 충족하기 위해 효율적이고 경량화된 MLMM을 연구하는 시도가 많아졌다. 이러한 변화는 LLM의 소형화와 우수한 비전 인코더의 발전과 함께 진행되고 있다. ...

[논문] Speculative Decoding

개요 이 글은 스퀴즈비츠의 김태수님이 발표한 내용으로 두 논문을 정리하였다. LLM에 토큰을 하나씩 생성할 때마다 굉장히 많은 weight를 불러와야 한다. 그래서 DRAM bandwidth가 문제가 된다. Autoregressive 방식이 GPU를 완전하 활용하지 못하는 문제가 발생한다. 이를 해결하기 위한 방법 중 하나로 Speculative Decoding이 있다. Speculative Decoding은 1개의 프롬프트를 1 배치로 처리하는 것이 아니라, 예측한 여러 토큰들을 동시에 재입력하여 병렬 처리하는 기술이다. 따라서 모델은 여러 입력 문장을 배치 단위로 처리한다. Speculative Decoding 이 논문은 Draft, Verification을 단순하게 구현하여 최적의 토큰을 찾는다. 이때 적절한 토큰이 아니면 물러나는데 이 rejection을 잘하는 방법이 중요하다. 이 논문은 computational resource 활용성을 높이기 위해, Speculative Sampling 방법을 제안한다. ...