[๋ ผ๋ฌธ] ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds
1. Motivation CLAP(Contrastive Language-Audio Pre-training) ๋ชจ๋ธ์ ์ ๋ก์ท ์ค๋์ค ๋ถ๋ฅ(ZSAC) ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ์ฌ์ ํ ํ์ค ์ง๋ํ์ต ๋ฐฉ๋ฒ๋ณด๋ค ์ฑ๋ฅ์ด ๋ฎ๋ค. ์ด๋ ๋ค์ ์ธ ๊ฐ์ง ์ฃผ์ ์ด์ ๋๋ฌธ์ด๋ค. ๋๊ท๋ชจ ์ค๋์ค-์บก์ ๋ฐ์ดํฐ์ ์ ๊ทผ์ ํ๊ณ: CLAP์ CLIP๊ณผ ๋ฌ๋ฆฌ ๋๊ท๋ชจ ์คํ์์ค ์ค๋์ค-์บก์ ๋ฐ์ดํฐ์ ์ผ๋ก ํ๋ จ๋์ง ์์๊ธฐ ๋๋ฌธ์ ๋ค์ํ ์ค๋์ค์ ์ธ์ด ์ํธ์์ฉ์ ์์ ํ ์ดํดํ๋ ๋ฅ๋ ฅ์ด ์ ํ๋๋ค. ํ๋ จ ์นดํ ๊ณ ๋ฆฌ ๋ ์ด๋ธ ๋๋จธ์ ์ผ๋ฐํ ๋ถ์กฑ: CLAP์ ํ๋ จ์ ์ฌ์ฉ๋ ํน์ ์นดํ ๊ณ ๋ฆฌ ๋ ์ด๋ธ์ ๋์ด ์ผ๋ฐํํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๋๋ค. ์๋ฅผ ๋ค์ด, AudioSet์์ โSound of a toothbrush"๋ก ํ๋ จ๋ ๋ชจ๋ธ์ด ESC50 ๋ฐ์ดํฐ์ ์ โbrushing teeth"์ ๊ฐ์ ์ ์ฌํ ๋ ์ด๋ธ์ ์ ํํ ์ผ๋ฐํํ์ง ๋ชปํ ์ ์๋ค. ZSAC์ฉ ์์์ ํ๋กฌํํธ์ ํ๊ณ: ํ์ฌ ZSAC ์ค์ ์ ๋ฐ์ดํฐ์ ์นดํ ๊ณ ๋ฆฌ ๋ ์ด๋ธ์ ์ง์ ๋์ํ๋ ์์์ ํ๋กฌํํธ์ ์์กดํ๋ค. ์ด๋ฌํ ํ๋กฌํํธ๋ ๋ ์ด๋ธ ์์ฒด๋ฅผ ๋์ด ์ถ๊ฐ์ ์ธ ์ปจํ ์คํธ๋ฅผ ์ ๊ณตํ์ง ๋ชปํ๋ค. 2. Related Work CLAP ์ดํ๋ก ์ฌ๋ฌ ์ฐ๊ตฌ๊ฐ CLAP์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๋ ธ๋ ฅํ๋ค. Wu ๋ฑ์ CLAP์ 630k ์ค๋์ค-์บก์ ์์ผ๋ก ํ์ฅํ๊ณ , Elizade ๋ฑ์ 4.6M ์ค๋์ค-์บก์ ์๊น์ง ๋ฐ์ดํฐ๋ฅผ ํ์ฅํ๊ณ ์์ฑ ์ํ๋ ํ๋ จ์ ํฌํจ์์ผฐ๋ค. Ghosh ๋ฑ์ ์ค์ง ๊ณต๊ฐ ๋๋ฉ์ธ ๋ฐ์ดํฐ๋ง ์ฌ์ฉํ์ฌ 660k ์์ผ๋ก CompA-CLAP์ ๊ตฌ์ถํ๋ค. CLAP์ ํ ์คํธ-์ค๋์ค ์์ฑ, ์ค๋์ค ์บก์ ๋, ์ค๋์ค ์ฑํ ๋ชจ๋ธ ๋ฑ ๋ค์ํ ๊ธฐ์ด ์ค๋์ค ์ฒ๋ฆฌ ์์ ์ ์ค๋์ค๋ ํ ์คํธ ๋ฐฑ๋ณธ์ผ๋ก๋ ํ์ฉ๋๊ณ ์๋ค. ...
[๋ ผ๋ฌธ] A Multi-Resolution Front-End for End-to-End Speech Anti-Spoofing
1. Motivation ๊ธฐ์กด ์์ฑ ์ ํธ ๋ถ๋ฅ ์์ ์์ ์๊ฐ-์ฃผํ์ ํด์๋์ ์ต์ ์ ํ์ ์ฑ๋ฅ์ ์ค์ํ ์ํฅ์ ๋ฏธ์น์ง๋ง, ์ด๋ค ํด์๋๊ฐ ๊ฐ์ฅ ์ ํฉํ์ง๋ ๋ช ํํ์ง ์๋ค. ํนํ, ์คํธํ ๋ฐฉ์ง๋ฅผ ์ํ ์์ฑ ๋ถ๋ฅ์์๋ ๋ค์ํ ์๊ฐ-์ฃผํ์ ์ค์ผ์ผ์ด ํ์ํ๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ ๊ณ ์ ๋ ํด์๋์์ ์์ ํ์ฌ ์ ๋ณด ์์ค ๊ฐ๋ฅ์ฑ์ด ์์ผ๋ฉฐ, ์ด๋ ๋ถ๋ฅ ์ฑ๋ฅ์ ์ ํํ ์ ์๋ค. ์ด ๋ ผ๋ฌธ์ ๋ค์ค ํด์๋ ๊ธฐ๋ฐ์ ์ ์ฒ๋ฆฌ(front-end) ๋ฐฉ์์ ์ ์ํ์ฌ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ๋ค. 2. Related Work ๊ธฐ์กด ์ฐ๊ตฌ์์๋ ๋ค์ค ํด์๋ ๋๋ ๋ค์ค ์ค์ผ์ผ ๊ตฌ์กฐ๋ฅผ ํตํด ๋ถ๋ฅ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ค๋ ์๋๊ฐ ์์๋ค. ์๋ฅผ ๋ค์ด: ...
[๋ ผ๋ฌธ] MATPC: Masked Latent Prediction and Classification for Self Supervised Audio Representation Learning
MATPAC: Masked Latent Prediction and Classification for Self Supervised Audio Representation Learning 1. Motivation ์ต๊ทผ ๋ง์คํฌ ์ ์ฌ ์์ธก(masked latent prediction)์ ๊ธฐ๋ฐํ ์๊ธฐ์ง๋ ํ์ต(SSL) ๋ฐฉ๋ฒ๋ค์ด ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๊ฐ๋ ฅํ ํํ์ผ๋ก ์ธ์ฝ๋ฉํ๋ ๋ฐ ํจ๊ณผ์ ์์ด ์ ์ฆ๋์๋ค. ๊ทธ๋ฌ๋ ํ์ต ๊ณผ์ ์์ ํ์ต๋ ์ ์ฌ ๊ณต๊ฐ์ ๋ ๋์ ์์ค์ ์ ๋ณด๋ฅผ ์ถ์ถํ๋๋ก ๋ณํํ๋ฉด ๋ค์ด์คํธ๋ฆผ ๋ถ๋ฅ ์์ ์ ๋ ์ ํฉํ ์ ์๋ค. ์ด ๋ ผ๋ฌธ์ ๋ ๊ฐ์ง ์ฌ์ ์์ (pretext task)์ ๊ฒฐํฉํ์ฌ ์ค๋์ค ํํ ํ์ต์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ธ MATPAC(MAsked latenT Prediction And Classification)์ ์ ์ํ๋ค. ์ฒซ ๋ฒ์งธ ์ฌ์ ์์ ์ ๋ง์คํฌ ์ ์ฌ ์์ธก์ด๋ฉฐ, ๋ ๋ฒ์งธ๋ ๋น์ง๋ ๋ถ๋ฅ๋ก, ์ ์ฌ ํํ์ ํ์ฉํ์ฌ ๊ต์ฌ(teacher)์ ํ์(student) ๋ชจ๋ธ ๊ฐ์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ผ์น์ํจ๋ค. ...
[๋ ผ๋ฌธ] Sparse Binarization for Fast Keyword Spotting
1. Motivation ์์ฑ ๊ธฐ๋ฐ ๋๋ฐ์ด์ค์ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ฆ๊ฐ๋ก ํค์๋ ์คํฌํ (Keyword Spotting, KWS)์ ์ค์๊ฐ ์์ฑ ์ธ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ์ฃ์ง ๋๋ฐ์ด์ค์์์ ํ๋ผ์ด๋ฒ์์ ๋์ญํญ ํจ์จ์ฑ์ ๋์ธ๋ค. ์ฃ์ง ๋๋ฐ์ด์ค๋ ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ์๋๊ฐ ์ ํ๋์ด ์์ด KWS ๋ชจ๋ธ์ ๊ฒฝ๋ํ์ ์ต์ ํ๊ฐ ํ์์ ์ด๋ค. ์ด ๋ ผ๋ฌธ์์๋ ํจ์จ์ ์ด๊ณ ์ ํํ KWS๋ฅผ ์ํ ์๋ก์ด ๋ฐฉ๋ฒ์ผ๋ก Sparse Binarization์ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ชจ๋ธ SparkNet์ ์ ์ํ๋ค. SparkNet์ ๊ธฐ์กด ์ต์ฒจ๋จ(SOTA) ๋ชจ๋ธ ๋๋น 4๋ฐฐ ๋น ๋ฅด๋ฉด์๋ ๋ ๋์ ์ ํ๋๋ฅผ ์ ๊ณตํ๋ฉฐ, ์์ ํ๊ฒฝ์์๋ ๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. 2. Related Work Keyword Spotting (KWS) KWS๋ ์์ฑ ๋ฐ์ดํฐ๋ฅผ ์ค์๊ฐ์ผ๋ก ๋ถ์ํด ํน์ ๋จ์ด๋ฅผ ํ์งํ๋ ๊ธฐ์ ์ด๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ ์ํ CNN, RNN, ๋๋ ํ์ด๋ธ๋ฆฌ๋ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ ์ฃ์ง ๋๋ฐ์ด์ค์์ ์ต์ ํ๋ ๋ชจ๋ธ์ ์ค๊ณํด์๋ค. ์ฃผ์ ๊ธฐ๋ฒ์ผ๋ก๋ ์์ํ(Quantization), ํ๋ฃจ๋(Pruning), ๊ทธ๋ฆฌ๊ณ **1D ๊น์ด๋ถ๋ฆฌ ํฉ์ฑ๊ณฑ(Depthwise Separable Convolution)**์ด ํ์ฉ๋์๋ค. 3. Proposed Method Method Overview Sparse Binarization: ์ ๋ ฅ ๋ฐ์ดํฐ์์ ์ ํจํ์ง ์์ ํน์ง์ ์ ๊ฑฐํ๊ณ , ์์ธก์ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ ์งํ๊ธฐ ์ํด ์ด์งํ๋ ํํ์ ํ์ตํ๋ค. ๋ชจ๋ธ ๊ตฌ์กฐ: SparkNet์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ด์งํํ์ฌ ์ ํ ๋ถ๋ฅ๊ธฐ๋ก ์ ๋ฌํ๋ฉฐ, ํจ์จ์ ์ธ ๊ณ์ฐ์ ์ํด **1D ์๊ฐ-์ฑ๋ ๋ถ๋ฆฌ ํฉ์ฑ๊ณฑ(Time-Channel Separable Convolution)**์ ์ฌ์ฉํ๋ค. SparkNet Architecture ์ ๋ ฅ ๋ฐ์ดํฐ: ๋ฉ ์ฃผํ์ ์คํํธ๋ผ(MFCC)์ ๊ธฐ๋ฐ์ผ๋ก ํ (F \times T) ํฌ๊ธฐ์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค. ๊ตฌ์กฐ: 4๊ฐ์ ๋ธ๋ก์ผ๋ก ๊ตฌ์ฑ๋ 1D ๊น์ด๋ถ๋ฆฌ ํฉ์ฑ๊ณฑ ๋ ์ด์ด. ๋ฐฐ์น ์ ๊ทํ์ ReLU ํ์ฑํ๋ฅผ ํฌํจ. ๋ง์ง๋ง ์ถ๋ ฅ ๋ ์ด์ด๋ 1x1 ํฉ์ฑ๊ณฑ์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ Tanh ํ์ฑํ๋ฅผ ์ฌ์ฉํ๋ค. ์ถ๋ ฅ: 12๊ฐ์ ํค์๋ ๋ฒ์ฃผ๋ก ๋งคํ๋๋ฉฐ, ์ฌ๊ธฐ์๋ 10๊ฐ์ ํ๊ฒ ๋จ์ด, โUnknownโ, ๊ทธ๋ฆฌ๊ณ โSilence"๊ฐ ํฌํจ๋๋ค. Sparse Binarized Representation Learning ํ์ต ๊ณผ์ : ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ด์งํํ๊ธฐ ์ํด ๊ฐ์ฐ์์ ๊ธฐ๋ฐ์ ์ด์๋ Bernoulli ๋ถํฌ๋ฅผ ํ์ฉํ๋ค. ํ์ต ์ค, ์คํ์ค ํํ์ ๊ฐํํ๊ธฐ ์ํด ์ ๊ทํ ์์ค((L_{sparse}))์ ์ถ๊ฐ. ํจ๊ณผ: ์ ๋ ฅ ๋ฐ์ดํฐ์ ์๊ณต๊ฐ์ ํน์ง์ ๊ฐ๊ฒฐํ๊ฒ ์ ์งํ์ฌ, ๊ณ์ฐ๋์ ์ค์ด๋ฉด์ ๋์ ์ ํ๋๋ฅผ ๋ณด์ฅํ๋ค. Classification Learning ํ์ต ๋ชฉํ: ์ด์งํ๋ ํํ์ ํ๊ท ํ๋งํ ํ, ๋จ์ผ ์ ํ ๋ ์ด์ด๋ก ํ๊ฒ ํค์๋๋ฅผ ์์ธก. ์์ค ํจ์: (L = L_{sparse} + \lambda L_{ce}), ์ฌ๊ธฐ์ (L_{ce})๋ ํฌ๋ก์ค ์ํธ๋กํผ ์์ค. 4. Experiments Experimental Setup ๋ฐ์ดํฐ์ : Google Speech Commands ๋ฒ์ 1(V1) ๋ฐ 2(V2). ๊ฐ๊ฐ 30๊ฐ์ 35๊ฐ์ ํค์๋ ๋ฒ์ฃผ๋ฅผ ํฌํจํ๋ฉฐ, 1์ด ๊ธธ์ด์ ์ํ๋ก ๊ตฌ์ฑ. MFCC๋ฅผ ์ฌ์ฉํ์ฌ 32๊ฐ์ ์ฃผํ์ ๋น์ผ๋ก ์ ์ฒ๋ฆฌ. ํ๊ฐ ์งํ: Top-1 ์ ํ๋์ Multiply-Accumulate Operations(MACs). ์์ ํ๊ฒฝ์์์ ๊ฐ๊ฑด์ฑ: ๋ค์ํ ์ ํธ๋์ก์๋น(SNR)์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ธก์ . Results ์๋์ ์ ํ๋: SparkNet์ SOTA ๋ชจ๋ธ(BC-ResNet)๋ณด๋ค 4๋ฐฐ ๋น ๋ฅด๋ฉฐ, ๋์ผํ๊ฑฐ๋ ๋ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑ. SparkNet[C=32]: SC2 ๋ฐ์ดํฐ์ ์์ 97.0%์ ์ ํ๋๋ฅผ ๊ธฐ๋กํ๋ฉฐ BC-ResNet์ ์ด๊ณผ. ์์ ๊ฐ๊ฑด์ฑ: ๋ค์ํ SNR์์ SparkNet์ด BC-ResNet ๋๋น ์ผ๊ด๋๊ฒ ๋์ ์ ํ๋๋ฅผ ๋ณด์. Ablation Study ๋ชจ๋ธ ๊ตฌ์ฑ ์์ ๊ฒ์ฆ: ์ด์งํ ๊ณผ์ (Lsparse)์ด ๋ชจ๋ธ ์ฑ๋ฅ์ ๊ฐ์ฅ ํฐ ๊ธฐ์ฌ๋ฅผ ํจ์ ํ์ธ. ๋ณด์กฐ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ถ๊ฐํ์ ๋, ์ฑ๋ฅ ํฅ์์ด ์์์์ ์คํ์ ์ผ๋ก ์ ์ฆ. 5. Conclusion & Limitation Conclusion SparkNet์ ํจ์จ์ฑ๊ณผ ์ ํ์ฑ์ ๋์์ ๋ฌ์ฑํ KWS ๋ชจ๋ธ๋ก, ์ฃ์ง ๋๋ฐ์ด์ค์ ์ต์ ํ๋์๋ค. ์์ ํ๊ฒฝ์์๋ ๊ฐ๊ฑด์ฑ์ ๊ฐ์ง๋ฉฐ, ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ์ ์ ๊ณ์ฐ๋์ผ๋ก ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. Limitation ์ด ๋ชจ๋ธ์ ๊ฐ๋ ํ์ต(Supervised Learning)์ ๊ธฐ๋ฐํ๋ฉฐ, ์๊ฐ ์ง๋ ํ์ต(Self-Supervised Learning)์ผ๋ก ํ์ฅ์ด ํ์ํจ. ๋์ฑ ์ํํ๋ ๋๋ฐ์ด์ค๋ฅผ ๋์์ผ๋ก ํ ์ถ๊ฐ ์ต์ ํ ๊ฐ๋ฅ์ฑ์ด ์กด์ฌ. Related Works BC-ResNet: Broadcasted Residual Learning ๊ธฐ๋ฐ์ KWS ๋ชจ๋ธ. MatchboxNet: 1D ์๊ฐ-์ฑ๋ ๋ถ๋ฆฌ ํฉ์ฑ๊ณฑ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ KWS ๋ชจ๋ธ. TinySpeech: ์ฃ์ง ๋๋ฐ์ด์ค์์ ๊ฒฝ๋ํ๋ฅผ ์ํด ์ค๊ณ๋ Attention ๊ธฐ๋ฐ ๋ชจ๋ธ. Key References Svirsky et al., โSG-VAD: Stochastic Gates Based Speech Activity Detectionโ (ICASSP 2023) Kim et al., โBroadcasted Residual Learning for Efficient Keyword Spottingโ (Interspeech 2021) Majumdar et al., โMatchboxNet: 1D Time-Channel Separable CNN for Speech Commands Recognitionโ (2020)
[๋ ผ๋ฌธ] Keyword Transformer: A Self-Attention Model for Keyword Spotting
1. Motivation Transformer ๊ตฌ์กฐ๋ ์์ฐ์ด ์ฒ๋ฆฌ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ์์ฑ ์ธ์ ๋ฑ ๋ค์ํ ๋๋ฉ์ธ์์ ์ฑ๊ณต์ ์ผ๋ก ์ฌ์ฉ๋๊ณ ์๋ค. ํ์ง๋ง ํค์๋ ์คํฌํ ๋ถ์ผ์์๋ ์ฃผ๋ก Transformer๊ฐ ๊ธฐ์กด์ CNN์ด๋ RNN ๊ฐ์ ๊ตฌ์กฐ ์์ ์ถ๊ฐ์ ์ผ๋ก ์ฌ์ฉ๋์ด ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ด ๋ ผ๋ฌธ์ ํค์๋ ์คํฌํ ์ Transformer๋ฅผ ์ง์ ์ ์ฉํ๋ ๋ชจ๋ธ์ธ Keyword Transformer(KWT)๋ฅผ ์ ์ํ๋ค. KWT๋ ๋ณ๋์ ์ฌ์ ํ์ต์ด๋ ์ถ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ์ง ์์ผ๋ฉด์ ๊ธฐ์กด์ ๋ณต์กํ ํผํฉ ๊ตฌ์กฐ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, Google Speech Commands ๋ฐ์ดํฐ์ ์์ ์ต๊ณ ์์ค์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ค. ...
[๋ ผ๋ฌธ] BEATS : Audio Pre-Training with Acoustic Tokenizercategories
1. Motivation ์ต๊ทผ ์๊ธฐ์ง๋ํ์ต(SSL)์ ์ธ์ด, ๋น์ , ์์ฑ์์ ํฐ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์์ง๋ง, ์ค๋์ค ๋๋ฉ์ธ์์๋ ์ฌ์ ํ ๋ณต์ ์์ค(reconstruction loss)์ด ์ฃผ๋ก ์ฌ์ฉ๋๊ณ ์๋ค. ๋ณต์ ์์ค์ ์ ์์ค ์๊ฐ-์ฃผํ์ ํน์ง์ ์ฌํํ๋ ๋ฐ ์ด์ ์ด ๋ง์ถฐ์ ธ, ๊ณ ์์ค์ ์๋ฏธ ์ ๋ณด๋ฅผ ์ ๋๋ก ๋ฐ์ํ์ง ๋ชปํ๋ ํ๊ณ๊ฐ ์๋ค. BEATS๋ ์ฐ์์ ์ธ ์ค๋์ค ๋ฐ์ดํฐ๋ฅผ ์ด์ฐ์ (discrete) ๋ผ๋ฒจ๋ก ๋ณํํด ๊ณ ์์ค์ ์๋ฏธ์ ์ ๋ณด๋ฅผ ํ์ตํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ด๋ฅผ ํตํด ๊ธฐ์กด ๋ฐฉ์๋ณด๋ค ํจ์จ์ ์ด๊ณ ์๋ฏธ ์ค์ฌ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํ๋๋ก ํ๋ค. 2. Related Work ์ค๋์ค ์ฌ์ ํ์ต์ ํฌ๊ฒ ์ง๋ ํ์ต๊ณผ ์๊ธฐ์ง๋ํ์ต์ผ๋ก ๋๋๋ค. ...
[๋ ผ๋ฌธ] Filterbank Learning for Noise-Robust Small-Footprint Keyword Spotting
Filterbank Learning for Noise-Robust Small-Footprint Keyword Spotting 1. Motivation ํค์๋ ์คํฌํ (KWS)์ ๋ณดํต Log-Mel์ด๋ MFCC ๊ฐ์ ์์์ ํน์ง์ ์ฌ์ฉํจ. ํ์ต ๊ฐ๋ฅํ ํํฐ๋ฑ ํฌ๊ฐ ๊ธฐ์กด ํน์ง์ ๋์ฒดํ๋ ค๋ ์๋๋ ์์์ผ๋, ํฐ ์ฑ๊ณผ๋ ์์์. ํํฐ๋ฑ ํฌ ์ฑ๋ ์๋ฅผ ์ค์ด๋ฉด ํ์ต๋ ํํฐ๋ฑ ํฌ๊ฐ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ์๋์ง ์๋น๋ฅผ ํฌ๊ฒ ์ค์ผ ์ ์๋ค๋ ๊ฒ์ ์ฃผ์ฅํจ. ํญ์ ์ผ์ ธ ์๋ ์ ์์ KWS ์์คํ ์ ํนํ ์ค์ํจ. 2. Related Works SincNet: ํ์ต ๊ฐ๋ฅํ ํํฐ๋ฑ ํฌ๋ฅผ CNN ๊ธฐ๋ฐ KWS์ ์ ์ฉํ ์ฐ๊ตฌ. ์์์ ํน์ง๊ณผ์ ์ง์ ๋น๊ต๋ ๋ถ์กฑํ์. ๊ธฐ์กด ์ฐ๊ตฌ์์๋ Log-Mel๊ณผ MFCC๊ฐ ์ฌ์ ํ ๋ ์ฐ์ํ๋ค๊ณ ๊ฒฐ๋ก ์ง์. ์ด ๋ ผ๋ฌธ์์๋ ํํฐ๋ฑ ํฌ ์ฑ๋์ ์ค์ผ ๋ ์ฑ๋ฅ ๊ฐ์ ๊ฐ๋ฅ์ฑ์ ์ฆ๋ช ํจ. ๋๋กญ์์ ์ฌ์ฉ์ผ๋ก ์์ ๊ฐ๊ฑด์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋์. 3. Proposed Method ํํฐ๋ฑ ํฌ ํ์ต: ์ ๋ ฅ ์ ํธ์ STFT๋ฅผ ๊ณ์ฐ ํ ํํฐ๋ฑ ํฌ ๋ ์ด์ด๋ก ํํฐ๋งํจ. ํ์ต ๊ฐ๋ฅํ ํํฐ๋ฑ ํฌ ํ๋ ฌ ( W )๋ฅผ ํตํด ํํฐ๋ง๋ ์ถ๋ ฅ ( Y ) ์์ฑ. ๋๋กญ์์์ ํตํด ์ผ๋ฐํ ์ฑ๋ฅ ๊ฐ์ . ์๋์ง ์ ์ฝ: ํํฐ๋ฑ ํฌ ์ฑ๋ ์๋ฅผ ์ค์ด๋ฉด ๊ณฑ์ ์ฐ์ฐ๋์ด ๊ฐ์ โ ์๋์ง ์๋น ์ ๊ฐ. ํ์ต ๊ตฌ์กฐ: CNN ๋ฐฑ์๋๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์์ฐจ ์ฐ๊ฒฐ๊ณผ ์๊ฐ-์ฃผํ์ ํจํด ํฌ์ฐฉ. ํค์๋ ์กด์ฌ ํ์ง. 4. Experiments ๋ฐ์ดํฐ์ Google Speech Commands Dataset ์ฌ์ฉ. ์์ ์ถ๊ฐ (์ฐจ๋ ๋ด๋ถ, ์นดํ ๋ฑ), SNR ๋ฒ์๋ -10dB ~ 20dB. ๊ฒฐ๊ณผ ํํฐ๋ฑ ํฌ ํ์ต์ ์์ ํ๊ฒฝ์์ ๋ ๋์ ๊ฐ๊ฑด์ฑ ์ ๊ณต. ํนํ ๋๋กญ์์ ์ฌ์ฉ ์ ํจ๊ณผ๊ฐ ๋ ์ข์. Log-Mel (40์ฑ๋) vs. ํ์ต ํํฐ๋ฑ ํฌ (8์ฑ๋): ์ ํ๋ 3.5% ๊ฐ์, ์๋์ง ์๋น 6.3๋ฐฐ ์ ๊ฐ. 8์ฑ๋ vs. 5์ฑ๋: ์ ํ๋ ์ ์ง, ์๋์ง ์๋น 2๋ฐฐ ์ ๊ฐ. ํ์ต๋ ํํฐ๋ฑ ํฌ๊ฐ ์์ ํ๊ฒฝ(๋ณด์ด์ง ์๋ ์์ ํฌํจ)์์๋ ๋ ๋์ ์ฑ๋ฅ ๋ฐํ. 5. Conclusion & Limitation ๊ฒฐ๋ก ํํฐ๋ฑ ํฌ ์ฑ๋ ์๋ฅผ ์ค์ด๋ฉด ํ์ต ๊ฐ๋ฅํ ํํฐ๋ฑ ํฌ๊ฐ ์์์ ํน์ง๋ณด๋ค ์ฐ์. ๋๋กญ์์์ด ์์ ๊ฐ๊ฑด์ฑ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฐ ๊ธฐ์ฌ. ์ ์์ ํ๊ฒฝ์์ ํนํ ์ ์ฉํจ. ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ ํํฐ๋ฑ ํฌ ์ค๊ณ์ ์์ ๊ฐ๊ฑด์ฑ ์ต์ ํ๋ฅผ ์ํ ์ถ๊ฐ ์ฐ๊ตฌ ํ์. ๋ ๋์ ํน์ง ์ค๊ณ๋ฅผ ๋ชฉํ๋ก ํจ.
[๋ ผ๋ฌธ] Noise-Robust Keyword Spotting throught Self-Supervised Pretraikning
Noise-Robust Keyword Spotting throught Self-Supervised Pretraikning 1. Motivation ํ๋์ ์์ฑ ๋น์๋ ๊ฑฐ์ ๋ชจ๋ ์ปดํจํฐ์ ์ค๋งํธ ๊ธฐ๊ธฐ์์ ์ฌ์ฉ ๊ฐ๋ฅํจ ์์ฑ ๋น์๋ ASR(์๋ ์์ฑ ์ธ์) ๋ชจ๋ธ์ ์ฌ์ฉํ์ง๋ง, ์ด๋ ๊ณ์ฐ ๋น์ฉ์ด ๋์ ์์ ๊ธฐ๊ธฐ์์ ์คํํ๊ธฐ ์ด๋ ค์ ๋์ ํค์๋ ์คํํ (KWS) ์๊ณ ๋ฆฌ์ฆ์ ํตํด ํน์ ํค์๋๊ฐ ๋ฐํ๋์์ ๋ ASR์ ํ์ฑํํจ ํ์ฌ ์ต์ KWS ๋ชจ๋ธ๋ค์ ์ง๋ํ์ต ๋ฐฉ์์ผ๋ก ํ์ต๋์ด ๋ง์ ์์ ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ๊ฐ ํ์ํ ์ํฉ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ ์๋ ์๊ธฐ์ง๋ํ์ต์ ํ์ฉ์ด ํ์ํ ์ํฉ 2. Related Works Data2Vec ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ transformer ๊ธฐ๋ฐ KWS ๋ชจ๋ธ์ ์ฌ์ ํ์ต์ด ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋๋ค๋ ์ฐ๊ตฌ๊ฐ ์์์ ํ์ง๋ง ์ด์ ์ฐ๊ตฌ๋ ๊นจ๋ํ ์ค๋์ค ์ ๋ ฅ๋ง์ ๊ฐ์ ํ๊ณ , ์ค์ ํ๊ฒฝ์ ๋ ธ์ด์ฆ๋ ๊ณ ๋ คํ์ง ์์์ ASR ๋ถ์ผ์์๋ ์๊ธฐ์ง๋ํ์ต์ ํตํ ๋ ธ์ด์ฆ ๊ฐ๊ฑด์ฑ ์ฐ๊ตฌ๊ฐ ์งํ๋์ด ์์ KWS์์๋ ๋๋ถ๋ถ ์ง๋ํ์ต ๊ธฐ๋ฐ์ multi-style training์ด๋ adversarial training ๋ฐฉ์์ผ๋ก ๋ ธ์ด์ฆ ๊ฐ๊ฑด์ฑ์ ํ๋ณด 3. Proposed Method Data2Vec ํ๋ ์์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์ธ ๊ฐ์ง ์ฌ์ ํ์ต ๋ฐฉ์ ์ ์: ...
[๋ ผ๋ฌธ] Survey: Efficient Large Language Models
Efficient Large Language Models Introduction ๋ณธ ๊ธ์ Yizhang Jin et al โEfficient Multimodal Large Language Modelsโ ์๋ฒ ์ด์ ๊ธฐ๋ฐํ๋ค. 2023๋ ์คํ๋ฐ๋ถํฐ ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ๋ฐ ๋ํ ์ธ์ด ๋ชจ๋ธ(Multimodal Large Language Models, MLMMs)์ ๋ฐ์ ์ ํ ์คํธ ๊ธฐ๋ฐ์ ๋์ด ์๊ฐ์ ์ดํด ๋ฐ ์ถ๋ก ์์ ์์ ๋๋ผ์ด ์ฑ๊ณผ๋ฅผ ๋ณด์๋ค. ๊ทธ๋ฌ๋ LLM๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ๋งค์ฐ ํฌ๊ณ , ํ๋ จ ๋ฐ ์ถ๋ก ๋น์ฉ์ด ๋์ ํ๊ณ์ ์ฐ์ ๊ณ์์ ๊ด๋ฒ์ํ ์์ฉ์ ์ ํ์์ผฐ๋ค. ์ด์ ๋ฐ๋ผ ๋ก์ปฌ ์ฅ์น, ์ฃ์ง ์ปดํจํ ๋ฑ์ ์๊ตฌ ์ฌํญ์ ์ถฉ์กฑํ๊ธฐ ์ํด ํจ์จ์ ์ด๊ณ ๊ฒฝ๋ํ๋ MLMM์ ์ฐ๊ตฌํ๋ ์๋๊ฐ ๋ง์์ก๋ค. ์ด๋ฌํ ๋ณํ๋ LLM์ ์ํํ์ ์ฐ์ํ ๋น์ ์ธ์ฝ๋์ ๋ฐ์ ๊ณผ ํจ๊ป ์งํ๋๊ณ ์๋ค. ...
[๋ ผ๋ฌธ] Speculative Decoding
๊ฐ์ ์ด ๊ธ์ ์คํด์ฆ๋น์ธ ์ ๊นํ์๋์ด ๋ฐํํ ๋ด์ฉ์ผ๋ก ๋ ๋ ผ๋ฌธ์ ์ ๋ฆฌํ์๋ค. LLM์ ํ ํฐ์ ํ๋์ฉ ์์ฑํ ๋๋ง๋ค ๊ต์ฅํ ๋ง์ weight๋ฅผ ๋ถ๋ฌ์์ผ ํ๋ค. ๊ทธ๋์ DRAM bandwidth๊ฐ ๋ฌธ์ ๊ฐ ๋๋ค. Autoregressive ๋ฐฉ์์ด GPU๋ฅผ ์์ ํ ํ์ฉํ์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ ์ค ํ๋๋ก Speculative Decoding์ด ์๋ค. Speculative Decoding์ 1๊ฐ์ ํ๋กฌํํธ๋ฅผ 1 ๋ฐฐ์น๋ก ์ฒ๋ฆฌํ๋ ๊ฒ์ด ์๋๋ผ, ์์ธกํ ์ฌ๋ฌ ํ ํฐ๋ค์ ๋์์ ์ฌ์ ๋ ฅํ์ฌ ๋ณ๋ ฌ ์ฒ๋ฆฌํ๋ ๊ธฐ์ ์ด๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ์ ์ฌ๋ฌ ์ ๋ ฅ ๋ฌธ์ฅ์ ๋ฐฐ์น ๋จ์๋ก ์ฒ๋ฆฌํ๋ค. Speculative Decoding ์ด ๋ ผ๋ฌธ์ Draft, Verification์ ๋จ์ํ๊ฒ ๊ตฌํํ์ฌ ์ต์ ์ ํ ํฐ์ ์ฐพ๋๋ค. ์ด๋ ์ ์ ํ ํ ํฐ์ด ์๋๋ฉด ๋ฌผ๋ฌ๋๋๋ฐ ์ด rejection์ ์ํ๋ ๋ฐฉ๋ฒ์ด ์ค์ํ๋ค. ์ด ๋ ผ๋ฌธ์ computational resource ํ์ฉ์ฑ์ ๋์ด๊ธฐ ์ํด, Speculative Sampling ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ...