[๋ ผ๋ฌธ] A Multi-Resolution Front-End for End-to-End Speech Anti-Spoofing
1. Motivation ๊ธฐ์กด ์์ฑ ์ ํธ ๋ถ๋ฅ ์์ ์์ ์๊ฐ-์ฃผํ์ ํด์๋์ ์ต์ ์ ํ์ ์ฑ๋ฅ์ ์ค์ํ ์ํฅ์ ๋ฏธ์น์ง๋ง, ์ด๋ค ํด์๋๊ฐ ๊ฐ์ฅ ์ ํฉํ์ง๋ ๋ช ํํ์ง ์๋ค. ํนํ, ์คํธํ ๋ฐฉ์ง๋ฅผ ์ํ ์์ฑ ๋ถ๋ฅ์์๋ ๋ค์ํ ์๊ฐ-์ฃผํ์ ์ค์ผ์ผ์ด ํ์ํ๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ ๊ณ ์ ๋ ํด์๋์์ ์์ ํ์ฌ ์ ๋ณด ์์ค ๊ฐ๋ฅ์ฑ์ด ์์ผ๋ฉฐ, ์ด๋ ๋ถ๋ฅ ์ฑ๋ฅ์ ์ ํํ ์ ์๋ค. ์ด ๋ ผ๋ฌธ์ ๋ค์ค ํด์๋ ๊ธฐ๋ฐ์ ์ ์ฒ๋ฆฌ(front-end) ๋ฐฉ์์ ์ ์ํ์ฌ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ๋ค. 2. Related Work ๊ธฐ์กด ์ฐ๊ตฌ์์๋ ๋ค์ค ํด์๋ ๋๋ ๋ค์ค ์ค์ผ์ผ ๊ตฌ์กฐ๋ฅผ ํตํด ๋ถ๋ฅ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ค๋ ์๋๊ฐ ์์๋ค....
[๋ ผ๋ฌธ] Sparse Binarization for Fast Keyword Spotting
1. Motivation ์์ฑ ๊ธฐ๋ฐ ๋๋ฐ์ด์ค์ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ฆ๊ฐ๋ก ํค์๋ ์คํฌํ (Keyword Spotting, KWS)์ ์ค์๊ฐ ์์ฑ ์ธ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ์ฃ์ง ๋๋ฐ์ด์ค์์์ ํ๋ผ์ด๋ฒ์์ ๋์ญํญ ํจ์จ์ฑ์ ๋์ธ๋ค. ์ฃ์ง ๋๋ฐ์ด์ค๋ ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ์๋๊ฐ ์ ํ๋์ด ์์ด KWS ๋ชจ๋ธ์ ๊ฒฝ๋ํ์ ์ต์ ํ๊ฐ ํ์์ ์ด๋ค. ์ด ๋ ผ๋ฌธ์์๋ ํจ์จ์ ์ด๊ณ ์ ํํ KWS๋ฅผ ์ํ ์๋ก์ด ๋ฐฉ๋ฒ์ผ๋ก Sparse Binarization์ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ชจ๋ธ SparkNet์ ์ ์ํ๋ค. SparkNet์ ๊ธฐ์กด ์ต์ฒจ๋จ(SOTA) ๋ชจ๋ธ ๋๋น 4๋ฐฐ ๋น ๋ฅด๋ฉด์๋ ๋ ๋์ ์ ํ๋๋ฅผ ์ ๊ณตํ๋ฉฐ, ์์ ํ๊ฒฝ์์๋ ๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. 2. Related Work Keyword Spotting (KWS) KWS๋ ์์ฑ ๋ฐ์ดํฐ๋ฅผ ์ค์๊ฐ์ผ๋ก ๋ถ์ํด ํน์ ๋จ์ด๋ฅผ ํ์งํ๋ ๊ธฐ์ ์ด๋ค....
[๋ ผ๋ฌธ] Keyword Transformer: A Self-Attention Model for Keyword Spotting
1. Motivation Transformer ๊ตฌ์กฐ๋ ์์ฐ์ด ์ฒ๋ฆฌ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ์์ฑ ์ธ์ ๋ฑ ๋ค์ํ ๋๋ฉ์ธ์์ ์ฑ๊ณต์ ์ผ๋ก ์ฌ์ฉ๋๊ณ ์๋ค. ํ์ง๋ง ํค์๋ ์คํฌํ ๋ถ์ผ์์๋ ์ฃผ๋ก Transformer๊ฐ ๊ธฐ์กด์ CNN์ด๋ RNN ๊ฐ์ ๊ตฌ์กฐ ์์ ์ถ๊ฐ์ ์ผ๋ก ์ฌ์ฉ๋์ด ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ด ๋ ผ๋ฌธ์ ํค์๋ ์คํฌํ ์ Transformer๋ฅผ ์ง์ ์ ์ฉํ๋ ๋ชจ๋ธ์ธ Keyword Transformer(KWT)๋ฅผ ์ ์ํ๋ค. KWT๋ ๋ณ๋์ ์ฌ์ ํ์ต์ด๋ ์ถ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ์ง ์์ผ๋ฉด์ ๊ธฐ์กด์ ๋ณต์กํ ํผํฉ ๊ตฌ์กฐ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, Google Speech Commands ๋ฐ์ดํฐ์ ์์ ์ต๊ณ ์์ค์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ค....
[๋ ผ๋ฌธ] BEATS : Audio Pre-Training with Acoustic Tokenizercategories
1. Motivation ์ต๊ทผ ์๊ธฐ์ง๋ํ์ต(SSL)์ ์ธ์ด, ๋น์ , ์์ฑ์์ ํฐ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์์ง๋ง, ์ค๋์ค ๋๋ฉ์ธ์์๋ ์ฌ์ ํ ๋ณต์ ์์ค(reconstruction loss)์ด ์ฃผ๋ก ์ฌ์ฉ๋๊ณ ์๋ค. ๋ณต์ ์์ค์ ์ ์์ค ์๊ฐ-์ฃผํ์ ํน์ง์ ์ฌํํ๋ ๋ฐ ์ด์ ์ด ๋ง์ถฐ์ ธ, ๊ณ ์์ค์ ์๋ฏธ ์ ๋ณด๋ฅผ ์ ๋๋ก ๋ฐ์ํ์ง ๋ชปํ๋ ํ๊ณ๊ฐ ์๋ค. BEATS๋ ์ฐ์์ ์ธ ์ค๋์ค ๋ฐ์ดํฐ๋ฅผ ์ด์ฐ์ (discrete) ๋ผ๋ฒจ๋ก ๋ณํํด ๊ณ ์์ค์ ์๋ฏธ์ ์ ๋ณด๋ฅผ ํ์ตํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ด๋ฅผ ํตํด ๊ธฐ์กด ๋ฐฉ์๋ณด๋ค ํจ์จ์ ์ด๊ณ ์๋ฏธ ์ค์ฌ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํ๋๋ก ํ๋ค. 2. Related Work ์ค๋์ค ์ฌ์ ํ์ต์ ํฌ๊ฒ ์ง๋ ํ์ต๊ณผ ์๊ธฐ์ง๋ํ์ต์ผ๋ก ๋๋๋ค....
[๋ ผ๋ฌธ] Filterbank Learning for Noise-Robust Small-Footprint Keyword Spotting
Filterbank Learning for Noise-Robust Small-Footprint Keyword Spotting 1. Motivation ํค์๋ ์คํฌํ (KWS)์ ๋ณดํต Log-Mel์ด๋ MFCC ๊ฐ์ ์์์ ํน์ง์ ์ฌ์ฉํจ. ํ์ต ๊ฐ๋ฅํ ํํฐ๋ฑ ํฌ๊ฐ ๊ธฐ์กด ํน์ง์ ๋์ฒดํ๋ ค๋ ์๋๋ ์์์ผ๋, ํฐ ์ฑ๊ณผ๋ ์์์. ํํฐ๋ฑ ํฌ ์ฑ๋ ์๋ฅผ ์ค์ด๋ฉด ํ์ต๋ ํํฐ๋ฑ ํฌ๊ฐ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ์๋์ง ์๋น๋ฅผ ํฌ๊ฒ ์ค์ผ ์ ์๋ค๋ ๊ฒ์ ์ฃผ์ฅํจ. ํญ์ ์ผ์ ธ ์๋ ์ ์์ KWS ์์คํ ์ ํนํ ์ค์ํจ. 2. Related Works SincNet: ํ์ต ๊ฐ๋ฅํ ํํฐ๋ฑ ํฌ๋ฅผ CNN ๊ธฐ๋ฐ KWS์ ์ ์ฉํ ์ฐ๊ตฌ. ์์์ ํน์ง๊ณผ์ ์ง์ ๋น๊ต๋ ๋ถ์กฑํ์. ๊ธฐ์กด ์ฐ๊ตฌ์์๋ Log-Mel๊ณผ MFCC๊ฐ ์ฌ์ ํ ๋ ์ฐ์ํ๋ค๊ณ ๊ฒฐ๋ก ์ง์....
[๋ ผ๋ฌธ] Noise-Robust Keyword Spotting throught Self-Supervised Pretraikning
Noise-Robust Keyword Spotting throught Self-Supervised Pretraikning 1. Motivation ํ๋์ ์์ฑ ๋น์๋ ๊ฑฐ์ ๋ชจ๋ ์ปดํจํฐ์ ์ค๋งํธ ๊ธฐ๊ธฐ์์ ์ฌ์ฉ ๊ฐ๋ฅํจ ์์ฑ ๋น์๋ ASR(์๋ ์์ฑ ์ธ์) ๋ชจ๋ธ์ ์ฌ์ฉํ์ง๋ง, ์ด๋ ๊ณ์ฐ ๋น์ฉ์ด ๋์ ์์ ๊ธฐ๊ธฐ์์ ์คํํ๊ธฐ ์ด๋ ค์ ๋์ ํค์๋ ์คํํ (KWS) ์๊ณ ๋ฆฌ์ฆ์ ํตํด ํน์ ํค์๋๊ฐ ๋ฐํ๋์์ ๋ ASR์ ํ์ฑํํจ ํ์ฌ ์ต์ KWS ๋ชจ๋ธ๋ค์ ์ง๋ํ์ต ๋ฐฉ์์ผ๋ก ํ์ต๋์ด ๋ง์ ์์ ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ๊ฐ ํ์ํ ์ํฉ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ ์๋ ์๊ธฐ์ง๋ํ์ต์ ํ์ฉ์ด ํ์ํ ์ํฉ 2. Related Works Data2Vec ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ transformer ๊ธฐ๋ฐ KWS ๋ชจ๋ธ์ ์ฌ์ ํ์ต์ด ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋๋ค๋ ์ฐ๊ตฌ๊ฐ ์์์ ํ์ง๋ง ์ด์ ์ฐ๊ตฌ๋ ๊นจ๋ํ ์ค๋์ค ์ ๋ ฅ๋ง์ ๊ฐ์ ํ๊ณ , ์ค์ ํ๊ฒฝ์ ๋ ธ์ด์ฆ๋ ๊ณ ๋ คํ์ง ์์์ ASR ๋ถ์ผ์์๋ ์๊ธฐ์ง๋ํ์ต์ ํตํ ๋ ธ์ด์ฆ ๊ฐ๊ฑด์ฑ ์ฐ๊ตฌ๊ฐ ์งํ๋์ด ์์ KWS์์๋ ๋๋ถ๋ถ ์ง๋ํ์ต ๊ธฐ๋ฐ์ multi-style training์ด๋ adversarial training ๋ฐฉ์์ผ๋ก ๋ ธ์ด์ฆ ๊ฐ๊ฑด์ฑ์ ํ๋ณด 3....
[๊ฐ๋ฐ] Mac OS์์ LibTorch ์ค์น ๋ฐ ๋น๋
LibTorch LibTorch๋ C++ ์ธํฐํ์ด์ค๋ฅผ ์ ๊ณตํ๋ PyTorch์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ด๋ค. ์ด๋ฅผ ์ค์นํ๋ฉด PyTorch์ ๋ชจ๋ ๊ธฐ๋ฅ์ ์ฌ์ฉํ ์ ์๋ค. ํ์ด์ฌ ๊ธฐ๋ฐ์ ๋ชจ๋ธ ์๋น ๋ง๊ณ , C++์์ ํ์ฉ ๊ฐ๋ฅํ ๋ฉํฐ์ค๋ ๋์ ๊ฐ์ ๊ธฐ๋ฅ์ ์ฌ์ฉํ๋ ค๋ฉด LibTorch๋ฅผ ์ค์นํด์ผ ํ๋ค. ์ด ์์ ์ CMakeLists.txt ํ์ผ์ ํตํด ๋น๋ํ๋ ๋ฐฉ์์ผ๋ก ์งํํ๋ค. ๋ฐ๋ผ์ CMake๋ฅผ ๋จผ์ ์ค์นํด์ผ ํ๋ค. CMake ์ค์น๋ ์ธํฐ๋ท์ ๋ง์ด ๋์ค๋ฏ๋ก, ๊ทธ ๋ด์ฉ์ ์๋ตํ๋ค. LibTorch ์ค์น ๋จผ์ PyTorch ๊ณต์ ํํ์ด์ง์์ ์ค์น ๊ฐ์ด๋๋ฅผ ์ฐธ๊ณ ํด ์ค์นํ๋ค. Locallyํ๊ฒ ๋ค์ด๋ฐ์๋ ๋์ง๋ง, ํฐ๋ฏธ๋์์ ์๋ ๋ช ๋ น์ ์คํํด๋ ๋๋ค. (2.4.1 ๋ฒ์ ๊ธฐ์ค)...
[๊ธฐ์ ] GPU์ CUDA (8) - ๊ณต์ ๋ฉ๋ชจ๋ฆฌ
๊ณต์ ๋ฉ๋ชจ๋ฆฌ ๊ณต์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ ๋ฐฉ๋ฒ์ ํฌ๊ฒ ์ธ ๊ฐ์ง ์ผ์ด์ค๋ก ๊ตฌ๋ถํ๋ค. L1 ์บ์: ์์ฃผ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ๋ฅผ ์ง์ ๋ถ๋ฅ, ๊ด๋ฆฌํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ ์ฌ์ฉ์ ๊ด๋ฆฌ ์บ์ 1: ๊ฐ๋ฐ์๊ฐ ์ปค๋ ๋ด ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ์ดํฐ ์ ๊ทผ ํจํด์ ํ์ ํ, ์ง์ ์ ์ด ์ฌ์ฉ์ ๊ด๋ฆฌ ์บ์ 2: ์์ฃผ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ์ ์ ์ญ ๋ฉ๋ชจ๋ฆฌ ์ ๊ทผ์ ์ค์ด๊ธฐ ์ํจ ์ค๋ ๋ ๊ฐ ๊ณต์ ๋ฉ๋ชจ๋ฆฌ์ L1 ์บ์ ํ์ฉ ๋ฐฉ๋ฒ ๊ณต์ ๋ฉ๋ชจ๋ฆฌ (Shared Memory) ์ญํ ๋ฐ ํน์ง: ๊ณต์ ๋ฉ๋ชจ๋ฆฌ๋ ๊ฐ ๋ธ๋ก ๋ด ๋ชจ๋ ์ค๋ ๋๊ฐ ์ ๊ทผํ ์ ์๋ ๊ณ ์ ๋ฉ๋ชจ๋ฆฌ ๊ณต๊ฐ์ด๋ค....
[๊ฐ๋ฐ] ๋ฆฌ๋ ์ค ๊ฐ๋ฐ์ ์ํ ๋ช ๊ฐ์ง ํ๊ฒฝ ๊ตฌ์ถ
๊ฐ์ ๋ฆฌ๋ ์ค ๊ฐ๋ฐ์ ํ๋ค๋ณด๋ฉด, ์๋น๋์ ๋๋ผ์ด๋ฒ, ๋์ปค, CMake ๋ฑ ํ๊ฒฝ์ ์ก์ ์ผ์ด ์๋ค. GPU๊ฐ ์๋ ํ๊ฒฝ์์ ๊ฒฝํ์ ๊ฐ์ฅ ์ ์ฉํ ๋ฐฉ๋ฒ์ NVIDIA ๋๋ผ์ด๋ฒ ์ค์น NVIDIA ์ปจํ ์ด๋ ํดํท ์ค์น Docker Hub์์ ์ด๋ฏธ์ง ๋ค์ด๋ก๋ CMake ๋ฑ ์ฌ๋ฌ ๋น๋ ๋๊ตฌ ๋ฐ ํจํค์ง ์ค์น ์ด ๊ณผ์ ์ด๋ฉด NVIDIA GPU ํ๊ฒฝ์์ ์์ ๋ง๋ค ํจํค์ง ์์กด์ฑ์ ํผํ์ฌ ๋ ๋ฆฝ๋ ํ๊ฒฝ์ ๊ตฌ์ถํ ์ ์๋ค. NVIDIA ๋๋ผ์ด๋ฒ ์ค์น GPU๋ฅผ ํ์ฉํ๋ค๋ฉด, ์๋น๋์ ๋๋ผ์ด๋ฒ๋ ํ์์ด๋ค. ์๋ ๋ช ๋ น์ด๋ก ์ ์ ํ NVIDIA ๋๋ผ์ด๋ฒ ์ค์น ์ ๋ฌด๋ฅผ ํ์ธํ๋ค. nvidia-smi GPU ์ ๋ณด๊ฐ ์ ๋๋ก ๋จ์ง ์๋๋ค๋ฉด, ์ค์นํด์ผ ํ๋ค....
[๊ธฐ์ ] LLM ๊ฒฝ๋ํ๋ฅผ ์ํ ๊ฐ์ด๋
LLM Quantization ์ด ๊ธ์ โMaarten Grootendorst"์ ํ๋ฝ์ ๋ฐ๊ณ Visual Guide To Quantization ๊ธ์ ๊ฐ๊ฒฐํ๊ฒ ์ค๋ช ํ์๋ค. ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์์ฉ ํ๋์จ์ด์์ ์คํํ๊ธฐ์๋ ๋งค์ฐ ํฌ๋ค. ์ด๋ฌํ ๋ชจ๋ธ์ ์์ญ์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ณด์ ํ๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก ์ถ๋ก ์๋๋ฅผ ๋์ด๊ธฐ ์ํด ๋ง์ ๋ฉ๋ชจ๋ฆฌ ์ฉ๋์ ๊ฐ์ง GPU๊ฐ ํ์ํ๋ค. ๋ฐ๋ผ์ ์ ์ ๋ ๋ง์ ์ฐ๊ตฌ๊ฐ ์ด๋ฌํ ๋ชจ๋ธ์ ๋ ์๊ฒ ๋ง๋๋ ๊ฒ์ ์ด์ ์ ๋ง์ถ๊ณ ์๋ค. ์ด๋ ๊ฐ์ ๋ ํ์ต, ์ด๋ํฐ ๋ฑ์ ๋ฐฉ๋ฒ์ ํตํด ์ด๋ฃจ์ด์ง๋๋ค. ์ด ๋ถ์ผ์์ ์ฃผ์ํ ๊ธฐ๋ฒ ์ค ํ๋๋ ์์ํ(quantization)๋ผ๊ณ ๋ถ๋ฅธ๋ค....