Posts

[논문] A Multi-Resolution Front-End for End-to-End Speech Anti-Spoofing

1. Motivation 기존 음성 신호 분류 작업에서 시간-주파수 해상도의 최적 선택은 성능에 중요한 영향을 미치지만, 어떤 해상도가 가장 적합한지는 명확하지 않다. 특히, 스푸핑 방지를 위한 음성 분류에서는 다양한 시간-주파수 스케일이 필요하다. 기존 연구는 고정된 해상도에서 작업하여 정보 손실 가능성이 있으며, 이는 분류 성능을 제한할 수 있다. 이 논문은 다중 해상도 기반의 전처리(front-end) 방식을 제안하여 이러한 문제를 해결하고자 한다. 2. Related Work 기존 연구에서는 다중 해상도 또는 다중 스케일 구조를 통해 분류 성능을 개선하려는 시도가 있었다....

[논문] Sparse Binarization for Fast Keyword Spotting

1. Motivation 음성 기반 디바이스와 애플리케이션의 증가로 키워드 스포팅(Keyword Spotting, KWS)은 실시간 음성 인식을 가능하게 하며, 엣지 디바이스에서의 프라이버시와 대역폭 효율성을 높인다. 엣지 디바이스는 메모리와 연산 속도가 제한되어 있어 KWS 모델의 경량화와 최적화가 필수적이다. 이 논문에서는 효율적이고 정확한 KWS를 위한 새로운 방법으로 Sparse Binarization을 기반으로 한 모델 SparkNet을 제안한다. SparkNet은 기존 최첨단(SOTA) 모델 대비 4배 빠르면서도 더 높은 정확도를 제공하며, 소음 환경에서도 더 강력한 성능을 보여준다. 2. Related Work Keyword Spotting (KWS) KWS는 음성 데이터를 실시간으로 분석해 특정 단어를 탐지하는 기술이다....

[논문] Keyword Transformer: A Self-Attention Model for Keyword Spotting

1. Motivation Transformer 구조는 자연어 처리뿐만 아니라 이미지 처리와 음성 인식 등 다양한 도메인에서 성공적으로 사용되고 있다. 하지만 키워드 스포팅 분야에서는 주로 Transformer가 기존의 CNN이나 RNN 같은 구조 위에 추가적으로 사용되어 왔다. 이를 해결하기 위해, 이 논문은 키워드 스포팅에 Transformer를 직접 적용하는 모델인 Keyword Transformer(KWT)를 제안한다. KWT는 별도의 사전 학습이나 추가 데이터를 필요로 하지 않으면서 기존의 복잡한 혼합 구조보다 뛰어난 성능을 보이며, Google Speech Commands 데이터셋에서 최고 수준의 정확도를 달성했다....

[논문] BEATS : Audio Pre-Training with Acoustic Tokenizercategories

1. Motivation 최근 자기지도학습(SSL)은 언어, 비전, 음성에서 큰 성과를 보여주고 있지만, 오디오 도메인에서는 여전히 복원 손실(reconstruction loss)이 주로 사용되고 있다. 복원 손실은 저수준 시간-주파수 특징을 재현하는 데 초점이 맞춰져, 고수준의 의미 정보를 제대로 반영하지 못하는 한계가 있다. BEATS는 연속적인 오디오 데이터를 이산적(discrete) 라벨로 변환해 고수준의 의미적 정보를 학습하는 새로운 프레임워크를 제안한다. 이를 통해 기존 방식보다 효율적이고 의미 중심적인 학습이 가능하도록 한다. 2. Related Work 오디오 사전 학습은 크게 지도 학습과 자기지도학습으로 나뉜다....

[논문] Filterbank Learning for Noise-Robust Small-Footprint Keyword Spotting

Filterbank Learning for Noise-Robust Small-Footprint Keyword Spotting 1. Motivation 키워드 스포팅(KWS)은 보통 Log-Mel이나 MFCC 같은 수작업 특징을 사용함. 학습 가능한 필터뱅크가 기존 특징을 대체하려는 시도는 있었으나, 큰 성과는 없었음. 필터뱅크 채널 수를 줄이면 학습된 필터뱅크가 성능을 유지하면서도 에너지 소비를 크게 줄일 수 있다는 것을 주장함. 항상 켜져 있는 저자원 KWS 시스템에 특히 중요함. 2. Related Works SincNet: 학습 가능한 필터뱅크를 CNN 기반 KWS에 적용한 연구. 수작업 특징과의 직접 비교는 부족했음. 기존 연구에서는 Log-Mel과 MFCC가 여전히 더 우수하다고 결론지음....

[논문] Noise-Robust Keyword Spotting throught Self-Supervised Pretraikning

Noise-Robust Keyword Spotting throught Self-Supervised Pretraikning 1. Motivation 현대의 음성 비서는 거의 모든 컴퓨터와 스마트 기기에서 사용 가능함 음성 비서는 ASR(자동 음성 인식) 모델을 사용하지만, 이는 계산 비용이 높아 작은 기기에서 실행하기 어려움 대신 키워드 스팟팅(KWS) 알고리즘을 통해 특정 키워드가 발화되었을 때 ASR을 활성화함 현재 최신 KWS 모델들은 지도학습 방식으로 학습되어 많은 양의 레이블된 데이터가 필요한 상황 레이블이 없는 데이터를 활용할 수 있는 자기지도학습의 활용이 필요한 상황 2. Related Works Data2Vec 프레임워크를 사용한 transformer 기반 KWS 모델의 사전학습이 성능 향상에 도움이 된다는 연구가 있었음 하지만 이전 연구는 깨끗한 오디오 입력만을 가정했고, 실제 환경의 노이즈는 고려하지 않았음 ASR 분야에서는 자기지도학습을 통한 노이즈 강건성 연구가 진행되어 왔음 KWS에서는 대부분 지도학습 기반의 multi-style training이나 adversarial training 방식으로 노이즈 강건성을 확보 3....

[개발] Mac OS에서 LibTorch 설치 및 빌드

LibTorch LibTorch는 C++ 인터페이스를 제공하는 PyTorch의 라이브러리이다. 이를 설치하면 PyTorch의 모든 기능을 사용할 수 있다. 파이썬 기반의 모델 서빙 말고, C++에서 활용 가능한 멀티스레드와 같은 기능을 사용하려면 LibTorch를 설치해야 한다. 이 작업은 CMakeLists.txt 파일을 통해 빌드하는 방식으로 진행한다. 따라서 CMake를 먼저 설치해야 한다. CMake 설치는 인터넷에 많이 나오므로, 그 내용은 생략한다. LibTorch 설치 먼저 PyTorch 공식 홈페이지에서 설치 가이드를 참고해 설치한다. Locally하게 다운받아도 되지만, 터미널에서 아래 명령을 실행해도 된다. (2.4.1 버전 기준)...

[기술] GPU와 CUDA (8) - 공유 메모리

공유 메모리 공유 메모리 사용 방법은 크게 세 가지 케이스로 구분한다. L1 캐시: 자주 사용되는 데이터를 직접 분류, 관리하기 어려운 경우 사용자 관리 캐시 1: 개발자가 커널 내 알고리즘의 데이터 접근 패턴을 파악 후, 직접 제어 사용자 관리 캐시 2: 자주 사용하는 데이터의 전역 메모리 접근을 줄이기 위함 스레드 간 공유 메모리와 L1 캐시 활용 방법 공유 메모리 (Shared Memory) 역할 및 특징: 공유 메모리는 각 블록 내 모든 스레드가 접근할 수 있는 고속 메모리 공간이다....

[개발] 리눅스 개발을 위한 몇 가지 환경 구축

개요 리눅스 개발을 하다보면, 엔비디아 드라이버, 도커, CMake 등 환경을 잡을 일이 있다. GPU가 있는 환경에서 경험상 가장 유용한 방법은 NVIDIA 드라이버 설치 NVIDIA 컨테이너 툴킷 설치 Docker Hub에서 이미지 다운로드 CMake 등 여러 빌드 도구 및 패키지 설치 이 과정이면 NVIDIA GPU 환경에서 작업마다 패키지 의존성을 피하여 독립된 환경을 구축할 수 있다. NVIDIA 드라이버 설치 GPU를 활용한다면, 엔비디아 드라이버는 필수이다. 아래 명령어로 적절한 NVIDIA 드라이버 설치 유무를 확인한다. nvidia-smi GPU 정보가 제대로 뜨지 않는다면, 설치해야 한다....

[기술] LLM 경량화를 위한 가이드

LLM Quantization 이 글은 “Maarten Grootendorst"의 허락을 받고 Visual Guide To Quantization 글을 간결하게 설명하였다. 대형 언어 모델(LLM)은 상용 하드웨어에서 실행하기에는 매우 크다. 이러한 모델은 수십억 개의 파라미터를 보유하며, 일반적으로 추론 속도를 높이기 위해 많은 메모리 용량을 가진 GPU가 필요하다. 따라서 점점 더 많은 연구가 이러한 모델을 더 작게 만드는 것에 초점을 맞추고 있다. 이는 개선된 학습, 어댑터 등의 방법을 통해 이루어집니다. 이 분야에서 주요한 기법 중 하나는 양자화(quantization)라고 부른다....