논문 | 5biwan's BLOG

[논문] A Multi-Resolution Front-End for End-to-End Speech Anti-Spoofing

1. Motivation 기존 음성 신호 분류 작업에서 시간-주파수 해상도의 최적 선택은 성능에 중요한 영향을 미치지만, 어떤 해상도가 가장 적합한지는 명확하지 않다. 특히, 스푸핑 방지를 위한 음성 분류에서는 다양한 시간-주파수 스케일이 필요하다. 기존 연구는 고정된 해상도에서 작업하여 정보 손실 가능성이 있으며, 이는 분류 성능을 제한할 수 있다. 이 논문은 다중 해상도 기반의 전처리(front-end) 방식을 제안하여 이러한 문제를 해결하고자 한다. 2. Related Work 기존 연구에서는 다중 해상도 또는 다중 스케일 구조를 통해 분류 성능을 개선하려는 시도가 있었다....

[논문] Sparse Binarization for Fast Keyword Spotting

1. Motivation 음성 기반 디바이스와 애플리케이션의 증가로 키워드 스포팅(Keyword Spotting, KWS)은 실시간 음성 인식을 가능하게 하며, 엣지 디바이스에서의 프라이버시와 대역폭 효율성을 높인다. 엣지 디바이스는 메모리와 연산 속도가 제한되어 있어 KWS 모델의 경량화와 최적화가 필수적이다. 이 논문에서는 효율적이고 정확한 KWS를 위한 새로운 방법으로 Sparse Binarization을 기반으로 한 모델 SparkNet을 제안한다. SparkNet은 기존 최첨단(SOTA) 모델 대비 4배 빠르면서도 더 높은 정확도를 제공하며, 소음 환경에서도 더 강력한 성능을 보여준다. 2. Related Work Keyword Spotting (KWS) KWS는 음성 데이터를 실시간으로 분석해 특정 단어를 탐지하는 기술이다....

[논문] Keyword Transformer: A Self-Attention Model for Keyword Spotting

1. Motivation Transformer 구조는 자연어 처리뿐만 아니라 이미지 처리와 음성 인식 등 다양한 도메인에서 성공적으로 사용되고 있다. 하지만 키워드 스포팅 분야에서는 주로 Transformer가 기존의 CNN이나 RNN 같은 구조 위에 추가적으로 사용되어 왔다. 이를 해결하기 위해, 이 논문은 키워드 스포팅에 Transformer를 직접 적용하는 모델인 Keyword Transformer(KWT)를 제안한다. KWT는 별도의 사전 학습이나 추가 데이터를 필요로 하지 않으면서 기존의 복잡한 혼합 구조보다 뛰어난 성능을 보이며, Google Speech Commands 데이터셋에서 최고 수준의 정확도를 달성했다....

[논문] BEATS : Audio Pre-Training with Acoustic Tokenizercategories

1. Motivation 최근 자기지도학습(SSL)은 언어, 비전, 음성에서 큰 성과를 보여주고 있지만, 오디오 도메인에서는 여전히 복원 손실(reconstruction loss)이 주로 사용되고 있다. 복원 손실은 저수준 시간-주파수 특징을 재현하는 데 초점이 맞춰져, 고수준의 의미 정보를 제대로 반영하지 못하는 한계가 있다. BEATS는 연속적인 오디오 데이터를 이산적(discrete) 라벨로 변환해 고수준의 의미적 정보를 학습하는 새로운 프레임워크를 제안한다. 이를 통해 기존 방식보다 효율적이고 의미 중심적인 학습이 가능하도록 한다. 2. Related Work 오디오 사전 학습은 크게 지도 학습과 자기지도학습으로 나뉜다....

[논문] Filterbank Learning for Noise-Robust Small-Footprint Keyword Spotting

Filterbank Learning for Noise-Robust Small-Footprint Keyword Spotting 1. Motivation 키워드 스포팅(KWS)은 보통 Log-Mel이나 MFCC 같은 수작업 특징을 사용함. 학습 가능한 필터뱅크가 기존 특징을 대체하려는 시도는 있었으나, 큰 성과는 없었음. 필터뱅크 채널 수를 줄이면 학습된 필터뱅크가 성능을 유지하면서도 에너지 소비를 크게 줄일 수 있다는 것을 주장함. 항상 켜져 있는 저자원 KWS 시스템에 특히 중요함. 2. Related Works SincNet: 학습 가능한 필터뱅크를 CNN 기반 KWS에 적용한 연구. 수작업 특징과의 직접 비교는 부족했음. 기존 연구에서는 Log-Mel과 MFCC가 여전히 더 우수하다고 결론지음....

[논문] Noise-Robust Keyword Spotting throught Self-Supervised Pretraikning

Noise-Robust Keyword Spotting throught Self-Supervised Pretraikning 1. Motivation 현대의 음성 비서는 거의 모든 컴퓨터와 스마트 기기에서 사용 가능함 음성 비서는 ASR(자동 음성 인식) 모델을 사용하지만, 이는 계산 비용이 높아 작은 기기에서 실행하기 어려움 대신 키워드 스팟팅(KWS) 알고리즘을 통해 특정 키워드가 발화되었을 때 ASR을 활성화함 현재 최신 KWS 모델들은 지도학습 방식으로 학습되어 많은 양의 레이블된 데이터가 필요한 상황 레이블이 없는 데이터를 활용할 수 있는 자기지도학습의 활용이 필요한 상황 2. Related Works Data2Vec 프레임워크를 사용한 transformer 기반 KWS 모델의 사전학습이 성능 향상에 도움이 된다는 연구가 있었음 하지만 이전 연구는 깨끗한 오디오 입력만을 가정했고, 실제 환경의 노이즈는 고려하지 않았음 ASR 분야에서는 자기지도학습을 통한 노이즈 강건성 연구가 진행되어 왔음 KWS에서는 대부분 지도학습 기반의 multi-style training이나 adversarial training 방식으로 노이즈 강건성을 확보 3....

[논문] Survey: Efficient Large Language Models

Efficient Large Language Models Introduction 본 글은 Yizhang Jin et al “Efficient Multimodal Large Language Models” 서베이에 기반한다. 2023년 중후반부터 멀티모달 기반 대형 언어 모델(Multimodal Large Language Models, MLMMs)의 발전은 텍스트 기반을 넘어 시각적 이해 및 추론 작업에서 놀라운 성과를 보였다. 그러나 LLM과 마찬가지로 모델 크기가 매우 크고, 훈련 및 추론 비용이 높아 학계와 산업계에서 광범위한 응용을 제한시켰다. 이에 따라 로컬 장치, 엣지 컴퓨팅 등의 요구 사항을 충족하기 위해 효율적이고 경량화된 MLMM을 연구하는 시도가 많아졌다....

[논문] Speculative Decoding

개요 이 글은 스퀴즈비츠의 김태수님이 발표한 내용으로 두 논문을 정리하였다. LLM에 토큰을 하나씩 생성할 때마다 굉장히 많은 weight를 불러와야 한다. 그래서 DRAM bandwidth가 문제가 된다. Autoregressive 방식이 GPU를 완전하 활용하지 못하는 문제가 발생한다. 이를 해결하기 위한 방법 중 하나로 Speculative Decoding이 있다. Speculative Decoding은 1개의 프롬프트를 1 배치로 처리하는 것이 아니라, 예측한 여러 토큰들을 동시에 재입력하여 병렬 처리하는 기술이다. 따라서 모델은 여러 입력 문장을 배치 단위로 처리한다. Speculative Decoding 이 논문은 Draft, Verification을 단순하게 구현하여 최적의 토큰을 찾는다....

[논문] Layer Sharing for Parameter-Efficient Transformer

개요 이 글은 Qualcomm의 심규홍 박사님이 발표해주신 자료를 토대로 작성한다. 대상: 트랜스포머를 이해하고 있는 개발자들을 위한 세미나 Motivation 트랜스포머 애플리케이션은 서버 베이스 모델에서는 활발하게 사용되고 있다. 이제 모바일 베이스로 들어갈려고 한다. 트랜스포머는 scaling-law를 따른다. 더 크고, 더 많이 쌓을수록 더 좋은 성능이 나온다. 따라서 돈을 들이면 성능이 보장된다. 그 예시가 LLM이다. 그러나 Efficiecy 관점에서 충분히 고민을 해봐야할 문제가 많다. RAM 사이즈, NPU 퍼포먼스, Cache 사이즈 등 고려해야 할 사항이 많다. On-device LLM에 대한 사이즈가 어느정도 적절할까?...

[논문] Survey: Large Multimodal Models

개요 최근 대형 언어 모델은 멀티모달과 결합한 방향으로 변하고 있다. 구현 방식에 몇 가지 유형이 있지만, 공통적으로 멀티모달 데이터 임베딩을 자연어 임베딩 공간으로 매핑한 후, 이를 언어 모델 추론을 위한 입력으로 활용한다. 대형 멀티모달 모델의 큰 접근은 아래와 같다. 중요한 트렌드 멀티모달 이해에서 생성으로 그리고 모달리티 간의 변환 (Any-to-Any) (예시: MiniGPT-4 → MiniGPT-5 → NExT-GPT) Pre-Training - Supervised Fine-Tuning - RLHF으로의 훈련 파이프라인 (예시: BLIP-2 → InstructBLIP → DRESS) 다양한 모달리티으로의 확장...