Noise-Robust Keyword Spotting throught Self-Supervised Pretraikning

1. Motivation

  • 현대의 음성 비서는 거의 모든 컴퓨터와 스마트 기기에서 사용 가능함
  • 음성 비서는 ASR(자동 음성 인식) 모델을 사용하지만, 이는 계산 비용이 높아 작은 기기에서 실행하기 어려움
  • 대신 키워드 스팟팅(KWS) 알고리즘을 통해 특정 키워드가 발화되었을 때 ASR을 활성화함
  • 현재 최신 KWS 모델들은 지도학습 방식으로 학습되어 많은 양의 레이블된 데이터가 필요한 상황
  • 레이블이 없는 데이터를 활용할 수 있는 자기지도학습의 활용이 필요한 상황
  • Data2Vec 프레임워크를 사용한 transformer 기반 KWS 모델의 사전학습이 성능 향상에 도움이 된다는 연구가 있었음
  • 하지만 이전 연구는 깨끗한 오디오 입력만을 가정했고, 실제 환경의 노이즈는 고려하지 않았음
  • ASR 분야에서는 자기지도학습을 통한 노이즈 강건성 연구가 진행되어 왔음
  • KWS에서는 대부분 지도학습 기반의 multi-style training이나 adversarial training 방식으로 노이즈 강건성을 확보

3. Proposed Method

Data2Vec 프레임워크를 기반으로 한 세 가지 사전학습 방식 제안:

  • Data2Vec-clean: 깨끗한 데이터로만 사전학습
  • Data2Vec-noisy: teacher와 student 모두에게 노이즈가 있는 데이터 사용
  • Data2Vec-denoising: teacher에는 깨끗한 데이터, student에는 노이즈가 있는 데이터 사용

모델 구조는 12개의 Transformer 블록으로 구성된 Keyword Transformer (KWT) 사용 세 가지 다른 크기의 모델(KWT-1, KWT-2, KWT-3)을 실험

4. Experiments

  • Google Speech Commands V2 데이터셋 사용
  • 총 6가지 노이즈 타입 사용 (BUS, PED, STR, SSN, BBL, CAF)
  • 10dB부터 20dB까지 다양한 SNR 레벨에서 테스트
  • 사전학습된 모델들과 지도학습 기반의 베이스라인 모델들을 비교
  • Data2Vec-denoising이 모든 모델 크기에서 가장 좋은 성능을 보임
  • 깨끗한 데이터로만 학습한 Data2Vec-clean도 5dB 이상의 SNR에서는 지도학습 기반의 MTR보다 좋은 성능을 보임

5. Conclusion

  • 자기지도학습 기반 사전학습이 전반적으로 노이즈에 대한 강건성을 향상시킴
  • Data2Vec-denoising 방식이 가장 좋은 성능을 보임
  • 깨끗한 데이터로만 사전학습한 모델도 5dB 이상의 SNR에서는 MTR보다 좋은 성능을 보여, 사전학습 자체가 노이즈 강건성 향상에 도움이 됨을 입증
  • 이러한 성능 향상은 모든 모델 크기에서 일관되게 나타남