Motivation
ViT, MLP 믹서가 어떤 경우에 레즈넷의 성능을 능가할 수 있을까? 의 고찰
- ViT, MLP 믹서는 라지 스케일 트레이닝이나, 강한 데이터 arguments를 주어야 했음
- 모델이 인덕티브 바이어스를 포괄하기 힘들기 때문
- 그런데 이러한 기법 없이 레즈넷 보다 성능을 올리는 방법을 고민
Related Works
생략
Contribution
- ViT와 MLP 믹서의 그래디언트 필드는 매우 날카로운 로컬 미니마에 수렴한다는 것을 보여준다. (이는 레즈넷보다 몇 배 더 큼)
- 이러한 필드는 백프롭때 그래디언트가 누적되고, 초기 임베딩 레이어가 굉장히 큰 헤시안 행렬의 고유값을 가지면서 문제가 될 수 있음
- 네트워크들은 상대적으로 작은 훈련 에러를 가지고, 특히 MLP 믹서는 ViT보다 오버피팅 가능성이 있다.
- ViT, MLP 믹서는 레즈넷보다 훈련성이 다소 떨어진다.
컨볼루션의 translation equip과 로컬리티가 레즈넷을 로컬 미니마에서 빠져나오기 하는 역할을 할 것으로 추론하지만, 컨볼루션 프리인 ViT, MLP 믹서는 이러한 기능을 가질수가 없다. 그래서 두 모델의 훈련 기능을 향상할 필요가 있다.
Experiments
생략
Conclusion
SAM 알고리즘을 사용하여 미분 장을 좀 더 부드럽게 깍아서 트랜스포머가 레즈넷을 능가할 수 있는 상황을 조사함