* 아래 블로그를 보고 공부하며 작성했습니다.https://gaussian37.github.io/dl-concept-quantization/#quantization-%EC%9D%B4%EB%9E%80-1 딥러닝의 Quantization (양자화)와 Quantization Aware Traininggaussian37's bloggaussian37.github.io 양자화란 모델의 파라미터를 lower bit로 표현함으로서 계산과 메모리 access 속도를 높이는 경량화 기법이다. 실수형 변수를 정수형 변수로 변환하는데, 보통 FP32 타입을 INT8 타입 형태로 변환하는 방법을 사용한다. Weight Quantization 5가지 전제조건Inference Only양자화는 inference에서만 사용한다...