Marchisio, K., Dash, S., Chen, H., Aumiller, D., Üstün, A., Hooker, S., & Ruder, S. (2024). How Does Quantization Affect Multilingual LLMs?.
arXiv preprint arXiv:2407.03211
https://arxiv.org/abs/2407.03211
양자화 기술은 대형 언어모델의 추론 속도를 높이고 배포를 용이하게 하기 위해 널리 사용됩니다. 기존 연구들은 주로 영어를 중심으로 양자화가 LLM에 미치는 영향을 분석했지만 다국어에 대한 연구는 이루어지지 않았습니다. 이 논문에서는 양자화된 다국어 LLM을 대상으로 언어와 규모에 따른 성능을 분석했습니다. 주요 결과는 다음과 같습니다.
- 양자화로 인한 성능 저하는 인간 평가에서 더 명확하게 나타났습니다. 자동 평가 지표는 성능 저하를 과소평가했습니다.
예를 들어 일본어의 경우 자동 평가에서 1.7%의 성능 저하가 관찰되었지만, 인간 평가에서는 16%의 성능 저하가 나타났습니다. - 언어별로 양자화의 영향 차이가 존재하며 특히 비라틴 문자 언어에서 더 큰 성능 저하가 나타났습니다.
- 수학적 추론과 같은 복잡한 작업에서 양자화로 인해 성능이 가장 빠르게 저하되었습니다.
Introduction
LLM이 더 활용되고 실현되기 위해서는 높은 성능과 경량화가 필요합니다. 양자화(Quantization)는 비용을 줄이고 추론 속도를 개선하기에 경량화를 위해 많이 채택되고 있는 기술입니다. 하지만 양자화에 관한 연구는 대부분 영어에만 초점이 맞추어져 있고, 다국어 생성 성능에 양자화가 미치는 영향을 분석한 연구는 없기에 본 논문에서는 "다국어 모델은 양자화로 인해 어떤 영향을 받는가?(How are multilingual models impacted?)"에 대해 분석합니다.
실제로 많은 모델이 암묵적으로 자원이 LLM에서 자원이 풍부한 소수 언어에만 과도하게 적합하게 만들어졌다고 합니다. 토크나이저 선택, 학습 데이터의 가중치 설정, 널리 사용되는 양자화 기술에서부터 비롯됩니다. 이는 소외된 언어의 모델 성능을 저하시키고, 비영어 사용자들에게 불공평한 비용을 부과한다고 합니다. 따라서 이 논문에서는 4가지 SOTA 다국어 LLM을 대상으로, 크기가 8억 ~ 1030억 매개변수에 이르는 모델을 분석했습니다. 또한 자동 평가 뿐만 아니라 현실적인 프롬프트에서 인간 평가를 수행했습니다.
그 결과 위에서 소개한 3가지와, 일부 경우에는 양자화가 성능 향상으로 이어지기도 했다는 연구 결과가 나왔습니다.
Experiments
Models
1. Command R+/R 모델 103B, 35B
2. Aya 23 모델 35B, 8B
HuggingFace에서 제공된 가중치를 양자화하여 실험
Quantization
- Weight-Only Quantization(W8, W4-g)
- Weight-and-Actication Quantization(W8A8-SmoothQuant)
위 양자화 방식 중 모델에 적합한 방식을 사용
Comand R/R+
- W8(8비트 양자화): 가중치만 컬럼 단위 스케일링
- W4-g(4비트 양자화): 그룹 단위 스케일링 GPTQ 사용
- W8A8(8비트 가중치 및 활성화 양자화): 가중치와 활성화를 각각 스케일링
- W8A8-SmoothQuant: SmoothQuant로 활성화 분포를 평탄화하여 극저비트 정밀도로 더 적합하게 함
Aya 23
- 8비트 및 4비트 양자화
- 8비트: LLM.int8() 사용
- 4비트: NF4 데이터 타입 사용, Quantile Quantization
Automatic Evaluation
10개 언어(아랍어, 프랑스어, 독일어, 영어, 스페인어, 이탈리아어, 포르투갈어, 한국어, 일본어, 중국어)로 자동 평가를 진행하였습니다. 양자화를 하지 않은 원래 FP16 버전과 비교하여 성능저하를 상대적 감소율로 측정했습니다. 결과는 5번 실행의 평균 값입니다.
자동평가 지표는 mMMLU(다중 선택형 문제를 다국어로 번역하여 정확도 평가), MGSM(수학문제를 다국어로 번역하여 정확도 평가), FLORES-200(영어를 기준으로 다른 언어로 번역하여 번역능력을 평가), Language Confusion(언어 혼동 평가, 입력에 대해 사용자가 원하는 언어로 올바르게 응답할 수 있는 능력을 평가), Aya 평가(기존 평가 지표 외에 체코어, 그리스어, 히브리어 등에서 확장된 평가)가 있습니다.
Human Evaluation
인간 평가는 스페인어, 프랑스어, 한국어, 일본어, 영어에서 이루어졌습니다.
1. 내부 평가 세트
기존 공개 평가 벤치마크보다 더 복잡하게 설계된 다양한 프롬프트로 구성하여 현실적인 평가가 이루어질 수 있도록 했고, 모든 언어의 프롬프트는 영어에서 시작된 프롬프트를 인간 번역으로 각 언어에 맞게 번역하여 공통된 구조를 유지했습니다.
2. Aya Dolly-200
평가에 사용되는 프롬프트를 영어에서 다국어로 번역하는 주석 작업은 각 언어별 원어민 수준의 번역가가 작업을 수행했습니다.
주석가는 하나의 프롬프트와 해당 모델(양자화 모델, FP16모델)의 두 가지 결과를 확인하고 1~5점을 매기고, 선호도(동점, 약한 선호, 강한 선호)를 매깁니다. 동률은 피하도록 권장되고 승률은 선호도 평가 결과를 기반으로 계산됩니다.
Results
결과적으로 한국어, 일본어, 중국어 등의 비라틴 문자 언어가 양자화로 인한 성능저하가 훨씬 심각하게 나타났고 일부 모델에서는 오히려 양자화가 성능을 개선하는 경우도 있었습니다.
'엣지컴퓨팅' 카테고리의 다른 글
[논문 읽기] Evaluating Quantized Large Language Models (2) | 2024.12.02 |
---|---|
딥러닝의 양자화 Quantization (2) | 2024.11.19 |
Llama3 한국어 요약 task 실습 (Colab) (12) | 2024.11.08 |
LLaMA2의 GQA 코드 살펴보기 (1) | 2024.10.30 |
[논문 읽기] LLaMA: Open and Efficient Foundation Language Models (4) | 2024.10.14 |