엣지컴퓨팅 10

딥러닝의 양자화 Quantization

* 아래 블로그를 보고 공부하며 작성했습니다.https://gaussian37.github.io/dl-concept-quantization/#quantization-%EC%9D%B4%EB%9E%80-1 딥러닝의 Quantization (양자화)와 Quantization Aware Traininggaussian37's bloggaussian37.github.io  양자화란 모델의 파라미터를 lower bit로 표현함으로서 계산과 메모리 access 속도를 높이는 경량화 기법이다. 실수형 변수를 정수형 변수로 변환하는데, 보통 FP32 타입을 INT8 타입 형태로 변환하는 방법을 사용한다.  Weight Quantization 5가지 전제조건Inference Only양자화는 inference에서만 사용한다...

엣지컴퓨팅 2024.11.19

Llama3 한국어 요약 task 실습 (Colab)

Llama3 모델을 이용해서 기사를 요약하는 task를 수행한 후 성능을 테스트해보았다. colab 환경에서 실습한 내용은 아래 링크에서 볼 수 있다. https://colab.research.google.com/drive/1e5e0EJnuidpxwalJ3rVgcbpy2TRgJZD9?usp=sharing 아래 블로그의 코드를 따라 실습을 진행하였다.https://velog.io/@judy_choi/NLP-LLaMA3%EB%A5%BC-%EC%9D%B4%EC%9A%A9%ED%95%9C-%EB%AC%B8%EC%9E%A5-%EC%9A%94%EC%95%BD-%EC%8B%A4%EC%8A%B5-HuggingFace LLaMA3를 이용한 문장 요약 실습 (HuggingFace 🤗)Code 라이브러리 설치 Huggin..

엣지컴퓨팅 2024.11.08

LLaMA2의 GQA 코드 살펴보기

지난 번에 공부했던 GQA(Grouped Query Attention)를 더 알아보기 위해 GQA가 적용된 LLaMA2 모델의 코드를 살펴보았다. 2024.10.07 - [엣지컴퓨팅] - [논문읽기] GQA: Training Generalized Multi-Query Transformer Models fromMulti-Head Checkpoints [논문읽기] GQA: Training Generalized Multi-Query Transformer Models fromMulti-Head CheckpointsAinslie, J., Lee-Thorp, J., de Jong, M., Zemlyanskiy, Y., Lebrón, F., & Sanghai, S. (2023). Gqa: Training genera..

엣지컴퓨팅 2024.10.30

[논문 읽기] LLaMA: Open and Efficient Foundation Language Models

Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M. A., Lacroix, T., ... & Lample, G. (2023). Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971 (9302회 인용)https://arxiv.org/abs/2302.13971 LLaMA: Open and Efficient Foundation Language ModelsWe introduce LLaMA, a collection of foundation language models ranging from 7B to 65B parameters. We train our ..

엣지컴퓨팅 2024.10.14

[논문읽기] GQA: Training Generalized Multi-Query Transformer Models fromMulti-Head Checkpoints

Ainslie, J., Lee-Thorp, J., de Jong, M., Zemlyanskiy, Y., Lebrón, F., & Sanghai, S. (2023). Gqa: Training generalized multi-query transformer models from multi-head checkpoints. arXiv preprint arXiv:2305.13245. (291회 인용)https://arxiv.org/abs/2305.13245 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head CheckpointsMulti-query attention (MQA), which only uses a single key-val..

엣지컴퓨팅 2024.10.07

[논문 읽기] Gemma: Open Models Based on GeminiResearch and Technology

📍 AbstractGemma는 Gemini 모델을 만드는 데 사용된 연구 및 기술로 구축된 가벼운 sota 오픈 모델이다. Gemma는 언어 이해, 추론 및 안정성에 대한 벤치마크에서 강력한 성능을 보여주며 2B, 7B 두 가지 크기의 모델을 제공한다. 18개의 벤치마크 중 11개에서 비슷한 크기의 오픈 모델보다 뛰어난 성능을 보였다.📍 IntroductionGemma는 Gemini 모델과 유사한 아키텍처, 데이터, 훈련 방법을 사용하여 최대 6T 토큰의 텍스트에서 학습되었다. 모델의 크기는 2B, 7B가 제공되었다.7B Gemma 70억 개의 파라미터 모델GPU 및 TPU에서 효율적인 배포 및 개발을 위함2B Gemma20억 개의 파라미터 모델CPU 및 온디바이스 애플리케이션을 위함 📍 Model..

엣지컴퓨팅 2024.09.25

[MIT 6.5940] EfficientML.ai Lec03: Pruning and Sparsity

MIT 6.5940 송한 교수님의 강의를 참고하며 pruning과 sparsity에 대해 정리해보고자 한다. 강의 영상은 아래와 같다. 이해하기 어려운 부분이 많아서 모든 슬라이드를 확실히 짚기보다는 중요한 슬라이드만 부분적으로 정리할 것이다.https://www.youtube.com/watch?v=95JFZPoHbgQ&list=PL80kAHvQbh-pT4lCkDT53zT8DKmhE0idB&index=6우리는 이 강의에서 Pruning에 대해서 학습할 것이다. Pruning(가지치기) 이란 neural network를 경량화할 때 사용하는 방법이다. 중요도가 낮은 파라미터는 제거하여 모델의 크기를 줄이고 계산의 효율성을 높인다. 위 슬라이드의 그림에서 가지치기가 된 모습을 시각적으로 이해할 수 있다. g..

엣지컴퓨팅 2024.09.18

[논문읽기] Mobile LLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Caseshttps://arxiv.org/abs/2402.14905 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use CasesThis paper addresses the growing need for efficient large language models (LLMs) on mobile devices, driven by increasing cloud costs and latency concerns. We focus on designing top-quality LLMs with ..

엣지컴퓨팅 2024.09.15