하수하따 록기장

  • 홈
  • 태그
  • 방명록

MQA 1

[논문읽기] GQA: Training Generalized Multi-Query Transformer Models fromMulti-Head Checkpoints

Ainslie, J., Lee-Thorp, J., de Jong, M., Zemlyanskiy, Y., Lebrón, F., & Sanghai, S. (2023). Gqa: Training generalized multi-query transformer models from multi-head checkpoints. arXiv preprint arXiv:2305.13245. (291회 인용)https://arxiv.org/abs/2305.13245 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head CheckpointsMulti-query attention (MQA), which only uses a single key-val..

엣지컴퓨팅 2024.10.07
이전
1
다음
더보기
프로필사진

하수하따를 실천하는 블로그!

  • 분류 전체보기 (103)
    • 이산수학 (10)
    • 컴퓨터구조 (7)
    • 운영체제 (8)
    • 자연어처리 (12)
    • 데이터베이스 (2)
    • 컴퓨터네트워크 (9)
    • 엣지컴퓨팅 (10)
    • 멀티모달인공지능 (3)
    • Flutter (6)
    • Boj (15)
    • 알고리즘 (9)
    • 응용통계학 (2)
    • 키보드 제작기 (0)

Tag

정렬알고리즘, 이산수학, 백준, 컴퓨터구조, 4차산업혁명시대의이산수학, BOJ, 자연어처리, 김대수, flutter, 연습문제풀이, 그리디, 유클리드알고리즘, 알고리즘, C++, cs224n, OSTEP, 플러터, 운영체제, 유클리드호제법, OS,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바