Skip to main content
TserJay个人博客 home page
Search...
⌘K
Dashboard
Dashboard
Search...
Navigation
CUDA算子
Flash-Atten
首页
学习记录
学习资源
temp
概览
vLLM V1 新增特征
CUDA算子
Reduce算子
Flash-Atten
vllm
第一节
vLLM V1 新增特征
On this page
1.Flash Atten 分块
2.online sofxmax的原理以及公式的推导:
Online softmax * value
Flash Atten cuda算子
CUDA算子
Flash-Atten
Copy page
Copy page
1.Flash Atten 分块
2.online
sofxmax的原理以及公式的推导:
对比原始的softmax,safe softmax 改进的点:online softmax将safe softmax需要二次遍历寻找最大值和求和进行了优化,将其优化成使用一次遍历求和
Online softmax * value
Flash Atten cuda算子
Was this page helpful?
Yes
No
Suggest edits
Raise issue
Reduce算子
第一节
⌘I