Pogud

Pogud

Achievements

MegaQwen MegaQwen Public

🚀 Achieve faster Qwen3-0.6B inference with the MegaQwen CUDA megakernel, delivering 531 tok/s decode on RTX 3090—3.9x faster than HuggingFace.

Cuda
testgit testgit Public
pogud.github.io pogud.github.io Public

🚀 Accelerate Qwen3-0.6B inference with MegaQwen, a custom CUDA megakernel achieving 531 tok/s on RTX 3090, 3.9x faster than existing frameworks.