gpu-kernels

Open source skill library for AI coding agents to write, optimize, and debug high performance compute kernels across CUDA, Triton, and quantized workloads.

cuda high-performance-computing triton quantization rocm gpu-kernels prompt-engineering llm-agents ai-coding kernel-optimization

Updated Apr 11, 2026

hliadis / High-Performance-Computing

Star

c hpc gpu optimization openmp cuda gpu-kernels

Updated Dec 15, 2022
C

anoojpatel / metaxu

Star

A self-hosted low-level functional-style programming language 🌀

algebraic-effects functional-programming self-hosted algebraic-data-types compilers python-compiler gpu-kernels borrow-checker mutable-value-semantics

Updated Sep 25, 2025
Python

PwnKit-Labs / noeris

Star

Noeris — autonomous kernel fusion discovery + drop-in LLM training accelerator. Cross-op fusion, autotuning, beats cuDNN on sliding-window. pip install noeris.

cuda pytorch triton autotuning gpu-kernels kernel-fusion llm-training kernel-optimization

Updated Apr 13, 2026
Python

sean1832 / Macho

Star

High-performance GPU-accelerated C# scripting for Rhino Grasshopper, powered by ILGPU

grasshopper3d gpu-kernels gpu-programming rhino3d grasshopper-plugin ilgpu scripting-tool

Updated Mar 31, 2025
C#

poyea / lollipop

Star

🍭 Sweet GPU compute kernels in CUDA, wrapped via CuPy

python cuda cuda-kernels gpu-kernels gpu-programming cuda-programming cuda-kernel

Updated Mar 14, 2026
Cuda

martini9393 / gpu-executor

Star

Assignment 2: GPU Executor

computation-graph gpu-kernels

Updated May 12, 2017
Python

shyamsridhar123 / MedAssist_MOE

Star

Medical AI diagnostics system implementing real compiled Mojo GPU kernels with MAX Graph integration

python mojo healthcare diagnostics gpu-kernels mixture-of-experts medical-ai

Updated Aug 25, 2025
Python

AregGevorgyan / JaxonFlow

Star

Alternate backend for JAX and PyTorch that generates optimized kernels using AI agents

ai pytorch ai-agents gpu-kernels jax llm

Updated Feb 3, 2026
Python

SergiuDeveloper / cuda-kernel-verifier

Star

Runtime correctness checker for custom CUDA kernels. Attach a single decorator to periodically verify outputs against a reference implementation, with outlier-biased sampling and zero training graph impact.

deep-learning gpu cuda python3 pytorch triton gpu-kernels pytohn

Updated Mar 13, 2026
Python

kalyani-25 / Reimplementation_flash-attention-from-scratch

Star

16-step CUDA optimization of FlashAttention-2 achieving 99.2% of official performance on A100 — Ampere architecture

deep-learning cuda pytorch ampere gpu-kernels nsight llm-inference flashattention

Updated Mar 6, 2026
Cuda

pauliano22 / triton-gpu-kernels

Star

High-performance Triton kernels for NVIDIA H100. Implements fused FP8 LayerNorm, tiled FlashAttention, and SRAM-optimized memory primitives for Hopper architecture.

parallel-computing cuda triton gpu-kernels fp8 h100 deep-learning-optimization llm-infrastructure

Updated Apr 3, 2026
Python

anviit / triton-llm-kernels

Star

LLM primitives rebuilt in Triton — FlashAttention 2.52×, fused AdamW 3.45×, Bias+GELU 14.65× faster than PyTorch

deep-learning cuda inference pytorch triton gpu-kernels llm flash-attention

Updated Mar 18, 2026
Python

SergiuDeveloper / self-attention-cuda-kernel-comparison

Star

Benchmarking hand-written CUDA C, Numba, and Triton self-attention kernels against PyTorch's SDPA - how fast can you go depending on the tool?

deep-learning cuda torch pytorch transformer triton cuda-kernels numba gpu-kernels self-attention

Updated Mar 18, 2026
Python

Improve this page

Add a description, image, and links to the gpu-kernels topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the gpu-kernels topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

gpu-kernels

Here are 25 public repositories matching this topic...

ROCm / rocprofiler-compute

xmartlabs / cuda-calculator

dlsys-course / assignment2-2017

eyalroz / gpu-kernel-runner

upenn-acg / gpudrano-static-analysis_v1.0

beehive-lab / beehive-spirv-toolkit

KrxGu / kernel-skills

hliadis / High-Performance-Computing

anoojpatel / metaxu

PwnKit-Labs / noeris

sean1832 / Macho

poyea / lollipop

martini9393 / gpu-executor

shyamsridhar123 / MedAssist_MOE

AregGevorgyan / JaxonFlow

SergiuDeveloper / cuda-kernel-verifier

kalyani-25 / Reimplementation_flash-attention-from-scratch

pauliano22 / triton-gpu-kernels

anviit / triton-llm-kernels

SergiuDeveloper / self-attention-cuda-kernel-comparison

Improve this page

Add this topic to your repo