#

gpu-optimization

Here are 18 public repositories matching this topic...

GVProf / GVProf

GVProf: A Value Profiler for GPU-based Clusters

machine-learning patterns profiler gpu cuda data-flow instrumentation binary-analysis clusters redundancy gpu-optimization value-profiler

Updated Mar 24, 2024
Python

raj200501 / GPUOptimizerML

The GPU Optimizer for ML Models enhances GPU performance for machine learning. It offers advanced scheduling, real-time monitoring, and efficient resource management through a user-friendly web interface and robust API, integrating big data technologies for seamless data processing and model optimization. @NVIDIA

model-management gpu-optimization real-time-monitoring secure-api big-data-integration gpu-scheduling

Updated Jun 29, 2024
Python

flickleafy / ollama_consumer

🤖 Ollama Consumer - A Python-based interactive chat interface for Ollama models with advanced model management, comprehensive benchmarking, vision support, and automatic error recovery. Features dynamic model switching, GPU optimization, and intelligent service monitoring for seamless AI model interactions.

python benchmarking machine-learning automation ai chatbot configuration-management language-models error-recovery model-management cli-tool multimodal gpu-optimization service-monitoring interactive-chat vision-models llm ollama-api moe-models

Updated Aug 6, 2025
Python

ai-infra-curriculum / ai-infra-senior-engineer-learning

AI Infrastructure Senior Engineer Learning Track - Advanced ML infrastructure and technical leadership

kubernetes learning distributed-systems machine-learning performance curriculum advanced gpu-optimization mlops senior-engineer ai-infrastructure

Updated Nov 3, 2025
Python

OriYarden / pytorch_training_optimization_using_tensordict_memory_mapping

Optimizing PyTorch Model Training by Wrapping Memory Mapped Tensors on Nvidia GPUs with TensorDict.

Updated May 27, 2025
Python

danindiana / copilot-bridge

Hybrid AI routing: LOCAL Ollama + CLOUD GitHub Copilot

python machine-learning ai prometheus performance-optimization cost-optimization gpu-optimization meta-reasoning smart-routing dual-gpu github-copilot llm local-llm ollama ai-proxy llm-routing

Updated Oct 19, 2025
Python

Kuenoz / pytorch_training_optimization_using_tensordict_memory_mapping

Optimizing PyTorch Model Training by Wrapping Memory Mapped Tensors on an Nvidia GPU with TensorDict.

python ai gpu optimization torch pytorch tensors memory-mapping gpu-optimization pytorch-tensors pytorch-training tensordict memory-mapped-tensors pytorch-training-optimization

Updated Dec 25, 2025
Python

petroslamb / hardware-friction-scorecard-dataset

Quantitative dataset of 119 neural architectures (2017-2025) scored on hardware compatibility and ecosystem friction. Validates the Transformer Attractor thesis.

machine-learning dataset transformer gpu-optimization production-ml neural-architecture hardware-compatibility

Updated Dec 16, 2025
Python

Umer-Farooq-CS / RNN-Character-Level-Text-Generation

Optimized LSTM-based character-level text generator trained on Shakespeare, achieving 3.5x faster training with mixed precision.

python nlp machine-learning natural-language-processing deep-learning text-generation pytorch lstm neural-networks rnn academic-project shakespeare character-level gpu-optimization mixed-precision

Updated Sep 25, 2025
Python

TravisLeeTS / llm-scheduler-sim

LM Multi-Bin Dynamic Scheduler Simulator - Implementation combining Multi-Bin batching with SLA-constrained dynamic batching

scheduler gpu-optimization dynamic-batching llm

Updated Dec 3, 2025
Python

intelav / GeoAccel-AI

GPU-Optimized AI for Geospatial Annotation and Visual Search Accelerating Geospatial Intelligence through Distillation, Segmentation, and GPU Optimization.

geospatial remote-sensing gpu-acceleration segmentation satellite-imagery gpu-optimization auto-annotation yolov8

Updated Nov 26, 2025
Python

JonSnow1807 / Fused-LayerNorm-CUDA-Operator

High-performance CUDA implementation of LayerNorm for PyTorch achieving 1.46x speedup through kernel fusion. Optimized for large language models (4K-8K hidden dims) with vectorized memory access, warp-level primitives, and mixed precision support. Drop-in replacement for nn.LayerNorm with 25% memory reduction.

deep-learning cuda pytorch gpu-optimization kernel-fusion layernorm

Updated Aug 17, 2025
Python

adityakamat24 / triton-fast-mha

A high-performance kernel implementation of multi-head attention using Triton. Focused on minimizing memory overhead and maximizing throughput for large-scale transformer layers. Includes clean-tensor layouts, head-grouping optimisations, and ready-to-benchmark code you can plug into custom models.

transformers parallelism triton memory-efficiency gpu-optimization multi-head-attention kernel-programming flashattention

Updated Aug 12, 2025
Python

Umer-Farooq-CS / CNN-CIFAR10-Classification-GPU-Optimized

High-performance CNN for CIFAR-10 classification with GPU optimization, achieving 88.82% accuracy through systematic hyperparameter tuning

python machine-learning computer-vision deep-learning tensorflow cuda keras cnn neural-networks image-classification academic-project hyperparameter-tuning cifar10 gpu-optimization mixed-precision

Updated Sep 25, 2025
Python

jasonlarkin / cuda-stencil-benchmark

LLM-guided CUDA kernel generation framework with correctness validation and roofline analysis

performance-engineering cuda gpu-optimization llm-code-generation

Updated Dec 8, 2025
Python

rudra-swnt-12 / llm-quantization-benchmark

A no-cost infrastructure benchmark measuring the VRAM and throughput impact of NF4 (4-bit) quantization on LLMs

infrastructure benchmark pytorch quantization gpu-optimization mlops llm-inference bitsandbytes

Updated Dec 7, 2025
Python

HyperKuvid-Labs / muon_exps

High-performance CUDA implementation of Muon optimizer for LLM training. Features Newton-Schulz polar decomposition, cuBLAS acceleration, and transpose optimization for 8x FLOP savings on transformer FFN layers. Benchmarked on NVIDIA A100 with Llama 3.1 8B architectures (4096×11008 weights).

neural-network cublas mnist cuda-kernels gpu-optimization optimizers muon-optimizer newton-schulz

Updated Dec 21, 2025
Python

Gane2122 / nanoGPT_1GPU_SPEEDRUN

🚀 Achieve rapid training of NanoGPT (GPT-2 124M) on a single RTX 4090, targeting a validation loss below 3.28 with FineWeb-Edu data.

open-source benchmark machine-learning natural-language-processing deep-learning text-generation pytorch model-training gpu-optimization ai-research transformer-models single-gpu inference-speed nanogpt fast-training

Updated Dec 25, 2025
Python

Improve this page

Add a description, image, and links to the gpu-optimization topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the gpu-optimization topic, visit your repo's landing page and select "manage topics."