Archives - gdymind's Blog

28 posts in total

2026

Knowledge Distillation 101

GPU mode - lecture2 - CUDA 101

Pallas 101 - multi-backend kernel for JAX

5D parallelism in LLM training

Memory usage breakdown during Training

2025

Jeff Dean & Gemini team QA at NeurIPS ‘25

Pytorch Conference & Ray Summit 2025 summary

Intro to PPO in RL

Truncated Importance Sampling (TIS) in RL