jax-ml · copybara-service · Oct 10, 2025 · Oct 10, 2025
diff --git a/jax/experimental/mosaic/gpu/profiler.py b/jax/experimental/mosaic/gpu/profiler.py
@@ -315,31 +315,30 @@ def __init__(self, spec: ProfilerSpec, smem_buffer: ir.Value, gmem_buffer: ir.Va
             self.entries_per_wg,
         ),
     )
-    self.smem_buffer_ptr = memref_ptr(self.smem_buffer, memory_space=3)
     self.gmem_buffer = gmem_buffer
     self.is_profiling_thread = arith.cmpi(
         arith.CmpIPredicate.eq,
         arith.remui(thread_idx(), c(WARPGROUP_SIZE, i32)),
         c(0, i32),
     )
     # Hopefully mem2reg will remove the allocation.
-    self.offset = memref.alloca(ir.MemRefType.get((), i32), [], [])
-    memref.store(c(0, i32), self.offset, [])
+    self.offset = memref.alloca(ir.MemRefType.get((), index), [], [])
+    memref.store(c(0, index), self.offset, [])
 
   @contextlib.contextmanager
   def record(self, name: str):
     i32 = ir.IntegerType.get_signless(32)
+    index = ir.IndexType.get()
     name_id = self.spec.intern_name(name)
     def store(modifier):
       # smem_buffer[offset] = modifier | name_id
       # smem_buffer[offset + 1] = %clock
       # offset += 2
       offset = memref.load(self.offset, [])
+      base_ref = memref_slice(self.smem_buffer, offset)
+      base_ptr = memref_ptr(base_ref, memory_space=3)
       i64 = ir.IntegerType.get_signless(64)
-      base_addr = arith.addi(
-          llvm.ptrtoint(i64, self.smem_buffer_ptr),
-          arith.extui(i64, arith.muli(offset, c(4, i32))),
-      )
+      base_addr = llvm.ptrtoint(i64, base_ptr)
       llvm.inline_asm(
           ir.Type.parse("!llvm.void"),
           [self.is_profiling_thread, base_addr, c(modifier | name_id, i32)],
@@ -349,7 +348,7 @@ def store(modifier):
           "b,l,r",
           has_side_effects=True,
       )
-      new_offset = arith.addi(offset, c(2, i32))
+      new_offset = arith.addi(offset, c(2, index))
       memref.store(new_offset, self.offset, [])
     store(ProfilerSpec.ENTER)
     yield
@@ -379,7 +378,7 @@ def finalize(self, grid: tuple[int, ...], block: tuple[int, ...]):
     with when(self.is_profiling_thread):
       memref.store(self.start, wg_gmem_buffer, [c(0, index)])
       memref.store(smid(), wg_gmem_buffer, [c(1, index)])
-      num_traces = memref.load(self.offset, [])
+      num_traces = arith.index_cast(i32, memref.load(self.offset, []))
       memref.store(num_traces, wg_gmem_buffer, [c(2, index)])
       traces = vector.load(
           ir.VectorType.get((self.entries_per_wg - 3,), i32),