Store benchmark results as CI artifacts

OliverRietmann · OliverRietmann · commit 2e229868b78c · 2026-04-01T11:51:02.000+02:00
diff --git a/.github/scripts/csv_to_md.py b/.github/scripts/csv_to_md.py
@@ -0,0 +1,39 @@
+import argparse
+import csv
+import tabulate as tab
+
+parser = argparse.ArgumentParser()
+parser.add_argument('-b', '--baseline', required=True, help='Baseline CSV file')
+parser.add_argument('-c', '--current', required=True, help='Current CSV file')
+args = parser.parse_args()
+
+def get_2d_list(csv_filename):
+  with open(csv_filename) as csv_file:
+    csv_reader = csv.reader(csv_file)
+    next(csv_reader)
+    return [[str(name), float(mean), float(stdev)] for name, mean, stdev in csv_reader]
+
+table_baseline = get_2d_list(args.baseline)
+table_current = get_2d_list(args.current)
+
+def get_emoji(d, stdev):
+  z = 1.96 # 95% confidence interval
+  if d < -z * stdev:
+    return ':green_circle:'
+  elif d > z * stdev:
+    return ':red_circle:'
+  else:
+    return ':white_circle:'
+
+table = []
+for baseline, current in zip(table_baseline, table_current):
+  baseline_name, baseline_mean, _ = baseline
+  name, mean, stdev = current
+  assert(baseline_name == name)
+  diff = baseline_mean - mean
+  impact = 0.0 if stdev == 0.0 else diff / stdev
+  emoji = get_emoji(diff, stdev)
+  table.append([name, int(mean), f'{stdev:.2f}', int(diff), f'{impact:.2f}', emoji])
+
+header = ['name', 'mean (\u03BCs)', 'stdev \u03C3', 'diff \u0394', '\u0394 / \u03C3', '']
+print(tab.tabulate(table, header, tablefmt="github"))
diff --git a/.github/scripts/merge_runs.py b/.github/scripts/merge_runs.py
@@ -0,0 +1,32 @@
+import argparse
+import csv
+import statistics
+
+parser = argparse.ArgumentParser()
+parser.add_argument('-d', '--discard', type=int, default=0, help='Number of initial measurements to discard')
+parser.add_argument('-i', '--input', required=True, help='Input CSV file')
+parser.add_argument('-o', '--output', required=True, help='Output CSV file')
+args = parser.parse_args()
+
+time_dict = dict({})
+with open(args.input) as csv_file:
+  csv_reader = csv.reader(csv_file)
+  next(csv_reader)
+  for row in csv_reader:
+    name = row[2]
+    time = float(row[3])
+    if name in time_dict.keys():
+      time_dict[name].append(time)
+    else:
+      time_dict[name] = [time]
+
+data = [["name", "time", "stdev"]]
+for name, time_list in time_dict.items():
+  mean = int(statistics.mean(time_list[args.discard:]))
+  runs = len(time_list[args.discard:])
+  stdev = 0.0 if runs == 1 else statistics.stdev(time_list[args.discard:])
+  data.append([name, mean, stdev])
+
+with open(args.output, 'w') as csv_file:
+  csv_writer = csv.writer(csv_file)
+  csv_writer.writerows(data)
diff --git a/.github/scripts/profiler_ncu.py b/.github/scripts/profiler_ncu.py
@@ -0,0 +1,34 @@
+import argparse
+import csv
+import statistics
+
+parser = argparse.ArgumentParser()
+parser.add_argument('-r', '--runs', type=int, required=True, help='Number of runs')
+parser.add_argument('-i', '--input', required=True, help='Input CSV file')
+parser.add_argument('-o', '--output', required=True, help='Output CSV file')
+args = parser.parse_args()
+
+kernel_dict = {}
+with open(args.input) as csv_file:
+  csv_reader = csv.reader(csv_file)
+  next(csv_reader)
+  for row in csv_reader:
+    full_name = row[4]
+    time = int(row[14]) / 1000.0
+    if len(full_name) > 5 and full_name[:5] == "krnl_":
+      name = full_name[5:]
+      if name in kernel_dict.keys():
+        kernel_dict[name].append(time)
+      else:
+        kernel_dict[name] = [time]
+
+data = [["name", "time", "stdev"]]
+for name, time_list in kernel_dict.items():
+  count = len(time_list) // args.runs
+  mean = statistics.mean(time_list) * count
+  stdev = 0 if args.runs == 1 else statistics.stdev(time_list) * count
+  data.append([name, mean, stdev])
+
+with open(args.output, 'w') as csv_file:
+  csv_writer = csv.writer(csv_file)
+  csv_writer.writerows(data)
diff --git a/.github/scripts/profiler_nsys.py b/.github/scripts/profiler_nsys.py
@@ -0,0 +1,38 @@
+import argparse
+import csv
+import statistics
+
+parser = argparse.ArgumentParser()
+parser.add_argument('-r', '--runs', type=int, required=True, help='Number of runs')
+parser.add_argument('-i', '--input', required=True, help='Input CSV file')
+parser.add_argument('-o', '--output', required=True, help='Output CSV file')
+args = parser.parse_args()
+
+ntsi_list = []
+with open(args.input) as csv_file:
+  csv_reader = csv.reader(csv_file)
+  next(csv_reader)
+  next(csv_reader)
+  next(csv_reader)
+  for row in csv_reader:
+    if row:
+      full_name = row[8]
+      instances = int(row[2])
+      time = float(row[3])
+      sigma = float(row[7])
+      if len(full_name) > 5 and full_name[:5] == "krnl_":
+        name = full_name[5:]
+        ntsi_list.append([name, time, sigma, instances])
+
+ntsi_list.sort(key = lambda row: row[0])
+
+data = [["name", "time", "stdev"]]
+for name, time, sigma, instances in ntsi_list:
+  count = instances / args.runs
+  mean = int(time * count)
+  stdev = sigma * count
+  data.append([name, mean, stdev])
+
+with open(args.output, 'w') as csv_file:
+  csv_writer = csv.writer(csv_file)
+  csv_writer.writerows(data)
diff --git a/.github/scripts/profiler_rocprofv2.py b/.github/scripts/profiler_rocprofv2.py
@@ -0,0 +1,34 @@
+import argparse
+import csv
+import statistics
+
+parser = argparse.ArgumentParser()
+parser.add_argument('-r', '--runs', type=int, required=True, help='Number of runs')
+parser.add_argument('-i', '--input', required=True, help='Input CSV file')
+parser.add_argument('-o', '--output', required=True, help='Output CSV file')
+args = parser.parse_args()
+
+time_dict = dict({})
+with open(args.input) as csv_file:
+  csv_reader = csv.reader(csv_file)
+  next(csv_reader)
+  for row in csv_reader:
+    full_name = row[13]
+    time = (int(row[15]) - int(row[14])) / 1000.0
+    if len(full_name) > 5 and full_name[:5] == "krnl_":
+      name = full_name[5:-3]
+      if name in time_dict.keys():
+        time_dict[name].append(time)
+      else:
+        time_dict[name] = [time]
+
+data = [["name", "time", "stdev"]]
+for name, time_list in time_dict.items():
+  count = len(time_list) / args.runs
+  mean = int(statistics.mean(time_list) * count)
+  stdev = 0 if args.runs == 1 else statistics.stdev(time_list) * count
+  data.append([name, mean, stdev])
+
+with open(args.output, 'w') as csv_file:
+  csv_writer = csv.writer(csv_file)
+  csv_writer.writerows(data)
diff --git a/.github/workflows/standalone-benchmark.yml b/.github/workflows/standalone-benchmark.yml
@@ -19,65 +19,126 @@ jobs:
           - name: nvidia-h100
             runner: cern-nextgen-h100
             cmake_args: -DENABLE_CUDA=1 -DENABLE_HIP=0 -DCUDA_COMPUTETARGET=90
-            ca_args: --gpuType CUDA #--RTCTECHloadLaunchBoundsFromFile genGPUArch/nvidia-h100.par
           - name: nvidia-l40s
             runner: cern-nextgen-l40s
             cmake_args: -DENABLE_CUDA=1 -DENABLE_HIP=0 -DCUDA_COMPUTETARGET=89
-            ca_args: --gpuType CUDA #--RTCTECHloadLaunchBoundsFromFile genGPUArch/nvidia-l40s.par
           - name: amd-mi300x
             runner: cern-nextgen-mi300x
             cmake_args: -DENABLE_CUDA=0 -DENABLE_HIP=1 -DHIP_AMDGPUTARGET=gfx942
-            ca_args: --gpuType HIP
           - name: amd-w7900
             runner: cern-nextgen-w7900
             cmake_args: -DENABLE_CUDA=0 -DENABLE_HIP=1 -DHIP_AMDGPUTARGET=gfx1100
-            ca_args: --gpuType HIP --RTCTECHloadLaunchBoundsFromFile genGPUArch/amd-w7900.par
+
+    env:
+      WORK_DIR: /cvmfs/alice.cern.ch
+      ALIBUILD_ARCH_PREFIX: el9-x86_64/Packages
+      MODULEPATH: /cvmfs/alice.cern.ch/etc/toolchain/modulefiles/el9-x86_64:/cvmfs/alice.cern.ch/el9-x86_64/Modules/modulefiles
+      STANDALONE_DIR: /root/standalone
+      BENCHMARK_CSV: ${{ matrix.name }}.csv
+      PROFILER_CSV: results_${{ matrix.name }}.csv
+      TIMING_CA: ./ca -e 50kHz -g --seed 0 --memSize 15000000000 --sync --debug 1 # Add --PROCdebugMarkdown 1 --runs 42 --runsInit 2 --PROCresetTimers 1 for benchmark runs
+      LD_LIBRARY_PATH: /usr/local/cuda-13.0/compat
 
     name: ${{ matrix.name }}
     steps:
       - name: Checkout Repository
-        uses: actions/checkout@v4
+        uses: actions/checkout@v6
 
-      - name: Build and Run
+      - name: Download Files
         run: |
           mkdir -p ${STANDALONE_DIR}
-          . ${WORK_DIR}/${ALIBUILD_ARCH_PREFIX}/ninja-fortran/fortran-v1.11.1.g9-3/etc/profile.d/init.sh
-          . ${WORK_DIR}/${ALIBUILD_ARCH_PREFIX}/O2/${O2_REVISION}/etc/profile.d/init.sh
-
-          cmake -B ${BUILD_DIR} ${{ matrix.cmake_args }} -DENABLE_OPENCL=0 -DGPUCA_BUILD_EVENT_DISPLAY=0 -DGPUCA_DETERMINISTIC_MODE=GPU -DCMAKE_INSTALL_PREFIX=${STANDALONE_DIR} ${GITHUB_WORKSPACE}/GPU/GPUTracking/Standalone/
-          cd ${BUILD_DIR}
-          make install -j8
 
-          cd ${STANDALONE_DIR}
-          mkdir -p ${STANDALONE_DIR}/genGPUArch
-          curl -v -o ${STANDALONE_DIR}/genGPUArch/${{ matrix.name }}.par https://cernbox.cern.ch/remote.php/dav/public-files/SfYXgQOHFga2w75/genGPUArch/${{ matrix.name }}.par
+          curl -fL --retry 3 -o ${STANDALONE_DIR}/o2-simple-GPU.out https://cernbox.cern.ch/remote.php/dav/public-files/SfYXgQOHFga2w75/o2-simple-GPU.out
 
           mkdir -p ${STANDALONE_DIR}/events
+          curl -fL --retry 3 -o ${STANDALONE_DIR}/events/o2-simple.tar.xz https://cernbox.cern.ch/remote.php/dav/public-files/SfYXgQOHFga2w75/events/o2-simple.tar.xz
+          tar -xf ${STANDALONE_DIR}/events/o2-simple.tar.xz -C ${STANDALONE_DIR}/events
 
-          curl -v -o ${STANDALONE_DIR}/events/50kHz.tar.xz https://cernbox.cern.ch/remote.php/dav/public-files/SfYXgQOHFga2w75/events/50kHz.tar.xz
+          curl -fL --retry 3 -o ${STANDALONE_DIR}/events/50kHz.tar.xz https://cernbox.cern.ch/remote.php/dav/public-files/SfYXgQOHFga2w75/events/50kHz.tar.xz
           tar -xf ${STANDALONE_DIR}/events/50kHz.tar.xz -C ${STANDALONE_DIR}/events
-          ${STANDALONE_DIR}/ca -e 50kHz -g --seed 0 --memSize 15000000000 --sync --runs 1 --RTCenable --PROCdeterministicGPUReconstruction 1 --RTCoptSpecialCode 1 --debug 1 ${{ matrix.ca_args }} > ${ARTIFACT_FILE}
 
-          curl -v -o ${STANDALONE_DIR}/events/o2-simple.tar.xz https://cernbox.cern.ch/remote.php/dav/public-files/SfYXgQOHFga2w75/events/o2-simple.tar.xz
-          tar -xf ${STANDALONE_DIR}/events/o2-simple.tar.xz -C ${STANDALONE_DIR}/events
-          ${STANDALONE_DIR}/ca -e o2-simple -g --seed 0 --memSize 20000000000 --sync --runs 1 --RTCenable --PROCdeterministicGPUReconstruction 1 --RTCoptSpecialCode 1 --debug 6 ${{ matrix.ca_args }}
+      - name: Build Deterministic
+        run: &build |
+          source /etc/profile.d/modules.sh
+          module load ninja/fortran-v1.11.1.g9-15 Vc/1.4.5-10 boost/v1.83.0-alice2-57 fmt/11.1.2-14 CMake/v3.31.6-10 ms_gsl/4.2.1-3 Clang/v20.1.7-9 TBB/v2022.3.0-3 ROOT/v6-36-04-alice9-15 ONNXRuntime/v1.22.0-71 GLFW/3.3.2-25
+
+          mkdir -p ${STANDALONE_DIR}
+          cmake -B ${STANDALONE_DIR}/build ${{ matrix.cmake_args }} -DENABLE_OPENCL=0 -DGPUCA_BUILD_EVENT_DISPLAY=0 -DGPUCA_DETERMINISTIC_MODE=${DETERMINISTIC_MODE} -DCMAKE_INSTALL_PREFIX=${STANDALONE_DIR} ${GITHUB_WORKSPACE}/GPU/GPUTracking/Standalone/
+          cmake --build ${STANDALONE_DIR}/build --target install -j 8
+        env:
+          DETERMINISTIC_MODE: GPU
 
-          curl -v -o ${STANDALONE_DIR}/o2-simple-GPU.out https://cernbox.cern.ch/remote.php/dav/public-files/SfYXgQOHFga2w75/o2-simple-GPU.out
+      - name: Test GPU Track Reconstruction
+        run: |
+          source /etc/profile.d/modules.sh
+          module load ninja/fortran-v1.11.1.g9-15 Vc/1.4.5-10 boost/v1.83.0-alice2-57 fmt/11.1.2-14 CMake/v3.31.6-10 ms_gsl/4.2.1-3 Clang/v20.1.7-9 TBB/v2022.3.0-3 ROOT/v6-36-04-alice9-15 ONNXRuntime/v1.22.0-71 GLFW/3.3.2-25
+          cd ${STANDALONE_DIR}
+          ${STANDALONE_DIR}/ca -e o2-simple -g --seed 0 --memSize 20000000000 --sync --runs 1 --RTCenable --PROCdeterministicGPUReconstruction 1 --RTCoptConstexpr 1 --RTCoptSpecialCode 1 --debug 6
           cmp ${STANDALONE_DIR}/GPU.out ${STANDALONE_DIR}/o2-simple-GPU.out
-          rm -rf ${STANDALONE_DIR}/GPU.out ${STANDALONE_DIR}/o2-simple-GPU.out
+          rm -rf ${STANDALONE_DIR}/GPU.out ${STANDALONE_DIR}/o2-simple-GPU.out ${STANDALONE_DIR}/events/o2-simple ${STANDALONE_DIR}/build
 
-          rm -rf ${STANDALONE_DIR}/events
+      - name: Build Non-Deterministic
+        run: *build
         env:
-          WORK_DIR: /cvmfs/alice.cern.ch
-          ALIBUILD_ARCH_PREFIX: el9-x86_64/Packages
-          O2_REVISION: daily-20260217-0000-1
-          STANDALONE_DIR: /root/standalone
-          BUILD_DIR: /root/standalone/build
-          ARTIFACT_FILE: /root/artifact.txt
-          LD_LIBRARY_PATH: /usr/local/cuda-13.0/compat
+          DETERMINISTIC_MODE: OFF
+
+      - name: Benchmark GPU Track Reconstruction
+        run: |
+          source /etc/profile.d/modules.sh
+          module load ninja/fortran-v1.11.1.g9-15 Vc/1.4.5-10 boost/v1.83.0-alice2-57 fmt/11.1.2-14 CMake/v3.31.6-10 ms_gsl/4.2.1-3 Clang/v20.1.7-9 TBB/v2022.3.0-3 ROOT/v6-36-04-alice9-15 ONNXRuntime/v1.22.0-71 GLFW/3.3.2-25
+          cd ${STANDALONE_DIR}
+          ${TIMING_CA} --debug 1 --runs 42 --runsInit 2 --PROCdebugMarkdown 1 --PROCresetTimers 1 --PROCdebugCSV /root/${BENCHMARK_CSV}
+          python3 ${GITHUB_WORKSPACE}/.github/scripts/merge_runs.py --discard 2 --input /root/${BENCHMARK_CSV} --output /root/${BENCHMARK_CSV}
+      
+      - name: Profiler - Nsight Compute
+        if: ${{ matrix.name == 'nvidia-h100' }}
+        run: |
+          dnf install -y cuda-nsight-compute-13-1
+          source /etc/profile.d/modules.sh
+          module load ninja/fortran-v1.11.1.g9-15 Vc/1.4.5-10 boost/v1.83.0-alice2-57 fmt/11.1.2-14 CMake/v3.31.6-10 ms_gsl/4.2.1-3 Clang/v20.1.7-9 TBB/v2022.3.0-3 ROOT/v6-36-04-alice9-15 ONNXRuntime/v1.22.0-71 GLFW/3.3.2-25
+          cd ${STANDALONE_DIR}
+          ncu --set none --metrics gpu__time_duration.avg --export ${{ matrix.name }} --clock-control none --force-overwrite ${TIMING_CA} --runs 21 --debug 1 --PROCdebugMarkdown 1  # Generates ${{ matrix.name }}.ncu-rep
+          ncu --import ${STANDALONE_DIR}/${{ matrix.name }}.ncu-rep --print-units base --csv > /root/${PROFILER_CSV}
+          rm -rf ${STANDALONE_DIR}/events/50kHz ${STANDALONE_DIR}/build
+          python3 ${GITHUB_WORKSPACE}/.github/scripts/profiler_ncu.py --runs 21 --input /root/${PROFILER_CSV} --output /root/${PROFILER_CSV}
+
+      - name: Profiler - Nsight Systems
+        if: ${{ matrix.name == 'nvidia-l40s' }}
+        run: |
+          dnf config-manager --add-repo "https://developer.download.nvidia.com/devtools/repos/rhel$(source /etc/os-release; echo ${VERSION_ID%%.*})/$(rpm --eval '%{_arch}' | sed s/aarch/arm/)/"
+          dnf install --nogpgcheck -y nsight-systems-cli-2026.2.1
+          source /etc/profile.d/modules.sh
+          module load ninja/fortran-v1.11.1.g9-15 Vc/1.4.5-10 boost/v1.83.0-alice2-57 fmt/11.1.2-14 CMake/v3.31.6-10 ms_gsl/4.2.1-3 Clang/v20.1.7-9 TBB/v2022.3.0-3 ROOT/v6-36-04-alice9-15 ONNXRuntime/v1.22.0-71 GLFW/3.3.2-25
+          cd ${STANDALONE_DIR}
+          nsys profile -o ${{ matrix.name }} ${TIMING_CA} --runs 42 --debug 1 --PROCdebugMarkdown 1  # Generates ${{ matrix.name }}.nsys-rep
+          nsys stats --report cuda_gpu_kern_sum --timeunit usec --force-export=true --format csv ${{ matrix.name }}.nsys-rep > /root/${PROFILER_CSV}
+          rm -rf ${STANDALONE_DIR}/events/50kHz ${STANDALONE_DIR}/build
+          python3 ${GITHUB_WORKSPACE}/.github/scripts/profiler_nsys.py --runs 42 --input /root/${PROFILER_CSV} --output /root/${PROFILER_CSV}
+
+      - name: Profiler - rocprofv2
+        if: ${{ matrix.name == 'amd-mi300x' || matrix.name == 'amd-w7900' }}
+        run: |
+          source /etc/profile.d/modules.sh
+          module load ninja/fortran-v1.11.1.g9-15 Vc/1.4.5-10 boost/v1.83.0-alice2-57 fmt/11.1.2-14 CMake/v3.31.6-10 ms_gsl/4.2.1-3 Clang/v20.1.7-9 TBB/v2022.3.0-3 ROOT/v6-36-04-alice9-15 ONNXRuntime/v1.22.0-71 GLFW/3.3.2-25
+          cd ${STANDALONE_DIR}
+          rocprofv2 --output-directory /root --output-file-name ${{ matrix.name }} ${TIMING_CA} --runs 42 --debug 1 --PROCdebugMarkdown 1  # Generates results_${{ matrix.name }}.csv == ${PROFILER_CSV}
+          rm -rf ${STANDALONE_DIR}/events/50kHz ${STANDALONE_DIR}/build
+          python3 ${GITHUB_WORKSPACE}/.github/scripts/profiler_rocprofv2.py --runs 42 --input /root/${PROFILER_CSV} --output /root/${PROFILER_CSV}
 
       - name: Upload Artifact
-        uses: actions/upload-artifact@v4
+        uses: actions/upload-artifact@v6
         with:
           name: ${{ matrix.name }}-artifact
-          path: /root/artifact.txt
+          path: "/root/*.csv"
+
+      - name: Display table on GitHub web
+        run: |
+          source /etc/profile.d/modules.sh
+          module load ninja/fortran-v1.11.1.g9-15 Vc/1.4.5-10 boost/v1.83.0-alice2-57 fmt/11.1.2-14 CMake/v3.31.6-10 ms_gsl/4.2.1-3 Clang/v20.1.7-9 TBB/v2022.3.0-3 ROOT/v6-36-04-alice9-15 ONNXRuntime/v1.22.0-71 GLFW/3.3.2-25
+          mkdir -p ${STANDALONE_DIR}/baseline
+          curl -fL --retry 3 -o ${STANDALONE_DIR}/baseline/${PROFILER_CSV} https://cernbox.cern.ch/remote.php/dav/public-files/SfYXgQOHFga2w75/baseline/${PROFILER_CSV}
+          curl -fL --retry 3 -o ${STANDALONE_DIR}/baseline/${BENCHMARK_CSV} https://cernbox.cern.ch/remote.php/dav/public-files/SfYXgQOHFga2w75/baseline/${BENCHMARK_CSV}
+          python3 ${GITHUB_WORKSPACE}/.github/scripts/csv_to_md.py --baseline ${STANDALONE_DIR}/baseline/${PROFILER_CSV} --current /root/${PROFILER_CSV} >> ${GITHUB_STEP_SUMMARY}
+          echo -e "\n\n" >> ${GITHUB_STEP_SUMMARY}
+          python3 ${GITHUB_WORKSPACE}/.github/scripts/csv_to_md.py --baseline ${STANDALONE_DIR}/baseline/${BENCHMARK_CSV} --current /root/${BENCHMARK_CSV} >> ${GITHUB_STEP_SUMMARY}
+          rm -rf ${STANDALONE_DIR}/baseline