huggingface · mfuntowicz · Jan 22, 2025 · Jan 22, 2025 · Jan 22, 2025 · Jan 22, 2025
diff --git a/.github/workflows/release.yml b/.github/workflows/release.yml
@@ -37,7 +37,8 @@ jobs:
 
   docker:
     name: Build and push containers to registries
-    runs-on: ubuntu-latest
+    runs-on:
+      group: aws-highmemory-32-plus
     permissions:
       contents: read
       attestations: write
@@ -65,14 +66,18 @@ jobs:
           path: tensorrt-llm
           repository: nvidia/tensorrt-llm
           submodules: true
+          lfs: true
           fetch-depth: 1
           ref: v${{ env.TENSORRT_LLM_VERSION }}
 
       - name: Build TensorRT-LLM base image
         id: build-tensorrt-llm-base
-        env:
-          TARGET_CUDA_ARCHS: "75-real;80-real;86-real;89-real;90-real"
-        run: cd tensorrt-llm && make -C docker release_build PYTHON_VERSION=${{ matrix.python-version }} CUDA_ARCHS=${{ env.TARGET_CUDA_ARCHS }}
+        run: |
+          cd tensorrt-llm
+          make -C docker release_build \
+            IMAGE_TAG=v${{ env.TENSORRT_LLM_VERSION}}-py${{ matrix.python-version }} \
+            CUDA_ARCHS="75-real;80-real;86-real;89-real;90-real" \
+            PYTHON_VERSION=${{ matrix.python-version }}
 
       - name: Check out the repo
         uses: actions/checkout@v4

diff --git a/docker/Dockerfile b/docker/Dockerfile
@@ -1,11 +1,7 @@
-FROM tensorrt_llm/release:latest
+ARG PYTHON_VERSION=3.10
+ARG TENSORRT_LLM_VERSION
 
-# 75 = T4/RTX Quadro
-# 80 = A100/A30
-# 86 = A10/A40/RTX Axxx
-# 89 = L4/L40/L40s/RTX Ada/4090
-# 90 = H100/H200
-#ARG TARGET_CUDA_ARCHS="75-real;80-real;86-real;89-real;90-real"
+FROM tensorrt_llm/release:v$TENSORRT_LLM_VERSION-py$PYTHON_VERSION
 
 COPY . /opt/optimum-nvidia