Merge branch 'hotfix/2.7.1'

ColinMaudry · ColinMaudry · commit af3af6764603 · 2026-01-12T17:53:44.000+01:00
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -1,3 +1,7 @@
+#### 2.7.1
+
+- Gestion des datasets dépubliés par leur propriétaire (arrêt du workflow pour ne pas écraser les données de prod et pouvoir en extraire les données à présent indisponibles)
+
 ### 2.7.0
 
 - Remplacement des guillemets simples par des apostrophes dans "objet"
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,8 +1,8 @@
 [project]
 name = "decp-processing"
 description = "Traitement des données des marchés publics français."
-version = "2.7.0"
-requires-python = ">= 3.9"
+version = "2.7.1"
+requires-python = ">= 3.10"
 authors = [
     { name = "Colin Maudry", email = "colin+decp@maudry.com" }
 ]
diff --git a/reference/source_datasets.json b/reference/source_datasets.json
@@ -171,7 +171,8 @@
     "id": "6727210202eee145031c05da",
     "name": "Données essentielles du profil acheteur GIP Recia",
     "owner_org_name": "ATEXO - DECP",
-    "code": "atexo_recia"
+    "code": "atexo_recia",
+    "deleted_date": "2026-01-06"
   },
   {
     "id": "6727210a3b056f39537f23a0",
diff --git a/src/tasks/dataset_utils.py b/src/tasks/dataset_utils.py
@@ -1,6 +1,6 @@
 import datetime
 
-from httpx import get
+from httpx import HTTPError, get
 from prefect import task
 from prefect.cache_policies import INPUTS
 
@@ -24,9 +24,15 @@ def handle_paginated_calls(url: str) -> list[dict]:
     """
     data = []
     while url:
-        response = get(
-            url, follow_redirects=True, headers={"X-API-KEY": DATAGOUVFR_API_KEY}
-        ).json()
+        response = (
+            get(
+                url,
+                follow_redirects=True,
+                headers={"X-API-KEY": DATAGOUVFR_API_KEY},
+            )
+            .raise_for_status()
+            .json()
+        )
         data.extend(response["data"])
         url = response.get("next_page")
     return data
@@ -76,15 +82,18 @@ def list_resources(
         # Données de test .tests/data/datasets_reference_test.json
         if dataset["id"].startswith("test_"):
             all_resources += dataset["resources"]
-
         # Données de production ./data/datasets_reference.json
+        elif dataset.get("deleted_date"):
+            continue
         else:
             try:
                 all_resources = list_resources_by_dataset(dataset["id"])
-            except Exception as e:
-                raise RuntimeError(
-                    f"Erreur lors de la récupération des ressources du dataset '{dataset['id']}': {e}"
+            except (HTTPError, RuntimeError) as e:
+                # Si problème dans la récupération des données, on arrête tout : le dataset a peut-être été dépublié il faut s'assurer qu'on le sauvegarde avant d'écraser les données de prod.
+                logger.error(
+                    f"Erreur lors de la récupération des ressources du dataset '{dataset['name']}' ({dataset['id']}) : {e}"
                 )
+                raise RuntimeError
         for resource in all_resources:
             # On ne garde que les ressources au format JSON ou XML et celles qui ne sont pas
             # - des fichiers OCDS