Skip to content

Latest commit

 

History

History
198 lines (129 loc) · 10.3 KB

File metadata and controls

198 lines (129 loc) · 10.3 KB

2.10.2 2026-03-19

  • Ajout des valeurs valides (enum) dans le schéma pour chaque champ (si applicable)

2.10.1 2026-03-12

  • Support de plus d'acheteurs pour acheteur_categorie

2.10.0 2026-03-12

  • Ajout du champ acheteur_categorie qui indique la catégorie d'acheteur : Commune, Comm. de communes, Département, Département outre-mer, Région, État, Établissement hospitalier.

2.9.1 2026-01-02

  • Normalisation des codes CPV (codeCPV) : les codes de moins de 8 caractères sont terminés par des "0", les codes de plus de 8 caractères sont raccourcis. Le numéro de contrôle à la fin des code était déjà supprimé.

2.9.0 2026-01-29

  • Ajout du champ type qui indique le type de marché : fournitures, services ou travaux (dérivé du code CPV)
  • distance renommé titulaire_distance par cohérence, cette donnée étant liée au titulaire, et un marché peut avoir plusieurs titulaires

2.8.0 2026-01-23

2.7.1

  • Gestion des datasets dépubliés par leur propriétaire (arrêt du workflow pour ne pas écraser les données de prod et pouvoir en extraire les données à présent indisponibles)

2.7.0

  • Remplacement des guillemets simples par des apostrophes dans "objet"
  • Ajout des données de l'API DUME (code source scrap_aife_dume) (#144)
  • Ajout des données du profil d'acheteur Klekoon (code source scrap_klekoon) (#71)

2.6.4 2025-12-19

  • Tri et numérotation des modifications après la concaténation plutôt que par ressource, pour réduire le nombre de doublons (#156)
  • Utilisation du logger de prefect plûtot que log_prints=True (#94)

2.6.3 2025-12-16

  • Téléchargement des ressources plus résilient aux erreurs (tenacity)
  • Téléchargement des données établissements plus résilient aux erreurs (tenacity)

2.6.2 2025-12-15

  • Réduction du nombre de tâches prefect pour réduire la charge sur la BDD et la latence
  • Utilisation du multithreading standard de Python plutôt que celui de Prefect
  • Le nom d'établissement n'est ajouté entre parenthèses que s'il est différent de celui de l'unité légale

2.6.1 2025-12-14

  • Séparation des fichiers de référence et des fichiers de données
  • Réorganisation des variables d'environnement
  • Correction de certains imports de modules

2.6.0 2025-12-12

  • Abandon des données consolidées par le MINEF, récupération des données à la source (#151)
    • Xmarchés
    • AWS (officiel et legacy)
    • PES marché (avant et après 2024)
    • Dematis / e-marchespublics
  • Ajout du champ dureeRestanteMois (#135)
  • Amélioration des noms des titulaires (personnes physiques et non-diffusibles) (#145)
  • Ajout de nombreux tests unitaires
  • Amélioration de la gestion des modifications (#148)
  • Traitement des ressources en parallèle (#113)
  • Optimisation de la consommation de mémoire (matérialisation en parquet) (#153)
  • Résilience contre les erreurs pendant get_clean (seule la ressource échoue, pas tout le process)
  • Mise en place d'un système de cache custom (parquet)
  • Protection contre la publication par erreur sur data.gouv.fr (ffaf0535)
  • Utilisation de polars 1.35.2 plutôt que 1.36.1 qui semble ne pas marcher avec polars-ds

2.5.0 2025-11-21

  • Amélioration de la conso mémoire de la correction des titulaires (#146)
  • Vérfication de la structude des données scrapées (AWS)
  • Gestion propre des erreurs 429 Too Many Redirects (6fbd71e0)
  • Skipper et non fail les ressources qui ne sont conformes à aucun schéma (2019 ou 2022)

2.4.3 2025-11-14

  • Stabilisation du scrap AWS (mais c'est pas encore ça) (#143)
  • Ajout du nombre de marchés dans les stats NAF/CPV (#142)

2.4.2 2025-11-12

  • Correction des montants de marchés supérieurs à 99 milliards, ramenés à 12,311111111 milliards

2.4.1 2025-11-06

  • Correction des imports de modules

2.4.0 2025-11-05

  • Ajout d'une colonne distance pour indiquer la distance en kilomètres entre l'acheteur et le titulaire (#138) (financé par Odialis)
  • Ajout de colonnes commune, région et département (nom et code) pour les acheteurs et les titulaires basés en France (#140) (financé par Odialis)
  • Ajout de la génération d'un fichier de probabilités de code CPV par code NAF (#142, voir probabilites_naf_cpv.csv) (financé par Odialis)

2.3.4 2025-10-24

  • Correction du nettoyage des backslash AWS

2.3.3 2025-10-21

  • Regex générique pour corriger les problèmes d'échappements dans le JSON AWS

2.3.2 2025-10-20

  • Remplacements de texte pendant le scraping AWS pour produire du JSON valide

2.3.1 2025-10-20

  • stabilisation du scrap de marche-securises.fr (si parse_result_page() échoue)
  • remplacements dans les données AWS pour redresser le JSON invalide (guillemets, etc.)

2.3.0 2025-10-19

  • scraping des données DECP de marches-oublics.infos (AWS) (#118)
  • ajout des données AWS scrapées à la consolidation
  • ajout des données officielles AWS (a priori incomplètes) à la consolidation
  • scripts de scrap plus flexibles

2.2.1 2025-10-18

  • Nettoyage des "" id et acheteur_id avant filtrage et uid
  • Ne pas parser une page qui retourne None (scrap)

2.2.0 2025-10-18

  • Extension du timeout pour la publication de nouvelles ressources sur data.gouv.fr
  • Correction des titulaires null en cascade pour un marché et ses modifications
  • Possibilité d'exclure des ressources ou de solo un dataset depuis .env
  • Renommage atomique de decp.parquet pour facilité sa lecture par decp.info
  • Support des marchés vides (marches-securises.fr)

2.1.3 2025-10-14

  • Exclusion de marches-securises.fr de la consolidation le temps de le réparer

2.1.2 2025-10-13

  • Solutionnage des blocs titulaires vides (#131) merci imanuch !

2.1.1 2025-10-13

  • Stabilisation du scraping de marches-securises.fr
  • Amélioration du rendu des messages de release

2.1.0 2025-10-13

2.0.5 - 2025-10-08

  • correction des NaN dans les données consolidées par le MINEF (#127)
  • auto-release à chaque fois que je push un tag

2.0.4 - 2025-10-04

  • nettoyage montant invalide de marché (#125)
  • publication du schéma au format TableSchema (#126)
  • amélioration des noms de colonnes dans le schéma pour les GUIs (title, short_name)

2.0.3 - 2025-09-29

  • correction de coquilles dans le schéma

2.0.2 - 2025-09-26

  • distinction des différentes sources de données consolidées par le MINEF (decp_minef_*)

2.0.1 - 2025-09-25

  • correction sommes et médianes des montants achetés par an (artefacts)
  • le timeout de l'upload vers data.gouv.fr est configurable
  • réduction de la consommation mémoire du chargement en base de données, puis désactivation (#124)
  • amélioration de la création des chemins de fichiers configurés (#123)
  • remise à zéro de /dist avant de générer statistiques.csv
  • ajout du contributeur vico4445 <3

2.0.0 - 2025-09-19

  • Refonte totale reposant sur prefect, polars et ijson, au lieu de dataflow et pandas
  • Ajout de sources de données en plus de celles consolidées par le MINEF
    • plateformes Atexo
    • données publiées par l'AIFE (PLACE, achatpublic.com)
    • ARNIA (ex Ternum BFC)
    • Mégalis Bretagne
  • Support des formats JSON DECP 2019 et DECP 2022 en entrée
  • Intégration des modifications de marché
  • Traitement effectué en bonne partie en flux pour économiser la mémoire et gérer les gros fichiers en entrée