198 lines (129 loc) · 10.3 KB

2.10.2 2026-03-19

Ajout des valeurs valides (enum) dans le schéma pour chaque champ (si applicable)

2.10.1 2026-03-12

Support de plus d'acheteurs pour acheteur_categorie

2.10.0 2026-03-12

Ajout du champ acheteur_categorie qui indique la catégorie d'acheteur : Commune, Comm. de communes, Département, Département outre-mer, Région, État, Établissement hospitalier.

2.9.1 2026-01-02

Normalisation des codes CPV (codeCPV) : les codes de moins de 8 caractères sont terminés par des "0", les codes de plus de 8 caractères sont raccourcis. Le numéro de contrôle à la fin des code était déjà supprimé.

2.9.0 2026-01-29

Ajout du champ type qui indique le type de marché : fournitures, services ou travaux (dérivé du code CPV)
distance renommé titulaire_distance par cohérence, cette donnée étant liée au titulaire, et un marché peut avoir plusieurs titulaires

2.8.0 2026-01-23

Ajout du champ titulaire_categorie (PME, ETI, GE)
Publication de statistiques sur les marchés publics (statistiques_marches.json)
Publication de statistiques sur les doublons entre sources de données (statistiques-doublons-sources.parquet)
Ignorer les petits fichiers vides (< 180 octets)

2.7.1

Gestion des datasets dépubliés par leur propriétaire (arrêt du workflow pour ne pas écraser les données de prod et pouvoir en extraire les données à présent indisponibles)

2.7.0

Remplacement des guillemets simples par des apostrophes dans "objet"
Ajout des données de l'API DUME (code source scrap_aife_dume) (#144)
Ajout des données du profil d'acheteur Klekoon (code source scrap_klekoon) (#71)

2.6.4 2025-12-19

Tri et numérotation des modifications après la concaténation plutôt que par ressource, pour réduire le nombre de doublons (#156)
Utilisation du logger de prefect plûtot que log_prints=True (#94)

2.6.3 2025-12-16

Téléchargement des ressources plus résilient aux erreurs (tenacity)
Téléchargement des données établissements plus résilient aux erreurs (tenacity)

2.6.2 2025-12-15

Réduction du nombre de tâches prefect pour réduire la charge sur la BDD et la latence
Utilisation du multithreading standard de Python plutôt que celui de Prefect
Le nom d'établissement n'est ajouté entre parenthèses que s'il est différent de celui de l'unité légale

2.6.1 2025-12-14

Séparation des fichiers de référence et des fichiers de données
Réorganisation des variables d'environnement
Correction de certains imports de modules

2.6.0 2025-12-12

Abandon des données consolidées par le MINEF, récupération des données à la source (#151)
- Xmarchés
- AWS (officiel et legacy)
- PES marché (avant et après 2024)
- Dematis / e-marchespublics
Ajout du champ dureeRestanteMois (#135)
Amélioration des noms des titulaires (personnes physiques et non-diffusibles) (#145)
Ajout de nombreux tests unitaires
Amélioration de la gestion des modifications (#148)
Traitement des ressources en parallèle (#113)
Optimisation de la consommation de mémoire (matérialisation en parquet) (#153)
Résilience contre les erreurs pendant get_clean (seule la ressource échoue, pas tout le process)
Mise en place d'un système de cache custom (parquet)
Protection contre la publication par erreur sur data.gouv.fr (ffaf0535)
Utilisation de polars 1.35.2 plutôt que 1.36.1 qui semble ne pas marcher avec polars-ds

2.5.0 2025-11-21

Amélioration de la conso mémoire de la correction des titulaires (#146)
Vérfication de la structude des données scrapées (AWS)
Gestion propre des erreurs 429 Too Many Redirects (6fbd71e0)
Skipper et non fail les ressources qui ne sont conformes à aucun schéma (2019 ou 2022)

2.4.3 2025-11-14

Stabilisation du scrap AWS (mais c'est pas encore ça) (#143)
Ajout du nombre de marchés dans les stats NAF/CPV (#142)

2.4.2 2025-11-12

Correction des montants de marchés supérieurs à 99 milliards, ramenés à 12,311111111 milliards

2.4.1 2025-11-06

Correction des imports de modules

2.4.0 2025-11-05

Ajout d'une colonne distance pour indiquer la distance en kilomètres entre l'acheteur et le titulaire (#138) (financé par Odialis)
Ajout de colonnes commune, région et département (nom et code) pour les acheteurs et les titulaires basés en France (#140) (financé par Odialis)
Ajout de la génération d'un fichier de probabilités de code CPV par code NAF (#142, voir probabilites_naf_cpv.csv) (financé par Odialis)

2.3.4 2025-10-24

Correction du nettoyage des backslash AWS

2.3.3 2025-10-21

Regex générique pour corriger les problèmes d'échappements dans le JSON AWS

2.3.2 2025-10-20

Remplacements de texte pendant le scraping AWS pour produire du JSON valide

2.3.1 2025-10-20

stabilisation du scrap de marche-securises.fr (si parse_result_page() échoue)
remplacements dans les données AWS pour redresser le JSON invalide (guillemets, etc.)

2.3.0 2025-10-19

scraping des données DECP de marches-oublics.infos (AWS) (#118)
ajout des données AWS scrapées à la consolidation
ajout des données officielles AWS (a priori incomplètes) à la consolidation
scripts de scrap plus flexibles

2.2.1 2025-10-18

Nettoyage des "" id et acheteur_id avant filtrage et uid
Ne pas parser une page qui retourne None (scrap)

2.2.0 2025-10-18

Extension du timeout pour la publication de nouvelles ressources sur data.gouv.fr
Correction des titulaires null en cascade pour un marché et ses modifications
Possibilité d'exclure des ressources ou de solo un dataset depuis .env
Renommage atomique de decp.parquet pour facilité sa lecture par decp.info
Support des marchés vides (marches-securises.fr)

2.1.3 2025-10-14

Exclusion de marches-securises.fr de la consolidation le temps de le réparer

2.1.2 2025-10-13

Solutionnage des blocs titulaires vides (#131) merci imanuch !

2.1.1 2025-10-13

Stabilisation du scraping de marches-securises.fr
Amélioration du rendu des messages de release

2.1.0 2025-10-13

scraping des données DECP de marches-securises.fr (#111)
ajout des données de marches-securises.fr aux données consolidées (#111)

2.0.5 - 2025-10-08

correction des NaN dans les données consolidées par le MINEF (#127)
auto-release à chaque fois que je push un tag

2.0.4 - 2025-10-04

nettoyage montant invalide de marché (#125)
publication du schéma au format TableSchema (#126)
amélioration des noms de colonnes dans le schéma pour les GUIs (title, short_name)

2.0.3 - 2025-09-29

correction de coquilles dans le schéma

2.0.2 - 2025-09-26

distinction des différentes sources de données consolidées par le MINEF (decp_minef_*)

2.0.1 - 2025-09-25

correction sommes et médianes des montants achetés par an (artefacts)
le timeout de l'upload vers data.gouv.fr est configurable
réduction de la consommation mémoire du chargement en base de données, puis désactivation (#124)
amélioration de la création des chemins de fichiers configurés (#123)
remise à zéro de /dist avant de générer statistiques.csv
ajout du contributeur vico4445 <3

2.0.0 - 2025-09-19

Refonte totale reposant sur prefect, polars et ijson, au lieu de dataflow et pandas
Ajout de sources de données en plus de celles consolidées par le MINEF
- plateformes Atexo
- données publiées par l'AIFE (PLACE, achatpublic.com)
- ARNIA (ex Ternum BFC)
- Mégalis Bretagne
Support des formats JSON DECP 2019 et DECP 2022 en entrée
Intégration des modifications de marché
Traitement effectué en bonne partie en flux pour économiser la mémoire et gérer les gros fichiers en entrée