Imaginés en 1970 par B. Bloom, les filtres de Bloom servent surtout à dire très vite « ici, il n’y a rien d’utile », et à éviter des lectures inutiles.
Intégrés à #Parquet, ils accélèrent fortement certaines requêtes, notamment sur des colonnes non triées.
www.icem7.fr/outils/les-f...
Posts by ericmauviere
Particularité statistique, avec ses données nominatives, la base des décès en renseigne près de 30 millions, recueillis depuis 1970.
Elle est désormais facilement exploitable, au format parquet (600 Mo environ).
www.icem7.fr/open-data-fl...
Testé sur la version de dev 1.3 !
Gros bon de performance #DuckDB à la lecture répétée de fichiers parquet en ligne par ex.
Une requête légèrement modifiée en filtrage par exemple, mais visant des row groups communs avec la précédente sera considérablement accélérée.
github.com/duckdb/duckd...
Mise en ligne par @insee.fr d'un volume de données inédit sur @datagouvfr.bsky.social, au carreau de 200 m et par type d'équipement, tout au format #parquet, ce qui lui confère une rapidité et une simplicité de requêtage spectaculaire !
www.data.gouv.fr/fr/datasets/...
Merci, comment y accéder ?
Parmi les jolies choses à venir avec DuckDB :
- lecture XML
- bénéfice d'un cache pour les fichiers en ligne requêtés x fois de suite
- MATCH_RECOGNIZE (SQL:2016, détecte des motifs spécifiques dans des séries temporelles)
- MERGE (SQL:2003, combine plusieurs opérations (INSERT, UPDATE, DELETE).
📢 Nouveauté : affichage des éléments d'un cluster dans #Macarte d' @ignfrance.bsky.social.
🟢 le cluster reprend les couleurs des objets qu'il contient
🗨️ la bulle permet d'afficher le contenu du cluster.
🗺️ A tester dans #Macarte : macarte.ign.fr/edition/carte/
Arf
Si vous n'avez pas encore joué avec hashtag#DuckDB, c'est le moment d'essayer, avec cette nouvelle interface de type notebook, dans le navigateur.
1) Vous installez l'exécutable duckdb (version 1.2.1 min)
lnkd.in/ekXhP4JD
2) vous faites :
duckdb -ui
ou 1 fois qu'il est lancé :
CALL start_ui() ;
Comment lire un graphique sans se faire piéger : voici une jolie page pédagogique réalisée par @flowingdata.com.
Les nombreux exemples présentés sont interactifs, vous pouvez jouer vous même à être "dishonest" en agissant sur un curseur.
#semiologiegraphique
flowingdata.com/projects/dis...
New DuckDB guide by Gábor Szárnyas: analyze your Git logs using the Fishcake with Swirl emoji 🍥 – duckdb.org/docs/guides/...
(Image attribution: Emojipedia)
LA MSA (Mutualité sociale agricole) ouvre un nouveau portail de #datavisualisation, commençant avec 2 récits de données :
📌les différences d'accessibilité aux soins par territoires
📌les pathologies spécifiques au monde agricole
J'y ai contribué (rédaction, graphiques) avec Atolcd.
Tesla’s sales plummet across Europe
www.ft.com/enrichedcontent/ea2329e4...
Si vous avez un abonnement #Microsoft365 famille et que vous ne voulez pas de l'augmentation tarifaire (copilot) imposée, il suffit de demander l'annulation de l'abonnement, et on vous propose alors de basculer vers un forfait classique sans IA.
Insane: all books of the world visualized in ISBN space phiresky.github.io/blog/2025/vi... (by github.com/phiresky, via HackerNews)
The purges have removed information about vaccines, veterans’ care, hate crimes and scientific research, among many other topics.
www.nytimes.com/2025/02/02/u...
Encore un bel outil interactif proposé par les statisticiens du Royaume-Uni : je peux faire évoluer la population du Royaume-Uni en manipulant divers leviers : espérance de vie, nb d'enfants par femme, migrations nettes.
Je n'ai aucune légitimité scientifique à parler du Belarus. Ces dernières années, je me suis beaucoup trop focalisée sur la guerre pour avoir une lecture fine de ce qui se passe à Minsk.
Je me suis quand-même permise d'écrire un billet, face à un agacement. 1/7
colinlebedev.fr/2025/01/27/r...
Lu ! Un ouvrage essentiel pour mieux saisir l'ensemble des "data concepts", qu'un récent courant critique et scientifique a forgés pour comprendre la notion de "données", décrire leur diversité, leur cycle de vie et leur impact.
Chaque entrée de ce dictionnaire est superbement rédigée et sourcée.
🎉 New in Datawrapper: Your data comes with different dates of reporting? An irregular rhythm of values? Missing data points? In line and multiple line charts, you can now close the gaps with a single click. Learn more: blog.datawrapper.de/connect-all-...
Un cycle prend fin et un autre débute, avec une croissance qui suit des trajectoires de plus en plus disparates
(Pierre-Olivier Gourinchas)
www.imf.org/fr/Blogs/Art...
Pour afficher plus rapidement encore des couches cartographiques volumineuses avec le format #Geoparquet, pensez à les trier avec la fonction ST_Hilbert() de #DuckDB Spatial : cet article de @opencholmes.bsky.social l'explique de façon lumineuse.
cholmes.medium.com/using-duckdb...
This chart titled "The world has passed 'peak child'" shows the historical and projected population of three age groups: young people under 25 years, young people under 15 years, and children under 5 years. Data spans from 1950 to 2100, based on UN estimates and projections. The blue line represents the population under 25 years, showing steady growth until around 2050 when it starts to slightly decline. The red line represents those under 15 years, peaking around 2020, and then gradually declining after that point. The green line shows children under 5 years, which has largely plateaued since the 1990s and is projected to decrease over time. The chart indicates that the global number of children has reached its peak, and a long-term decline in younger populations is expected.
The world has passed “peak child”
This is an image of a scatter plot comparing the share of adult men and women who smoke any form of tobacco across different countries. The x-axis represents the share of women who smoke, while the y-axis represents the share of men who smoke. Each dot on the graph represents a country. The plot shows that in almost every country, a higher percentage of men smoke compared to women, as virtually all countries fall above the diagonal line.
Men are more likely to smoke than women almost everywhere in the world
Les données du recensement de l’Insee sont hautement confidentielles et ne sont pas partagées avec les autres services de l’État.
et merci d'avoir lu jusqu'à la fin ;) corrigé
Chaque fin d'année, la publication par l' #Insee des populations communales remporte un franc succès.
Ex. de manchette : "Toulouse a probablement dépassé Lyon pour devenir la 3e ville de France !"
Un #datastorytelling + ambitieux est-il envisageable ?
👉 www.icem7.fr/datavisualis...
Très sympa cette option de data.gouv.fr, la plateforme génère automatiquement une copie au format parquet quand quelqu'un publie un fichier volumineux, csv ou xlsx par exemple.
www.data.gouv.fr/fr/posts/tel...
Un article +++ par les 2 chercheurs à l'origine de #DuckDB.
Enjeux :
assouplir SQL, faciliter son extension (spatial, graphql...) ou l'intégration d'alternatives (dplyr, prql...) ;
en web/wasm, produire des paquets + légers ;
des messages d'erreur + opérationnels.
duckdb.org/2024/11/22/r...
#IGNMaCarte est un très bel outil libre qui permet aussi de faire de la carto thématique.
Il propose désormais la discrétisation head/tail, bien adaptée aux distributions asymétriques.
Référence : Jean-Marc Viglino x.com/jmviglino/st...
Et pour la méthode head/tail : www.icem7.fr/cartographie...