Advertisement · 728 × 90

Posts by ericmauviere

Preview
Les filtres de Bloom dans Parquet - Icem7 Un fichier parquet bien construit oriente le requêteur en lui disant d’abord où ne pas aller. Plus il ferme de portes à votre requête SQL, moins elle se perd en explorations inutiles, plus vite elle a...

Imaginés en 1970 par B. Bloom, les filtres de Bloom servent surtout à dire très vite « ici, il n’y a rien d’utile », et à éviter des lectures inutiles.

Intégrés à #Parquet, ils accélèrent fortement certaines requêtes, notamment sur des colonnes non triées.

www.icem7.fr/outils/les-f...

3 months ago 0 0 0 0
Preview
La base des décès : un symbole méconnu de l'open data - Icem7 La base nationale des décès est un ovni statistique : c’est une des rares bases open data France entière qui décrive des personnes avec leurs nom et prénoms en clair. Aussi surprenant que cela puisse ...

Particularité statistique, avec ses données nominatives, la base des décès en renseigne près de 30 millions, recueillis depuis 1970.

Elle est désormais facilement exploitable, au format parquet (600 Mo environ).
www.icem7.fr/open-data-fl...

7 months ago 1 2 0 0
Preview
External File Cache by lnkuiper · Pull Request #16463 · duckdb/duckdb This PR implements an in-memory cache for external files (e.g., Parquet/CSV/JSON) that caches reads in memory to speed up subsequent reads. It is enabled by default, but can be disabled with SET en...

Testé sur la version de dev 1.3 !
Gros bon de performance #DuckDB à la lecture répétée de fichiers parquet en ligne par ex.
Une requête légèrement modifiée en filtrage par exemple, mais visant des row groups communs avec la précédente sera considérablement accélérée.
github.com/duckdb/duckd...

1 year ago 1 0 0 0
Preview
Données sur la localisation et l’accès de la population aux équipements - data.gouv.fr Ce jeu de données produit par l’Insee permet de…

Mise en ligne par @insee.fr d'un volume de données inédit sur @datagouvfr.bsky.social, au carreau de 200 m et par type d'équipement, tout au format #parquet, ce qui lui confère une rapidité et une simplicité de requêtage spectaculaire !

www.data.gouv.fr/fr/datasets/...

1 year ago 2 0 0 1

Merci, comment y accéder ?

1 year ago 0 0 1 0

Parmi les jolies choses à venir avec DuckDB :
- lecture XML
- bénéfice d'un cache pour les fichiers en ligne requêtés x fois de suite
- MATCH_RECOGNIZE (SQL:2016, détecte des motifs spécifiques dans des séries temporelles)
- MERGE (SQL:2003, combine plusieurs opérations (INSERT, UPDATE, DELETE).

1 year ago 2 0 0 0
Video

📢 Nouveauté : affichage des éléments d'un cluster dans #Macarte d' @ignfrance.bsky.social.
🟢 le cluster reprend les couleurs des objets qu'il contient
🗨️ la bulle permet d'afficher le contenu du cluster.
🗺️ A tester dans #Macarte : macarte.ign.fr/edition/carte/

1 year ago 3 1 0 0

Arf

1 year ago 0 0 0 0

Si vous n'avez pas encore joué avec hashtag#DuckDB, c'est le moment d'essayer, avec cette nouvelle interface de type notebook, dans le navigateur.
1) Vous installez l'exécutable duckdb (version 1.2.1 min)
lnkd.in/ekXhP4JD
2) vous faites :
duckdb -ui
ou 1 fois qu'il est lancé :
CALL start_ui() ;

1 year ago 2 0 0 0
Preview
Defense Against Dishonest Charts This is a guide to protect ourselves and to preserve what is good about turning data into visual things.

Comment lire un graphique sans se faire piéger : voici une jolie page pédagogique réalisée par @flowingdata.com.

Les nombreux exemples présentés sont interactifs, vous pouvez jouer vous même à être "dishonest" en agissant sur un curseur.
#semiologiegraphique
flowingdata.com/projects/dis...

1 year ago 1 0 0 0
Advertisement
Post image

New DuckDB guide by Gábor Szárnyas: analyze your Git logs using the Fishcake with Swirl emoji 🍥 – duckdb.org/docs/guides/...

(Image attribution: Emojipedia)

1 year ago 10 2 0 0
Preview
Découvrez MSA DataViz La Mutualité Sociale Agricole (MSA), deuxième régime de protection sociale en France avec plus de 5 millions de ressortissants, vous ouvre sa plateforme de data visualisation. Avec M...

LA MSA (Mutualité sociale agricole) ouvre un nouveau portail de #datavisualisation, commençant avec 2 récits de données :
📌les différences d'accessibilité aux soins par territoires
📌les pathologies spécifiques au monde agricole

J'y ai contribué (rédaction, graphiques) avec Atolcd.

1 year ago 0 0 0 0
Preview
Tesla’s sales plummet across Europe Registrations in Germany fall 59% amid consumer backlash against Elon Musk’s political activism

Tesla’s sales plummet across Europe

www.ft.com/enrichedcontent/ea2329e4...

1 year ago 9 2 1 0

Si vous avez un abonnement #Microsoft365 famille et que vous ne voulez pas de l'augmentation tarifaire (copilot) imposée, il suffit de demander l'annulation de l'abonnement, et on vous propose alors de basculer vers un forfait classique sans IA.

1 year ago 0 0 0 0
Preview
Visualizing all books of the world in ISBN-Space - phiresky's blog Libraries have been trying to collect humanity’s knowledge almost since the invention of writing. In the digital age, it might actually be possible to create a comprehensive collection of all human wr...

Insane: all books of the world visualized in ISBN space phiresky.github.io/blog/2025/vi... (by github.com/phiresky, via HackerNews)

1 year ago 26 8 0 2
Preview
Thousands of U.S. Government Web Pages Have Been Taken Down Since Friday Federal agencies moved to satisfy Trump’s orders to remove topics like diversity initiatives and “gender ideology.”

The purges have removed information about vaccines, veterans’ care, hate crimes and scientific research, among many other topics.
www.nytimes.com/2025/02/02/u...

1 year ago 66 45 3 6

Encore un bel outil interactif proposé par les statisticiens du Royaume-Uni : je peux faire évoluer la population du Royaume-Uni en manipulant divers leviers : espérance de vie, nb d'enfants par femme, migrations nettes.

1 year ago 1 0 0 0
Preview
Regarder vraiment le Bélarus Il n’a jamais été simple de parler du Bélarus en France sans tomber dans le cliché. La formulation « dernière dictature d’Europe » a encore été reprise par les médias aujourd’hui pour évo…

Je n'ai aucune légitimité scientifique à parler du Belarus. Ces dernières années, je me suis beaucoup trop focalisée sur la guerre pour avoir une lecture fine de ce qui se passe à Minsk.
Je me suis quand-même permise d'écrire un billet, face à un agacement. 1/7
colinlebedev.fr/2025/01/27/r...

1 year ago 218 77 8 4

Lu ! Un ouvrage essentiel pour mieux saisir l'ensemble des "data concepts", qu'un récent courant critique et scientifique a forgés pour comprendre la notion de "données", décrire leur diversité, leur cycle de vie et leur impact.
Chaque entrée de ce dictionnaire est superbement rédigée et sourcée.

1 year ago 1 0 0 0
Preview
New: Combine series with different intervals in line charts - Datawrapper Blog Missing data? Different intervals (like monthly & quarterly)? There's now a way to connect *all* data points in Datawrapper's line and multiple lines charts.

🎉 New in Datawrapper: Your data comes with different dates of reporting? An irregular rhythm of values? Missing data points? In line and multiple line charts, you can now close the gaps with a single click. Learn more: blog.datawrapper.de/connect-all-...

1 year ago 11 3 1 0
Advertisement
Post image

Un cycle prend fin et un autre débute, avec une croissance qui suit des trajectoires de plus en plus disparates
(Pierre-Olivier Gourinchas)
www.imf.org/fr/Blogs/Art...

1 year ago 2 1 0 0
Preview
Using DuckDB’s Hilbert Function with GeoP DuckDB continues to be my go to tool for geospatial processing, after I discovered it over a year ago. Since that time its functionality…

Pour afficher plus rapidement encore des couches cartographiques volumineuses avec le format #Geoparquet, pensez à les trier avec la fonction ST_Hilbert() de #DuckDB Spatial : cet article de @opencholmes.bsky.social l'explique de façon lumineuse.

cholmes.medium.com/using-duckdb...

1 year ago 12 5 0 0
This chart titled "The world has passed 'peak child'" shows the historical and projected population of three age groups: young people under 25 years, young people under 15 years, and children under 5 years. Data spans from 1950 to 2100, based on UN estimates and projections.

The blue line represents the population under 25 years, showing steady growth until around 2050 when it starts to slightly decline.
The red line represents those under 15 years, peaking around 2020, and then gradually declining after that point.
The green line shows children under 5 years, which has largely plateaued since the 1990s and is projected to decrease over time.
The chart indicates that the global number of children has reached its peak, and a long-term decline in younger populations is expected.

This chart titled "The world has passed 'peak child'" shows the historical and projected population of three age groups: young people under 25 years, young people under 15 years, and children under 5 years. Data spans from 1950 to 2100, based on UN estimates and projections. The blue line represents the population under 25 years, showing steady growth until around 2050 when it starts to slightly decline. The red line represents those under 15 years, peaking around 2020, and then gradually declining after that point. The green line shows children under 5 years, which has largely plateaued since the 1990s and is projected to decrease over time. The chart indicates that the global number of children has reached its peak, and a long-term decline in younger populations is expected.

The world has passed “peak child”

1 year ago 223 80 10 34
This is an image of a scatter plot comparing the share of adult men and women who smoke any form of tobacco across different countries. The x-axis represents the share of women who smoke, while the y-axis represents the share of men who smoke. Each dot on the graph represents a country.

The plot shows that in almost every country, a higher percentage of men smoke compared to women, as virtually all countries fall above the diagonal line.

This is an image of a scatter plot comparing the share of adult men and women who smoke any form of tobacco across different countries. The x-axis represents the share of women who smoke, while the y-axis represents the share of men who smoke. Each dot on the graph represents a country. The plot shows that in almost every country, a higher percentage of men smoke compared to women, as virtually all countries fall above the diagonal line.

Men are more likely to smoke than women almost everywhere in the world

1 year ago 68 10 2 2

Les données du recensement de l’Insee sont hautement confidentielles et ne sont pas partagées avec les autres services de l’État.

1 year ago 49 20 5 5

et merci d'avoir lu jusqu'à la fin ;) corrigé

1 year ago 0 0 0 0
Preview
Le data storytelling des populations annuelles - Icem7 Cas d’école du data storytelling, la mise à jour annuelle des populations communales (dites « de référence ») se dévoile chaque décembre dans un ballet parfaitement réglé : l’Insee publie le même jour...

Chaque fin d'année, la publication par l' #Insee des populations communales remporte un franc succès.
Ex. de manchette : "Toulouse a probablement dépassé Lyon pour devenir la 3e ville de France !"

Un #datastorytelling + ambitieux est-il envisageable ?

👉 www.icem7.fr/datavisualis...

1 year ago 0 0 0 0
Preview
Télécharger des données massives au format parquet - data.gouv.fr Manipulez efficacement les fichiers tabulaires volumineux !

Très sympa cette option de data.gouv.fr, la plateforme génère automatiquement une copie au format parquet quand quelqu'un publie un fichier volumineux, csv ou xlsx par exemple.
www.data.gouv.fr/fr/posts/tel...

1 year ago 1 0 0 0
Preview
Runtime-Extensible SQL Parsers Using PEG Despite their central role in processing queries, parsers have not received any noticeable attention in the data systems space. State-of-the art systems are content with ancient old parser generators....

Un article +++ par les 2 chercheurs à l'origine de #DuckDB.

Enjeux :
assouplir SQL, faciliter son extension (spatial, graphql...) ou l'intégration d'alternatives (dplyr, prql...) ;
en web/wasm, produire des paquets + légers ;
des messages d'erreur + opérationnels.

duckdb.org/2024/11/22/r...

1 year ago 2 0 0 0
Post image

#IGNMaCarte est un très bel outil libre qui permet aussi de faire de la carto thématique.

Il propose désormais la discrétisation head/tail, bien adaptée aux distributions asymétriques.

Référence : Jean-Marc Viglino x.com/jmviglino/st...

Et pour la méthode head/tail : www.icem7.fr/cartographie...

1 year ago 6 6 1 0
Advertisement