Advertisement · 728 × 90

Posts by Statoscop

Data Organization in Spreadsheets
Karl W. Broman
& Kara H. Woo
Pages 2-10 | Received 01 Jun 2017, Accepted author version posted online: 29 Sep 2017, Published online: 24 Apr 2018

    1. Introduction
    2. Be Consistent
    3. Choose Good Names for Things
    4. Write Dates as YYYY-MM-DD
    5. No Empty Cells
    6. Put Just One Thing in a Cell
    7. Make it a Rectangle
    8. Create a Data Dictionary
    9. No Calculations in the Raw Data Files
    10. Do Not Use Font Color or Highlighting as Data
    11. Make Backups
    12. Use Data Validation to Avoid Errors
    13. Save the Data in Plain Text Files

ABSTRACT

Spreadsheets are widely used software tools for data entry, storage, analysis, and visualization. Focusing on the data entry and storage aspects, this article offers practical recommendations for organizing spreadsheet data to reduce errors and ease later analyses. The basic principles are: be consistent, write dates like YYYY-MM-DD, do not leave any cells empty, put just one thing in a cell, organize the data as a single rectangle (with subjects as rows and variables as columns, and with a single header row), create a data dictionary, do not include calculations in the raw data files, do not use font color or highlighting as data, choose good names for things, make backups, use data validation to avoid data entry errors, and save the data in plain text files.

Data Organization in Spreadsheets Karl W. Broman & Kara H. Woo Pages 2-10 | Received 01 Jun 2017, Accepted author version posted online: 29 Sep 2017, Published online: 24 Apr 2018 1. Introduction 2. Be Consistent 3. Choose Good Names for Things 4. Write Dates as YYYY-MM-DD 5. No Empty Cells 6. Put Just One Thing in a Cell 7. Make it a Rectangle 8. Create a Data Dictionary 9. No Calculations in the Raw Data Files 10. Do Not Use Font Color or Highlighting as Data 11. Make Backups 12. Use Data Validation to Avoid Errors 13. Save the Data in Plain Text Files ABSTRACT Spreadsheets are widely used software tools for data entry, storage, analysis, and visualization. Focusing on the data entry and storage aspects, this article offers practical recommendations for organizing spreadsheet data to reduce errors and ease later analyses. The basic principles are: be consistent, write dates like YYYY-MM-DD, do not leave any cells empty, put just one thing in a cell, organize the data as a single rectangle (with subjects as rows and variables as columns, and with a single header row), create a data dictionary, do not include calculations in the raw data files, do not use font color or highlighting as data, choose good names for things, make backups, use data validation to avoid data entry errors, and save the data in plain text files.

Every day is a good day for sharing one of the most useful papers about research data ever written. PLEASE get your people to understand and follow this advice.

www.tandfonline.com/doi/full/10....

3 weeks ago 1050 404 31 48
Post image

#bioinformatics #statistics #memes #bluesci

1 month ago 101 25 3 1
Preview
Faire apparaître le zéro sur l'axe des ordonnées dans vos visualisations : arguments et exemples Comment choisir les représentations les plus pertinentes pour ne pas fausser l'interprétation de vos dataviz.

💡 Pour bien commencer l'année on vous propose cette semaine un petit post de blog sur une marotte de la visualisation des données : l'obligation de faire apparaître le zéro sur l'axe des ordonnées.
Notre apport avec des illustrations #RStats et #ggplot2 ⤵️
blog.statoscop.fr/faire-appara...

2 months ago 1 1 0 0
Preview
Utilisation de case_when dans dplyr : cas des variables facteurs Astuces pour bien définir sa variable facteur dans une instruction case_when suite aux dernières mises à jour de dplyr.

🤨 Vous n'êtes pas sûrs de comment créer des variables factor avec case_when dans #dplyr? Notre nouvelle de note de blog est pour vous ! ⤵️

#RStats #RStatsFR

blog.statoscop.fr/utilisation-...

6 months ago 1 1 0 0
Video

Comment évoluent les modes de gestion de l'eau potable en France depuis 2008 ? Gestion publique ou privée ?

📈 Voici une visualisation dynamique nationale et par département, qui suit le pourcentage de la population desservie par des régies publiques (courbe d'évolution à la fin de l'animation). 🔽

1 year ago 3 1 1 0
Preview
Graphiques et diagrammes à barres empilées : présentation d'une alternative avec R et ggplot2 Une alternative pour visualiser des sous-ensembles et leur total sans les empiler

Suite à un post Linkedin de Kevin Flerlage, qui présentait une visualisation alternative aux "stacked bar plots" en Tableau, on a décidé de tester la même chose avec #RStats et #ggplot2.

🫣 Spoiler : c'est très facile à coder et nous, on trouve que ça rend bien!

blog.statoscop.fr/graphiques-e...

11 months ago 1 2 0 0
Preview
if_any et if_all : appliquer la même condition sur plusieurs variables dans dplyr Quelques exemples d'utilisation de if_any et if_all dans le traitement de vos données avec R.

🔎 Cette semaine petit focus sur deux verbes bien pratiques de #dplyr dans #RStats!
blog.statoscop.fr/if_any-et-if...
#RStatsFr

1 year ago 1 1 0 0

Thanks to you! You have helped me explain so many things to my clients 😆

1 year ago 1 0 0 0
Advertisement

À lire absolument !

1 year ago 1 1 1 0

If you find yourself, a serious scientist wanting to bring good into the world, doing this kind of research...it's ok to switch fields. You'll thank yourself later.

1 year ago 18 1 2 0
ellmer hex, consisting of a colorful cartoon elephant

ellmer hex, consisting of a colorful cartoon elephant

We are delighted to announce the release of ellmer, an R package for accessing the power of LLMs in R!

ellmer supports a variety of model providers. Chat, tool call, stream API calls, extract structured data, and more!

Learn about it here: posit.co/blog/announc...

#RStats #AI #LLM

1 year ago 101 28 7 0
Preview
Réseaux neuronaux convolutifs avec R et Keras Démonstration de l'utilisation du package keras3 pour faire du Deep Learning avec R.

🤨 Le #DeepLearning avec #RStats, ça marche bien?

On a testé pour vous le package {keras3} et on discute de son intérêt dans notre nouvelle note de blog ⤵️

blog.statoscop.fr/reseaux-neur...

1 year ago 3 2 0 0

Yes it is... 🫣 Qui n'a pas encore lâché RMarkdown...?? ⏬

blog.statoscop.fr/quarto-rmark...

1 year ago 2 1 0 0

Quarto is such an incredible piece of software goddammit

#Rstats

1 year ago 40 2 4 2
Preview
Appariement par score de propension (PSM) : mise en oeuvre avec R et discussions méthodologiques Implications théoriques des méthodes d'appariement par score de propension et implémentation avec le package R MatchIt.

👋 Bluesky !

On fête notre arrivée ici avec un nouvel article de blog bien #stats sur les appariements sur score de propension :

blog.statoscop.fr/appariement-...

1 year ago 2 1 0 0