done with transcription
authorPhilip Durbin <philipdurbin@gmail.com>
Sat, 8 Feb 2020 01:54:04 +0000 (20:54 -0500)
committerPhilip Durbin <philipdurbin@gmail.com>
Sat, 8 Feb 2020 01:54:04 +0000 (20:54 -0500)
talks/2020/fosdem-advancing-science-with-dataverse.mdwn

index 29dcc52..c914159 100644 (file)
@@ -56,3 +56,17 @@ The second part of FAIR is Accessible. It's one thing just to throw an Excel fil
 For Interoperable, the third letter in FAIR, I wanted to mention that Dataverse is not trying to be all things to all people. We're trying to focus really on the research data but we're very happy to interoperate and integrate with other platforms. If a researcher is happy to use Dropbox for the early work in their study that's totally fine, they can just get it into Dataverse later. Or other complementary tools like Open Science Framework, RSpace (that's an electronic lab notebook), Open Journal Systems.
 
 Once the data has been published, or even before publication, I would say, we are happy to integrate with computational environments. Jupyter Notebooks, for example, can be opened up in Binder; you just punch in the DOI of the dataset from Dataverse. There's a group called Whole Tale that is all about reproducibility. You may have heard that in science there is what we call this "reproducibility crisis." I'm not saying we're going to solve that problem but we are trying to make an effort toward that.
+
+Reusable. Back to that reproduciblity problem, one thing we're seeing is that journals are requiring the publication of data, in order for the paper to be published. We think this is a very positive thing. It's a bit of a big stick to hit researchers with, to say, "Sorry, you can't publish your paper until you publish the dataset," but for scientific reproducibility it's a wonderful thing. Here's an example of this, the American Journal of Political Science has a replication policy that says, you have to give us the data, and also the code. And then there is a group of analysts at the Odum Institute at the University of North Carolina that will make sure the code executes, make sure that the plots in the paper can be reproduced. And then they give it the stamp of approval and then the dataset can be published and then the paper can be published.
+
+That's part of the story with reproducibility. The problem is that these poor analysts are downloading all kinds of software all the time to their laptps tring to reproduce the work of random datasets all over the world. The next step for us is partner with tools like Code Ocean, again Whole Tale, Renku, and Jupyter. These are reproducibility platforms. Instead of that analyst trying to reproduce the results on their laptop, along with a lot of other datasets, what if they can click a button and have a Docker container spun up that has all the bits that they need to reproduce that work. Again, DOIs for papers, DOIs for datasets, and maybe in the future DOIs for what we would call an execution environment, a Dockerfile, a Docker image. That's sort of where our thinking is going in the future.
+
+These FAIR Data Principles are in an academic paper that you're welcome to check out and I'd also point you to a recent talk by Merce Crosas who has been leading the Dataverse project for over ten years. We had an event in Tromso, Norway just a couple weeks ago where there were 19 countries represented. She gave a talk explaining this FAIR data concept from the Dataverse perspective. And I'd like to note that when I landed here on Friday I was invited by Youssef and others from the State Archives of Belgium and we had a nice little meeting with representative from six countries, all running Dataverse, and so thanks again for that. It was great to see friendly faces upon arriving in Brussels.
+
+I have a little bit of bonus content. Two minutes left.
+
+This is something that I believe strongly in, that in the past open source has been very open in its communication, whether we are talking about the announcement of the GNU project or the announcement of Linux and discussion about open source and free software throughout time, we can still go back and look at that communication today. What I see more and more is that lots of projects are using Slack, which... is fine. We use Slack to say things like, "Hey, I brought in donuts. Come on by." It's great for that. But when you're thinking about your communities, and you're making decisions about your projects and the direction you're going, I'd just like to encourage everyone to continue to hold to our tradition of openness. If there can be an acronym called FAIR about data, I thought I could make an acronym about called SLOPI ("sloppy") about communication. SLOPI stands for Searchable, Linkable, Open, Public, Indexed. I wrote a little blog post with more about what SLOPI is. That's that.
+
+Last thing. There's a group called CHAOSS that's around. There was CHAOSSCon on Friday. There's a project at Harvard that is called the Open Source Software Health Index Project. The idea here is that something developers like us do naturally all the time is compare two projects and say, "Well, which one is healthier? Which is the horse to bet on?" What we're trying to do is get toward a way to quantify some of this. CHAOSS has built this awesome tool called Augur that will collect data about projects from GitHub repos and we're starting to mine that data a little bit. I just want to put this project on your radar.
+
+With that, I just wanted to say thank you. I don't think we have time for questions, unfortunately, but please find me online. We have a chat room, chat.dataverse.org. There's my email, my Twitter. Thank you very much for your attention!