typos
[wiki.git] / talks / 2020 / fosdem-advancing-science-with-dataverse.mdwn
1 On February 2nd, 2020 I gave a talk at FOSDEM called "Advancing Science with Dataverse."
2
3 The talk is on [YouTube][] and my [slides][] are available on the FOSDEM website.
4
5 [YouTube]: https://twitter.com/philipdurbin/status/1224245828971388930
6 [slides]: https://fosdem.org/2020/schedule/event/dataverse/
7
8 Thank you, everyone, for coming. Again, my name is Philip Durbin. I'm a software developer at Harvard University. This is a picture of our campus. We're across the river from Boston in the United States. I'm here to tell you about Dataverse.
9
10 Dataverse is a community of data enthusiasts, specifically research data. That means that we are scientists, researchers, and often we come from the academic library world, so librarians and data curators, data scientists, software developers like myself.
11
12 These are some pictures from our annual gathering in Cambridge, Massachusetts. We have our sixth annual Datavers Community Meeting this June and everyone welcome to come. We always play what we call soccer.
13
14 More importantly for FOSDEM, Dataverse is open source software. We are Apache licensed. There are 52 installation of Dataverse around the world across six continents. It has been translated into ten languages and there is an opportunity to contribute there, for sure.
15
16 Here are some stats from GitHub for our repository. Over 100 contributors. We are written in Java but I'd like to emphasize that we have APIs and client libraries for a variety of languages such as Javascript, Python, and R. So if you would like to contribute to Dataverse there are lots of ways to get involved.
17
18 Dataverse, again, is for research data. We would say that it's open source research data repository software. But what does that mean? Research data. Let me give you an example.
19
20 I saw this on Twitter a few weeks ago and asked this scientist if I can put him in my slides. His name is Arvind P. Ravikumar. He's working on climate change. You can see here that he's tweeting his heart out. He is preparing a manuscript, a paper, for publication in a journal. He is explaining his argument. He is making data visualizations of all of this.
21
22 Then he asks hashtag academic Twitter, "If I have primary data, what should I do with it?" In the past he's saying he has always put it under what's called supplementary information in the journal article, but one of the reviewers of his paper is saying, "You should get a DOI for your data."
23
24 A DOI is a digital object identifier. It's a whole thing. I was just in Lisbon this week for a conference called PIDapalooza, PID being a Persistent IDentifier. In the academic world, this is how we cite each others work. This is how we acknowledge each other. We build up a graph of "this work is derived from this work." We are all standing on the shoulders of giants.
25
26 With Dataverse what we are trying to do is elevate the dataset to be a first class research object. Instead of just your papers, think about a citation for your data.
27
28 In the end, I'm happy so say that this scientist decided to put his data into Harvard Dataverse and this is what that looks like.
29
30 Harvard Dataverse, and I have these pamphlets here, is a little unique among the 50 installations of Dataverse in that we accept from around the world and will host it for free, up to one terabyte. So this is an invitation to the crowd that if you yourself have research data and you don't know where to put it, or you know someone who does, please send them to Harvard Dataverse and we'd be happy to host the data for them.
31
32 Another thing I wanted to point out about this dataset is that his raw data, his primary data is only about half a megabyte in size and yet you can see how rich the data is.  He's exploring the data with data visualization. He obviously has a lot to say on Twitter about his data.
33
34 We might call this the long tail of science.
35
36 If you work in, say, biochemistry, you might have a natural place to put your data. Maybe you put it in the Protein Data Bank,  for example. But for a lot of science there is no place for their data, so that's part of the need that Harvard Dataverse and the Dataverse project as a whole is trying to meet. We want to welcome all scientists from all disciplines to publish their data.
37
38 I want to talk a little bit about cultural change and try to explain that people like the scientist we saw are very similar to open source developers.
39
40 You can see that we like to share code and we are seeing that researchers are willing to share data, but this is a relatively new thing.
41
42 This pyramid is a diagram that's based on a tweet storm by Brian Nosek from the Center for Open Science and what it means to me is that first we had to build the ability to share data at all. That's at the bottom. Then, projects like Dataverse have come along to hopefully improve the user experience for sharing data. I stopped by the Open Source Design table this morning and efforts like that are great. Let's not just have open source software. Let's make the software usable. Let's make it painless to share data.
43
44 As we go up the pyramid what we're seeing now is some cultural change. Again, the reviewer of the paper is the one who said, "Hey, you should make your dataset a first class, citable, scholarly object." That's great. That's exactly what we've been trying to do for years, is get there where it becomes a good scientific practice to share your data with the world.
45
46 Increasingly, funding these days often requires you to share your data, so university libraries and other places have a reason to install research data repository software like Dataverse so that they can have a place for the community to share their data. Also, I'll mention that on the journal side, the places that are publishing these academic papers, they are now giving incentives to researchers to share their data. They're trying to also move research toward more openness and more sharing of data. 
47
48 Now I'd like to step you through quickly this concept we have in my world of what we call the FAIR Data Principles. FAIR is an acronym that stands for Findable, Accessible, Interoperable, and Reusable.
49
50 Let's start with Findable. Part of the idea with putting data in a repository like Dataverse is that other scientists can find your work and reuse your work. When you publish a dataset in we sent metadata, that's data about data, across the wire to a nonprofit called DataCite. This is an aggregator of all sorts of scientific data. A new player on the scene is Google. They have just brought out of beta last week or the week before a tool called Google Dataset Search. We've been working closely with them and putting all the right technology in place so that they can easily crawl installations of Dataverse find the title, the author, the description, and make them all available in their new tool. This third one is from a project called SHARE that's another effort within academia to make more findable. In this case they use the Dataverse Search API to pull in the latest records all the time.
51
52 These are a couple screenshots of what these tools might look like when you're searching for data. The thing I like about these tools is that they expose the number of citations to the data. Again, citations are sort of the currency of the academic world. Here's a dataset with 13 citations. That means that 13 papers are making use of data, reusing that data. We're really happy to see that data is being reused. We're hoping that this advances science.
53
54 The second part of FAIR is Accessible. It's one thing just to throw an Excel file up on an FTP server but with Dataverse what we're trying to do is give researchers tools to explain exactly what their data is about. We support what we would say is a rich set of metadata fields and Dataverse is customizable to the scientific discipline. For example, there's a group at Harvard Medical School that structural biology data. They create their own metadata fields that matter to them. That's for the humans to read on the one side but we also support lots and lots of standards for interoperating between other data repositories. XML and JSON in a variety of formats. Google Dataset Search for example uses a standard called Schema.org JSON-LD, the dataset part of that. Old standards like Dublin Core are in XML. There's a whole variety to make data accessible.
55
56 For Interoperable, the third letter in FAIR, I wanted to mention that Dataverse is not trying to be all things to all people. We're trying to focus really on the research data but we're very happy to interoperate and integrate with other platforms. If a researcher is happy to use Dropbox for the early work in their study that's totally fine, they can just get it into Dataverse later. Or other complementary tools like Open Science Framework, RSpace (that's an electronic lab notebook), Open Journal Systems.
57
58 Once the data has been published, or even before publication, I would say, we are happy to integrate with computational environments. Jupyter Notebooks, for example, can be opened up in Binder; you just punch in the DOI of the dataset from Dataverse. There's a group called Whole Tale that is all about reproducibility. You may have heard that in science there is what we call this "reproducibility crisis." I'm not saying we're going to solve that problem but we are trying to make an effort toward that.