just before Reusable
authorPhilip Durbin <philipdurbin@gmail.com>
Sat, 8 Feb 2020 00:38:56 +0000 (19:38 -0500)
committerPhilip Durbin <philipdurbin@gmail.com>
Sat, 8 Feb 2020 00:38:56 +0000 (19:38 -0500)
talks/2020/fosdem-advancing-science-with-dataverse.mdwn

index 57309ce..6ab4746 100644 (file)
@@ -49,4 +49,10 @@ Now I'd like to step you through quickly this concept we have in my world of wha
 
 Let's start with Findable. Part of the idea with putting data in a repository like Dataverse is that other scientists can find your work and reuse your work. When you publish a dataset in we sent metadata, that's data about data, across the wire to a nonprofit called DataCite. This is an aggregator of all sorts of scientific data. A new player on the scene is Google. They have just brough out of beta last week or the week before a tool called Google Dataset Search. We've been working closely with them and putting all the right technology in place so that they can easily crawl installations of Dataverse find the title, the author, the description, and make them all available in their new tool. This third one is from a project called SHARE that's another effort within academia to make more findable. In this case they use the Dataverse Search API to pull in the latest records all the time.
 
+These are a couple screenshots of what these tools might look like when you're searching for data. The thing I like about these tools is that they expose the number of citations to the data. Again, citations are sort of the currency of the academic world. Here's a dataset with 13 citations. That means that 13 papers are making use of data, reusing that data. We're really happy to see that data is being reused. We're hoping that this advances science.
 
+The second part of FAIR is Accessible. It's one thing just to throw an Excel file up on an FTP server but with Dataverse what we're trying to do is give researchers tools to explain exactly what their data is about. We support what we would say is a rich set of metadata fields and Dataverse is customizable to the scientific discipline. For example, there's a group at Harvard Medical School that structural biology data. They create their own metadata fields that matter to them. That's for the humans to read on the one side but we also support lots and lots of standards for interoperating between other data repositories. XML and JSON in a variety of formats. Google Dataset Search for example uses a standard called Schema.org JSON-LD, the dataset part of that. Old standards like Dublin Core are in XML. There's a whole variety to make data accessible.
+
+For Interoperable, the third letter in FAIR, I wanted to mention that Dataverse is not trying to be all things to all people. We're trying to focus really on the research data but we're very happy to interoperate and integrate with other platforms. If a researcher is happy to use Dropbox for the early work in their study that's totally fine, they can just get it into Dataverse later. Or other complementary tools like Open Science Framework, RSpace (that's an electronic lab notebook), Open Journal Systems.
+
+Once the data has been published, or even before publication, I would say, we are happy to integrate with computational environments. Jupyter Notebooks, for example, can be opened up in Binder; you just punch in the DOI of the dataset from Dataverse. There's a group called Whole Tale that is all about reproducibility. You may have heard that in science there is what we call this "reproducibility crisis." I'm not saying we're going to solve that problem but we are trying to make an effort toward that.