第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定

機(jī)器閱讀理解中你需要知道的幾個(gè)經(jīng)典數(shù)據(jù)集

標(biāo)簽:
人工智能
一、2013,MCTest

论文:《MCTest:A Challenge Dataset for the Open-Domain Machine Comprehension of Test》

数据以json格式给出。小规模,大部分在这个数据集上的研究都是基于特征工程的工作。

下载链接:http://www.msmarco.org/dataset.aspx

二、2015,CNN&Dailymail

论文:《Teaching Machines to Read and Comprehend》

填空型大规模英文机器理解数据集,答案是原文中的某一个词。

CNN数据集包含美国有线电视新闻网的新闻文章和相关问题。大约有90k文章和380k问题。

Dailymail数据集包含每日新闻的文章和相关问题。大约有197k文章和879k问题。

下载链接:https://github.com/deepmind/rc-data

三、2016,SQuAD

论文:《SQuAD:100000+ Question for Machine Comprehension of Test》

机器理解领域的ImageNet,数据来源于对维基百科文章的问题的整理,在500多篇文章中有超过100000个问题答案对,答案不是原文的一个词,而是原文的一个连续文本片段。数据以json格式给出,只给出了训练集以及验证集,如果要获取在测试集上的效果,需要上传模型,官方会把你的模型在测试集上跑,得出结果后再反馈给你。

下载链接:https://rajpurkar.github.io/SQuAD-explorer/

四、2017,RACE

论文:《RACE:Large-scale Reading Comprehension Dataset From Examinations》

数据集为中国中学生英语阅读理解题目,给定一篇文章和 5 道 4 选 1 的题目,包括了 28000+ passages 和 100,000 问题。与MCTest同为选择题形式的机器阅读数据集,但规模比MCTest大,且相对CNN&Dailymail和SQuAD,RACE更注重推理能力。

数据以txt格式给出,数据集的high文件夹下有20794篇文章,每篇文章有4个问题;middle文件夹下有7139篇文章,每篇文章有5个问题。

训练集的high文件夹下有18728篇文章,占比90%,middle文件夹下有6409篇文章,占比90%;

验证集的high文件夹下有1021篇文章,占比5%,middle文件夹下有368篇文章,占比5%;

测试集的high文件夹下有1045篇文章,占比5%,middle文件夹下有362篇文章,占比5%。

需要发送email,官方会给你的邮箱发下载链接,申请地址:http://www.cs.cmu.edu/~glai1/data/race/

样本数据展示:

图片描述

图片描述

點(diǎn)擊查看更多內(nèi)容
TA 點(diǎn)贊

若覺得本文不錯(cuò),就分享一下吧!

評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中
  • 推薦
  • 評(píng)論
  • 收藏
  • 共同學(xué)習(xí),寫下你的評(píng)論
感謝您的支持,我會(huì)繼續(xù)努力的~
掃碼打賞,你說(shuō)多少就多少
贊賞金額會(huì)直接到老師賬戶
支付方式
打開微信掃一掃,即可進(jìn)行掃碼打賞哦
今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與 放棄機(jī)會(huì)
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

舉報(bào)

0/150
提交
取消