【回帖赢大奖】AI Studio优质数据集征集活动&数据集大厅更新啦! 置顶
收藏
快速回复
AI Studio平台使用 其他热门活动 537384 356
【回帖赢大奖】AI Studio优质数据集征集活动&数据集大厅更新啦! 置顶
收藏
快速回复
AI Studio平台使用 其他热门活动 537384 356

【回帖赢大奖】AI Studio优质数据集征集活动&数据集大厅更新啦!


AI Studio 数据集大厅现已更新,搜索数据集新增筛选功能,上传数据集还支持自定义标签、Markdown编辑器等,感兴趣的小伙伴可以上传数据集体验新功能~

  • 筛选功能

  • 自定义标签

  • Markdown编辑器

数据集大厅:https://aistudio.baidu.com/aistudio/datasetoverview

有的小伙伴目前属于学习阶段,申请精品项目有一些困难,不妨试试申请精品数据集,加精成功后也会有积分奖励,同样可以利用积分兑换算力卡以及其他礼品,本次征集还有特殊的活动奖励哦~


活动形式:
创建数据集并公开,根据示例在本帖下按照"数据集名称+数据集链接+数据集简介"的形式回帖,原创数据集标注原创,示例见文末


奖品攻略请查收:
活动特殊福利
1、2021年9月14日至9月22日,按要求回帖,随机抽取3名同学赠送百度联名风扇。
2、2021年9月14日至9月22日,按照回帖时间排列,最早按要求回帖的5名用户将获得度熊公仔。
常规积分奖励
1、数据集公开,积分+5,系统自动发放
2、每周四根据综合质量、引用数等指标进行评选,被选为精品数据集的奖励额外积分(10~60),原创精品数据集,将再获得30积分奖励。
积分每月可以在AI社区、AI Studio积分兑换贴进行兑换,算力卡、定制周边奖励多多~

https://ai.baidu.com/forum/topic/show/990477

数据集要求:
1.需要公开。
2.不要求原创,但不能与平台已有数据集重复。
3.标题需简明扼要,准确表述出数据集内容方向。
4.简介需大致介绍数据集内容/来源/技术方向/数量级等有效信息,供用户快速识别数据集使用。
5.需针对数据集内容选择适合准确的标签。
6.数据集详情描述详细,包括但不限于数据来源、背景、数据分析、目前存在的问题、示例说明等。


活动获奖公告:
2021年9月28日
注:活动最终解释权归AI Studio所有。禁止作弊,如有发现,取消获奖资格。

小编来打个样~
数据集名称:【原创】焊缝分割数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/106021
数据集简介:本数据集包含焊缝图像192张,并分别使用伪彩色以及灰度图进行标注,同时提供了对应于两种标注方式的txt,数据集详情使用方法可以查看README。

 

数据集名称:SUN RGB-D数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/106223
数据集简介:该数据集包含 10335 张真实的房间场景 RGB-D 图像。每个RGB图像都有一个对应的深度和分割图。标记了多达 700 个对象类别。训练集和测试集分别包含 5285 和 5050 张图像。

 

3
收藏
回复
全部评论(356)
时间顺序
自尊心3
#24 回复于2020-05

数据集名称:NIH Chest X-rays美国国家卫生研究院胸部ct数据集

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/33871

数据集简介:

胸部X光检查是最常见且最具成本效益的医学影像检查之一。该NIH胸部X射线数据集由112120幅X射线图像组成,这些图像带有来自30805位独特患者的疾病标签。 为了创建这些标签,作者使用自然语言处理技术从相关的放射学报告中挖掘疾病分类。 预计标签的准确率> 90%,适用于弱监督学习。  

原始放射学报告尚未公开,但是您可以在此开放获取论文中找到有关标签过程的更多详细信息:"ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases." (Wang et al.)   

数据分成15个类别(14种疾病和无疾病), 图像可以分类为“无发现”或一种或多种疾病并存:

  • Atelectasis
  • Consolidation
  • Infiltration
  • Pneumothorax
  • Edema
  • Emphysema
  • Fibrosis
  • Effusion
  • Pneumonia
  • Pleural_thickening
  • Cardiomegaly
  • Nodule Mass
  • Hernia

图像尺寸是1024 x 1024,所有的数据由具有类别和病患的标注信息,其中有大约1000个图像具有边界框标注信息。标注信息在Annatation.zip文件中。

更多信息请查看kaggle连接

https://www.kaggle.com/nih-chest-xrays/data

以及README.zip中的文档信息。

来AI Studio互粉吧~等你哦~ https://aistudio.baidu.com/aistudio/personalcenter/thirdview/218586

0
回复
自尊心3
#25 回复于2020-05
数据集名称:NIH Chest X-rays美国国家卫生研究院胸部ct数据集 数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/33871 数据集简介: 胸部X光检查是最常见且最具成本效益的医学影像检查之一。该NIH胸部X射线数据集由112120幅X射线图像组成,这些图像带有来自30805位独特患者的疾病标签。 为了创建这些标签,作者使用自然语言处理技术从相关的放射学报告中挖掘疾病分类。 预计标签的准确率> 90%,适用于弱监督学习。   原始放射学报告尚未公开,但是您可以在此开放获取论文中找到有关标签过程的更多详细信息:"ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases." (Wang et al.)    数据分成15个类别(14种疾病和无疾病), 图像可以分类为“无发现”或一种或多种疾病并存: Atelectasis Consolidation Infiltration Pneumothorax Edema Emphysema Fibrosis Effusion Pneumonia Pleural_thickening Cardiomegaly Nodule Mass Hernia 图像尺寸是1024 x 1024,所有的数据由具有类别和病患的标注信息,其中有大约1000个图像具有边界框标注信息。标注信息在Annatation.zip文件中。 更多信息请查看kaggle连接 https://www.kaggle.com/nih-chest-xrays/data 以及README.zip中的文档信息。 来AI Studio互粉吧~等你哦~ https://aistudio.baidu.com/aistudio/personalcenter/thirdview/218586
展开

数据集的单个文件10g上限有点麻烦,大型数据集还得解压了一个个打包

0
回复
学习委员
#26 回复于2020-05
thinc #23
发财的机会来啦!!! 数据集名称:近20年的股票交易数据 数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/33517 来AI Studio互粉吧~等你哦~ https://aistudio.baidu.com/aistudio/personalcenter/thirdview/212554  
展开

哈哈哈哈哈

0
回复
thinc
#27 回复于2020-05

数据集名称:2020国际大数据竞赛:高传染性传染病的传播趋势预测(初赛数据)

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/34443

数据集简介:在群里看到好多同学问官网怎么下不到数据集,现在把数据直接丢到AI Studio,可以直接引用了!

来AI Studio互粉吧~等你哦~ https://aistudio.baidu.com/aistudio/personalcenter/thirdview/212554

0
回复
学习委员
#28 回复于2020-05
thinc #27
数据集名称:2020国际大数据竞赛:高传染性传染病的传播趋势预测(初赛数据) 数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/34443 数据集简介:在群里看到好多同学问官网怎么下不到数据集,现在把数据直接丢到AI Studio,可以直接引用了! 来AI Studio互粉吧~等你哦~ https://aistudio.baidu.com/aistudio/personalcenter/thirdview/212554
展开

nice

0
回复
AIStudio810260
#29 回复于2020-05

数据集名称:瓶装酒瑕疵检测

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/32276

数据集简介:瓶装酒的瑕疵可分为5个大类:瓶盖瑕疵、标贴瑕疵、喷码瑕疵、瓶身瑕疵、酒液瑕疵。 训练集1共4516张图片,标签6945个;训练集2共2668张图片,标签3658个。

来AI Studio互粉吧~等你哦~

https://aistudio.baidu.com/aistudio/personalcenter/thirdview/90149

0
回复
thinc
#30 回复于2020-05

名称:金融行业问答数据集

链接:https://aistudio.baidu.com/aistudio/datasetdetail/34744

简介:77 万条金融行业问答数据,包括用户提问、网友回答、最佳回答

0
回复
thinc
#31 回复于2020-05

名称:上海餐饮数据

链接:https://aistudio.baidu.com/aistudio/datasetdetail/34790

描述:9万条上海餐饮点评打分数据,特征包含:类别、行政区、点评数、口味、环境、服务、人均消费、城市、经度、维度。

0
回复
thinc
#32 回复于2020-05

有个小提议,把数据集内容编辑界面的编辑器优化一下吧,貌似是富文本编辑器,导致多个回车都被识别成空格,没法分段读起来就有点累,简介少的还好说,多的......

0
回复
austinleaven
#33 回复于2020-05

Name:       Facebook的朋友列表

数据集链接:     https://aistudio.baidu.com/aistudio/datasetdetail/34939

介绍:Facebook的朋友列表。数据集包括节点特征,圆和自我网络。 通过使用新值替换每个用户的Facebook内部ID,匿名了Facebook数据。

互粉:

https://aistudio.baidu.com/aistudio/personalcenter/thirdview/242797

0
回复
ChunkitLau
#34 回复于2020-05

食物图片分类问题,有11种类别,图片名为类别+序号

https://aistudio.baidu.com/aistudio/datasetdetail/35121

0
回复
r
rock4you
#35 回复于2020-05

数据集名称:ICDAR2019 ArT

数据集简介: ICDAR2019 Robust Reading Challenge on Arbitrary-Shaped Text

https://rrc.cvc.uab.es/?ch=14

数据集链接: https://aistudio.baidu.com/aistudio/datasetdetail/34376

 

 

0
回复
thinc
#36 回复于2020-05

名称:36氪新闻数据集

链接:https://aistudio.baidu.com/aistudio/datasetdetail/35154

简介:2012年到2016年的1万条36氪新闻数据,包括了新闻标题、新闻内容和 url-网址。

推荐使用方向:

Embedding (Word2Vec, Bert, 等)

标题总结 - Text Summary
序列分类 - Sequence Classification

 

0
回复
thinc
#37 回复于2020-05

怎么按一个Tab键加上空格直接就提交回复了/捂脸,还想编辑地好看一点...

0
回复
zkung
#38 回复于2020-05

可以写爬虫直接在两边下载和上传吗 哈哈哈

0
回复
zkung
#39 回复于2020-05
zkung #38
可以写爬虫直接在两边下载和上传吗 哈哈哈

不过好像aistudio上传速度有点慢的说

0
回复
zkung
#40 回复于2020-05
zkung #39
不过好像aistudio上传速度有点慢的说

在数据集网站挑选一些精选的数据集并且数据量小于500M,获取aistudio所有的数据集标题,如果数据集已存在,就不做下载上传操作,把所有精选数据集上传到aistudio

0
回复
zkung
#41 回复于2020-05
zkung #40
在数据集网站挑选一些精选的数据集并且数据量小于500M,获取aistudio所有的数据集标题,如果数据集已存在,就不做下载上传操作,把所有精选数据集上传到aistudio

爬虫大佬福利来了

0
回复
ChunkitLau
#42 回复于2020-05

pm2.5预测 给出一年内每个月前20天天气指标,给出一天的前9天指标预测这天pm2.5

https://aistudio.baidu.com/aistudio/datasetdetail/35180

0
回复
thinc
#43 回复于2020-05
zkung #41
爬虫大佬福利来了

怎么不训练一个爬虫模型哈哈

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户