【回帖赢大奖】AI Studio优质数据集征集活动&数据集大厅更新啦!
AI Studio 数据集大厅现已更新,搜索数据集新增筛选功能,上传数据集还支持自定义标签、Markdown编辑器等,感兴趣的小伙伴可以上传数据集体验新功能~
- 筛选功能
- 自定义标签
- Markdown编辑器
数据集大厅:https://aistudio.baidu.com/aistudio/datasetoverview
有的小伙伴目前属于学习阶段,申请精品项目有一些困难,不妨试试申请精品数据集,加精成功后也会有积分奖励,同样可以利用积分兑换算力卡以及其他礼品,本次征集还有特殊的活动奖励哦~
活动形式:
创建数据集并公开,根据示例在本帖下按照"数据集名称+数据集链接+数据集简介"的形式回帖,原创数据集标注原创,示例见文末。
奖品攻略请查收:
活动特殊福利
1、2021年9月14日至9月22日,按要求回帖,随机抽取3名同学赠送百度联名风扇。
2、2021年9月14日至9月22日,按照回帖时间排列,最早按要求回帖的5名用户将获得度熊公仔。
常规积分奖励
1、数据集公开,积分+5,系统自动发放
2、每周四根据综合质量、引用数等指标进行评选,被选为精品数据集的奖励额外积分(10~60),原创精品数据集,将再获得30积分奖励。
积分每月可以在AI社区、AI Studio积分兑换贴进行兑换,算力卡、定制周边奖励多多~
https://ai.baidu.com/forum/topic/show/990477
数据集要求:
1.需要公开。
2.不要求原创,但不能与平台已有数据集重复。
3.标题需简明扼要,准确表述出数据集内容方向。
4.简介需大致介绍数据集内容/来源/技术方向/数量级等有效信息,供用户快速识别数据集使用。
5.需针对数据集内容选择适合准确的标签。
6.数据集详情描述详细,包括但不限于数据来源、背景、数据分析、目前存在的问题、示例说明等。
活动获奖公告:
2021年9月28日
注:活动最终解释权归AI Studio所有。禁止作弊,如有发现,取消获奖资格。
小编来打个样~
数据集名称:【原创】焊缝分割数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/106021
数据集简介:本数据集包含焊缝图像192张,并分别使用伪彩色以及灰度图进行标注,同时提供了对应于两种标注方式的txt,数据集详情使用方法可以查看README。
数据集名称:SUN RGB-D数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/106223
数据集简介:该数据集包含 10335 张真实的房间场景 RGB-D 图像。每个RGB图像都有一个对应的深度和分割图。标记了多达 700 个对象类别。训练集和测试集分别包含 5285 和 5050 张图像。
数据集名称:NIH Chest X-rays美国国家卫生研究院胸部ct数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/33871
数据集简介:
胸部X光检查是最常见且最具成本效益的医学影像检查之一。该NIH胸部X射线数据集由112120幅X射线图像组成,这些图像带有来自30805位独特患者的疾病标签。 为了创建这些标签,作者使用自然语言处理技术从相关的放射学报告中挖掘疾病分类。 预计标签的准确率> 90%,适用于弱监督学习。
原始放射学报告尚未公开,但是您可以在此开放获取论文中找到有关标签过程的更多详细信息:"ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases." (Wang et al.)
数据分成15个类别(14种疾病和无疾病), 图像可以分类为“无发现”或一种或多种疾病并存:
图像尺寸是1024 x 1024,所有的数据由具有类别和病患的标注信息,其中有大约1000个图像具有边界框标注信息。标注信息在Annatation.zip文件中。
更多信息请查看kaggle连接
https://www.kaggle.com/nih-chest-xrays/data
以及README.zip中的文档信息。
来AI Studio互粉吧~等你哦~ https://aistudio.baidu.com/aistudio/personalcenter/thirdview/218586
数据集的单个文件10g上限有点麻烦,大型数据集还得解压了一个个打包
哈哈哈哈哈
数据集名称:2020国际大数据竞赛:高传染性传染病的传播趋势预测(初赛数据)
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/34443
数据集简介:在群里看到好多同学问官网怎么下不到数据集,现在把数据直接丢到AI Studio,可以直接引用了!
来AI Studio互粉吧~等你哦~ https://aistudio.baidu.com/aistudio/personalcenter/thirdview/212554
nice
数据集名称:瓶装酒瑕疵检测
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/32276
数据集简介:瓶装酒的瑕疵可分为5个大类:瓶盖瑕疵、标贴瑕疵、喷码瑕疵、瓶身瑕疵、酒液瑕疵。 训练集1共4516张图片,标签6945个;训练集2共2668张图片,标签3658个。
来AI Studio互粉吧~等你哦~
https://aistudio.baidu.com/aistudio/personalcenter/thirdview/90149
名称:金融行业问答数据集
链接:https://aistudio.baidu.com/aistudio/datasetdetail/34744
简介:77 万条金融行业问答数据,包括用户提问、网友回答、最佳回答
名称:上海餐饮数据
链接:https://aistudio.baidu.com/aistudio/datasetdetail/34790
描述:9万条上海餐饮点评打分数据,特征包含:类别、行政区、点评数、口味、环境、服务、人均消费、城市、经度、维度。
有个小提议,把数据集内容编辑界面的编辑器优化一下吧,貌似是富文本编辑器,导致多个回车都被识别成空格,没法分段读起来就有点累,简介少的还好说,多的......
Name: Facebook的朋友列表
数据集链接: https://aistudio.baidu.com/aistudio/datasetdetail/34939
介绍:Facebook的朋友列表。数据集包括节点特征,圆和自我网络。 通过使用新值替换每个用户的Facebook内部ID,匿名了Facebook数据。
互粉:
https://aistudio.baidu.com/aistudio/personalcenter/thirdview/242797
食物图片分类问题,有11种类别,图片名为类别+序号
https://aistudio.baidu.com/aistudio/datasetdetail/35121
数据集名称:ICDAR2019 ArT
数据集简介: ICDAR2019 Robust Reading Challenge on Arbitrary-Shaped Text
https://rrc.cvc.uab.es/?ch=14
数据集链接: https://aistudio.baidu.com/aistudio/datasetdetail/34376
名称:36氪新闻数据集
链接:https://aistudio.baidu.com/aistudio/datasetdetail/35154
简介:2012年到2016年的1万条36氪新闻数据,包括了新闻标题、新闻内容和 url-网址。
推荐使用方向:
Embedding (Word2Vec, Bert, 等)
标题总结 - Text Summary
序列分类 - Sequence Classification
怎么按一个Tab键加上空格直接就提交回复了/捂脸,还想编辑地好看一点...
可以写爬虫直接在两边下载和上传吗 哈哈哈
不过好像aistudio上传速度有点慢的说
在数据集网站挑选一些精选的数据集并且数据量小于500M,获取aistudio所有的数据集标题,如果数据集已存在,就不做下载上传操作,把所有精选数据集上传到aistudio
爬虫大佬福利来了
pm2.5预测 给出一年内每个月前20天天气指标,给出一天的前9天指标预测这天pm2.5
https://aistudio.baidu.com/aistudio/datasetdetail/35180
怎么不训练一个爬虫模型哈哈