【投稿赢积分】AI studio优质数据集征集活动开始啦~
收藏
快速回复
AI Studio平台使用 文章热门活动 52398 96
【投稿赢积分】AI studio优质数据集征集活动开始啦~
收藏
快速回复
AI Studio平台使用 文章热门活动 52398 96

为了帮助更多的优质内容产出、沉淀AI studio优质数据集和丰富现有数据集的种类,向广大用户征集优质数据集。成功加精可获得积分、百度周边礼品,欢迎大家踊跃投稿~

活动时间:
2022年全年

加精数据集能获得:

数据集公开,积分+5,系统自动发放

数据集通过审核后,可获得10-50分的积分奖励,积分可用于积分商城兑换

积分商城兑换流程:点击【更多】进入积分商场

一键兑换礼品

(智能硬件、超级会员、大额算力、精美周边尽在积分商城)

百度周报礼品

当月数据集累计加精超过15个,将获得十二星座度熊公仔一套(限量两套)

数据集加精要求
1、需要公开

2、不要求原创,但不能和平台原有的数据集重复(30%)

3、标题:包含技术关键词或者场景关键词(10%)

4、正文:介绍尽可能详细,需要包括数据集组成、数量以及可应用的场景等信息(30%)

5、验证:需要对数据集进行验证,在AI studio运行1-2轮跑通即可,并在末尾附上VDL可视化截图,证明此数据已通过验证(30%)

参考示例:https://aistudio.baidu.com/aistudio/datasetdetail/157101

括号内内容为数据集获得积分的权重

 

投稿方式
①在此贴回复想要投稿的数据集

②投稿时间截止至每周三中午12点,下午反馈投稿意见

③符合加精要求,将在周四下午加精

 

投稿格式
数据集名称:SUN RGB-D数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/106223
数据集简介:该数据集包含 10335 张真实的房间场景 RGB-D 图像。每个RGB图像都有一个对应的深度和分割图。标记了多达 700 个对象类别。训练集和测试集分别包含 5285 和 5050 张图像。

 

 

2
收藏
回复
全部评论(96)
时间顺序
Dream拒杰
#50 回复于2022-08

数据集名称:计量设备屏幕字符识别数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/128714
数据集简介:该数据集是与计量设备屏幕字符检测数据集为同一组数据集,主要是两三款计量设备,外加一些网络查找得到,可以实现一些数显屏幕的文字识别,训练集19912张,测试集4099张。

0
回复
玥亮
#51 回复于2022-09

数据集名称:中文新闻文本标题分类
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/118554/0
数据集简介:该数据集是中文新闻文本标题分类的数据集,含训练集752471条,验证集80000条,测试集83599条。新闻类别有14种,测试集不含类别标签。

0
回复
玥亮
#52 回复于2022-09

数据集名称:【NLP】语句分类
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/79602/0
数据集简介:该数据集可用于语句二分类,训练集有带标签和不带标签两种,可分别用于监督和无监督学习。

0
回复
玥亮
#53 回复于2022-09

数据集名称:【Data Mining】Adult
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/87314
数据集简介:Adult数据集(即“人口普查收入”数据集),由美国人口普查数据集库 抽取而来,其中共包含48842条记录,年收入大于50k美元的占比23.93%,年收入小于50k美元的占比76.07%,并且已经划分为训练数据32561条和测试数据16281条。 该数据集类变量为年收入是否超过50k美元,属性变量包括年龄、工种、学历、职业等 14类重要信息,其中有8类属于类别离散型变量,另外6类属于数值连续型变量。该数据集是一个分类数据集,用来预测年收入是否超过50k美元。

0
回复
玥亮
#54 回复于2022-09

数据集名称:【CV】Food-11
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/78873
数据集简介:图像分类数据集,共11种类别。

0
回复
玥亮
#55 回复于2022-09

数据集名称:MarTech
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/79581/0
数据集简介:通过品牌商家的历史订单数据构建预测模型,预估用户人群在规定时间内产生购买行为的概率。

0
回复
AP-Kai
#56 回复于2022-09

数据集名称:Fire-Segmentation
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/167056

数据集简介:Fire-Segmentation数据集包括发生火灾的不同紧急情况,例如建筑物着火,工业火灾,车祸和骚乱(./JPEGImages/)。 数据集包括火焰区域的分割,着火区域标记为白色,而非着火区域标记为黑色(./Annotations)。可以用于火焰检测和分割任务。

相关项目:https://aistudio.baidu.com/aistudio/projectdetail/4478416

0
回复
AP-Kai
#57 回复于2022-09

数据集名称:BoWFire
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/164768

数据集简介:

数据集包括发生火灾的不同紧急情况,例如建筑物着火,工业火灾,车祸和骚乱(./dataset/img)。其余图像包括没有可见火势的紧急情况,以及具有类似火的区域(例如日落)和红色或黄色物体的图像。

数据集包含训练集、测试集。训练数据集(./train)包含240个50×50像素的图像:80张图像被分类为有火,160张图像被分类为非火。测试数据集(./dataset)包含226张不同分辨率的图像:119张包含火焰的图像和107张无火的图像。

数据集还包括火焰区域的分割,着火区域标记为白色,而非着火区域标记为黑色(./dataset/gt)。可以用于火焰检测和分割任务。

0
回复
Dream拒杰
#58 回复于2022-09

数据集名称:宠物狗分类数据集

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/167263

数据集简介:该数据集共包含十一种宠物狗,共1091张,包含:'哈士奇','金毛','拉布拉多','萨摩耶',"德牧","柴犬","杜宾","藏獒","吉娃娃","中华田园犬","法国斗牛"。非常适合尝试各种分类网络效果得对比。可以根据使用情况自行切分

0
回复
Zidane
#59 回复于2022-09

数据集名称:泰坦尼克号生存预测数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/168375
数据集简介:泰坦尼克数据集是非常适合数据科学和机器学习新手入门练习的数据集。
数据集为1912年泰坦尼克号沉船事件中一些船员的个人信息以及存活状况。这些历史数据已经分为训练集train.csv和测试集test.csv,你可以根据训练集训练出合适的模型并预测测试集中的存活状况。
另外,添加了测试集的ground_truth.csv,方便大家与自己预测结果进行对比,从而对自己的工作有个客观的评价。

0
回复
Zidane
#60 回复于2022-09

数据集名称:用户签到位置数据(facebook)
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/168328
数据集简介:本数据集用来通过机器学习预测一个人将要签到的地方。 Facebook创建了一个虚拟世界,其中包括10公里×10公里共100平方公里的约10万个地方。 对于给定的坐标集,您将根据用户的位置,准确性和时间戳等预测用户下一次的签到位置。 数据被制作成类似于来自移动设备的位置数据。

0
回复
Zidane
#61 回复于2022-09

数据集名称:Instacart Market Basket Analysis数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/169214
数据集简介:此数据集是一组描述客户订单随时间变化的关系文件。可以用来预测用户下一次订购的产品。该数据集是匿名的,包含来自20多万Instacart用户的300多万份杂货订单样本。对于每个用户,提供了4到100个订单,以及每个订单中购买的产品序列。数据集还提供下订单的星期和时间,以及订单之间的相对时间度量。

样本中每个实体(客户、产品、订单、通道等)都有一个关联的唯一id。大多数文件和变量名应该是自解释的。

0
回复
Zidane
#62 回复于2022-09

数据集名称:NBA球员信息数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/170509
数据集简介:数据集共有342个NBA球员样本,包含38个特征,即342行×38列。
主要信息如下所示:球员姓名、位置、身高、体重、年龄、球龄、上场次数、场均时间、进攻能力、防守能力、是否入选过全明星、球员薪金等等。
本数据集主要可以用来做数据处理以及数据挖掘,进行数据可视化。

在众多数据中,有一项名为RPM的特征,表示球员的效率值。该数据反映球员在场时对球队比赛获胜的贡献大小,最能反映球员的综合实力。可以计算它与其他数据的相关性。

其次,考虑使用pandas中排序的方法进行数据处理,对指定特征进行排序,便于数据处理。

数据集包含许多变量,可以考虑使用seaborn库进行单变量可视化、双变量可视化以及多变量可视化处理。

0
回复
Zidane
#63 回复于2022-09

数据集名称:中国人口预测数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/140190
数据集简介:数据集包含1970年-2019年中国人口相关因素变化。共有10个特征,50个年份样本,数据形状即50行×10列。
数据集主要包含如下特征:年份、出生人口(万)、总人口(万人)、中国人均GPA(美元计)、中国性别比例(按照女生=100)、自然增长率(%)、城镇人口(城镇+乡村=100)、乡村人口、美元兑换人民币汇率、中国就业人口(万人)。
数据集反映了近50年中国人口相关影响因素的变化以及具体数据。
数据集无缺失值包含人口.xlsx文件和人口.csv文件
两文件所含内容相同,只是文件形式不同
数据集可以用来预测中国人口
可以考虑使用机器学习等方法预测中国人口

0
回复
Dream拒杰
#64 回复于2022-10

数据集名称:苹果瑕疵检测

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/123879

数据集简介:该数据集包含常见的苹果瑕疵图片,斑点,腐烂,残缺等,使用labelImg标注软件对带有瑕疵苹果图片进行标注,包含393张图片,训练集,验证集自己可以进行切分,可以实现基本的苹果分拣系统

0
回复
T
Tedy_Meng
#65 回复于2022-10

数据集名称:面向微博话题的群体情感识别

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/156187

我在AI Studio上获得钻石等级 https://aistudio.baidu.com/aistudio/personalcenter/thirdview/160759

1
回复
T
Tedy_Meng
#66 回复于2022-10

数据集名称:上图中文期刊论文数据

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/154408

我在AI Studio上获得钻石等级 https://aistudio.baidu.com/aistudio/personalcenter/thirdview/160759

1
回复
T
Tedy_Meng
#67 回复于2022-10
Tedy_Meng #65
数据集名称:面向微博话题的群体情感识别 数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/156187 我在AI Studio上获得钻石等级 https://aistudio.baidu.com/aistudio/personalcenter/thirdview/160759
展开

对应加精项目
【CCAC2022 Task2】面向微博话题的群体情感识别Baseline:https://aistudio.baidu.com/aistudio/projectdetail/4446086?contributionType=1&sUid=160759&shared=1&ts=1665926586464

1
回复
T
Tedy_Meng
#68 回复于2022-10
Tedy_Meng #66
数据集名称:上图中文期刊论文数据 数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/154408 我在AI Studio上获得钻石等级 https://aistudio.baidu.com/aistudio/personalcenter/thirdview/160759
展开

对应加精项目

【上图开放数据竞赛】中文期刊论文自动分类Baseline:https://aistudio.baidu.com/aistudio/projectdetail/4501662?contributionType=1&sUid=160759&shared=1&ts=1665926623554

1
回复
T
Tedy_Meng
#69 回复于2022-10

数据集名称:MMA FACIAL EXPRESSION

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/125524

我在AI Studio上获得钻石等级 https://aistudio.baidu.com/aistudio/personalcenter/thirdview/160759

1
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户