【回帖赢大奖】AI Studio优质数据集征集活动&数据集大厅更新啦! 置顶
收藏
快速回复
AI Studio平台使用 其他热门活动 659195 356
【回帖赢大奖】AI Studio优质数据集征集活动&数据集大厅更新啦! 置顶
收藏
快速回复
AI Studio平台使用 其他热门活动 659195 356

【回帖赢大奖】AI Studio优质数据集征集活动&数据集大厅更新啦!


AI Studio 数据集大厅现已更新,搜索数据集新增筛选功能,上传数据集还支持自定义标签、Markdown编辑器等,感兴趣的小伙伴可以上传数据集体验新功能~

 • 筛选功能

 • 自定义标签

 • Markdown编辑器

数据集大厅:https://aistudio.baidu.com/aistudio/datasetoverview

有的小伙伴目前属于学习阶段,申请精品项目有一些困难,不妨试试申请精品数据集,加精成功后也会有积分奖励,同样可以利用积分兑换算力卡以及其他礼品,本次征集还有特殊的活动奖励哦~


活动形式:
创建数据集并公开,根据示例在本帖下按照"数据集名称+数据集链接+数据集简介"的形式回帖,原创数据集标注原创,示例见文末


奖品攻略请查收:
活动特殊福利
1、2021年9月14日至9月22日,按要求回帖,随机抽取3名同学赠送百度联名风扇。
2、2021年9月14日至9月22日,按照回帖时间排列,最早按要求回帖的5名用户将获得度熊公仔。
常规积分奖励
1、数据集公开,积分+5,系统自动发放
2、每周四根据综合质量、引用数等指标进行评选,被选为精品数据集的奖励额外积分(10~60),原创精品数据集,将再获得30积分奖励。
积分每月可以在AI社区、AI Studio积分兑换贴进行兑换,算力卡、定制周边奖励多多~

https://ai.baidu.com/forum/topic/show/990477

数据集要求:
1.需要公开。
2.不要求原创,但不能与平台已有数据集重复。
3.标题需简明扼要,准确表述出数据集内容方向。
4.简介需大致介绍数据集内容/来源/技术方向/数量级等有效信息,供用户快速识别数据集使用。
5.需针对数据集内容选择适合准确的标签。
6.数据集详情描述详细,包括但不限于数据来源、背景、数据分析、目前存在的问题、示例说明等。


活动获奖公告:
2021年9月28日
注:活动最终解释权归AI Studio所有。禁止作弊,如有发现,取消获奖资格。

小编来打个样~
数据集名称:【原创】焊缝分割数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/106021
数据集简介:本数据集包含焊缝图像192张,并分别使用伪彩色以及灰度图进行标注,同时提供了对应于两种标注方式的txt,数据集详情使用方法可以查看README。

 

数据集名称:SUN RGB-D数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/106223
数据集简介:该数据集包含 10335 张真实的房间场景 RGB-D 图像。每个RGB图像都有一个对应的深度和分割图。标记了多达 700 个对象类别。训练集和测试集分别包含 5285 和 5050 张图像。

 

3
收藏
回复
全部评论(356)
时间顺序
AIStudio810260
#205 回复于2020-11

数据集名称:网络安全数据集汇总

数据集链接:https://aistudio.baidu.com/aistudio/projectdetail/1236018

数据集简介:网络安全领域数据集汇总与基线系统,长期更新。本次投稿9个数据集。

我在AI Studio上获得至尊等级,点亮9个徽章,来互关呀~

https://aistudio.baidu.com/aistudio/personalcenter/thirdview/90149

0
回复
Cyber巨蟹
#206 回复于2020-11

数据集名称:Chinese MNIST

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/60199

数据集简介:中文数字手写字符图像,零\一\二\三\四\五\六\七\八\九\十\百\千\万\亿\

一百名中国人参加了数据收集。每个参与者用标准的黑色墨水笔在一张白色A4纸上绘制的表格中用15个指定区域书写所有15个数字。每个参与者重复此过程10次。每张纸都以300x300像素的分辨率进行扫描。
结果是一个包含15000张图像的数据集,每个图像代表一组15个字符中的一个字符(按样本分组,按套件分组,每个志愿者有10个样本和100个志愿者)。

0
回复
Cyber巨蟹
#207 回复于2020-11
数据集名称:Chinese MNIST 数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/60199 数据集简介:中文数字手写字符图像,零\一\二\三\四\五\六\七\八\九\十\百\千\万\亿\ 一百名中国人参加了数据收集。每个参与者用标准的黑色墨水笔在一张白色A4纸上绘制的表格中用15个指定区域书写所有15个数字。每个参与者重复此过程10次。每张纸都以300x300像素的分辨率进行扫描。 结果是一个包含15000张图像的数据集,每个图像代表一组15个字符中的一个字符(按样本分组,按套件分组,每个志愿者有10个样本和100个志愿者)。 [图片]
展开

索引文件 chinese_mnist.csv
包含15,000张jpg图像的文件夹,尺寸为64 x64。

0
回复
thinc
#208 回复于2020-12

数据集名称:车车智能营销数据分析系统

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/63799

数据集简介:车车智能营销数据分析系统的数据来源于企业真实脱敏的数据,对业务的发展起到了正相关的作用,使得这套系统的设计非常贴合真实环境,为智能营销起到指导性作用。

 • 车型维度表数据.csv
 • 城市信息数据.csv
 • 订单分类数据.csv
 • 订单来源-自营数据.csv
 • 分层数据.csv
 • 服务类型数据.csv
 • 接单类型-自营数据.csv
 • 商品上下线智能化管理数据.csv
 • 手机号加密数据.csv
 • 下单设备平台数据.csv
 • 用户订单基础数据.csv
 • 用户基础数据.csv
0
回复
牛宝宝牛米米
#209 回复于2020-12
数据集名称:一见钟情数据集 数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/52008 数据集简介: >一见钟情学习赛,受到哥伦布亚商学院教授Ray Fisman和Sheena Iyengar联合发布的文章《伴侣选择中的性别差异(Gender Differences in Mate Selection: Evidence From a Speed Dating Experiment)》启发,决定利用机器学习的数据实验来分析当下男女在相亲交友时,个人的内在外在各类因素对最终相亲结果的影响。 >在2002年-2004年期间,Ray Fisman教授和Sheena Iyengar教授在筹备论文时,邀请志愿者参加闪电速配实验(相亲车轮战,每4分钟与一名相亲对象快速沟通,然后再换下一个相亲对象),提供一些相关的个人信息给相亲对象,并询问相亲对象给出是否愿意在不久的未来再次见面。本次学习赛的分析数据,记录了当时一见钟情相亲实验时,志愿者的相关信息及相亲结果。 >数据集的内容包括实验志愿者的性别、年龄、人种、专业、地区、收入等特征,以及志愿者对配偶是否来自同一地区、同一信仰等观点的预期。  
展开

太厉害了,这个也靠谱

0
回复
thinc
#210 回复于2020-12

数据名称:IIIT5K

数据链接:https://aistudio.baidu.com/aistudio/datasetdetail/64122

数据简介:text recognition datasets

0
回复
thinc
#211 回复于2020-12

数据名称:ICDAR03

数据链接:https://aistudio.baidu.com/aistudio/datasetdetail/64434

数据简介:训练集图片、标签,如需预测请到官网了解详情。

 

0
回复
周小鱼whoyou
#212 回复于2020-12
数据标题:精灵宝可梦数据集pokemon0820 数据链接:https://aistudio.baidu.com/aistudio/datasetdetail/53877 数据简介:本数据涵盖了从第一代到第七代共801只宝可梦小精灵的信息。数据特征上包含了基础的能力值,对于其他属性的克制能力,身高,体重,种类等等。数据来源为 http://serebii.net/
展开

这个数据集有意思,哈哈哈

0
回复
AIStudio810259
#213 回复于2020-12

数据名称:房天下全国各城市二手房+新手房 17万条信息

数据链接:https://aistudio.baidu.com/aistudio/datasetdetail/64726

数据简介:爬取了房天下的二手房、新房

数据说明:
共有两个文件:分别是二手房、新手房共17万条信息
city :城市
address :地址
area :面积
floor :楼层
name :小区名字
price :价格
province :省份
rooms :房厅
toward :朝向
unit :单价
year :建筑年份
origin_url:页面详情地址

问题描述
房子楼层分布;
房价区间;
二手房省份数量最多top20;
房价与其他因素的相关性;
小区词云图

0
回复
AIStudio810259
#214 回复于2020-12

数据名称:天池比赛-新冠肺炎问句匹配

数据链接:https://aistudio.baidu.com/aistudio/datasetdetail/64610

数据简介:天池比赛-新冠肺炎问句匹配

0
回复
AIStudio810259
#215 回复于2020-12

数据集名称:1988-2019年奥斯卡获奖男女主配角

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/64575

数据集简介:数据说明 总共四个csv文件: 1、Best_Actor_LR:最佳男主角获得者、提名者 2、Best_Actor_SR:最佳男配角获得者、提名者 3、Best_Actress_LR:最佳女主角获得者、提名者 4、Best_Actress_SR:最佳女配角获得者、提名者

0
回复
AIStudio810259
#216 回复于2020-12

数据集名称:全国地铁信息

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/64558

数据集简介:背景描述 全国各城市地铁分布 数据说明 总共4500条信息; 包括城市名;地铁名;线路 数据来源 高德地图 http://map.amap.com/subway/index.html?&1100 问题描述 1:可以分析全国地铁城市的分布 2:命名有什么共同点

0
回复
AIStudio810259
#217 回复于2020-12

数据集名称:中国象棋棋子数据集

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/63595

数据集简介:中国象棋棋子数据集

0
回复
AIStudio810259
#218 回复于2020-12

数据集名称:44年4365个高考作文数据集

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/63160

数据集简介:高考作文(College Admission Essay)即普通高等学校招生全国统一考试(全国高考)语文卷最后一题或几题(包括小作文)。 一般要求立意自定、文体自选(或除诗歌外)、题目自拟、不得抄袭、不少于800字。一般满分为60分。且需要思想健康向上,不得透露考生真实校名,人名;并且有严格的评分标准(如,基础等级和发展等级)和评分细则。 独家整理1977年-2020年,44年365个高考作文

0
回复
thinc
#219 回复于2020-12

数据集名称:厦门旅游景点排行榜

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/65098

0
回复
super松
#220 回复于2020-12

数据集名称:中国山水画数据集

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/64848

0
回复
Cyber巨蟹
#221 回复于2020-12
数据集名称:44年4365个高考作文数据集 数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/63160 数据集简介:高考作文(College Admission Essay)即普通高等学校招生全国统一考试(全国高考)语文卷最后一题或几题(包括小作文)。 一般要求立意自定、文体自选(或除诗歌外)、题目自拟、不得抄袭、不少于800字。一般满分为60分。且需要思想健康向上,不得透露考生真实校名,人名;并且有严格的评分标准(如,基础等级和发展等级)和评分细则。 独家整理1977年-2020年,44年365个高考作文
展开

有意思

0
回复
thinc
#222 回复于2020-12

数据集名称:中国各地区分年龄、性别的人口数据

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/65337

数据集简介:

背景描述
2010年人口普查各地区分年龄、性别的人口。

2003年-2019年,按年龄分性别比(人口抽样调查)

数据说明
2005年、2015年为1%人口抽样调查样本数据,其他年份为1‰人口变动调查样本数据。具体抽样比详见出版物中《中国统计年鉴》。

数据来源
数据来自国家统计局 https://data.stats.gov.cn/

0
回复
thinc
#223 回复于2020-12
数据集名称:Chinese MNIST 数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/60199 数据集简介:中文数字手写字符图像,零\一\二\三\四\五\六\七\八\九\十\百\千\万\亿\ 一百名中国人参加了数据收集。每个参与者用标准的黑色墨水笔在一张白色A4纸上绘制的表格中用15个指定区域书写所有15个数字。每个参与者重复此过程10次。每张纸都以300x300像素的分辨率进行扫描。 结果是一个包含15000张图像的数据集,每个图像代表一组15个字符中的一个字符(按样本分组,按套件分组,每个志愿者有10个样本和100个志愿者)。 [图片]
展开

北邮好像有一套手写数字,但是在相关paper中说没有权限

0
回复
thinc
#224 回复于2020-12

数据集名称:瑞幸咖啡全国分布

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/65861

数据集简介:

数据总共有28917条门店信息;包含详细门店地址、省份、城市、区、纬度经度、电话、门店标题
ad_info :包含省份、城市、区县 (需要经过处理)
address :详细地址
category :类型
id:id
location :经纬度
tel :电话
title :门店标题
type :无

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户