【回帖赢大奖】AI Studio优质数据集征集活动&数据集大厅更新啦! 置顶
收藏
快速回复
AI Studio平台使用 其他热门活动 537365 356
【回帖赢大奖】AI Studio优质数据集征集活动&数据集大厅更新啦! 置顶
收藏
快速回复
AI Studio平台使用 其他热门活动 537365 356

【回帖赢大奖】AI Studio优质数据集征集活动&数据集大厅更新啦!


AI Studio 数据集大厅现已更新,搜索数据集新增筛选功能,上传数据集还支持自定义标签、Markdown编辑器等,感兴趣的小伙伴可以上传数据集体验新功能~

  • 筛选功能

  • 自定义标签

  • Markdown编辑器

数据集大厅:https://aistudio.baidu.com/aistudio/datasetoverview

有的小伙伴目前属于学习阶段,申请精品项目有一些困难,不妨试试申请精品数据集,加精成功后也会有积分奖励,同样可以利用积分兑换算力卡以及其他礼品,本次征集还有特殊的活动奖励哦~


活动形式:
创建数据集并公开,根据示例在本帖下按照"数据集名称+数据集链接+数据集简介"的形式回帖,原创数据集标注原创,示例见文末


奖品攻略请查收:
活动特殊福利
1、2021年9月14日至9月22日,按要求回帖,随机抽取3名同学赠送百度联名风扇。
2、2021年9月14日至9月22日,按照回帖时间排列,最早按要求回帖的5名用户将获得度熊公仔。
常规积分奖励
1、数据集公开,积分+5,系统自动发放
2、每周四根据综合质量、引用数等指标进行评选,被选为精品数据集的奖励额外积分(10~60),原创精品数据集,将再获得30积分奖励。
积分每月可以在AI社区、AI Studio积分兑换贴进行兑换,算力卡、定制周边奖励多多~

https://ai.baidu.com/forum/topic/show/990477

数据集要求:
1.需要公开。
2.不要求原创,但不能与平台已有数据集重复。
3.标题需简明扼要,准确表述出数据集内容方向。
4.简介需大致介绍数据集内容/来源/技术方向/数量级等有效信息,供用户快速识别数据集使用。
5.需针对数据集内容选择适合准确的标签。
6.数据集详情描述详细,包括但不限于数据来源、背景、数据分析、目前存在的问题、示例说明等。


活动获奖公告:
2021年9月28日
注:活动最终解释权归AI Studio所有。禁止作弊,如有发现,取消获奖资格。

小编来打个样~
数据集名称:【原创】焊缝分割数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/106021
数据集简介:本数据集包含焊缝图像192张,并分别使用伪彩色以及灰度图进行标注,同时提供了对应于两种标注方式的txt,数据集详情使用方法可以查看README。

 

数据集名称:SUN RGB-D数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/106223
数据集简介:该数据集包含 10335 张真实的房间场景 RGB-D 图像。每个RGB图像都有一个对应的深度和分割图。标记了多达 700 个对象类别。训练集和测试集分别包含 5285 和 5050 张图像。

 

3
收藏
回复
全部评论(356)
时间顺序
thinc
#44 回复于2020-05

数据:RMFD口罩遮挡人脸数据集

链接:https://aistudio.baidu.com/aistudio/datasetdetail/35211

简介:真实口罩人脸识别数据集:从网络爬取样本,经过整理,清洗和标注后,含525人的5千张口罩人脸,9万正常人脸

又有活干了~

0
回复
ChunkitLau
#45 回复于2020-05

通过物理测量预测鲍鱼的年龄。 给出性别、长度、直径、高度、重、剥皮重量、内脏重量、壳重量 需要预测的是环的数量

https://aistudio.baidu.com/aistudio/datasetdetail/35491

0
回复
ChunkitLau
#46 回复于2020-05
zkung #41
爬虫大佬福利来了

人肉爬虫机来了

0
回复
thinc
#47 回复于2020-05

名称:唐诗三百首

链接:https://aistudio.baidu.com/aistudio/datasetdetail/35506

示例:

1《蝉》唐.虞世南
垂绥饮清露,流响出疏桐。
居高声自远,非是藉秋风。

0
回复
ChunkitLau
#48 回复于2020-05

学生成绩数据集

该数据接近了两所葡萄牙学校的中学学生的学习成绩。数据属性包括学生成绩,人口统计学,社会和学校相关特征),并通过使用学校报告和调查表进行收集。提供了两个关于两个不同学科表现的数据集:数学(mat)和葡萄牙语(por)。在[Cortez and Silva,2008]中,两个数据集是在二进制/五级分类和回归任务下建模的。

https://aistudio.baidu.com/aistudio/datasetdetail/35533

0
回复
thinc
#49 回复于2020-05

名称:1万条互联网专栏资讯数据集

链接:https://aistudio.baidu.com/aistudio/datasetdetail/35550

结构:

字段 说明
title 新闻标题
content 新闻内容
pub_ts 发稿日期

 

0
回复
thinc
#50 回复于2020-05
thinc #49
名称:1万条互联网专栏资讯数据集 链接:https://aistudio.baidu.com/aistudio/datasetdetail/35550 结构: 字段 说明 title 新闻标题 content 新闻内容 pub_ts 发稿日期  
展开

第一次用表格不太熟,建议大家用的时候把表格的长度拉大一点~

0
回复
austinleaven
#52 回复于2020-05

555怎么删除啊,一个Tab空格连按就发表了...

Name:    亚马逊产品购买网络

链接:https://aistudio.baidu.com/aistudio/datasetdetail/35606

简介

通过爬网Amazon网站收集了网络。它基于亚马逊网站上同时购买了此商品的客户功能。如果经常将产品i与产品j共同购买,则该图包含从i到j的无向边。亚马逊提供的每个产品类别都定义了每个真实的社区。

详细介绍:

如需深入了解,请访问:http://snap.stanford.edu/data/com-Amazon.html

0
回复
ChunkitLau
#53 回复于2020-05

森林火灾数据集

摘要:这是一项艰巨的回归任务,其目的是利用气象和其他数据来预测葡萄牙东北部地区森林大火的燃烧面积(请参见[Web Link]上的详细信息)。

数据集信息:

在[Cortez and Morais,2007]中,首先使用ln(x + 1)函数对输出“区域”进行了转换。
然后,应用了几种数据挖掘方法。拟合模型后,对输出进行
ln(x + 1)逆变换的后处理。使用了四种不同的输入设置
。使用10倍(交叉验证)x 30次运行进行实验。
测量了两个 回归指标:MAD和RMSE。高斯支持向量机(SVM)
仅接受4种直接天气条件(温度,RH,风和雨),获得了最佳MAD值:
12.71±0.01(使用t型学生分布的均值和置信区间在95%以内)。将
最好的RMSE获得了由幼稚的平均预测。回归误差曲线分析
(REC)表明,SVM模型可以在较低的允许误差范围内预测更多示例。实际上,
SVM模型可以预测较小的火灾,而后者是大多数情况。


属性信息:

有关更多信息,请阅读[Cortez and Morais,2007]。
1. Montesinho公园地图内的X-x轴空间坐标:1到9
2. Montesinho公园地图内的 Y-y轴空间坐标:2到9
3.每年的月份-月:“ jan”到“ dec'4.
每天-星期几:从“周一”到“星期日”
5.
FFMC
- FWI系统的FFMC指数:18.7至96.20 6. DMC-FWI系统的DMC指数:1.1至291.3 7. DC- FWI系统的DC指数:7.9至860.6
8. ISI-FWI系统的ISI指数:0.0至56.10
9. temp- 摄氏温度:2.2至33.30
10. RH-相对湿度(%):15.0至100
11。风-以km / h为单位的风速:0.40至9.40
12.雨量-外部雨量,单位为mm / m2:0.0到6.4
13.面积-森林的烧毁面积(以公顷为单位):0.00到1090.84
(此输出变量非常偏向0.0,因此
使用对数变换)。

https://aistudio.baidu.com/aistudio/datasetdetail/35638

0
回复
thinc
#54 回复于2020-05

数据集名称:公共自行车使用量预测

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/35677

数据集简介:

train.csv test.csv sample_submit.csv: 提交示例 id 行编号 y 一小时内自行车被借取的数量。

在test.csv中,这是需要被预测的数值。

city 城市,一共两个 hour 时间,精确到小时,24小时计时法

is_workday 1:工作日,0:节假日或者周末

temp_1 气温,单位为摄氏度

temp_2 体感温度,单位为摄氏度

weather 天气状况,1为晴朗,2为多云、阴天,3为轻度降水天气,4为强降水天气

wind 风速,数值越大表示风速越大

0
回复
F.AI
#55 回复于2020-05

名称:COCO 2008 2014 2017数据集 Background
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/34963

数据集介绍
包含如下链接中的全部或部分内容,仅供学术使用,部分内容需要联系作者。https://drive.google.com/open?id=1j3BMrRFhFpfzJAe6P2WDtfanoeSCLPiq
https://drive.google.com/drive/folders/1WLDBC_Q-cA72QC8bB-Rdj53UB2vSPnXv?usp=sharing
https://drive.google.com/open?id=1C_fLlL_WUP7A_ZcdKxbYVcF_T1uy1SRK
https://sites.google.com/view/deepimagematting
http://images.cocodataset.org/zips/test2017.zip
http://images.cocodataset.org/zips/val2017.zip
http://images.cocodataset.org/zips/train2014.zip
http://host.robots.ox.ac.uk/pascal/VOC/voc2008/VOCtrainval_14-Jul-2008.tar
http://www.alphamatting.com/datasets.php
不含 COCO2017数据集 train2017.zip 请查看 train2017.zip在  https://aistudio.baidu.com/aistudio/datasetdetail/7122

0
回复
F.AI
#56 回复于2020-05

LJSpeech

这是一个公共领域的语音数据集,包含13100个单个演讲者的短音频片段,这些语音片段来自7部非小说类书籍。为每个剪辑提供了转录。剪辑的长度从1到10秒不等,总长度约为24小时。 这些文本在1884年至1964年之间出版,属于公共领域。该音频由LibriVox项目于2016-17年录制,并且也在公共领域。

https://aistudio.baidu.com/aistudio/datasetdetail/35036

0
回复
thinc
#57 回复于2020-05

数据名称:老年人幸福感调查数据集

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/35905

数据集介绍:241位老人的幸福感问卷调查,包括地区、居住方式、子女关系、养老服务和幸福感指数等特征,可用于探索分析和预测

冲冲冲!!!

0
回复
ChunkitLau
#58 回复于2020-05

汽车评估数据集

https://aistudio.baidu.com/aistudio/datasetdetail/35912

0
回复
thinc
#59 回复于2020-05

数据名称:全球污染气体排放历史数据

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/35977

数据集介绍:1850-2017年全球主要国家的污染气体排放历史数据,可用于分析碳排放等问题

这一次公开数据集没有加积分了,是不是一周或者一个月有限制呀......

0
回复
学习委员
#60 回复于2020-05
thinc #59
数据名称:全球污染气体排放历史数据 数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/35977 数据集介绍:1850-2017年全球主要国家的污染气体排放历史数据,可用于分析碳排放等问题 这一次公开数据集没有加积分了,是不是一周或者一个月有限制呀......
展开

每天一次的哦~

0
回复
ChunkitLau
#61 回复于2020-05

亚洲宗教经文数据集

数据集信息:

此数据集中的大多数神圣文本是从古腾堡计划中收集的。我们在此提供原始文本以及经过预处理的文档术语矩阵(DTM)。有关更多详细信息,请联系作者


属性信息:

属性只是本研究中考虑的8本宗教书籍组成的微型语料库的单词预处理包中的单词。使用了8265个单词

https://aistudio.baidu.com/aistudio/datasetdetail/36122

0
回复
thinc
#62 回复于2020-05

没错我又来啦!

数据集名称:拉钩网数据分析岗位数据集

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/36147

数据集简介:

CSV文件,其中关键的列有:工作地区、城市、公司全名、公司标签、公司简称、公司大小、创建时间、学历、金融状况、第一类型、公司领域、工作类型、到达路线、职位优势、职位标签、职位名称、薪水、工作详情等。

0
回复
ChunkitLau
#63 回复于2020-05

急性炎症数据集

摘要:该数据是由医学专家创建的,用于测试专家系统的数据集,该系统将对两种泌尿系统疾病进行推测性诊断。

https://aistudio.baidu.com/aistudio/datasetdetail/36317

0
回复
thinc
#64 回复于2020-05

数据集名称:网上购物者购买意向

数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/36319

数据集简介:

  • Administrative-管理
  • Administrative_Duration-管理时间
  • Informational-信息
  • Informational_Duration-信息时间
  • ProductRelated-产品相关的
  • ProductRelated_Duration-产品相关的持续时间
  • BounceRates-反弹率
  • ExitRates-退出率
  • PageValues-页面值
  • SpecialDay-特殊日期
  • Month-月
  • OperatingSystems-操作系统
  • Browser-浏览器
  • Region-地区
  • TrafficType-交通类型
  • VisitorType-游客类型
  • Weekend Revenue-周末收入

这么辛苦搬数据理数据,不考虑给个三连吗~

 

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户