【投稿赢积分】AI studio优质数据集征集活动开始啦~

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

A AIStudio6795644 发布于2022-07

为了帮助更多的优质内容产出、沉淀AI studio优质数据集和丰富现有数据集的种类，向广大用户征集优质数据集。成功加精可获得积分、百度周边礼品，欢迎大家踊跃投稿~

活动时间：
2022年全年

加精数据集能获得：

数据集公开，积分+5，系统自动发放

数据集通过审核后，可获得10-50分的积分奖励，积分可用于积分商城兑换

积分商城兑换流程：点击【更多】进入积分商场

一键兑换礼品

（智能硬件、超级会员、大额算力、精美周边尽在积分商城）

百度周报礼品

当月数据集累计加精超过15个，将获得十二星座度熊公仔一套（限量两套）

数据集加精要求
1、需要公开

2、不要求原创，但不能和平台原有的数据集重复（30%）

3、标题：包含技术关键词或者场景关键词（10%）

4、正文：介绍尽可能详细，需要包括数据集组成、数量以及可应用的场景等信息（30%）

5、验证：需要对数据集进行验证，在AI studio运行1-2轮跑通即可，并在末尾附上VDL可视化截图，证明此数据已通过验证（30%）

参考示例：https://aistudio.baidu.com/aistudio/datasetdetail/157101

括号内内容为数据集获得积分的权重

投稿方式
①在此贴回复想要投稿的数据集

②投稿时间截止至每周三中午12点，下午反馈投稿意见

③符合加精要求，将在周四下午加精

投稿格式
数据集名称：SUN RGB-D数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/106223
数据集简介：该数据集包含 10335 张真实的房间场景 RGB-D 图像。每个RGB图像都有一个对应的深度和分割图。标记了多达 700 个对象类别。训练集和测试集分别包含 5285 和 5050 张图像。

全部评论(96)

李长安

#2 回复于2022-07

又要开数据集投稿了？？？？

深渊上的坑

#3 回复于2022-07

这得比拼网速啊……

beyondyourself

#4 回复于2022-07

数据集名称：WildReceipt 数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/129038
数据集简介：WildReceipt数据集作为文本关键信息提取的基准，无论从数据量还是结构上，都要优于其他公开的数据集。主要用于文档的关键信息提取训练。涉及的相关算法模型：SDMG-R

beyondyourself

#5 回复于2022-07

数据集名称：HyperVID车型识别数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/127546
数据集简介：支持1776种车型的车型识别。部分数据来自二手车交易服务网站。自然场景训练数据集，包含分类整理好的1776种车型，大约30万张图像。

beyondyourself

#6 回复于2022-07

数据集名称：TGRNet表格数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/126428
数据集简介：

TGRNet表格数据集
目录结构如下：

datasets/cmdd/
icdar13table/
icdar19_ctdar/
tablegraph24k/
数据来源：https://github.com/xuewenyuan/TGRNet

beyondyourself

#7 回复于2022-07

数据集名称：CCPD2020中国城市停车场车牌（新能源车牌）

数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/120711

数据集介绍：CCPD2020中国城市停车场车牌，数据集中主要是新能源车牌，数据集包括训练集、测试集、验证集。
数据来源：https://github.com/detectRecog/CCPD
其中包括数据的读取可以从上述链接中获取数据和标签读取方式

beyondyourself

#8 回复于2022-07

数据集名称：动物姿态检测

数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/120166

数据集介绍：此数据集提供了五大类，提供动物的姿势注释：狗，猫，牛，马，羊，在总6,000+情况在4000倍+的图像

beyondyourself

#9 回复于2022-07

数据集名称：运动项目分类

数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/119647

数据集介绍：73种运动项目图像分类，包括10416个训练数据集，365 个测试数据集，365 个验证图像数据集。图像大小为224X224，格式为jpg

beyondyourself

#10 回复于2022-07

数据集名称：轮胎纹理图像识别

数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/119637

数据集介绍：该数据集共包含 1028 张轮胎图像。
该数据集分为训练和测试数据，进一步分为裂纹（氧化）和正常轮胎。可用于二分类.

beyondyourself

#11 回复于2022-07

数据集名称：中文文档中数学公式识别的数据集

数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/118366

数据集介绍：

用于中文文档中数学公式识别的真实数据集。
该数据集总共包含 200 个文档页面，其中包含 1166 个独立公式和 3022 个嵌入公式，这些公式选自 24 个数字来源的 CEB 文档。

每个文档页面中数学公式的基本包括孤立、嵌入公式的精确边界框。
它还包括每个独立、嵌入公式中的对象（字符、图形和图像）。对于每个对象，都提供了一个边界框。对于字符对象，还提供了字符的 Unicode 和字体大小。

该数据集是一个公共数据库，可免费用于研究。

小熊宝宝

#14 回复于2022-07

数据集名称：寻找火箭车车

数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/148354

数据集介绍：FC 游戏：火箭车 road_fighter 的小车 VOC 格式数据集，适用目标检测学习。

包含以下内容：

标注：Annotations
图像：JPEGImages
训练集：train_list.txt
验证集：val_list.txt
测试集：test_list.txt
标签集：labels.txt

相关项目：

小熊飞桨练习册-08PaddleX底特律街景

https://aistudio.baidu.com/aistudio/projectdetail/4237728

Zidane

#16 回复于2022-07

数据集名称：疟原虫识别数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/152739

数据集简介：该数据集包含2703张图像，其中包含images文件和annotations标注文件，来自133张用Fields染色处理过的厚血涂片。每个图像都有一个附带的注释文件，其中包含任何可见疟原虫周围边界框的坐标。使用安装在布鲁内尔SP150显微镜上的Motic MC1000摄像头以1000倍放大率拍摄图像。

咕咕不咕了

#17 回复于2022-07

数据集名称：Emotic人脸表情多维度数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/146555
数据集简介：数据集包含人脸表情和人物所处环境的氛围离散维度，可用目标检查的人脸识别和表情分析。该数据集包含23266张带背景的人物图像。每个RGB图像都有一组表情标签和环境氛围变量。标记包含26种情感和Valence、Arousal、Dominance三个背景维度用于描述人物所处环境。训练集和测试集分别包含 23266 和 7203 张图像。

术墙穿

#18 回复于2022-07

数据集名称：中医药命名实体提取数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/158685
数据集简介：该数据集主要是中医药领域相关的数据集，可用于命名实体识别等自然语言处理任务；划分训练集、验证集和测试集共约6000条标注数据。命名实体识别可以作为一项独立的信息抽取任务，在许多语言处理技术大型应用系统中扮演了关键的角色，如信息检索、自动文本摘要、问答系统、机器翻译等。

汀

#20 回复于2022-07

数据集名称：列车手势数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/160305
数据集简介：该数据集关于轨道交通项目，包含了2000张20类不同的真实的手势图像。图像描述了动车、火车进站的一些手势，可用于识别分类

汀

#21 回复于2022-07

数据集名称：MMC人工智能辅助构建医学知识图谱数据
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/146995
数据集简介：本数据集来源于41篇中文糖尿病领域专家共识，数据包括基础研究、临床研究、药物使用、临床病例、诊治方法等多个方面，时间跨度达到7年，涵盖了近年来糖尿病领域最广泛的研究内容和热点。数据集的标注者都具有医学背景，共标注了22,050个医学实体和6,890对实体关系。依托于该数据集，包括医生、科研人员、企业开发者就能开展用于临床诊断的知识库，知识图谱，辅助诊断等产品开发，进一步探索研究糖尿病的奥秘。

李长安

#22 回复于2022-07

数据集名称：浮世绘人脸数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/129038
数据集简介：浮世绘人脸数据集，数据集 KaoKore 包含从前现代日本艺术品中提取的面部数据。包含5552张尺寸为256x256的RGB数据，涵盖了不同艺术风格和属性的人脸，其格式也与ImageNet一致，便于现有的模型对其进行研究。
此外为了便于监督学习的研究，数据还选择了人物性别（男/女）和社会阶层（贵族/武士/化身/庶民）来作为标签，充分考虑了数据均衡的问题。

汀

#23 回复于2022-08

数据集名称：亚马逊评论情绪分析
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/146995
数据集简介：电子商务中最重要的问题之一是正确计算给予售后产品的积分。电子商务网站提供更高的客户满意度，为卖家提供产品突出，为买家提供无缝的购物体验。另一个问题是对产品的评论的正确排序。误导性评论的突出将导致财务损失和客户损失。该数据集由亚马逊上的产品评级和评论排名组成。此包含亚马逊产品数据的数据集包括产品类别和各种元数据。

汀

#24 回复于2022-08

数据集名称：猴痘皮肤病变数据集【猴痘与非猴痘（水痘、麻疹）的二元分类数据】
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/162634
数据集简介：数据集中有 3 个文件夹。

1）原始图像：共包含228张图像，其中102张属于“猴痘”类，其余126张代表“其他”类，即非猴痘（水痘和麻疹）病例。

增强图像：为了帮助分类任务，已使用 MATLAB R2020a 应用了几种数据增强方法，如旋转、平移、反射、剪切、色调、饱和度、对比度和亮度抖动、噪声、缩放等。虽然这可以使用 ImageGenerator/其他图像增强器轻松完成，但为了确保结果的可重复性，此文件夹中提供了增强图像。增强后，图像数量增加了大约 14 倍。“Monkeypox”和“Others”类分别有 1428 和 1764 张图像。
3）Fold1：三折交叉验证数据集之一。为了避免训练中的任何偏差，进行了三重交叉验证。原始图像被分成大约 70:10:20 的训练集、验证集和测试集，同时保持患者的独立性。根据通常认为的数据准备实践，只有训练和验证图像被增强，而测试集仅包含原始图像。用户可以选择直接使用折叠或使用原始数据并使用其他算法来增强它。

此外，还提供了一个包含 228 行和两列的 CSV 文件。该表包含所有 ImageID 及其相应标签的列表。