【投稿赢积分】AI studio优质数据集征集活动开始啦~
收藏
为了帮助更多的优质内容产出、沉淀AI studio优质数据集和丰富现有数据集的种类,向广大用户征集优质数据集。成功加精可获得积分、百度周边礼品,欢迎大家踊跃投稿~
活动时间:
2022年全年
加精数据集能获得:
数据集公开,积分+5,系统自动发放
数据集通过审核后,可获得10-50分的积分奖励,积分可用于积分商城兑换
积分商城兑换流程:点击【更多】进入积分商场
一键兑换礼品
(智能硬件、超级会员、大额算力、精美周边尽在积分商城)
百度周报礼品
当月数据集累计加精超过15个,将获得十二星座度熊公仔一套(限量两套)
数据集加精要求
1、需要公开
2、不要求原创,但不能和平台原有的数据集重复(30%)
3、标题:包含技术关键词或者场景关键词(10%)
4、正文:介绍尽可能详细,需要包括数据集组成、数量以及可应用的场景等信息(30%)
5、验证:需要对数据集进行验证,在AI studio运行1-2轮跑通即可,并在末尾附上VDL可视化截图,证明此数据已通过验证(30%)
参考示例:https://aistudio.baidu.com/aistudio/datasetdetail/157101
括号内内容为数据集获得积分的权重
投稿方式
①在此贴回复想要投稿的数据集
②投稿时间截止至每周三中午12点,下午反馈投稿意见
③符合加精要求,将在周四下午加精
投稿格式
数据集名称:SUN RGB-D数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/106223
数据集简介:该数据集包含 10335 张真实的房间场景 RGB-D 图像。每个RGB图像都有一个对应的深度和分割图。标记了多达 700 个对象类别。训练集和测试集分别包含 5285 和 5050 张图像。
2
收藏
数据集名称:自拍照和视频数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/162639
数据集简介:该数据集中有 4000 人。每个人都用网络摄像头自拍,用手机自拍。此外,人们从手机和网络摄像头录制视频,他们在视频上发音一组给定的数字。
数据集名称:鱼类检测数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/162636
数据集简介:该数据集包含 4 种鱼类及其带注释的 .xml 文件。这可以用于对象检测。物种是:Catla、Silver、Gulfaam、Grass
数据集名称:手部关键点检测数据集v1-v2
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/162171
数据集简介:该数据集包括38万余张手部关键点标注图片,原作者:Eric.Lee
数据集名称:CCPD2019车牌全量数据(不包括新能源车牌)
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/124082
数据集简介:CCPD2019数据集,此数据是非新能源车牌数据,新能源车牌数据集请参考:https://aistudio.baidu.com/aistudio/datasetdetail/120711
数据来源:https://github.com/detectRecog/CCPD
数据集名称:LUNA16全量数据集(1)
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/127155
数据集简介:
LUNA16数据集排除了切片厚度大于 2.5 mm 的扫描。总共包括 888 次 CT 扫描。LIDC/IDRI 数据库还包含使用 4 位经验丰富的放射科医师在两阶段注释过程中收集的注释。每位放射科医生将他们确定的病变标记为非结节、结节 < 3 mm 和结节 >= 3 mm。
数据集包含subset0.zip to subset9.zip共10个zip文件包含所有的CT图像(在训练的时候可以选取任意一个zip作为测试集)。
annotations.csv:csv文件包含用于肺结节检测比赛的作为参考标准使用的注释.注释文件包含1186个结节。
sampleSubmission.csv:正确的提交文件格式范例.
candidates_V2.csv:csv文件包含用于假阳性减少比赛所需的候选结节位置
evaluation script:这是在LUNA16框架上使用的评价脚本
lung segmentation:包含在CT图像上的肺分割
数据集名称:LUNA16全量数据集(2)
数据集链接: https://aistudio.baidu.com/aistudio/datasetdetail/127162
数据集简介:
LUNA16数据集排除了切片厚度大于 2.5 mm 的扫描。总共包括 888 次 CT 扫描。LIDC/IDRI 数据库还包含使用 4 位经验丰富的放射科医师在两阶段注释过程中收集的注释。每位放射科医生将他们确定的病变标记为非结节、结节 < 3 mm 和结节 >= 3 mm。
数据集包含subset0.zip to subset9.zip共10个zip文件包含所有的CT图像(在训练的时候可以选取任意一个zip作为测试集)。
annotations.csv:csv文件包含用于肺结节检测比赛的作为参考标准使用的注释.注释文件包含1186个结节。
sampleSubmission.csv:正确的提交文件格式范例.
candidates_V2.csv:csv文件包含用于假阳性减少比赛所需的候选结节位置
evaluation script:这是在LUNA16框架上使用的评价脚本
lung segmentation:包含在CT图像上的肺分割
数据集名称:LUNA16全量数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/127164
数据集简介:
LUNA16数据集排除了切片厚度大于 2.5 mm 的扫描。总共包括 888 次 CT 扫描。LIDC/IDRI 数据库还包含使用 4 位经验丰富的放射科医师在两阶段注释过程中收集的注释。每位放射科医生将他们确定的病变标记为非结节、结节 < 3 mm 和结节 >= 3 mm。
数据集包含subset0.zip to subset9.zip共10个zip文件包含所有的CT图像(在训练的时候可以选取任意一个zip作为测试集)。
annotations.csv:csv文件包含用于肺结节检测比赛的作为参考标准使用的注释.注释文件包含1186个结节。
sampleSubmission.csv:正确的提交文件格式范例.
candidates_V2.csv:csv文件包含用于假阳性减少比赛所需的候选结节位置
evaluation script:这是在LUNA16框架上使用的评价脚本
lung segmentation:包含在CT图像上的肺分割
数据集名称:前列腺核磁影像分割数据集2012
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/126656
数据集介绍:Prostate MR Image Segmentation 2012,这是一个公开的数据挑战数据集。主要是用于医学中图像分割
数据集名称:结核病图像数据集
数据集介绍:带有注释的结核病图像数据集
结核病 (TB) 是一种传染病,通常由结核分枝杆菌 (MTB) 细菌引起。结核病通常会影响肺部,但也会影响身体的其他部位。大多数感染没有症状,在这种情况下,它被称为潜伏性结核病。数据集它包含 928 个痰图像,边界框为 3734 个杆菌。 XML 文件中包含图像的边界框详细信息
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/119742
数据集名称:谷歌地标数据集
数据集介绍:
该数据集包含可在线公开途径获取图像 URL(可以通过Python 脚本下载图像)。请注意,不会发布任何图像数据,只会发布 URL。
数据集包含测试图像、训练图像和索引图像。
测试图像用于两个任务:对于识别任务,可以为每个测试图像预测一个地标标签;
对于检索任务,可以为每个测试图像检索相关索引图像。训练图像与地标标签相关联,可用于训练模型以应对识别和检索挑战。
索引图像用于检索任务,构成应从中检索图像的集合。
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/119075
数据集名称:【NLP】对联数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/110057
数据集简介:开源的对联数据集couplet-clean-dataset处理后的对联,去掉敏感词汇,并删掉14条中文编码错误的对联,共744915条对联。
数据集名称:【NLP】代码注释自动生成数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/73043/0
数据集简介:该数据集是代码注释自动生成任务的相关数据集,含有448512条Java程序片段以及相应的注释。
数据集名称:【NLP】中-俄翻译数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/123848
数据集简介:NLP机器翻译数据集,中文-->俄文。
数据集名称:一级保护动物图像分类数据集汇总
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/165243
数据集简介:数据集中包含八千余张各类国家一级保护动物的图像数据,而对于标签,不仅提供了每张图像的所属类别,另外还根据百度百科对所有类别进行归类,将一级保护动物分为九个等级。所有标签数据用txt存储,满足PP-ShiTu要求的标准格式,另外,也方便转换成其他格式。
数据集名称:验证码数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/159309
数据集简介:整理相关验证码数据集57800张,统一使用验证码内容作为对应图片的文件名,整个数据集包含五种验证码数据集,位数为四位和五位使用的时候可以根据根据需求自行决定切分比例。
数据集名称:纸板缺陷数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/146356
数据集简介:纸板在生产过程中容易发生破损、起泡、划痕等一些缺陷,纸板加工成型后通过目标检测进行检查,可以将有缺陷的纸板挑选出来,避免残次品的出厂,数据集来源于采集于某纸板生产厂,一共包括1057张真实场景图片,VOC标注格式,可以自行决定数据集切分比例。
数据集名称:变压器设备漏油数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/146144
数据集简介:油浸式变压器通常采用油浸自冷式、油浸风冷式和强迫油循环三种冷却方式。该数据集采集于油浸式变压器的设备漏油情况,一般用于变电站的无人巡检,代替传统的人工巡检,与绝缘子的破损检测来源于同一课题。数据集一部分来自真实场景,由于真实场景下样本较少,外加一部分合成图片,共338张,采用VOC标注格式
数据集名称:高压输电线路绝缘子缺陷检测
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/122549
数据集简介:绝缘子是唯一的电气绝缘件和重要的结构支撑件,绝缘子性能及其配置的合理性直接影响线路的安全稳定运行。该数据集部分来源于无人机真实拍摄,部分来自图片合成,高压输电线路绝缘子的缺陷检测是线路巡检的重要组成部分。该数据集包括600张高压输电线路缺损的绝缘子图片,采用VOC标注格式,可自行进行训练集、验证集的划分
数据集名称:计量设备屏幕字符检测数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/127845
数据集简介:该数据集来源于环境检测设备,大多采用手机拍摄,工业相机固定拍摄,人工合成。可以实现对计量设备数显屏的字符检测。训练集755张,测试集355张。
数据集名称:烟叶烘干程度检测数据集
数据集链接:https://aistudio.baidu.com/aistudio/datasetdetail/132657
数据集简介:烟叶烘烤是烟草加工过程中的一个重要环节,结合待烤鲜烟叶的主观判断后,随意地对智能烘烤控制仪进行3段式、或7段式、或10段式设置烘烤,并且在烘烤过程中,根据自己的主观判断后又去对烘烤工艺随意调整,将烟叶烤干,烟叶质量就出现了这炕烤好了,那炕却烤坏了,烤好与烤坏之间,没有一个准确的预判。针对于此,该数据集采集不同烘干阶段的烟草图片,通过图像分类代替人工。共包含图片907张,来源于某制烟厂。