【投稿赢积分】AI studio优质数据集征集活动开始啦~

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

A AIStudio6795644 发布于2022-07

为了帮助更多的优质内容产出、沉淀AI studio优质数据集和丰富现有数据集的种类，向广大用户征集优质数据集。成功加精可获得积分、百度周边礼品，欢迎大家踊跃投稿~

活动时间：
2022年全年

加精数据集能获得：

数据集公开，积分+5，系统自动发放

数据集通过审核后，可获得10-50分的积分奖励，积分可用于积分商城兑换

积分商城兑换流程：点击【更多】进入积分商场

一键兑换礼品

（智能硬件、超级会员、大额算力、精美周边尽在积分商城）

百度周报礼品

当月数据集累计加精超过15个，将获得十二星座度熊公仔一套（限量两套）

数据集加精要求
1、需要公开

2、不要求原创，但不能和平台原有的数据集重复（30%）

3、标题：包含技术关键词或者场景关键词（10%）

4、正文：介绍尽可能详细，需要包括数据集组成、数量以及可应用的场景等信息（30%）

5、验证：需要对数据集进行验证，在AI studio运行1-2轮跑通即可，并在末尾附上VDL可视化截图，证明此数据已通过验证（30%）

参考示例：https://aistudio.baidu.com/aistudio/datasetdetail/157101

括号内内容为数据集获得积分的权重

投稿方式
①在此贴回复想要投稿的数据集

②投稿时间截止至每周三中午12点，下午反馈投稿意见

③符合加精要求，将在周四下午加精

投稿格式
数据集名称：SUN RGB-D数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/106223
数据集简介：该数据集包含 10335 张真实的房间场景 RGB-D 图像。每个RGB图像都有一个对应的深度和分割图。标记了多达 700 个对象类别。训练集和测试集分别包含 5285 和 5050 张图像。

全部评论(96)

汀

#90 回复于2022-11

数据集名称：Social circles: Facebook数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/176172
数据集简介：该数据集由来自 Facebook 的“圈子”（或“朋友列表”）组成。Facebook 数据是从使用此Facebook 应用程序的调查参与者那里收集的。数据集包括节点特征（配置文件）、圆圈和自我网络。

玥亮

#91 回复于2022-11

数据集名称：【Audio】FSDD
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/176422/0
数据集简介：一个简单的音频/语音数据集，由 8kHz 文件中的语音数字记录组成。录音经过修剪，以便在开头和结尾处具有几乎最小的静音。

汀

#92 回复于2022-11

数据集名称：AMiner计算机科学 (CS) 数据数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/177163
数据集简介：1.AMiner计算机科学 (CS) 数据： CS 数据集由 1,693,531 名计算机科学家和 3,194,405 篇论文组成，来自 3,883 个计算机科学场所——包括会议和期刊——截至 2016 年。我们构建了一个异构协作网络，其中有是三种类型的节点：作者、论文和地点。

2.数据库和信息系统（DBIS）数据：它涵盖了 464 个场所、其前 5000 位作者以及相应的 72,902 篇出版物。我们还从 DBIS 构建了异构协作网络，其中一个链接可以连接两位作者，一位作者和一篇论文，以及一篇论文和一个地点。

3.Google Scholar Metrics 2016 标记的地面实况，用于多标签节点分类和聚类 AMiner 数据的 GS 标记结果 ( label.zip 2 MB ) C1：8 区域 133 个场所标签文件 C2：8 区域 246,678 个作者标签文件

汀

#93 回复于2022-11

数据集名称：PubMed数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/177591
数据集简介：PUBMED数据集是基于PubMed 文献数据库生成的。它包含了19717篇糖尿病相关的科学出版物，这些出版物被分成三个类别。这些出版物的互相引用网络包含了44338条边。在消除停词以及除去低频词汇，最终词汇表中有500个词汇。这些出版物用一个TF/IDF加权的词向量来描述是否包含词汇表中的词汇

汀

#94 回复于2022-11

数据集名称：Cora科学出版物数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/177587
数据集简介：Cora 数据集包含 2708 份科学出版物，分为七类之一。引文网络由 5429 个链接组成。数据集中的每个出版物都由一个 0/1 值的词向量描述，表示字典中相应词的缺失/存在。该词典包含 1433 个独特的单词

汀

#95 回复于2022-11

数据集名称：网络知识库WebKB
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/177596
数据集简介：WebKB 数据集包含 877 份科学出版物，分为五类。引文网络由 1608 个链接组成。数据集中的每个出版物都由一个 0/1 值的词向量描述，表示字典中相应词的缺失/存在。该词典包含 1703 个独特的单词

汀

#96 回复于2022-11

数据集名称：Terrorists恐怖分子
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/177598
数据集简介：该数据集包含有关恐怖分子及其关系的信息。该数据集专为旨在对恐怖分子之间的关系进行分类的分类实验而设计。该数据集包含 851 个关系，每个关系都由一个 0/1 值的属性向量描述，其中每个条目表示一个特征的不存在/存在。共有 1224 个不同的特征。每个关系最多可以分配四个标签中的一个或多个标签，使该数据集适用于多标签分类任务

汀

#97 回复于2022-11

数据集名称：恐怖袭击Terrorist Attacks
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/177599
数据集简介：该数据集包含 1293 次恐怖袭击，每一次都分配了 6 个标签中的一个来指示攻击类型。每次攻击都由一个 0/1 值的属性向量来描述，其条目表示特征的不存在/存在。共有 106 个不同的特征。数据集中的文件可用于创建两个不同的图形。

汀

#98 回复于2022-11

数据集名称：drug-target-interaction
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/177604
数据集简介：此数据集包含从 DrugBank、KEGG Drug、DCDB 和 Matador 收集的药物和目标之间的相互作用。它最初由Perlman 等人收集。它包含 315 种药物、250 个靶点、1,306 种药物-靶点相互作用、5 种药物-药物相似性以及 3 种类型的靶点-靶点相似性。药物-药物相似性包括基于化学、基于配体、基于表达、基于副作用和基于注释的相似性。目标-目标相似性包括基于序列、基于蛋白质-蛋白质相互作用网络和基于基因本体的相似性。数据集的原始任务是根据网络中不同类型的相似性来预测药物和目标之间的新相互作用。

汀

#99 回复于2022-11

数据集名称：社会垃圾邮件Social Spammers
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/177617
数据集简介：它包含 560 万用户和他们之间的 8.58 亿个链接。每个用户都有 4 个特征，并被手动标记为“垃圾邮件发送者”或“不是垃圾邮件发送者”。每个链接代表两个用户之间的一个动作，包括一个时间戳和一个类型。该网络包含 7 种匿名类型的链接。数据集的原始任务是根据他们的关系和非关系特征识别（即分类）垃圾邮件发送者用户。

汀

#100 回复于2022-11

数据集名称：GIN算法测试数据集（社交网络、生物信息学）
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/178004
数据集简介：使用 9 个图形分类基准：4 个生物信息学数据集（MUTAG、PTC、NCI1、PROTEINS）和 5 个社交网络数据集（COLLAB、IMDB-BINARY、IMDB-MULTI、REDDITBINARY 和 REDDIT-MULTI5K）（Yanardag & Vishwanathan）

社交网络数据集。

* IMDB-BINARY 和 IMDB-MULTI 是电影协作数据集。每个图对应于每个演员/女演员的自我网络，其中节点对应于演员/女演员，如果两个演员/女演员出现在同一部电影中，则在两个演员/女演员之间绘制一条边。每个图都是从预先指定的电影类型派生的，任务是对其派生的类型图进行分类。

* REDDIT-BINARY 和 REDDIT-MULTI5K 是平衡数据集，其中每个图表对应一个在线讨论线程，节点对应于用户。如果其中至少一个节点回应了另一个节点的评论，则在两个节点之间绘制一条边。任务是将每个图分类到它所属的社区或子版块。

* COLLAB 是一个科学协作数据集，源自 3 个公共协作数据集，即高能物理、凝聚态物理和天体物理。每个图对应于来自每个领域的不同研究人员的自我网络。任务是将每个图分类到相应研究人员所属的领域。

生物信息学数据集。

* MUTAG 是一个包含 188 个诱变芳香族和杂芳香族硝基化合物的数据集，具有 7 个离散标签。

* PROTEINS 是一个数据集，其中节点是二级结构元素 (SSE)，如果两个节点在氨基酸序列或 3D 空间中是相邻节点，则它们之间存在一条边。它有 3 个离散标签，代表螺旋、薄片或转弯。

* PTC 是一个包含 344 种化合物的数据集，报告了雄性和雌性大鼠的致癌性，它有 19 个离散标签。

* NCI1 是由美国国家癌症研究所 (NCI) 公开提供的数据集，是经过筛选以抑制或抑制一组人类肿瘤细胞系生长的化学化合物平衡数据集的子集，具有 37 个离散标签。

汀

#101 回复于2022-11

数据集名称：CiteSeer数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/177589
数据集简介：CiteSeer 数据集包含 3312 份数据，分为六类之一。引文网络由 4732 个链接组成。数据集中的每个数据都由一个 0/1 值的词向量描述，表示字典中相应词的缺失/存在。该字典由 3703 个独特的单词组成。

CiteSeer for Entity Resolution 数据集包含 1504 个机器学习文档，其中包含对 165 个作者实体的 2892 个作者引用。对于此数据集，唯一可用的属性信息是作者姓名。总是给出完整的姓氏，在某些情况下会给出作者的全名和中间名，而其他时候只给出首字母。

汀

#102 回复于2022-12

数据集名称：email communication network数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/183269
数据集简介：该网络是使用欧洲一家大型研究机构的email数据生成的。对研究机构所有传入和传出email的信息进行了匿名处理。对于每封发送或接收的email，知道时间、email的发件人和收件人。总的来说，在 287,755 个不同的email地址之间有 3,038,531 封email。请注意，只有来自研究机构的 1,258 个email地址的完整email图表。此外，在的数据集范围内，有 34,203 个email地址发送和接收了email。

汀

#103 回复于2022-12

数据集名称：动态的面对面交互网络数据集
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/183275
数据集简介：动态的面对面交互网络代表了在玩抵抗游戏的一组参与者之间的讨论过程中发生的交互。该数据集包含从 62 个游戏中提取的网络。每场比赛由 5-8 名参与者进行，持续时间为 45--60 分钟。我们使用ICAF 算法从自由形式的讨论中提取动态演化的网络。提取的网络用于使用DeceptionRank 算法来表征和检测群体欺骗行为。

汀

#104 回复于2023-02

数据集名称：中文文本匹配数据集（ LCQMC、BQ_Corpus、STS-B、ATEC ）
数据集链接：https://aistudio.baidu.com/aistudio/datasetdetail/188943
数据集简介：

lcqmc数据集，哈工大的一个中文问答匹配数据集总样本数为：260068，其中，匹配样本个数为：149226，不匹配样本个数为：110842

中文SNLI数据集：中文自然语言推理数据集（A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset）本数据及通过翻译加部分人工修正的方法，从英文原数据集生成，可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。详情请参考 CLUE 自然语言推理任务 Chinese Multi-Genre NLI。训练集与本数据集保持一致，dev和test有所改变数据格式 Chinese-SNLI & Chinese-MNLI { "sentence1": "你敢不敢像拉斯柯尔尼科夫那样，勇于面对现实，拒绝那些管理小人物的琐碎规则？", "sentence2": "你会站起来揭发镇上所有的邪恶领主吗？", "gold_label": "neutral" }

UnseenMe

#105 回复于2023-03

2023年还征集吗？