首页 PaddleHub 帖子详情
paddlehub的创意赛-互联网公司红黑榜
收藏
快速回复
PaddleHub 问答预训练模型 1636 5
paddlehub的创意赛-互联网公司红黑榜
收藏
快速回复
PaddleHub 问答预训练模型 1636 5

基于脉脉职言正负向评论数的互联网公司红黑榜

通过爬取脉脉职言评论数据近万条,用paddlehub对评论进行公司名称机构实体识别,情感分析,得到有情感公司评论数据近千条,统计得出互联网公司红黑榜。

多机构实体,情感归属实体问题没有涉及,红黑榜仅为课程比赛练习用。

 

 

项目现在在Aistudio的公开地址在:

https://aistudio.baidu.com/aistudio/projectdetail/453177

项目分为3个部分:

一、脉脉数据爬取

网址https://maimai.cn/gossip_list

在network里可以看到gossip_list?u打头的json url地址,如: https://maimai.cn/sdk/web/gossip_list?u=1523364&channel=www&version=4.0.0&_csrf=r5leURot-6LnmhF2Mfvg2JJHbTlD2OzlpVyQ&_csrf_token=Taa8IUq1-33IU5agkXKx9KlvrT46awCZzJe8&access_token=1.0b1d825b74a61f3ac319bf65dc6c26bf&page=13&jsononly=1

主要变化是page={}

json的最开头有total和remain两个参数,给出了目前所有可见评论总数和剩余数。当remain=0时,这个链接就没有数据了,需要过一些时候再取。 每条评论放在data里,其中的字段: 

text:评论

cmts :评论数

因为职言数有限,所以也爬取职言的第一页评论。具体json网址为

    url = 'https://maimai.cn/sdk/web/gossip/getcmts?gid={}&egid={}&page=0&count=50\
    hotcmts_limit_count=100&u=1523364&channel=www&version=4.0.0&_csrf=glezLU4d-jUvV-CFrxQafA4jKcwfZMn4uq24\
    &_csrf_token=Taa8IUq1-33IU5agkXKx9KlvrT46awCZzJe8&access_token=1.0b1d825b74a61f3ac319bf65dc6c26bf'
    需要通过职言json获取gid,egid ,通过cmts 控制是否读取职言评论

 

二、机构实体识别,创建公司字典

通过hub.Module(name="lac")识别实体机构名称,因为很多词代表一个公司,人工合并公司匹配词字典

 

三、情感识别与排名统计

通过hub.Module(name="senta_lstm")情感识别,给评论打上公司标签,因为用的2分类,取情感极性概率大于80%的数据,过滤掉一部分中性数据。

统计公司正负向评论及占比数据,绘图

0
收藏
回复
全部评论(5)
时间顺序
水水水的老师
#2 回复于2020-05

哈哈 不错不错

0
回复
水水水的老师
#3 回复于2020-05

你可以开个notebook  

0
回复
水水水的老师
#4 回复于2020-05

用notebook做个教程

0
回复
AIStudio810258
#5 回复于2020-05

部署个服务,做个h5小程序~~

0
回复
AIStudio810258
#6 回复于2020-05

再标题党下,可以吸波流量了~~

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户