基于脉脉职言正负向评论数的互联网公司红黑榜
通过爬取脉脉职言评论数据近万条,用paddlehub对评论进行公司名称机构实体识别,情感分析,得到有情感公司评论数据近千条,统计得出互联网公司红黑榜。
多机构实体,情感归属实体问题没有涉及,红黑榜仅为课程比赛练习用。
项目现在在Aistudio的公开地址在:
https://aistudio.baidu.com/aistudio/projectdetail/453177
项目分为3个部分:
一、脉脉数据爬取
网址https://maimai.cn/gossip_list
在network里可以看到gossip_list?u打头的json url地址,如: https://maimai.cn/sdk/web/gossip_list?u=1523364&channel=www&version=4.0.0&_csrf=r5leURot-6LnmhF2Mfvg2JJHbTlD2OzlpVyQ&_csrf_token=Taa8IUq1-33IU5agkXKx9KlvrT46awCZzJe8&access_token=1.0b1d825b74a61f3ac319bf65dc6c26bf&page=13&jsononly=1
主要变化是page={}
json的最开头有total和remain两个参数,给出了目前所有可见评论总数和剩余数。当remain=0时,这个链接就没有数据了,需要过一些时候再取。 每条评论放在data里,其中的字段:
text:评论
cmts :评论数
因为职言数有限,所以也爬取职言的第一页评论。具体json网址为
url = 'https://maimai.cn/sdk/web/gossip/getcmts?gid={}&egid={}&page=0&count=50\
hotcmts_limit_count=100&u=1523364&channel=www&version=4.0.0&_csrf=glezLU4d-jUvV-CFrxQafA4jKcwfZMn4uq24\
&_csrf_token=Taa8IUq1-33IU5agkXKx9KlvrT46awCZzJe8&access_token=1.0b1d825b74a61f3ac319bf65dc6c26bf'
需要通过职言json获取gid,egid ,通过cmts 控制是否读取职言评论
二、机构实体识别,创建公司字典
通过hub.Module(name="lac")识别实体机构名称,因为很多词代表一个公司,人工合并公司匹配词字典
三、情感识别与排名统计
通过hub.Module(name="senta_lstm")情感识别,给评论打上公司标签,因为用的2分类,取情感极性概率大于80%的数据,过滤掉一部分中性数据。
统计公司正负向评论及占比数据,绘图
哈哈 不错不错
你可以开个notebook
用notebook做个教程
部署个服务,做个h5小程序~~
再标题党下,可以吸波流量了~~