首页 PaddleNLP 帖子详情
我想设计一个项目,通过自然语言处理的能力去理解不同的网页。
收藏
快速回复
PaddleNLP 文章学习资料 417 3
我想设计一个项目,通过自然语言处理的能力去理解不同的网页。
收藏
快速回复
PaddleNLP 文章学习资料 417 3

整体的设计是当我们爬虫新闻的时候,不同的网站我们都需要找到网站中字段所对应的xpath。这样的工作是非常简单的,但是却有着大量重复人工成本的。我们是不是可以通过某些手段把页面中的字段通过分类或者是命名实体识别模型全部都搞出来呢。

 

勇敢迈出第一步,我整理好了数据集,是通过文本分类的方式去识别页面中的内容可能属于哪个类别,整理了8分类的数据集。

网页字段分类-飞桨AI Studio - 人工智能学习实训社区 (baidu.com)

 

0
收藏
回复
全部评论(3)
时间顺序
DeepGeGe
#2 回复于2021-12

应该可以,但是使用文本分类或者NER需要一些人工标注的数据去训俩模型,这种取对应字段里面的内容不能通过程序直接取到吗?

0
回复
ygq
#3 回复于2021-12

我没理解你的意思

 

0
回复
ygq
#4 回复于2021-12
应该可以,但是使用文本分类或者NER需要一些人工标注的数据去训俩模型,这种取对应字段里面的内容不能通过程序直接取到吗?

我没理解你的意思。

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户