我想设计一个项目，通过自然语言处理的能力去理解不同的网页。

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

ygq 发布于2021-12

整体的设计是当我们爬虫新闻的时候，不同的网站我们都需要找到网站中字段所对应的xpath。这样的工作是非常简单的，但是却有着大量重复人工成本的。我们是不是可以通过某些手段把页面中的字段通过分类或者是命名实体识别模型全部都搞出来呢。

勇敢迈出第一步，我整理好了数据集，是通过文本分类的方式去识别页面中的内容可能属于哪个类别，整理了8分类的数据集。

网页字段分类-飞桨AI Studio - 人工智能学习实训社区 (baidu.com)

0

收藏

回复

全部评论(3)

DeepGeGe

#2 回复于2021-12

应该可以，但是使用文本分类或者NER需要一些人工标注的数据去训俩模型，这种取对应字段里面的内容不能通过程序直接取到吗？

0

回复

ygq

#3 回复于2021-12

我没理解你的意思

0

回复

ygq

#4 回复于2021-12

DeepGeGe #2

应该可以，但是使用文本分类或者NER需要一些人工标注的数据去训俩模型，这种取对应字段里面的内容不能通过程序直接取到吗？

我没理解你的意思。

0

回复

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~