我想设计一个项目,通过自然语言处理的能力去理解不同的网页。
收藏
整体的设计是当我们爬虫新闻的时候,不同的网站我们都需要找到网站中字段所对应的xpath。这样的工作是非常简单的,但是却有着大量重复人工成本的。我们是不是可以通过某些手段把页面中的字段通过分类或者是命名实体识别模型全部都搞出来呢。
勇敢迈出第一步,我整理好了数据集,是通过文本分类的方式去识别页面中的内容可能属于哪个类别,整理了8分类的数据集。
网页字段分类-飞桨AI Studio - 人工智能学习实训社区 (baidu.com)
0
收藏
请登录后评论
应该可以,但是使用文本分类或者NER需要一些人工标注的数据去训俩模型,这种取对应字段里面的内容不能通过程序直接取到吗?
我没理解你的意思
我没理解你的意思。