首先要说明下我是
个人开发者,我的需求很简单,我写了一个python爬虫程序去收集国家税务总局的法律法规,并且写了一个ionic3作为框架的app(目前是第一版),现在我正在给我的app添加一个功能,识别文章中的特定法律法规,我现在做的是通过正则表达式提取《*》里的内容,但是有一个问题就是很容易得到一些下载的附件,若我建立一个附件列表匹配文件去重或是在去匹配附件文件那么程序会很臃肿,所以我想问下使用百度AI怎样能获取一篇文章(正文)中的所有的税务法规,
如果你看到了这个你可以到我的github上去看我写的爬虫程序里面有我爬虫的文件格式:https://github.com/quanlanguage/dingxiangKTax_python
这只是我个人的一个小爱好,已经不算什么产品,只是去学习一些一些新的东西,大数据必须要有大量的数据,作为个人开发者无法收集到大量的数据进行分析,只能通过自己写爬虫程序收集到自己想要的数据做一些研究从而提升自己的个人价值,帮助其他人。
如果现在百度ai无法实现,我只能通过自己的手段去实现这个功能,因为我在理论上可以推到A法规中含有B,C,D法规,我在找BCD法规,我就能找到EFG法规,这样一直做下去就能找到最终的法规,运用Google的三篇论文里面的知识通过那个公式就知道是收敛的,也能计算出法规的价值,这是一个很有意思的事情,并且数据很容易得到一举多得的事情,
非常感谢你看完这个帖子,耽误了你宝贵的事情,
--------丁香小全
收藏
点赞
0
个赞
请登录后评论
TOP
切换版块
通过法律法规的前缀和后缀来代码分析吧
只是没有找到合适的方法解决,只能自己选择造轮子,并非大神,只是小白而已,叫的很惭愧,想学啥就做啥,而已
大神666
谢谢,已经写了一个算法来匹配了,此贴可作废