识别网络爬虫的策略分析

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

人工智能技术与咨询发布于2022-09

网络爬虫爬虫（crawler）也可以被称为spider和robot，通常是指对目标网站进行自动化浏览的脚本或者程序，包括使用requests库编写脚本等。随着互联网的不断发展，网络爬虫愈发常见，并占用了大量的网络资源。由爬虫产生的网络流量占总流量的37.2%，其中由恶意爬虫产生的流量约占65%[1]。如何在网络流量中识别爬虫，是判断爬虫行为意图的前提，常见的使用爬虫的场景包括：sousuo引擎等使用爬虫爬取网站上的信息，研究机构使用爬虫搜集数据，以及攻击者使用爬虫搜集用户信息、识别软件后门等。针对网络爬虫，目前常用的方法包括在服务器上的robots.txt文件中进行适当的配置，将用户代理列入白名单等，这些操作可以检测和阻止一些低级别的恶意爬虫。然而，高级和复杂的网络爬虫仍然难以检测，因为它们通常会伪装成合法的爬虫或正常用户。此外，运营部门需要投入较多的时间和资源来收集和分析网络流量记录报告，以发现隐藏的网络爬虫的痕迹。网络爬虫通常会触发大量告警，给安全运营人员带来了较大的数据处理压力。此外，部分恶意攻击者也会使用爬虫来收集信息，因此从海量的告警中，识别出网络爬虫，并判断其行为意图十分重要。在安全运营场景中，如何根据安全设备产生的告警数据，设计出识别爬虫，并判断其行为意图的方案，目前仍需要不断地探索以及深入的思考。在往期内容中，笔者已经介绍了Aristaeus平台使用浏览器指纹、TLS指纹和IP行为分析等方式识别爬虫的行为意图的工作[2]，由于Aristaeus平台使用的域名在实验前均未注册使用过，因此这一工作中采集到的流量均为爬虫，并在此基础上对良性/恶意的爬虫进行了区分。本文对基于web日志信息识别爬虫以及判断其行为意图的研究进行总结分析[3]，包括常见的判断爬虫的方法，以及机器学习、深度学习等方法识别爬虫，以及各种识别爬虫行为意图的方法。声明：本文来自绿盟科技研究通讯，版权归作者所有。

0

收藏

回复

全部评论(4)

fi_Past

#2 回复于2022-09

爬虫

0

回复

fi_Past

#3 回复于2022-09

Aristaeus

0

回复

测试员001

#4 回复于2022-09

66

0

回复

雨天没空

#5 回复于2022-09

666

0

回复