您现在的位置:主页 > 78222曾 >

万万没想到 我的五一特价机票是从爬虫手里买的

发布日期:2020-09-14 20:03   来源:未知   阅读:

  噢,你要说到特价机票,那就是戳到我的业务点了,让网络安全科普作者小李分析一下特价机票可能是怎么来的吧!

  国务院办公厅发布“关于调整2019年五一劳动节假期”的通知几十分钟后,各个航空公司的B2C网站和旅游网站的机票查询量暴增,其中国际航班增长了10倍。

  在暴增的机票查询数据背后,有普大喜奔的人民群众,更有非法代理人操控的恶意“爬虫”。

  原来,部分航空服务代理人通过“爬虫”非法抓取航空公司B2C网站或官方App等平台上的机票信息,然后非法倒卖给他人以牟取利益。

  为了搞清楚这个恶意爬虫是怎么爬取特价机票信息,再化身二道贩子牟利,编辑特意请教了有反爬虫实战经验的顶象公司。

  据说,最近他们协助警察蜀黍端掉了一起爬虫案,这个涉案的山东某机构专门爬取各大航空公司票务数据倒卖给其他中小代理人(该机构的业务已被关停)。

  部分代理人利用“爬虫”爬取下票务信息后,再利用虚假的身份信息预订机票,但不付款。然后,在航空公司允许的订票账期内,他们把这些机票转售给真正需要购票的用户。

  在转售之前,这就导致部分机票并未售出,但是用户在航空公司查看时却显示已售罄,该行为称之为“虚假占座”。

  “爬虫”代理人目标明确,主要是爬取班次、价格、数量等核心信息,因此只浏览访问几个固定页面,不访问其他页面。

  由于“爬虫”是程序化操作,按照预先设定的流程进行访问等,因此呈现出毫无思维、但很有规律、有节奏且持续的行为。

  “爬虫”的目的是最短时间内抓取最多信息,因此同一设备会有大量离散的行为,包括访问、浏览、查询等。

  正常情况下用户在查询、购买时,用户的IP地址比较稳定,如果是“爬虫”“虚假占座”,IP来源地址呈现不同维度上的聚集,而浏览、查询、购票等操作时不停变化IP地址。

  很多“爬虫”程序伪装成浏览器进行访问,比如在程序头或者UA中默认含有类似python-requests/2.18.4等固定字符串;并且通过购买或者租用的云服务、改造路由器、租用IP代理、频繁变更代理IP等进行访问。

  “爬虫”程序运行时间多集中在无人值守阶段。此时系统监控会放松,而且平台的带宽等资源占用少,爬虫密集的批量爬取不会对带宽、接口造成影响。以下是顶象反欺诈中心监测到,凌晨1-5点是恶意“爬虫”的运行高峰时段。

  “虚假占座”看上去只是让薅羊毛的正常用户买不上机票而已,对航空公司有什么影响吗?(卖给谁不是卖?)

  大家想一想,首先,恶意“爬虫”的虚假身份信息是从哪里来的?这里是不是有用户信息的泄漏?

  第二,这种虚假占座浪费了航空公司带宽资源,白白消耗航空查询费用,扰乱了航空公司的正常运营。

  第三,更关键的是,由此带来订票量的波动导致航空公司收益管理系统算法产生误判,给出不符合实际情况的运价调整,损伤了用户权益以及平台的口碑。

  也就是说,从爬虫二道贩子手里买到特价机票一时爽,长期下来还是普通用户买了单。