8月30日,《连线》杂志发表了一篇博客文章,揭示了一个有趣的现象:不少主流媒体开始拒绝苹果的数据抓取工具Applebot的访问。Applebot初次进入公众视野是在2014年11月,随后苹果在2015年5月正式公布了这一技术。作为Applebot的升级版,Applebot-Extended在过去十年间持续抓取网页内容,旨在提升Siri和Spotlight搜索等功能的表现。
近期的研究显示,多数主流出版机构通过robots.txt文件来限制苹果的抓取行为。据统计,大约有6%到7%的高流量网站已阻止了Applebot-Extended的访问。另一项由Ben Welsh进行的研究则指出,在他考察的网站样本中,有高达25%的网站对Applebot-Extended实施了屏蔽措施。此外,研究还发现,OpenAI的爬虫在新闻网站中的遭遇更为严峻,被53%的站点拦截,而谷歌的Google-Extended爬虫也被43%的网站拒绝。
《连线》分析认为,尽管网站或许并不介意苹果的智能搜索触及它们的内容,但Applebot及其增强版之所以被较低比例的网站阻挡,主要是因为这些机器人的知名度相对较低,尚未引起广泛的企业关注。