电脑版微信网络代理IP
在苹果悄然推出其AI训练数据拒绝工具不到三个月后,许多知名新闻媒体和社交平台已经利用该工具排除了其数据不被苹果用于AI训练。Facebook、Instagram、Craigslist、Tumblr、《纽约时报》、《金融时报》、《大西洋月刊》、Vox Media、USA Today以及WIRED的母公司康泰纳仕(Condé Nast)等组织已选择不让苹果使用其数据进行AI训练。这反映了人们对机器人网络爬虫的认知和使用方式的重大转变。
苹果推出的新工具名为Applebot-Extended,它是苹果网络爬虫Applebot的扩展,允许网站所有者阻止苹果使用其数据进行AI训练。虽然这不会阻止Applebot对网站内容的抓取,但会防止这些数据用于苹果的AI模型训练。发布者可以通过更新其网站上的robots.txt文件来阻止Applebot-Extended,该文件已经管理网络爬虫的抓取方式数十年。
许多出版商已经更新了其robots.txt文件,阻止AI爬虫,如OpenAI、Anthropic和其他主要AI公司。尽管Applebot-Extended还比较新,目前阻止它的网站相对较少。据统计,约6-7%的高流量网站阻止了Applebot-Extended,大部分是新闻媒体网站。
一些出版商明确表示,他们阻止AI抓取工具是因为他们与这些工具的拥有者尚未达成合作协议。例如电脑版微信网络代理IP,Vox Media表示他们封锁了所有AI抓取工具,除非达成了商业协议。《纽约时报》对此类工具的选择退出机制持批评态度,并正在起诉OpenAI,指控其侵犯版权。
随着AI技术的发展,网络爬虫数据的重要性愈加凸显,尤其是在数据授权和版权问题上。许多出版商采用一种战略性的方式来处理AI爬虫数据使用问题,有时甚至涉及商业合作。