美国代理服务器 ip
近日,多家开源社区发出强烈声音,控诉AI公司肆意抓取其代码、文档和其他公共资源美国代理服务器 ip,造成其基础设施面临近乎DDoS级的压力,导致服务器频繁崩溃和性能急剧降低。这股“爬虫风暴”在开源圈已然让人无法招架。
SourceHut创始人兼CEO Drew DeVault在其博文《请停止将你的成本强加于我》中怒怼这些AI模型的抓取行为。从他最近几个月的经历来看,每周就要经历数十次的短暂停机。为了能稍微缓解这些问题,他不得不每天反复检查防护措施,即便偶然想忙点别的,也常常被服务器警报打断。
DeVault披露,他的社区正遭受着来自数以万计的IP地址的恶意流量攻击,这些AI爬虫不仅不遵守“robots.txt”协议,还会疯狂访问消耗系统资源的链接,如Gitblame和各种Git日志页面。他坦言,自己近20%到100%的工作时间都得用来对抗这些不速之客,这些爬虫的流量让他备受压力,甚至影响了真实用户的访问体验。
在开源界,这并非孤立事件。KDE最近也受到了大量假冒Microsoft Edge浏览器的恶意流量影响;而GNOME自去年11月以来不得不实施临时流量限制,以应对那些未登录用户的合并请求和提交记录被涌入的问题。为此,GNOME近期部署了名为“Anubis”的防护工具,让真实用户不得不面对Proof-of-Work挑战,导致普通用户排队等候,也让数字社区感受到了一丝不便。
Fedora社区更是因为海量AI爬虫流量,无奈之下封禁了一些可疑IP,甚至不惜对整个国家实施禁令。这种“一刀切”策略引发了一些社区成员的担忧,认为可能会误伤合法用户。而Inkscape项目的维护者声称,为了保持网站的可用性,他们不得不不断扩大针对“爬虫”的黑名单。
而在Diaspora,维护者Dennis Schubert也无奈表示,过去60天流量日志显示,几乎七成的请求来自OpenAI的GPTBot、Amazonbot等AI爬虫。他形容这些爬虫对待“robots.txt”的态度形同虚设,造成服务器性能异常,甚至让其差点崩溃。开源平台ReadtheDocs也透露,禁用AI爬虫后,他们的流量每天从800GB骤降至200GB,这意味着节省了近1500美元的运营成本,数据的背后是这些爬虫给他们带来的巨大压力。
DeVault最后呼吁更多的关注与自律,他不无愤慨地表示,这一切都是在让小型平台如SourceHut承担这些大公司的成本,同时消耗了社会公共资源。“在那些系统管理员们进行集体反击之前,那些拥有数十亿资金的公司,应该找点对社会有益的事情做,而不是继续动我的服务器!”
总的来看,开源社区面临的困境已属严峻。既要保持开源文化的开放性,又因缺乏雄厚的资金而不得不依赖一些粗暴的防御手段来维护网站的稳定。在面对这股AI爬虫浪潮时,各大开源项目正积极探索更高效且更友好的解决方案。如何在开放和保护之间找到平衡,将是一个需要全行业共同协作来面对的长期任务。返回搜狐,查看更多