维基百科因遭受大量AI爬虫的访问而服务器过载,最终不得不“投降”,这些AI爬虫对网站的持续攻击导致服务器承受巨大压力,一度使得网站运行受到严重影响,面对这一挑战,维基百科无法承受并不得不采取措施应对。

被AI爬虫挤爆服务器的维基百科:投降了

经过整理,文本内容更加清晰、连贯,同时增加了部分细节描述和情感表达,以下是修改后的版本: 说到维基百科,想必大家都非常熟悉,维基百科可以说是普通人获取概念、知识最便捷、最权威的方式之一。 最近维基百科的运营机构维基媒体却遭遇了一些麻烦,这些麻烦主要来自于各大AI公司的爬虫,为了训练大模型,这些AI公司不断派出爬虫去爬取维基媒体上的数据。 这些AI爬虫的流量给维基百科的服务器带来了巨大的压力,因为维基媒体的服务器成本很高,每年都要花费大量的资金来维护,而这些AI公司的爬虫流量占据了服务器的高成本流量中的大部分,这让维基媒体不得不采取措施应对。 虽然维基媒体的核心价值观是让知识能自由获取和共享,但在面对这些AI公司的爬虫时,他们也不得不做出一些调整,他们选择主动上交资源,将英语、法语的维基百科内容托管在社区平台Kaggle,告诉那些AI公司,要资源自取。 不仅如此,维基媒体还针对AI模型的口味,专门优化了资料,他们了解到机器和人类在浏览网页时的需求不同,因此他们把页面做成了JSON格式的结构化内容,让AI更容易读懂每一段的内容和数据,从而降低了AI公司的成本。 虽然这些措施在一定程度上缓解了服务器压力,但AI公司依然会给维基媒体带来不小的困扰,因为AI爬虫依然在不断访问维基百科,即使它们遵守了robots协议,也依然会采取其他手段来获取数据,维基媒体也在不断探索新的办法来应对这个问题,他们尝试使用Web应用程序防火墙来识别恶意爬虫,设置验证码等措施来防止爬虫爬取,但基本上这些办法往往道高一尺魔高一丈,AI公司也会采取更残暴的爬取手段,这场AI攻防战在大模型训练源头就已经打响了,除了技术手段外,平台们也可以和AI公司达成协议合作解决这一问题比如Reddit和推特都向AI公司推出了收费套餐以控制数据访问量但也有一些平台选择与AI公司合作无果后选择起诉例如《纽约时报》起诉OpenAI抓取自家文章的情况也时有发生。 那么为什么维基百科不告这些AI爬虫呢?世超猜测这可能与维基百科本身的开放许可协议有关,维基百科的许可协议非常开放允许任何人包括AI公司在内自由地使用、复制、修改和分发其数据,因此从法律角度来看AI公司抓取、使用维基百科的数据进行模型训练大概率是合法的,而且通过法律手段来限制别人获取资源或许与维基媒体的使命相违背他们的使命就是让地球上的每个人都能自由获取所有知识,因此面对AI爬虫的困扰维基媒体选择把数据整理好给AI公司拿去训练也许是最合适也最无奈的办法吧。

被AI爬虫挤爆服务器的维基百科:投降了