乐鱼体育Claude爬虫惹众怒!技术论坛CEO喊话Anthropic:我知道你们

2024-08-05

  Claude爬虫惹众怒!技术论坛CEO喊话Anthropic:我知道你们缺数据,但一天攻击服务器上百万次已无法忍受!

  Kyle Wiens毫不客气地戳Anthropic脊梁骨:嘿,@AnthropicAl,我知道你想要数据。Claude确实很聪明!但你线 小时内对我们的服务器进行上百万次的攻击吗?

  OpenAI最大的竞争对手Anthropic公司,为了让自家大模型Claude获得更多数据,直接用网络爬虫在一天内以百万次的速度访问了名为iFixit的技术网站。

  直接把iFixit网站的CEO Kyle Wiens逼得在X上跟Anthropic对线!

  Kyle Wiens毫不客气地戳Anthropic脊梁骨:嘿,@AnthropicAl,我知道你想要数据。Claude确实很聪明!但你线 小时内对我们的服务器进行上百万次的攻击吗?

  因为在iFixit的服务条款里已经明确写了:“未经iFixit事先书面许可,严禁复制、复制或分发站点上的任何内容、材料或设计元素,包括用于训练机器学习或AI模型。”

  令人愤怒的是,Anthropic并未向iFixit道歉,而是给了他一篇有甩锅意味的博文。博文里写道:“根据行业标准,Anthropic使用各种数据源进行模型开发,如通过网络爬虫收集的公开可用数据。”“我们的爬取不应具有侵入性或干扰性。我们通过考虑在相同域中爬取速度和尊重适当的Crawl-delay来实现最小化的干扰。”

  iFixit的主要通过提供详细的拆解和维修指南,帮助用户自己动手维修设备,从而延长电子产品的使用寿命。

  Kyle Wiens在接受外媒采访时讽刺地说,“我们只是世界上最大的维修信息库而已,他们未经许可偷走我们所有的数据并且在这个过程中把我们的服务器淹没,这也没什么大不了的。”

  Wiens向媒体展示了网站的服务器日志,根据日志内容,Claudebot在几个小时的时间中,每分钟数千次的请求访问。

  显然,爬虫过境会使得激增的访问量不断增加服务器负载,导致服务器响应时间变慢,甚至崩溃。

  Claudebot疯狂起来直接将技术论坛搞到瘫痪数个小时。专注于Linux Mint操作系统讨论的Linux Mint Forums就曾惨遭毒手。

  在ClaudeBot开始搜索和访问论坛后,导致该论坛在几个小时内性能极差,并最终导致了访问的中断。直到爬虫被防火墙阻止后,论坛性能才恢复正常。

  Linux Mint Forums恢复后在声明中说:Anthropic正在通过免费搜索网站来训练AI。他们这样做会给网站带来大量额外负载,这实际上是一种 DDos 攻击。

  因此,有人直接评价Claudebot为“近年来,在我的服务器上遇到的最惹人烦的爬虫机器人”。并说将屏蔽一切与Claude有关的内容。

  这篇帖子引起了广泛的共鸣,有人回应说,“我不介意通过爬虫获取数据来改进模型,但我绝对无法忍受这些公司荒谬的虚伪行为。

  包括Claude在内的所有顶级模型都会警告你不要在输入中使用受版权保护的文字。人工智能模型本身也会告诉你这一点。

  然而,这些公司在训练它们的模型时,却公然无视版权。这种 只许州官放火,不许百姓点灯 的情况实在令人恼火。我还讨厌的是,反人工智能的人群大动干戈,试图压制其他穷人使用人工智能。因此,来自上层(公司)和下层(饥饿的艺术家)的双重压力都在压制其他穷人使用人工智能。这太愚蠢了。”

  就像Anthropic硬气声明自己是遵从“行业标准”那样,通过网络爬虫收集的公开可用数据是通用做法。所以,即使网站已要求其服务条款中的内容不得被抓取,但通常没有任何作用。一个对抗LLM爬虫的通用做法是设置robots.txt文件。

  以下是一个robots.txt的设置(部分),感兴趣的朋友可以移步查看代码解析:

  然而,这是一种防君子不防小人的应对策略——只有行为良好的爬虫会遵守这些指令,而ClaudeBot显然不在此列。

  Reddit上有网友证实了这一点“我听出版商说,ClaudeBot 会忽略 robots.txt 说明。在 Anthropic 被亚马逊或其他担心诉讼的大公司收购之前,你能做的不多。”

  也有人向Kyle Wiens支招:可以故意设置一些假的 fixit帖子,这样你就能追踪到是谁盗用了你的数据。例如发一个提问。


本文由:乐鱼app官方网站提供