人工智能公司非法窃取网络资源？

草根影响力新视野(琪拉编译)

据《华尔街日报》最近发表的一篇报导称，《纽约时报》已向由Amazon 杰夫·贝索斯支持的 Perplexity新创公司发出了一封禁制令，要求这家人工智能新创公司立刻停止使用纽约时报上面的内容，以训练自己的AI数据库。

该报在其法律信函中写道：“Perplexity 及其商业伙伴在未经许可的情况下使用泰晤士报(The Times)富有表现力、精心撰写、研究和编辑的新闻报导，从而获得不公正的利益。”并限期在10 月30 日前Perplexity要完全停止其行为。

纽约时报指责 Perplexity 规避公司使用的反截取和反机器人措施。它们设置的robots.txt 页面明确禁止“PerplexityBot”（该新创公司的抓取机器人），尽管尚不清楚Perplexity 是否也使用其他方法或其他中间方法来间接从该网站的内容中提取内容，例如预先收集的资料集。然而，Robots.txt 页面的守则是可以被打破的。因此，即使一个网站有设置Robots.txt“坏”机器人仍然可以从中截取内容。

作为回应，Perplexity 执行长 Aravind Srinivas 表示该公司希望与《纽约时报》合作。斯里尼瓦斯告诉《华尔街日报》：“我们非常有兴趣与包括《纽约时报》在内的每家出版商合作，我们没有兴趣成为这里任何人的对手。”

Perplexity 代表透过电子邮件告诉 PCMag(该网站也设置Robots.txt) :“我们相信透明度，并在我们的网站上设有公共页面，阐明我们的内容政策以及我们如何使用网络内容，我们并不是为了创建LLM而抓取数据，而是对网页进行索引并显示内容作为引文，以便在用户提出问题时提供回应。”

图片取自:(示意图123rf)

6 月，Perplexity 告诉 PCMag网站，其Perplexityt“尊重 robots.txt”。由于该机器人在 Amazon Web Services 上运行，Perplexity 还表示，抓取机器人不会以任何违反 AWS 服务条款的方式进行爬网行为。

但一些科技和人工智能公司也采取了这样的立场，使用爬虫技术抓取他们想要的任何网站的内容都构成版权法上面的“合理使用”行为，并没有侵害版权，尽管这一点尚未在法庭上得到证明。许多人工智能公司可能也迫切希望免费窃取人类产生的任何新鲜资料。一位教授警告说，人工智能公司用于训练聊天机器人的文字正在大量耗尽中，因此它们需要更多第一手人类大脑产出的资料。

无论 Perplexity 说它在做什么或没有做什么，新闻媒体都不满意。拥有《连线》、《纽约客》和《Vogue》杂志的康泰纳仕集团先前曾向 Perplexity 发出警告，称其一直在抓取其网站并利用这些内容谋取自身经济利益。《富比士》也向这家人工智能公司开枪，指责其盗窃并根据《富比士》文章编造“山寨故事”。

其他人工智能公司也因未经同意或付费而使用受版权保护的内容而受到批评。尽管许多人继续在网络上搜寻信息，但有些人也决定与新闻媒体达成内容授权协议。像是美联社、大西洋月刊、金融时报、Semafor、Business Insider、Dotdash Meredith、Vox Media，甚至《华尔街日报》本身都是各自领导人或母公司达成的人工智能授权协议的一部分。

然而，其他新闻媒体正试图让人工智能公司对未经许可窃取其内容的行为负责。《纽约时报》在去年年底对 OpenAI 和微软提起诉讼，目前仍在审理中。今年 4 月，《橘郡纪事报》和《纽约每日新闻》等六家多家报纸也以类似理由起诉 OpenAI 和微软。

资料来源：https://www.msn.com