被“霸道”的知网控诉侵权,秘塔AI不妨再多讲几句

最近,秘塔AI搜索的用户在打开网站时会发现顶端有一行醒目的文字:“完蛋!我们收到了知网28页的侵权告知函”。点开是秘塔的一份声明,其表示收到《中国学术期刊(光盘版)》电子杂志社有限公司侵权告知函——也就是此前先后因涉嫌垄断行为和个人信息安全等问题被罚8760万元和5000万元而争议不断的知网,向它发出了侵权指控。


简单地概括,秘塔AI搜索能搜到知网的内容,知网认为这是一种侵权行为,要求立即停止在搜索服务中提供中国知网的数据。“我司不希望我司网站中国知网被秘塔科技搜索到,请立即断开搜索结果到我司网站的链接。如需商务合作,请与我司联系。”秘塔科技在这份声明中回应,秘塔AI搜索的“学术”版块仅收录了论文的文献摘要和题录,并未收录文章内容本身,阅读正文需通过来源链接跳转至网站获取。而依照学术规范,文献的摘要和题录应具有独立性和自明性,能够使读者不阅读全文就能获得必要的信息。目前秘塔学术搜索的部分链接会跳转到万方数据。秘塔AI同时强调了知识的价值在于流动,学术文献汇集了人类智力成果的重要载体,具有极强的不可替代性。科学文献若成为一种奢侈品,既不利于知识的公平获取,也不利于科学研究的发展。不过从人类智慧到学术追求谈完后,秘塔给出的行动是“断链”:“即使不理解,但我们也尊重知网的选择。”从即日起,秘塔AI搜索将不再收录知网文献的题录及摘要数据,转而收录其他中英文权威知识库的文献题录及摘要数据,也欢迎其他数据库来合作探讨。也就是秘塔最终按知网的申诉要求做了处理。

秘塔AI搜索是这一轮AI热潮里的明星产品,经常被比作中国的Perplexity。秘塔也是这一轮大模型创业公司里的明星公司,最新消息显示,其完成了一亿元的最新融资,投后估值1.5亿美元。秘塔成立于大模型热潮之前,但核心产品秘塔AI搜索是在今年3月正式上线。知网的侵权通知中称秘塔向用户提供知网的学术文献题录及摘要数据,涉嫌侵权。对此,上海大邦律师事务所高级合伙人、律师游云庭表示,网页不同于论文,知网的学术文献题录及摘要网页都是国内用户公开可以访问的,知网作为在中国境内中文学术文献网络数据库服务市场具有支配地位的经营者,其不允许秘塔搜索抓取这两部分公开信息需要有合理的理由。本质上,知网是要求秘塔不要对其网站进行爬虫。而在传统搜索引擎的生态里,这样的信息抓取爬虫行为有基本的规则——各个网站和各种信息提供方通过一个Robots.txt文件来告诉搜索引擎哪些内容可以抓取,哪些不行。而像百度、谷歌等搜索引擎会在这个过程中把自家的爬虫进行命名,让对方知道自己来过,拿走了什么。但从知网的Robots.txt文件来看,它没有针对任何爬虫做屏蔽。“有意思的是,虽然知网给秘塔发函要求断开链接,也就是不允许其抓取网页内容,但其robots文件(https://www.cnki.cn/robots.txt)却并没有禁止任何搜索引擎爬虫,根据知网的robots文件内容,不禁止任何人抓取他们网页,只是cms、query.html?*、 report、paper、qrcode、js、cs这些涉及后台管理界面、静态资源目录和特定内容目录网页不能抓取。”又没从行业规则上禁止对方爬取,那为何还要发告知函?游云庭表示。其实这些匿名爬取不一定都是以这些AI搜索公司之名展开。市面上有很多第三方的爬虫服务,以各种方法绕开这些基本准则进行爬取。而是否使用了这些服务,在秘塔的回复中没有提到。在此前Peroplexity也已遇到了类似的争议。当时连线杂志和开发者Robb Knight 调查后发现,Perplexity并不遵守robots.txt 标准。而创始人Aravind Srinivas在一次采访里回应说Perplexity 并未无视机器人排除协议(Robot Exclusions Protocol)……被调查发现有问题的网络爬虫属于第三方供应商。但被问到是否会停止使用第三方爬虫时他只是表示“这很复杂”。此外,当时这个调查还显示,在某些情况下,Perplexity 可能并未总结实际的文章,而是根据 URL 和搜索引擎中留下的痕迹(例如摘录和元数据)重建内容。似曾相识。根据秘塔发布的文章,知网向秘塔发送的侵权通知长达28页。秘塔仅截取了告知函发布出来,而从发的的截图来看,剩下的内容主要在罗列侵权的证据,这些内容可能不只是展示各种摘要和标题被爬取的情况。根据不少用户此前的分享,秘塔是能获取到非公开论文的,而且,可以在秘塔的网页直接阅读,这些PDF文档虽链接到外部文库网站,实际可能存储于秘塔服务器。游云庭认为如果秘塔建立了包含知网论文全文内容的索引库,可能构成侵权。“秘塔AI搜索的播客和文库板块是有索引库的,我理解的索引库可能是秘塔把批量收集的文献事先直接在内部做了一个索引数据库,当用户搜索时,秘塔会搜索网络对应的实时内容,然后利用人工智能把实时搜索结果和索引库的内容整合在一起提供答案。”游云庭说。也就是虽然核心的展示结果页面对索引以标注来源形式呈现,但同时在自己的服务里把“原文”也搬了过来。“索引库很可能是真实存在的,其实这个技术上也不难证明,我们代理诉讼时碰到此问题,通常用抓包软件显示该文档的真实ip地址。如果这个ip地址位于秘塔的服务器,则说明是秘塔提供的。”此外,作为使用预训练模型为基础的AI搜索引擎,在训练数据里是否用到了这些有知识产权的数据,则是更重要的问题。当训练里的论文数据因为模型通常会存在的“过拟合”问题而导致最终给用户输出内容时与原文高度一致,这就从合理使用进入了类似“洗稿”的著作权侵权范畴了。但在这样的情况下,知网有权对这些由个体研究者们撰写的论文“维权”么?“知网无权主张秘塔训练版权侵权。”游云庭认为。他表示,知网站内的多数论文虽然被收录,但知网拥有这是杂志社或作者授权的信息网络传播权,如果该论文被用于训练,训练涉及的版权是著作权法规定的复制权和著作权其他权利,并不侵犯知网的信息网络传播权。当然如果是杂志社维权秘塔训练侵权的,那么秘塔将面临《纽约时报》起诉OpenAI一模一样的问题。所以,秘塔们要“回应”的对象其实不只是被网友评论为“万恶”的知网。除了对知网作出回应——这些回应总能引发共情,从…

原文链接

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

被“霸道”的知网控诉侵权,秘塔AI不妨再多讲几句

https://www.gptnb.com/2024/08/21/2024-08-20-auto4-3B8wkS/

作者

ByteAILab

发布于

2024-08-21

更新于

2025-03-21

许可协议