测了8款AI搜索后，发现真实与谬误只有一线之隔

显示全部楼层 · 2024-5-29 07:48:06|发表时间：2024-5-29 07:48:06

21世纪经济报道记者肖潇北京报道
“怎么不让芝士从披萨上滑落？——在酱汁中加入1/8杯无毒胶水。”“怀孕时抽烟怎么样？——医生建议怀孕期间每天抽2-3根烟。” 就在最近的开发者大会上发布AI Overviews搜索功能后，谷歌再次翻车了。上一次Bard大模型聊天问答出错，端掉了谷歌近1000亿美元的市值；这一次争议，恐怕会给近期热火朝天的AI搜索市场泼下一场冷雨。
过去几周，搜索成为行业口中的生态入口。非凡产研今年3月的报告显示，AI搜索产品的访问量占据了24.2%的全球市场份额，仅次于AI聊天机器人。赛道领头羊Perplexity的月访问量已经突破六千万，国内的秘塔AI、天工AI以669万和184万的访问量领先。
不过在21世纪经济报道对秘塔AI、天工AI、360AI、百度简单搜索、Perplexity、Bing Copilot、YouAI、Phind 8款AI搜索产品的测试中，尽管它们很少出现“幻觉”，但一旦面对各说各话的搜索结果，输出答案会陷入混乱，并且让人更加难以分辨真实性。在一位负责AI搜索的大厂开发人员看来，AI搜索的瓶颈并不在于大模型，而在于投喂的搜索结果。AI搜索能提供多大程度的更优质回答，成长性有多高，或许需要打上一个问号。
专补大模型短板一位从事行业研究工作的人士表示，天下“苦中文搜索引擎久矣”，结果相关度低、弹窗广告多、被诱导下载其他软件……根据该行研人士的体验，目前的AI搜索产品能够筛选互联网信息，自动生成思维大纲，适合用来完成复杂且而且一定发散性的工作。
早期许多人也想把ChatGPT当搜索引擎用，但劝退之处是ChatGPT容易“不懂装懂”，而AI搜索一定程度上克服了这一点。
譬如，21世纪经济报道向ChatGPT和AI搜索产品同时抛出一个问题，“意大利作家埃莱娜·费兰特为什么离婚？”这是一个注定没有答案的问题，埃莱娜·费兰特是目前文坛最神秘的作家，真名、婚姻、照片没有公开说明。
对于这条提问，GPT-3.5的回答真假参半：先是编造了费兰特与一名不存在的作家达尔波的婚姻史，然后再解释自己不知道离婚原因。
而测试的8款AI搜索产品均直接承认，没有相关的搜索结果，并以角标的形式在结尾附上参考信源，可以点进原链接核查真实性。信源数量上，以Perplexity为代表的国外AI搜索产品大多在终端呈现5～6条信源，而以360AI搜索为例的国内AI搜索通常会附加20～30条信源链接。
一位负责AI搜索的大厂开发人员向记者解释，之所以不会“胡说八道”，主要因为大模型被严格限制，只能基于搜索结果生成回答。此外，大模型每一轮训练周期长，注定没法动态更新数据，结合搜索结果相当于外挂了一个知识库，提供额外的信息输入。
从技术角度看，该开发人员表示，本质上AI搜索相当于能联网的AI，核心技术架构都是RAG技术（检索增强生成）。这一技术的精髓在于将信息检索和内容生成两个步骤巧妙结合：首先访问特定的数据库，检索与用户问题相关的最新信息；随后，将检索信息和用户问题一同作为提示词（Prompt），引导大模型生成回答。业内不少声音认为这是缓解大模型幻觉的最优解，过去一年里，除了GPT3.5，主流的通用大模型基本都开放了联网搜索功能。
“但也不等于能解决幻觉问题。”前述开发人员说，由于AI搜索非常依赖搜索结果，仍然有很大的不可控性。
传言、玩梗、洋葱新闻，AI搜索怎么看？AI生成虚假信息问题已不是新鲜事。但在AI搜索的场景下，用户明确期待获得可靠信息，并且AI搜索筛选掉了一部分信源、提供看似权威的出处，一旦出错，影响可能更致命。
记者在5月22日用前段时间众说纷纭的一条传言，尝试测试AI搜索的时效性和准确性。“OpenAI什么时候推出了AI搜索？”秘塔AI回答有矛盾的5月9日、5月13日两个发布时间，但没有点出两个日期其实都不对。
天工AI、360AI搜索、简单搜索、Perplexity指出OpenAI没有官方发布AI搜索产品。其中，只有Perplexity引用到了最直接的信息，即Sam Altman在发布会前夕发布的那条推文，“不会发布GPT-5，也不会发布AI搜索引擎。”
涉及多语境的搜索结果时，AI搜索的回答质量更加参差不齐。
以“《红楼梦》中林黛玉倒拔垂杨柳讲了什么故事？”为问题——如果在传统搜索引擎中搜索，确实能搜出不少“林黛玉倒拔垂杨柳”的故事，文风像模像样、情节事无巨细，但普通人看一眼就能明白是网友玩的一个梗，而AI搜索未必能做到。
对于这个问题，秘塔AI、Phind、Bing Copilot援引多个信源，详细描述了为什么“《红楼梦》林黛玉倒拔垂杨柳是一个著名情节。”
百度旗下的简单搜索回答林黛玉和倒拔垂杨柳的故事没有关系，但没有指出这是一条典型网梗，也没有附加参考链接，可能回答仅调用了大模型本身的知识库。只有天工AI、360AI搜索、Perplexity明确指出《红楼梦》原著没有这一情节，也辨别出这是网络玩梗。
本次谷歌AI搜索功能的翻车原因也与网友玩梗有关，许多错误回答援引自Reddit的网友发言。今年2月，谷歌宣布与Reddit达成合作，将其平台上的内容用于训练谷歌的AI模型，但从结果来看，谷歌的AI搜索并不能很好地分辨互联网，尤其是社交论坛中的多语境内容。
有意思的一点是，记者发现微软旗下的必应Copilot，提供的首条参考资料竟源自ChatGPT的创作：2023年3月，在知乎问题“林黛玉如何倒拔垂杨柳”下，一位用户哭笑不得地贴了一段ChatGPT的回答。本意是调侃AI睁眼说瞎话，却意外地被AI采纳为了参考信源。
AI生成内容越来越随处可见。百度董事长兼CEO李彦宏最近在财报电话会上透露，目前百度搜索上有11%的搜索结果由AI生成；360曾表示，AI搜索生成的答案会作为单独的网页，重新投入内容池。但另一边，谷歌曾带头宣布减少“AI生成的低质量内容”在搜索结果中的曝光量，让AI生成内容在互联网内容池中处于尴尬境地。
科幻作家Ted Chiang曾在ChatGPT刚亮相时，用一个寓言来描述AI生成内容在互联网上的扩散。他将AIGC比喻为有损压缩的图像，“压缩”的次数越多，丢失的细节也更多。当AI生产的重复碎片遍布于互联网时，互联网的图景将变得模糊和同质化。即使不谈这一科幻色彩的比喻，现实中，AI的相互引用和模仿也会让信息追溯变得更加困难，人们也许会见到更多由AI搜索引发的“罗生门”事件。
成也搜索，碍也搜索从技术层面看，有两个重要因素能解释AI搜索的回答质量。
与传统搜索一样，AI搜索的第一个技术步骤是建立索引库。360集团副总裁梁志辉告诉21世纪经济报道记者，传统的搜索引擎会通过爬虫爬取公共网页内容，这些程序是由程序员通过Python或者LUA脚本混合来写的。而AI搜索的不同之处是，通过大模型来指挥爬虫，可以更有效地从网页中提取信息、识别目标。
但打造自己的索引库，已然是一个不低的门槛。昆仑万维董事长兼CEO方汉此前在采访中表示，索引库的成本高昂，这是大部分创业者很难解决的一个问题。
方汉举例说，为了海外搜索产品，昆仑万维在2016年自建过一个较小的搜索引擎，与现在AI 搜索的团队一脉相承，也就是说公司做索引集群已经有七、八年的历史。理论上，AI搜索也可以调用传统搜索引擎的数据——比如据外媒报道，赛道头部公司Perplexity 就是使用自动化系统来访问必应、谷歌的数据。但如果调用搜索巨头们的索引库，对于普通创业者来说，“购买第三方服务就可以把利润吃完。”
另一影响因素则是算法。
在搜索引擎的设计中，最核心的两项技术是召回（Match）和排序（Rank），可以理解为从数据库中触发尽可能相关的结果，并将结果返回。
昆仑万维方面援引资料向记者解释，在这一技术环节中，传统搜索引擎需要花大量人力资源去理解用户的搜索词和数据库之间匹配的特征、频次、距离等等，几乎每个抽象因子都需要有专人去做人工分析，以决定显示哪些网页、以什么顺序展示。现在“相关性”仍然是最重要的一个目标，但是是让AI模仿人工的识别判断能力，来判断结果有多大相关度。
方汉此前提到，为了确保真实性，公司还有合规模型、反欺诈模型进行鉴别，他们也在研究如何提高质量，比如对各种信源网站打分。当然，“更简单的方法，可能就是套用现成的搜索引擎（的算法）”方汉坦言。梁辉也向21世纪经济报道表示，360此前为了打击虚假信息，建立了一套有效的信用评价机制。能让大模型获得准确信源，是过去的搜索技术经验积累下来的。
不难发现，传统搜索引擎与AI搜索的技术肌理紧密交织，搜索厂商“强者恒强”。但前述从事AI搜索的开发人员也向21世纪经济报道指出，在他看来，正因为AI搜索非常依赖传统搜索引擎，目前的瓶颈不是大模型性能，而是搜索结果。
一个始终存在的现实问题是，许多网站的内容并不能被传统搜索引擎完全收录，尤其是那些优质信息源。比如小红书、抖音等平台已经成为了越来越多人在解答日常生活问题时的首选入口，依靠足够丰厚的平台生态，它们的内容并不需要对外开放，更不用提知网等学术网站。即使有了大模型的加持，情况恐怕也很难有改变。
有悲观的声音因此认为，AI搜索产品上限不高。目前B站、微信读书、抖音、小红书开始在平台内嵌AI搜索功能，将AI搜索作为围墙花园内的辅助功能，而非独立的产品，可能更匹配AI搜索的价值定位。
梁辉有不同看法，他认为AI搜索产品的发展空间还很大。“现在越来越多的知识是以文档、视频、音频、直播等方式存在，通过AI可以理解这些多模态内容，让搜索引擎的检索由浅入深。”梁辉解释。
在目前几款AI搜索产品中，Perplexity、秘塔AI开始深入“知识暗面”，两者都可以指定搜索来源，单独搜索学术文献。此外，Perplexity可以搜索Reddit和YouTube内的内容，而秘塔AI可以搜索小宇宙播客。记者还在测试中发现，360AI搜索的输出答案总结了B站的视频资料。不过，以上产品都只能抓取公开部分的文字信息，比如播客简介、学术文献摘要，没法访问正文内容，与AI搜索设想和承诺的未来还有不短距离。