张红超|微软 ChatGPT将迎战谷歌 Bard,搜索引擎将迎来变革_OpenAI_信息_语言

谷歌在ChatGPT来势汹涌时完全惊慌失措。 OpenAI推出ChatGPT的时间也只有四个月前了。当时的设想是,通过这个新的搜索引擎,可以让用户从海量的互联网中快速找到所需的信息,并且能及时了解最新动态。但四个月的时间,已有许多预言,说C

谷歌在ChatGPT来势汹涌时完全惊慌失措。

OpenAI推出ChatGPT的时间也只有四个月前了。当时的设想是,通过这个新的搜索引擎,可以让用户从海量的互联网中快速找到所需的信息,并且能及时了解最新动态。但四个月的时间,已有许多预言,说ChatGPT引起了变化,它将颠覆谷歌原有搜索产品及商业模式。

于是,谷歌CEO桑达尔·皮柴(Sundar Pichai)开启“战备”状态:首先,ChatGPT出现不到两个星期,“红色警报”便被拉响,随后,创始人拉里·佩奇与谢尔盖·布林在3年后又被紧急召回。

如今的皮柴,更有官网的说法,谷歌从今天起就开始开发一个实验性对话AI服务Bard,谷歌会向那些值得信赖的开发者们公开,那么,未来数周,将其面向更多观众。

谷歌最终加入到这一场由智能聊天机器人发起的搜索引擎大战中。

一、谷歌宣战

谷歌的第23号员工,2月1号,Gmail创始人保罗·布赫海特发推悲观,谷歌将在一两年之内完全颠覆——而当搜索需求可以封装时、语义上明确的回答就满足条件,搜索广告将失去生存的空间。而谷歌则占领了全球近84%的搜索市场,至今仍是50%营收,直接来源于搜索广告。

图源:推特

看着ChatGPT掀起的战火,烧进自己的主场,谷歌最终做出了回应,今天公布了一个类ChatGPT,一个实验性对话AI服务Bard。

皮柴今天在一篇博文中说道,谷歌总是想借助大语言模型的力量,将这些深入的研究与突破转化为产品,以助益人。两年前,谷歌推出了大语言模型LaMDA,谷歌便以LaMDA为平台研发Bard。

如今,谷歌首先会向那些值得信赖的开发者们开放这一服务,并在未来数周内向更多的观众公开这一服务。

谷歌强调指出巴德将结合全球范围内信息知识以及谷歌大语言模型产生的能力与智慧,从网上获取信息,以提供新鲜事、高质量答复。这表明,与ChatGPT限于2021年前的资料有所不同,巴德会根据实时网络数据,谷歌即将结合LaMDA轻量级模型版本推出。

根据博文中照片,Bard与ChatGPT一样,都属于聊天框形态,能够做到的,除了把繁杂的话题简单化,例如”给9岁小孩讲解NASA韦伯望远镜所带来的新发现“,也可以帮人完成复杂的工作,其中就包括”项目朋友新生儿派对“、”对比奥斯卡所提名的两部影片“和”,根据冰箱中的食物,给出了一些午餐点子。”。

图源:谷歌

谷歌认为这种小很多的模式对算力的要求要低很多,由此可推广至更多用户,得到更大的回馈。他们把外部反馈和自身内部测试结合起来,为了保证Bard答案在于品质、在安全性,真实信息等基础性上实现了高标准。谷歌想在现阶段过关,以改善Bard品质与速度。

皮柴也在自己的博文中表示速度非常快,谷歌也即将把以AI为基础的特性集成到搜索当中。除了象ChatGPT那样,它能把错综复杂的资料,从各种角度提炼出通俗易懂的答案之外,谷歌也会提供更多的网页信息可供选择。

然而从硅星人得到的信息来看,Bard大部分由华人团队开发,而此次推出Bard,也略显赶脚,对内谈不上有充分的心理准备,因此,才有了目前针对有限开发者而提出的方式,而非像ChatGPT一样,最初向公众公开。

与此同时,谷歌内另一层害怕ChatGPT的理由,就是人才流失。同许多企业一样,谷歌的内部同样是赛马制,几个制作相似型号的小组,但内部其它大语言模型团队向OpenAI流失人才的情况比较严重。

当然了,无论内里有多么着急,皮柴起码在博文中自信地公布了下月,谷歌会着手允许个人开发者的工作、创作者和企业尝试自家的生成语言API(Generative Language API),这个API将在一开始得到LaMDA的支持,并且还有一系列的模式供大家选择。“我相信这将是一个非常重要而又极具挑战性的工作,因为它将对未来人工智能发展产生深远影响。”“随着时间的推移,我们打算创建一套工具和API,让其他人可以轻松地使用AI构建更具创新性的应用程序。”

同时ChatGPT研发者OpenAI的幕后金主微软也是如此,还紧张地想将ChatGPT集成到他们的产品里。

微软正和OpenAI商谈一项价值100亿美元的计划,并且于今年年初爆出打算把ChatGPT加入其搜索引擎Bing,搜索结果会第一次被展示成一个包含信息来源的整句话,新版将于今年3月份前后推出。

而且是皮柴发博文后没多久,微软便宣布明天举行发布会,主要是有关微软与OpenAI之间的关系,并将ChatGPT与微软Bing搜索集成。

和以往所有危机不同,长达二十多年之后,谷歌搜索根基首次遭到质疑。它已经开始意识到,在搜索引擎中,只有那些真正能够为用户提供高质量内容的网站才能获得市场认可和消费者青睐。若干年后,“Google it.”是否将让位于“ChatGPT it.”?这不是一个问题,而是一个让人感到振奋的话题。这里令人激动。因为它的成功已经证明了互联网的强大力量。Bing与百度都希望能追到谷歌,谷歌不想变成雅虎。

谷歌今年搜索霸权是否将受到撼动?

二、搜索停滞不前

就让我们的视线先回到谷歌产生之初吧。

拉里·佩奇,谢尔盖·布林,千禧年来临之际,闻到互联网繁荣即将到来,信息检索陈旧逻辑的缝隙,贯穿谷歌一生的算法Page Rank应运而生。

上世纪90年代互联网只是个被世界上最多人接受的先锋概念。当时的搜索引擎主要是通过对网页进行人工分析和处理来获得信息,但随着互联网用户数量的不断增加以及用户需求多样化的发展,这种传统的方法已经不能满足人们日益增长的检索需求。网络资源缺乏,雅虎即使是通过手工录入,也足以树立互联网搜索的原始理念。随着搜索引擎和数据库技术的发展,人们对互联网信息资源进行检索时需要从大量网站中找到自己感兴趣的网页。1995年Alta Vista出现,在互联网史上,首次出现全网页内容索引工具,后者首次设计了爬虫技术(web crawl),并于1995年8月全面完成首次网络爬取。

图源:源于网络

然而,以Alta Vista为首的检索工具对检索关键词与索引结果的关联分析还十分薄弱,这主要来自搜索工具原来受用人群。因此,本文从研究对象和方法两个角度探讨了搜索工具使用的现状,并提出相应建议。互联网普及前,信息搜索仅仅是为文献查找服务的一种手段,它的构架长久地基于学术圈中基于关键词加权平均的信息搜索逻辑之上。

极端理性,表达准确的学术内容搜索逻辑不适合互联网信息抓取。在搜索引擎中,用户通常会通过对关键词进行人工筛选来获取所需数据,这种方法虽然可以快速找到所需信息,但是也有一些缺陷。体现为Alta Vista的,是其可以检索出丰富的资料,但是准确性很低。

唯有拉里·佩奇发现互联网信息间关联性的潜在使用价值。

他把互联网设想为多节点矩阵,每个页面为“点”,网页间超链接关系为“边”。如果在某一特定时间内,某个网页上出现了多个不同类型、不同数量的超链接,那么该网站就有可能成为“异常点”。指向某个页面的超链接数量越多越好,那么,该页面的评价就会越高,在此过程中,各页面在统一标尺上可发现重要性参数。

图源:推特

这种对后来知识图谱技术乃至图计算最初的畅想,是算法首次以思维的形式进入搜索领域。

受互联网发展阶段制约,雅虎与Alta Vista无法生成算法思维,Page Rank取代Alta Vista成为“搜索”历史上最闪亮的时刻。

但是到目前为止有关“搜索”方面的一切变化也都在24年前Page Rank出现的那一刻结束。

无论是2001年出现的百度,2009年出现的Bing(当然也包括使用Bing核心搜索技术的雅虎),都再没逃脱过以Page Rank为核心构建起来的逻辑框架,即将用户开放性问题转化为互联网信息图谱中存在关联性优先级问题、一种更为特定的方案扩列,又为用户进行筛选。

2021年新兴的搜索引擎You.com,最大卖点只是集成式地将推特和其他平台搜索结果分门别类地纳入信息搜索结果,并给予用户对信息来源平台部分权重设计的能力。

在搜索的发展停滞中,这样一个“谷歌挑战者”就足够获得2000万美元的种子轮融资。

在中文互联网的世界中,任何综合搜索引擎都不可能再得到长久的兴盛,倒是被移动互联网这个信息孤岛压得喘不过气来,微信与字节跳动推出了更加垂直搜索服务,开始抢占百度内容盲点。

与You.com相似的搜索引擎在我国在短期内还不可能出现,有百度后悔之处。而且不管是抖音搜索,还是微信搜一搜索,也没有一个人在搜索技术效率方面有超过百度的雄心。在自有生态中,一个内容连接器的作用已经成为此类垂直搜索服务中的最高限度,其实质是新兴互联网巨头顺应自身商业逻辑进行的一种模式创新,而不是技术创新。

因此,抖音搜索对于抖音来说是很重要的,而对于“搜索”来说则是无关紧要的。

2002年加入谷歌并主导设计后者日中韩文搜索算法的吴军在2012年出版的《浪潮之巅》中这样描述Page Rank:

“虽然今天Google和其他搜索引擎相比当初的Google已有了长足的进步,但是这种进步基本上属于量变。搜索引擎领域迄今为止的质变只有Page Rank取代Alta Vista那一次。”

这一判断在ChatGPT以生成式搜索面目示人之前还不算过分。

三、未必颠覆一切

ChatGPT能够编写代码、需求文档乃至整个办公软件AI化的雏形,但是大多数人不需要这一切—正如大多数搜索引擎用户只需要一个简单问题一样,那就来个回答吧。

所以抛开这一切,ChatGPT相对于谷歌(或者百度)的最大优势,正是它能够—近乎毕其功于一役—产生出质量极高的第一条信息结果。

康乃尔大学研究人员曾利用眼部追踪实验,对谷歌搜索结果进行准确的用户行为分析。该数据来自于一个名为“搜索”的社交网络中用户的点击记录。分析结果表明,第一个结果得到56.38%搜索流量,第2条,第3条成绩排序依次递减,却远远不及排在首位的成绩。

图源:Search Engine Journal 图源:Search Engine Journal

这非常考验ChatGPT所产生的内容是否准确,在这种大规模语言模型后面隐藏着信息来源和即时性黑箱。

由于ChatGPT的回答中并不展示信息来源,用户目前无法从回答中分辨信息真伪。

就即时性而言,ChatGPT不管是采用经常添加标注数据和一次又一次地重新训练模型预训练,或者采用Fine-Ture思想,对现成训练结果进行修正,都将面临着新问题。本文通过一个简单案例,分析了现有模型存在的一些不足。前者在算力上成本巨大,后一种情况就是新知识过多地覆盖了原知识的潜在危险。

ChatGPT在搜索领域是一场苦口婆心的效率革命,视为“导弹”降维打击“弓箭”。在搜索引擎中,“点击-显示”模式已经成为人们使用最广泛、效果最好的操作方式之一。但是如果Page Rank还是算法逻辑首次进入搜索领域的话,ChatGPT亦未偏离此技术原点。

ChatGPT的成功基于一场以1万个英伟达V100 GPU支撑、利用深度学习与人工智能,在人类信息历史上一遍又一遍地咀嚼苦功。它的出现并不是一蹴而就的,而是在不断地探索中前进,而非像某些人所认为的那样是一次技术革命或颠覆性创新。从这一观点来看,至今仍以渐进式为主,不是彻底颠覆者。

而且即使是谷歌自己也不会对ChatGPT在技术上取得的成就感到惊讶,

去年开发者大会的I/O,谷歌演示大语言模型LaMDA是怎样以冥王星为对话主体与他人沟通的,这个答案就是瞬间产生的,不是学了很多预定义。大语言模型LaMDA与多模态多任务模型MUM显示出的品质,意味着谷歌拥有了接近ChatGPT的AI能力。

图源:源于网络

而令皮柴紧张不已,ChatGPT上线五天,成功吸引超过100万用户,两个月后,这一数字上升到1亿。

OpenAI成为首个吃螃蟹者,公众也接受。

而一个大公司,市值突破1.4万亿美元,注定要比小创业公司保守得多。

几个月前,谷歌人工智能负责人杰夫·迪恩对员工说,如果通过(ChatGPT)等业务来提供错误信息,它将使谷歌面临更大的“声誉风险”。

去年,谷歌一位资深工程师公开表示,大语言模型LaMDA“自觉而有灵”,当即责令停职。在暂停工作的前一天,他将载有谷歌和其技术据称存在宗教歧视行为的某些证据提交给一位美国参议员。

各种麻烦使得谷歌甚至拥有一个大型的语言模型——LaMDA,也不能动不动就甩出个可能乱说话的人,又易撼动其商业化根基,聊天机器人应运而生。

但是Open AI却能冒这个险。

这看上去像是拉里·佩奇与谢尔盖·布林曾为雅虎做过的事情。如今多年后又因搜索业务出现在谷歌硅谷办公室要面临的问题,是个充满魔力但依然算力成本的烦恼笼罩着的人,产生内容满是漏洞ChatGPT,两个人可能会从Open AI鲁莽的行为中,看到从前的他。

1997年,拉里·佩奇和谢尔盖·布林在买下google.com域名后,提着贫穷叮当响西装口袋,给谷歌寻找一年投资,最终于1998年与斯坦福的校友们相识、太阳公司创始人安迪·贝托谢姆签发的10万美元支票。

今时今非昔比,据CB Insights市场情报,涉及生成式AI概念的初创公司数量已超过250家,在这些公司中,近七成已获得了至少天使轮融资,其中11%已走到B轮及以上。这些创业公司主要包括了人工智能,大数据和机器学习等领域的专家,他们希望通过自己的努力来改变我们生活方式和工作模式,并为企业带来新的发展机会。在这些大量的初创公司当中,其中最值钱的是OpenAI。

这张陈年10万美元支票为互联网搜索引擎开启了大门,而现在大家对ChatGPT充满了自信与期待,还差点从那只成功谷歌继续。

谷歌最近还拿出3亿美元,预先布局和OpenAI攻守战。这一投资是交给Anthropic的,那家公司的前OpenAI核心员工是中坚力量,一样制作生成式AI,并且此前估值已高达50亿美元的人工智能公司——换取了后者10%的股份,和独家云提供商地位。

另外,谷歌还选择了在内部进行类ChatGPT项目Bard压下重新注入。

有别于ChatGPT,在叙述时,Bard能涉及到当前时事,这就决定了它能够很好地解决ChatGPT缺乏信息即时性的问题。

百度“ChatGPT计划”还会采取生成式搜索方式。当前对内“高度机密”,连公开的议论都没有,最后,这一项将被整合到当前百度搜索引擎。

去年底,李彦宏发表内部讲话,AIGC,ChatGPT等新技术进展将成为何种AI产品,

还存在许多不确定性,但是,此事却“百度一定要做到”了。对这项将于下月问世,李彦宏给的定位是“主导搜索体验代际变革”。

如今不管是主动或被动,蝴蝶效应都已经出现。

在“搜索”这片平静了二十多年的湖面上,有颗石子久别的被抛掷下来。

本文来自投稿,不代表长河网立场,转载请注明出处: http://www.changhe99.com/a/WZ6PqAjxr8.html

(0)

相关推荐