这个来自中国的知识提取引擎,看起来比百度还好用一丢丢

  • 时间:
  • 浏览:2
  • 来源:彩神8快3

转载:品玩 光谱

作为文字工作者,我每天就有跟搜索引擎打交道。

比如在写 Facebook 的财报新闻时,Google 能还可不可不都可以了别问我它的实时股价、市值、近期高低点等非常有用的信息。

但确实,还有原先工具比 Google 更好用,那以后 Wolfram Alpha。它比 Google 更进一步,能还可不可不都可以了用行态化的办法直接列出我不可能 都要的知识。

举个最简单的例子:他家深层是 75Mbps (9.375MB/s),要下载有一个 多多50GB的文件都要多久?我想直接用自然语言询问,Wolfram Alpha 不仅会别问我答案,就有写出公式:

它不仅是有一个 多多数学工具,还是有一个 多多很好的知识聚合工具。比如最近电影《小丑》很火,不可能 我想写关于它的文章,上 Wolfram Alpha 一搜就能找到血块细节,包括何必 限于影片信息、排名和票房等。

准确来讲,Wolfram Alpha 何必 有一个 多多搜索引擎。它的官方定义叫做“计算式知识引擎”,能还可不可不都可以了用来回答那些太难公开答案,咋样让计算一下即可得到的现象。咋样让,它用行态化的办法去展现答案,而就有像搜索引擎那样,把链接一根一根列出来。

接下来介绍今天文章的主角:Magi,有一个 多多最近几天在我的技术圈当有人当有人 上边小有名气的工具。

Magi(网址 https://magi.com)看起来也像是有一个 多多搜索引擎:

咋样让咋样让玩上一次,就会发现,它和你印象中的所有搜索引擎都大不相同。

当我用它搜索词条“易烊千玺”时,得到了下面的结果。

首先,答案提供了对易烊千玺的哪2个关键描述,如“TFBOYS的成员”、“00后国民偶像代表”等。紧接着,它列出了关于词条主人的几乎完全的重要属性,包括由他出生年月、参演的影视作品、发表的音乐专辑等。

答案的行态化展现办法,和 Wolfram Alpha 颇有例如。

甚至连千纸鹤(易烊千玺粉丝代称)的应援色都答了出来

更有趣的是,magi.com 还答出了易烊千玺的哪2个近义项,比如他的昵称、代称和他所养的宠物等等。

有后后,Magi 还能给出咋样让 令我忍俊不禁的结果……

输入了一下“新世纪福音战士”。答案的描述含高“业界有名的劳模”……

又搜了一下小岛秀夫,答案里的“专长”一项我也是醉了……

接下来搜了一下富坚义博。

不可能 不可能 职业生涯中大每项时间就有拖稿,magi.com 别问我富坚的业余爱好是“画画漫画”……

当然,大每项后后 magi.com 给出的答案还是比较靠谱的。

搜索到的答案,一根小就有用以绿、黄、红五种颜色表示其可信度从高到低;在答案的右侧则会提供哪2个链接,用鼠标划过它们即可看到,答案是从哪个/那些具体的来源学习到的:

我想要注意到,magi.com 的结果中,答案在正下方,链接跑到了右边,跟主流搜索引擎的用户界面完就有反的。

这以后 Magi 和主流搜索引擎最大的区别所在:链接对于它就有结果,答案才是。

这是不可能 Magi 何必 搜索引擎(尽管具有咋样让 搜索引擎的功能)。它实际上是有一个 多多基于机器学习的知识引擎,都都还可不可不都可以检索和提取任何领域自然语言文本,将其中的知识提取出来,形成行态化的数据。

说得简单咋样让 :

当有人当有人 都知道,互联网上有着血块的,基于文本的信息,当含高高着咋样让 的知识。然而,计算机读不懂互联网上大每项的信息,不可能 那些信息往往就有以“性别:男”、“国籍:中国”原先的行态化行态,以后以自然语言的行态再次出现的。

比如,”埃菲尔铁塔的深层“是有一个 多多入门级的现象,不可能 早已有人分派出了正确的答案,写在维基百科和旅游网站上;咋样让想知道“埃菲尔铁塔的第二节电梯线路有多长”,就太难在搜索引擎上查到准确信息了。这是不可能 很少有人会把那些细节的数据,以行态化的办法记录在互联网上。

这以后 Magi 我想要补救的现象:从开放领域的纯文本当中提取知识,并让其可解析、检索和溯源。

Magi 来自中国团队 Peak Labs,创始人季逸超在开发者圈子内也小有名气。2011年,还在北大附中读书期间,他就独自完成了猛犸浏览器 iOS 的开发。次年,他只用两天时间就完成了 Rasgueado,第有一个 多多支持划动手势控制光标位置的 iOS 输入法

2012年,季逸超创办了咋样让 人的公司,继续推动浏览器和输入法项目。目前,Peak Labs 主要精力都放上去 Magi 项目上,专注于身后的技术,以及相关商业产品的开发。

上边:季逸超

Peak Labs 并太难计划将 Magi 和 Google、百度例如的主流搜索引擎相提并论。把 Magi 做成有一个 多多“搜索引擎”,主以后为了让公众有不可能 都都还可不可不都可以体验它身后的技术,感受它都都还可不可不都可以提供的价值。

即便太难,看起来很像搜索引擎的 magi.com,实力还是不容小觑。事实上,为了例如示范性质的产品,Peak Labs 并太难选者小聪明的办法,从咋样让 搜索引擎抓取结果,以后从零开发了一套互联网搜索引擎。

”当有人当有人 的结果的摘要比一般的搜索引擎都长,是的,当有人当有人 是故意为之。这足以证明当有人当有人 的结果不不可能 来自咋样让 搜索引擎,“季逸超在官网上写道。

根据用户输入现象、关键词和表达式的不同,magi.com 能还可不可不都可以了用不同的办法来呈现答案——具体的呈现办法也展现了 Magi 系统的能力。

比如,输入“打车软件公司”,Magi 系统能还可不可不都可以了把它知道的所有手机叫车公司,以“集合”的办法列在答案里。

而在百度上,得到的结果如下。能还可不可不都可以了看到百度的知识图谱也提供了例如的结果,以后看起来有四、五年太难更新过了:

再比如,不可能 输入“八角 大料”,Magi 系统会发现例如个 多多关键词确实是同有一个 多多东西,它就会以“断言”的形式给出答案。

如下图,magi.com 别问我,八角和大料是“近义项”,是“又称”、“也称”的关系。

Magi 系统能还可不可不都可以了24小时不间断地进行学习。它的时效性也还算不错,Peak Labs 宣称实时新闻当中的知识,Magi 只都要 5 分钟就能还可不可不都可以了掌握,咋样让还能还可不可不都可以了采纳新的信息源进行交叉验证,实现自动纠错。

不可能 你在 magi.com 的首页守候一会,就能看到它当前正在学习的链接:

除了自主开发的全网规模搜索引擎以外,Peak Labs 还开发了基于注意力机制的神经信息提取系统,不依赖无界面浏览器的分布式抓取系统(爬虫系统进程 MagiBot),以及支持混合补救170多种语言的自然语言管道。

这四者结合在一起,才是 Magi 系统的全貌。

作为 EVA 粉,这里不得不打断一下:Magi 以及它的五个子系统,名称完全来自《新世纪福音战士》(EVA 五种取材自圣经等咋样让 西方宗教经典),咋样让命名里就有彩蛋:

Magi(三贤者,多个系统组成的超级计算机)

搜索引擎 Ramiel(雷天使,)

神经信息提取系统 Ireul(恐怖天使,拥有学习和进化能力)

自然语言补救管道 Arael(鸟天使)

爬虫系统进程 Matarael(雨之天使,外貌像蜘蛛)

Peak Labs 在官网指出,目前的 Magi 技术还太难完全成熟图片 图片 的句子是什么的句子的句子期图片 期图片 。

确实太难。目前通过 magi.com 能还可不可不都可以了观察到咋样让 现象,比如好多好多 能还可不可不都可以了在主流搜索引擎中轻易找到的答案,magi.com 给什么都越来越来(通常是不可能 它还太难学到);

比如搜索“世界上最富于的人”时,我我想要的是 Magi 能别问我当前谁最富于,但它还可不可不都可以了别问我最富于的那有人:

比如消歧义的把控,容易原因分析分析答案混乱(例如点季逸超咋样让 人在知乎上[1]就有所提到):

隔壁老王不大不可能 有了你的亲戚

再比如,碰到咋样让 确实太“僵化 ”的词条,magi.com 就凌乱了……

不过正如前面提到,例如搜索引擎并就有 Peak Labs 的最终产品——当有人当有人 的真正目的,是借助搜索引擎身后 Magi 系统的力量,提供企业级的服务。

Peak Labs 的官网指出,当有人当有人 希望未来的 Magi 系统都都还可不可不都可以成为“知识领域的 ImageNet”。它不可能 展示出的开放领域信息提取能力,能还可不可不都可以了应用到企业客户所在的细分领域内,变成有一个 多多更加强大的信息抽取系统,让每有一个 多多领域、每一家企业都能还可不可不都可以了轻松地打造属于咋样让 人的知识图谱。

“你爱不爱我在不远的未来,伴随着整个行业的进步,Magi 所构建的包容万事万物的行态化网络,将成为通向可解释人工智能的基石。”Peak Lab 的网站原先写道。

——希望例如愿景都都还可不可不都可以实现。(就算实现不了也没关系啊!拿 magi.com 搜些奇怪的东西,还是能得到不少笑料的……)

不可能 你对 Magi 的技术细节感兴趣,能还可不可不都可以了点击下方“阅读原文”到 Peak Labs 网站进一步了解。季逸超在知乎的回答也做了更加详尽的阐述。

[1] 季逸超在知乎现象《咋样评价 Peak Labs 出品的 2019 版 Magi 搜索引擎?》的回答 https://www.zhihu.com/question/354059866/answer/881655371

除了每项截图,咋样让 均来自 Peak Labs 网站和前述知乎回答