• 大数据让机器阅读看到曙光 不要轻易放弃。学习成长的路上,我们长路漫漫,只因学无止境。


    人们在读完一篇文章之后普通就会在脑海里构成一定的印象,这种对人类而言垂手可得的才能,对盘算机来讲却并非如斯。

    据新智元报导,很长一段时间以来,自然语言处置的研讨都是基于句子级别的浏览懂得。例如给盘算机一句话,懂得句子中的主谓宾、定状补,谁做了何事等等。但长文本的懂得问题一直是研讨的一个难点,由于这新万博体育手机版官方,新万博在线开户,新万博体育官网注册涉及到句子之间的连接、上下文和推理等更高维的研讨内容。

    比方下面这段文本:The Rhine is a European river that begins in the Swiss canton of Graubünden in the southeastern Swiss Alps, forms part of the Swiss-Austrian, Swiss-Liechtenstein border, Swiss-German and then the Franco-German border, then flows through the Rhineland and eventually empties into the North Sea in the Netherlands. The biggest city on the river Rhine is Cologne, Germany with a population of more than 1,050,000 people. It is the second-longest river in Central and Western Europe (after the Danube), at about 1,230 km (760 mi), with an average discharge of about 2,900 m3/s (100,000 cu ft/s)。(粗心:莱茵河是一条位于欧洲的有名河道,始于瑞士阿尔卑斯山,流经瑞士、 奥地利、列支敦士登、法国、德国、荷兰,最终在荷兰新万博体育手机版官方,新万博在线开户,新万博体育官网注册注入北海。莱茵河上最大的都会是德国科隆。它是中欧和西欧区域的第二长河道,位于多瑙河之后,约1230千米。)

    若针对该段内容提问:What river is larger than the Rhine?(什么河比莱茵河长?)人们能够轻易地给出答案:Danube(多瑙河)。但目前即便是最好的零碎模子给出的了局新万博体育手机版官方,新万博在线开户,新万博体育官网注册也并不尽人意,它的回覆是:科隆。

    可见要让盘算机真正地懂得文本内容并像人一样能够对笔墨举行推理的难度是如斯之大。在回覆该问题时,盘算机除要处置文中的指代“t”,还需求算法和模子进一步对“larger than”和“after”这两个表述举行推理,从而得知Danube是正确答案。别的,由于文中并无显式提到Danube是“river”,所以又加大了零碎的推理难度。

    但大数据的生长让学者们看到了这一研讨标的目的的曙光。可猎取的愈来愈大的文本数据,加之深度深造的算法以及海量的云盘算资源,使得研讨者们能够针对长文本做点对点的深造,即对句子、短语、上下文举行建模,这此中就埋没了一定的推理才能。所以,目前自然语言处置畛域就把基于篇章的懂得提上研讨的议事日程,成为目前该畛域的研讨焦点之一。




    这是水淼·dedeCMS站群文章更新器的试用版本更新的文章,故有此标记(2019-02-03 14:28:46)

    上一篇:如何做一名称职的机关政工干部

    下一篇:迪丽热巴新剧角色是游走在江湖和宫廷间的侠女