世界充满了「暗数据」:不存在于良好、有序的数据库中的非结构化信息。它在网站上、埋于表格里、被珍藏在照片和电影中;但它不易被机器智能或其他智能所捕获。
像 diffbot 和 deepdive 这样的项目是利用半监督学习来找出非结构化数据中的结构--无论是大量的科学论文还是众多网站的碎屑。一旦他们创建了一个数据库,就能用更传统的工具-- API、SQL 语句或者桌面应用程序--访问该数据库。
知识数据库和图表已被应用到许多智能应用中,包括谷歌的知识图谱(Knowledge Graph)。在我们走向聊天应用时,挖掘暗数据并找出其中结构的能力将变得更加重要。在聊天应用从脚本化和目标狭隘型迈向为用户返回任意问题的答案型的道路上,暗数据的有效利用将成为这一转变的关键。
我们可能看不到这样的应用程序被用于问题「理解」,而是会成为未来辅助技术的中心。它们将依靠已被机器分解并结构化的知识库:其中包含的大量数据将超出人类的标记能力。
(责任编辑:王翔)
声明:文章版权归原作者所有,本文摘编仅作学习交流,非商业用途,所有文章都会注明来源,如有异议,请联系我们快速处理或删除,谢谢支持。
(原文章信息:标题:建立知识数据库,作者:张雪,来源:未知,来源地址:)