清华人工智能研究院院长张钹：从“让数据说话”到引入知识-电子发烧友网

“常常有比喻说，钥匙并不丢在这个地方，大家为什么都在这个地方找钥匙呢？因为这个地方灯亮看得见。真正的钥匙丢在黑暗的角落里，那里不好找，一时半会写不了文章，所以好多人不愿意去找。”

近日，中国科学院院士、清华大学人工智能研究院院长张钹在一次学术活动中阐述深度学习方法易受欺骗、易受攻击的根本原因。他提出，根本解决办法并不在“灯亮看得见”的深度学习模型的修修补补上，而应该向人类学习。学习的内容包括，一、改变深度学习网络的模型与结构；二、在数据驱动的基础上引进知识。

张钹，清华大学计算机系教授，中国科学院院士，1958年毕业于清华大学自动控制系。他参与人工智能、人工神经网络、机器学习等理论研究，以及这些理论应用于模式识别、知识工程与机器人等技术研究。

清华大学人工智能研究院院长张钹

从“让数据说话”到引入知识

数据、算法、算力通常被认为是深度学习时代驱动人工智能崛起的三大因素。

但张钹认为，知识与这三者同样重要，共同组成人工智能的四大基础。“回顾人工智能的历史，可以看到这四个因素不断地发挥作用。”

1月11日，张钹在清华-中国工程院知识智能联合研究中心年会暨认知智能高峰论坛上提出上述观点。

张钹介绍，第一代人工智能即符号主义主导的人工智能时代强调知识对智能的作用，由于当时受算法和算力的限制，知识表示依赖人工编程，因而以知识为基础的推理模型没有得到大量推广。

深度学习兴起之后，学界将目标转移至数据，提出“让数据说话”。张钹认为，这种强调对深度学习的发展起到积极的作用，但也有“很大的不足”：过分强调数量的重要性，片面认为“质量差没关系，数据多就可以解决问题”。

“这导致按照大数据建起来的人工智能系统面临不可信、不可靠、不安全、不易推广的挑战”。

在他看来，解决这个挑战的办法之一是引入知识。

“这也是我们人工智能研究院所提倡的第三代人工智能的道路——通过数据驱动和知识驱动的结合克服第一代和第二代人工智能的不足。

深度学习应用于模式识别虽然可以在大数据的训练中学到正确的分类，却很容易受到恶意干扰、欺骗和攻击。将狮子识别为图书馆、把雪山认作一只狗、停止标志识别被当成限速标志……此类深度学习系统被“忽悠”的案例层出不穷，如果发生在自动驾驶场景，就可能产生严重后果。

面对深度学习的脆弱性，单纯从深度学习网络上修修补补只能治标，不能治本。

张钹在回答现场观众提问时表示，“深度学习不能提取出语义层面的特征，只能提取底层特征，这是它脆弱、易受攻击的根本原因。如果不解决这个问题，只靠修修补补，不能根本解决问题，现在的很多做法就是如此。”

张钹认为，有两个工作可以做：一是学习人类神经网络的结构，结合脑科学以改进深度学习模型，二是将知识驱动与数据驱动结合起来。“前者涉及学科交叉更难一点，搞计算机的大多数选择后一条路”。

走第二条路的关键问题是如何从原始数据中自动提取知识。“这一直做不好，因为知识很难自动获取，需要依赖人工，单纯依赖人工是走不远的”。他鼓励人工智能研究者重点在知识获取方面做工作，“如果这个问题解决了，很多问题将迎刃而解。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉