人工智能正在推动超级监控
这种情况不会持续很久了。虽然IC Realtime公司提供的基于云的分析功能可以升级现有的、傻瓜式的摄像头,其他一些公司则直接在他们的硬件中加入了人工智能。Boulder AI就是一家这样的创业企业,该公司用自己的独立人工智能摄像头推销"视觉即服务"。将人工智能集成到设备中的一大优势是它们不需要互联网连接就能工作。Boulder公司广泛地面向各行各业进行销售,为每家客户量身打造机器视觉系统。
该公司的创始人Darren Odom对《The Verge》表示:"应用程序真的是非常全面。"他表示:"我们的平台销售给了银行、能源公司。我们甚至有一个应用程序可以观察比萨饼,确定它们的大小和形状是否正确。"
"我们现在能够100%地识别爱达荷州的鳟鱼。"
Odom举了一个在爱达荷州建造水坝的客户的例子。为了符合环保法规,他们正在监测能够越过这个基础设施顶部的鱼类的数量。Odom表示:"他们以前安排了一个人坐在窗口看着鱼梯,数着有多少鳟鱼游过。"(顾名思义,鱼梯指的就是一条阶梯式的水槽,鱼类可以通过这条水道奋力上游。)"然后他们转移到了视频技术,有人(远程)进行监控。"最后,他们联系了Boulder公司,该公司为他们搭建了一个定制化的闭路电视监控系统以确定通过鱼梯上游的鱼的类别。Odom自豪地表示:"我们真的使用计算机视觉进行了鱼类物种识别。" Odom表示:"我们现在能够100%地识别爱达荷州的鳟鱼。"
如果说IC Realtime代表了这个市场的通用一端,那么Boulder公司就是展示了精品承包商的能力。不过,在这两种情况之下,这些公司目前所能够提供的还仅仅是冰山一角。就像机器学习在物体识别的能力方面取得迅速的进步一样,它分析场景、活动和动作的能力也有望迅速提高。一切都已经就位,包括基础研究、计算能力和训练数据集--这是创建有能力的人工智能的关键组成部分。视频分析的两个最大的数据集来自YouTube和Facebook,这两家公司都曾经表示希望人工智能能够帮助他们节制平台上的内容(不过两家公司也都承认还没有做好准备)。例如,YouTube的数据集包含超过45万小时带标签的视频,希望能够刺激"视频理解的创新和进步"。参与构建此类数据集的组织的广度让人对该领域的重要性有了一些了解。谷歌、麻省理工学院(MIT)、IBM和DeepMind都参与进来,开启了自己的类似项目。
IC Realtime公司已经在开发面部识别等高级工具了。之后,它希望能够分析屏幕上正在发生的事情。Sailor表示,他已经和教育行业潜在的客户进行过交谈,对方希望当学生在学校遇到麻烦的时候,监控能够识别出来。他表示:"例如,他们对打架的迅速通知感兴趣。"系统需要做的一切就是注意聚集在一起的学生,然后提醒某个人,这样他就可以检查视频内容,看看发生了什么事情或者亲自去调查。
Boulder公司也正在探索这种高级分析。该公司正在开发的一个原型系统的目标是分析在银行里的人的行为。Odom表示:"我们专门寻找坏人,并且探查一个正常人的行为和越界的人的行为之间的区别。" 要想做到这一点,他们正在使用旧的安全摄像头拍摄的视频来训练他们的系统,以发现异常行为。但是这种视频有很多的质量都非常低,所以他们也会找一些演员来拍摄自己的训练视频片段。Odom没有详细说明细节,但表示该系统将寻找特定的面部表情和行为。他表示:"我们的演员们会做一些类似蹲伏、推搡以及回头一撇之类的动作。"
对于监控和人工智能方面的专家来说,这些功能的引入充满了技术和道德方面的潜在困难。而且,和人工智能经常遇到的情况一样,这两个类别的困难是彼此交织在一起的。机器不能像人类一样理解这个世界,这是一个技术问题,但是当我们假设它们能够做到这一点,并且让它们为我们做决定时,这就变成了一个道德问题。
卡内基.梅隆大学的教授Alex Hauptmann专门从事这种计算机分析,他表示,尽管人工智能近年来已经在这一领域取得了巨大的进步,但是在让计算机理解视频方面仍然存在着非常根本性的问题。其中最大的一个就是摄像头的问题,这个问题我们已经不再会经常想到了:分辨率。
最大的障碍非常常见:低分辨率的视频
举个例子来说,一个神经网络经过训练,可以分析视频中的人类行为。这些工作是通过将人体细分为多个部分--手臂、腿、肩膀、头部等--然后观察这些小的部分在视频中从一帧到另一帧的变化来进行的。这样,人工智能可以告诉你是否有人在跑步,或者是在梳头发。Hauptmann对《The Verge》表示:"但是这取决于你所拥有的视频的分辨率。" Hauptmann表示:"如果我用一个摄像头对准停车场的尽头,如果我能分辨出是否有人打开了车门,就算是非常幸运的了。如果你就站在(摄像头)前面弹吉他,它就可以跟踪你每一根手指的动作。"
对于闭路电视监控系统来说,这是一个大问题,摄像头往往会有颗粒感,而角度也常常很怪异。Hauptmann举了一个便利店摄像头的例子,摄像头的目的是监控收银机,但是它也监视着面向街道的窗子。如果外面发生了抢劫,摄像头的镜头有一部分被挡住了,那么人工智能可能就会卡住。他表示:"但是我们作为人类,可以想象正在发生的事情,并且把它们拼凑在一起。可是电脑就做不到这一点。"
同样,虽然人工智能很好地识别视频中的相关事件(例如,某人正在刷牙、看手机或者踢足球),但仍不能提取重要的因果关系。以分析人类行为的神经网络为例。它可能会看到镜头并说"这个人正在跑步",但它不能告诉你他们之所以在跑步,是因为他们快要赶不上公共汽车了,还是因为他们偷了某人的手机。
这些关于准确度的问题应该让我们认真思考一些人工智能创业企业的宣言。我们现在还远未接近这样一个点:电脑通过观看视频能够获得和人类一样的见解。(研究人员可能会告诉你,要做到这一点可是太困难了,因为它基本上是"解决"智力问题的同义词。)但是事情的发展速度非常快。
责任编辑:任我行