图像识别 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Sun, 21 Mar 2021 16:22:24 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 图像识别的可视化解释史 //www.otias-ub.com/archives/1220239.html Sun, 21 Mar 2021 16:22:24 +0000 //www.otias-ub.com/?p=1220239 过去11年中用于解释神经网络的最新方法是如何发展的呢?
本文在 Inception 网络图像分类器上尝试使用引导反向传播进行解释演示。
        
   为什么「解释」很重要?
使用机器学习(ML)算法(尤其是现代深度学习)进行图像识别的最大挑战之一,是难以理解为什么一个特定的输入图像会产生它所预测的结果。
 
ML模型的用户通常想了解图像的哪些部分是预测中的重要因素。这些说明或“解释”之所以有价值,有很多原因:
 
  • 机器学习开发人员可以分析调试模型的解释,识别偏差,并预测模型是否可能推广到新的图像
 
  • 如果提供了为何做出特定预测的解释,则机器学习模型的用户可能会更信任模型
 
  • 像 GDPR 这样围绕机器学习的规则要求一些算法决策能够用人类的术语来解释
 
因此,至少从2009年开始,研究人员就开发了许多不同的方法来打开深度学习的“黑匣子”,从而使基础模型更容易解释。
 
下面,我们为过去十年中最先进的图像解释技术整合了视觉界面,并对每种技术进行了简要描述。
 
我们使用了许多很棒的库,但是特别依赖 Gradio 来创建你在下面的 gif 文件和 PAIR-code 的 TensorFlow 实现中看到的接口。
 
用于所有接口的模型是Inception Net图像分类器,可以在此jupyter笔记本和Colab上找到复制此博客文章的完整代码。
 
在我们深入研究论文之前,让我们先从一个非常基本的算法开始。
   七种不同的解释方法
Leave-one-out (LOO) 
              
Leave-one-out (LOO) 是最容易理解的方法之一。如果你想了解图像的哪个部分负责预测,这可能会是你想到的第一个算法。
 
其思想是首先将输入图像分割成一组较小的区域,然后,运行多个预测,每次都屏蔽一个区域。根据每个区域的「被屏蔽」对输出的影响程度,为每个区域分配一个重要性分数。这些分数是对哪个区域最负责预测的量化。
 
这种方法很慢,因为它依赖于运行模型的许多迭代,但是它可以生成非常准确和有用的结果。上面是杜宾狗的图片示例。
 
LOO是Gradio库中的默认解释技术,完全不需要访问模型的内部——这是一个很大的优点。
 
Vanilla Gradient Ascent [2009 and 2013]
       
Paper: Visualizing Higher-Layer Features of a Deep Network [2009]
Paper: Visualizing Image Classification Models and Saliency Maps [2013]
 
这两篇论文的相似之处在于,它们都通过使用梯度上升来探索神经网络的内部。换句话说,它们认为对输入或激活的微小更改将增加预测类别的可能性。
 
第一篇论文将其应用于激活,作者报告说,「有可能找到对高级特征的良好定性解释, 我们证明,也许是违反直觉的,但这种解释在单位水平上是可能的,它很容易实现,并且各种技术的结果是一致的。」
 
第二种方法也采用梯度上升,但是直接对输入图像的像素点进行探测,而不是激活。
 
作者的方法「计算特定于给定图像和类的类显着性图,这样的地图可以使用分类ConvNets用于弱监督的对象分割。」
 
Guided Back-Propogation [2014]
       
Paper: Striving for Simplicity: The All Convolutional Net [2014]
 
本文提出了一种新的完全由卷积层构成的神经网络。由于以前的解释方法不适用于他们的网络,因此他们引入了引导式反向传播。
 
该反向传播可在进行标准梯度上升时过滤掉传播时产生的负激活。作者称,他们的方法「可以应用于更广泛的网络结构。」
 
Grad-CAM [2016]
        
Paper: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization [2016]
 
接下来是梯度加权类激活映射(gradient-weighted class activation mapping,Grad-CAM) 。它利用「任何目标概念的梯度,流入最后的卷积层,生成一个粗糙的定位映射,突出图像中的重要区域,以预测概念。」
 
该方法的主要优点是进一步推广了可以解释的神经网络类(如分类网络、字幕和可视化问答(VQA)模型) ,以及一个很好的后处理步骤,围绕图像中的关键对象对解释进行集中和定位。
 
SmoothGrad [2017]
       
Paper: SmoothGrad: removing noise by adding noise [2017]
 
像前面的论文一样,此方法从计算类评分函数相对于输入图像的梯度开始。
 
但是,SmoothGrad通过在输入图像中添加噪声,然后针对图像的这些扰动版本中的每一个来计算梯度,从而在视觉上锐化这些基于梯度的灵敏度图。将灵敏度图平均在一起可以得到更清晰的结果。
 
Integrated Gradients [2017]
       
Paper: Axiomatic Attribution for Deep Networks [2017]
 
不同于以往的论文,本文的作者从解释的理论基础入手。它们「确定了归因方法应该满足的两个基本公理——敏感性和实现不变性」。
 
他们用这些原理来指导设计一种新的归属方法(称为综合梯度),该方法可以产生高质量的解释,同时仍然只需要访问模型的梯度; 但是它添加了一个「基线」超参数,这可能影响结果的质量。
 
Blur Integrated Gradients [2020]
        
Paper: Attribution in Scale and Space [2020]
 
论文研究了一个最新技术—- 这种方法被提出来用于解决具体的问题,包括消除「基线」参数,移除某些在解释中倾向于出现的视觉伪影。
 
此外,它还「在尺度/频率维度上产生分数」,本质上提供了图像中重要物体的尺度感。
 
下面这张图比较了所有这些方法:
        
]]>
KBV Research:预计2022年全球图像识别市场达到422亿美元 //www.otias-ub.com/archives/643962.html Thu, 26 Oct 2017 00:55:02 +0000 //www.otias-ub.com/?p=643962         199IT原创编译

        根据KBV Research发布的“全球图像识别市场(2016-2022)”报告,2022年,全球图像识别市场预计将达到422亿美元,2016-2022年复合年均增长率在18%左右。

        2015年,硬件占据全球图像识别市场的最大份额,并将继续维持主导地位。同时,服务市场预计将保持22.5%的复合年均增长率。

        扫描与图像市场以应用为主,预测期内将保持16%的复合年均增长率。图像搜索市场的增长率略高于平均水平,在19.5%左右。

        2015年,代码识别市场以技术为主导,未来仍将保持这一趋势,在预测期内以每年14.9%的速度增长。面部识别市场预计在2016 – 2022年间将保持19.8%的复合年均增长率。

        2015年,北美主宰全球图像识别市场,预计一直到2022都将维持其优势地位。在预测期内复合年均增长率为16.5%。同时,欧洲市场将以每年17.1%的速度增长。不出所料,亚太地区是增长速度最快的,复合年均增长率将维持在20%左右。

        199IT.com原创编译自:KBV Research 非授权请勿转载

]]>
图像识别对工业 4.0 的五大支持 //www.otias-ub.com/archives/465095.html Fri, 22 Apr 2016 14:40:44 +0000 //www.otias-ub.com/?p=465095 如何定制个人商品?

1461335993-7413-YIia52kafD9NXGiaiboxbibq91cQ

想买一条长裤?可能你正在去商店的路上,或者正在网上根据从S到XL的标准尺码进行挑选。这些大批量的生产造就了单位货物的成本下降。

工业 4.0 时代的纺织品生产方式或许会与之不同,它将通过有效的数据处理,提供定制性的个性商品。客户一旦决定选择哪个模型,图像处理系统(机器视觉系统)就会对其各项维度进行测量。

具体测试形式可能是,在一个小更衣室中放置四个摄像头,拍摄身体每一边的图像。软件控制测量操作,并决定随后生产衣物时的剪裁方式。接下来的生产过程会自动进行,直至包括运输环节。

未来的时装屋将不再摆满几柜子的商品,而是通过提供大量的虚拟选择和快速可靠的生产流程来为客户服务。

工业相机系统怎样让这种未来式的生产流程走入现实?

1461335993-3617-8PTRmCxvGKROxt458HIlQcRGh7Ig

围绕工业摄像机构建的图像处理系统,早就是自动化生产中必不可少的组件。在生产的各个环节中,为实现生产高效和高质,在包括原材料检测、生产过程监控(如瑕疵检测)、最后检查和质保等环节中,图像处理系统都是不可或缺的。

工业 4.0 这个词,代表着工业生产中新兴的处理模式和组织形式。它的核心要素就是,网络化及更广泛的数据通信。其目标是,基于全面的数据搜集和有效的信息交互,达到自组织的、深度定制化的高效生产。

图像处理技术在决定特定信息时,起着决定性作用。需要注意的是,在相机性能提升的同时,其体积越来越小,价格也逐渐降低。如今的相机系统小而高效,与之前大个头的复杂相机相比,功能不相上下,甚至更加出色。科技的进步,再加上网络化的不断扩展,为工业 4.0 时代的应用多样化带来了更大的可能性。

小数额生产的新机遇

工业 4.0 时代的一个重要影响在于,由于使用控制自动化技术,不管是大批量生产还是非常小量的生产,很多工件都能被低成本地生产——「批容量为 1」这个说法已屡见不鲜。这方面的例子包括上面提到的纺织品生产;还有就是根据客户指定规格进行金属物件的单独设计生产,如邮箱、栏杆等。

但是,精准的工业摄像机系统怎样为这一切提供服务?

1461335992-9181-pMf3hg1TWsibRxibwVYCCb3dGkDA

可以想象一下,这种系统可用于为新生产的金属部件进行涂层。基于提前编程好的上色流程,自动喷嘴得以正常工作。传统生产中,提前规划好预设程序是非常困难的。而原则上,根据设计规格,决定预设程序则有可能实现的。然而,计算好最终的喷射模式有着高度复杂性和不确定性。与传统生产方式不同,工业相机可以当场做出精准测量,决定产品形状、位置,并以此信息指挥喷枪臂。同时,也可以从光学方面对涂层效果进行控制,比如评估着色度,或者检测涂层复杂的反射指数。这些控制数据可实时地进入到控制单元中。这样的自动化图层系统同样也可成为自我学习系统。基于之前处理的经验,新的组件如果与之相似,则可更高效地处理。

相机是不知疲倦的流程审核员

1461335992-1419-2IIYKFntsGkZTZqib7K58X2fR10Q

传感器数据可以用来辅助检测设备行为的变动与瑕疵,并自动生成应对措施(比如改变处理参数,要求更换材料或打服务电话等)。这种功能不仅适用于生产器械,也可用于已完工的产品上。工业摄像机不知疲倦地审核大小工件和产品的颜色,结构,几何形状等特性参数,确定产品的正确性或对其进行纠偏,因此起着至关重要的作用。润滑度,磨损度和生锈情况等「软因素」也会纳入工业摄像机的操作机制中,并为企业的资源规划系统供给数据。

生产中的图像处理——机器人与人类并肩合作

1461335992-8675-LfeyoJkHKaZekNs9CCcCibtWOuCw

生产员也会从工业摄像机中获益。无论自动化取得怎样的进步,工业生产中人类总有一席之地,原因很多:包括「人」的感官能力,灵活性,承受能力等。

尽管如此,未来的生产流程仍会产生变化,而这也正是工业 4.0 所代表的一部分。通过将智能机器视觉系统集成到头盔,衣物,工具中,人类工作效率得以提高。而且,这在科技上完全可行。因为相机正在越来越小巧和轻便,现在已经有一些高精度的迷你工业摄像机,只有邮票那么大,而且加上镜头和套管不到 30g。这些视觉系统记录工业活动和工作状态,审核产出结果,确定合理的后续步骤或其他信息,并将此类信息传送给人类,或许「增强现实」的智能眼镜上的自动通知就属于此类功能。因此,视觉系统的这些功能能够促进生产材料的及时供应,并进一步增加生产力。

总结

不管当今如何定义「工业4.0」,在未来的生产和商业流程中,图像处理至关重要。预计如下将会实现:

  • 基于图像处理系统的应用,更多和更新的高效商业模式将会出现
  • 基于广泛的数据搜集和视觉识别的信息,生产将会实现自动化、自组织
  • 基于操作流程中高度网络化的视觉系统,生产将会更高效

©本文由机器之心编译

]]>
eMarketer:Google, Facebook 和其他高科技企业继续投资开发图像识别技术 //www.otias-ub.com/archives/292524.html Tue, 18 Nov 2014 01:58:45 +0000 //www.otias-ub.com/?p=292524         199IT原创编译

        随着人们越来越多的用图片交流,一些技术企业和零售商正在探索搜索视觉语言的方法。Amazon.com新智能手机里的Firefly应用是最引人注目的视觉搜索工具,但是不是唯一。

180804-17

        虽然有效的一般视觉搜索仍然遥遥无期,但是,根据eMarketer 的新报告”Visual Search & Recognition: On the Cusp of a New Era in Retail.”,Google, Facebook 和其他企业持续投资图像识别。Amazon还会继续开发Firefly,但是一些更小的企业快速改进其视觉搜索技术。视觉搜索必然会实现,只是时间问题。eMarketer 预测视觉搜索在一两年内将会成为零售商们使用的主要工具。

        根据BloomReach的数据,视觉资源将促进各种零售指标。但是,消费者是否会欢迎用图片代替文字呢?零售商对视觉搜索感兴趣反映了他们理解移动购物所带来改变。

178716-17

        百万美国人每天购物时使用智能手机,但是当前的搜索体验对移动设备来说并不完善。图像识别企业Image Searcher的CTO和联合创始人Brad Folkens表示“手机不像PC那样有键盘”,Target发言人Eddie Baeb说“我们认为这对视觉搜索是个很好的机会也有潜力。”

        但是,零售业视觉搜索的真正希望不仅仅是解决输入问题。Superfish的CEO和创始人Adi Pinhas表示“视觉搜索不是要取代键盘,而是适用于我无法用语言形容我所见时。”

        编译自:eMarketer 译者:孙莹

]]>