新闻资讯

如何看待计算机视觉未来的走向

本文介绍了目前,计算机视觉面临几大问题:

  • 需要大算力,需要大数据用于训练,因此导致本钱太高。

  • 应用场景简单,目前用于无人驾驶,安防监控等少数领域。

  • 对CV人来说,内卷严重,市场接近饱和。

在知乎上,很多大牛从技术的角度上谈了关于计算机视觉未来的走向,受益匪浅。结合前几日看到的另一个问题,为什么很多人现在不看好商汤科技,在这里,我想从社会的角度来谈一谈我对计算机视觉未来走向的看法。


日新月异,用它来形容现在社会的变革真是再恰当不过,而推动这个变革的是科技的高速开展。


我对技术的看法是,技术须效劳于人,须对社会有益,推动社会进步。卖力实现这件事的正是企业,企业须将技术落地应用,酿成产品,才干为社会效劳,为人类效劳。


因此,说起我为什么不看好商汤科技,是因为我觉得它没有完成这件事。

作为一个技术人员,我平常看的东西算是比较多,是技术方面,产品方面也比较关注。经常看到商汤旷世又发了什么论文,却几乎没见过它们研发出了什么新产品。在我的印象里,它们就像是一个研究所的保存。

然而,世界上已经有了这么多高校、实验室、研究所在搞学术研究,还差一个商汤旷世吗?

在我看来,这与格力声称要做格力手机如出一辙。市面上已经有了苹果,小米,华为,OV等这么多做的很好的手机,还差一个格力手机吗?


所以董明珠如果要做手机,Z合适的就是自己做操作系统,或者自己搞芯片,做点对社会对市场有益的事情。但格力明显没有这个计划,我对它当初说要做手机就一直是冷眼相看。四五年过去了,就目前来看,还真没看错它。


企业还是应该做企业该做的事情,那就是将学术研究落地应用,酿成产品。


在《下一个倒下的会不会是华为》中有这样一段话:


“我们 要做商人。科学家可以什么都不管,一辈子只研究蜘蛛腿的一根毛。对科学家来说,这是可以的。可是对我们呢?我们只研究蜘蛛腿,谁给我们饭吃?因此,不可光研究蜘蛛腿,要研究客户需求……”

这番话讲于2002年,其时,“狮子”朗讯科技快要倒下了,“巨狮”摩托罗拉也病恹恹的……

朗讯科技Z核心的资源——贝尔实验室,正是以研究“蜘蛛腿”“蝴蝶翅膀”“马尾巴的功能”等这些基础课题见长的,它既是朗讯科技的生长助推器,也是朗讯科技的包袱;摩托罗拉以巨资投入铱星系统研发,结果尖端技术成为它走向衰败的滑铁卢……这两家公司以及众多的“巨狮”都患上了资本和技术的“富营养病”,所以到头来都被优势资源所拖累、所诅咒。

商汤旷世在这一点上像极了朗讯和摩托罗拉,忽视了技术的Z终目的是效劳于人,效劳于社会。


谈及我对计算机视觉的看法,技术和产品的关系就像是硬件与软件的关系。当技术开展到 水平时,如果产品的开展速度跟不上,那么技术就毫无作用。当产品开展起来后,又受到技术水平的限制,产品要进一步提高,需要提升技术水平。


从目前的环境来看,学术研究(或者称技术)已经抵达了 的水平,而落地应用的领域(或者说产品)很少,因此导致了计算机视觉的饱和。

当应用的领域被逐渐开发,产品逐渐增多,现在的饱和就酿成了暂时性的饱和。从产品、市场的层面上也会进一步推动学术研究(技术)的开展。


那有待开发的领域和产品有哪些呢?

我们对计算机视觉的应用还只局限于当下,我们正因为它目前需要庞大的数据集训练,腾贵的算力,才限制了我们对它的应用场景和产品的想象。

当日后算力本钱降低,数据缺乏的问题取得缓解,我们会发明,其实计算机视觉可应用的场景十分多。


从我的角度来看,它在未来 能与机器人结合,我指的机器人并不可是人形机器人,主要是各种智能化设备,如场景监控,效劳机器人,无人驾驶,医疗设备,嵌入式设备等。


想想很多科幻影戏,机器人可以对一个环境进行各种剖析,然后做出相应行为。当然,这对人类来说,付与机器人影戏中的这些能力是一件很可怕的事情,就目前来说,也不现实。


微信图片_2022021009172912321.jpg

此图来源于网络,侵删


不过,一些小范畴的能力我们是可以给的。


目前已经有的一些应用是对监控进行剖析,检测到如车祸,火灾,枪击案,养老院的老人摔倒等异常事件后自动报警。无人驾驶上的视觉等。


京东启动了一个对猪脸识另外项目,对猪的健康状况进行检测。斯坦福对人的粪便识别检测,从而判断人的健康状况。


微信图片_2022021009174244444.jpg

此图来源于网络,侵删


以后可以有以下应用:


对二手车进行全面扫描,识别型号,给出新旧水平剖析,从而给出相应报价。


对脸部扫描,剖析脸部皮肤情况,给出适合其皮肤的护理计划。对头发扫描,推荐相应的护发产品与护发计划。


对农田进行实时监控,提醒农场主目前农田的情况,如虫子,作物生长状况,剖析该地区往年气候,给出对该地区农田的Z优打理计划。


学跳舞,将老师的跳舞输入作为模板,对学生学舞视频进行剖析,给出跳的过错的地方。


……     ……


还可以有很多很多的应用,我给的都是些很细很具体的想法。实际上可以用上视觉的地方,都是计算机视觉的潜在应用领域。


我个人经历有限,设想也不敷全面,但我相信社会上还保存很多可以用视觉来解决的事情。


这些事情都需要有一个共同的基础,就是可以将视觉用于移动端设备,嵌入式设备。


微信图片_2022021009175155555.jpg

此图来源于网络,侵删


从我的理解来看,日后硬件水平会有较大开展,用于深度学习的专用处理器会有较好的性能。


在嵌入式方面还有很多传感器,可以与视觉图像进行多模态的融合,从而弥补在纯视觉方面算法上的很多缺陷。例如具体场景下可以增加很多如温控、超声波、激光雷达等传感器,模型将传感器的数据与监控图像进行融合,还可以进行多摄像头实现多视角融合进一步提升准确率。


别的,当应用在很多固定的、封闭的场景下时,不需要满足泛化性,也不需要检测很多的类,就可以针对这个场景定心的做一个类的过拟合,从而将准确率提高到99。如果具体场景中具备高速网络的条件,还可以将模型放在云端。因此,纯粹地讲模型只有七八十的准确率而无法落地的观点是太过于片面的。


计算机视觉未来的应用场景很广泛,我们需要对每一个具体的应用场景设计一个很小的,专一的,可以用于嵌入式设备的模型。模型小型化,模型轻量化,模型检测实时化,模型多模态化。


商汤和旷世,作为AI四小龙的一份子,作为一个企业,将技术落地应用是它们的责任,不管是从规模上,人才供给上,资金上,它们也 有能力去将计算机视觉与机器人,移动端,嵌入式设备端结合开发新领域,研发新产品。


就目前互联网企业来说,AI四小龙也是Z适合做这件事的。


文章来源:新机器视觉(*如有版权问题请联系后台,将在24小时内删除文章)


获得更多产品支持与培训

加入WELINKIRT

是否有任何疑问?

世界各地的WELINKIRT代表可以随时为您提供支持,满足您的视觉和工业读码需求。

联系bet356亚洲中文版