第83章 灵感(1/2)
林芝是西藏重要的地级市,古称工布,藏语意思是太阳宝座,平均海拔三千一百米,低的地方海拔只有九百多米,城区的海拔不足三千米,有高原反应的人到这里也不用担心难受。
这里有众多的景点,有世界上最大、最深的峡谷--雅鲁藏布大峡谷,有喜马拉雅山脉最东端的南迦巴瓦峰,也是西藏最古老的佛教雍仲本教的圣地,还有雪山环绕、周围森林密布的巴松措湖,除了这些自然景观以外,还有太昭古城,千年古堡群等众多人文景点。
林芝的城建规划做得很不错,街道格外的整洁,无论是在远处看,还是身处其中都感觉很舒服。
来的路上随处都是风景,已经看过很多,他们并没有再专门去景点游览,大部分时间都在市区转悠,品尝不同饭馆的风味。
在这个小城,罗平和石文芳住了一个星期。
当然,不光是为了吃,他们俩也没有明显的高原反应,主要是罗平尝试编写程序,想让机器人在现有的硬件情况下,只靠逻辑判断具备一定识别能力。
结果当然不理想,一个星期白忙活,罗平最大的收获就是不得不承认这个念头过于异想天开,难度比他想象的大得多。
做得出做不出先不考虑,只是想要做这件事,他先要学习的基础知识就有很多。
以视觉信号为例,机器人的摄像头接受外界光线,内部的感光元件将光信号根据不同波长和强弱转换成电信号,这种信号是连续变化的模拟信号,数模转换元件再将模拟信号转换成数字0和1组成的数字信号,最终得到一个二维像素矩阵,矩阵中包含每个像素点的颜色和亮度信息,只有这种信息才能被程序解读。
每个二维像素矩阵就是一张图片信息,这样一张图片最少有几兆的内容,一秒钟的视频最少包含二十四张图片的信息,一些变化剧烈的视频画面,这个信息密度还要提升几倍。
最简单粗暴的方法,就是让程序在一秒钟内解读完所有图片的信息,像人眼和大脑一样,从中识别出视频中的内容,还要能自己做出判断。
这就需要将二维像素矩阵种的特征信息提取总结,比如猫狗的图像特征,把特征信息分类写入特征库,程序自动和图片进行匹配,发现特征自动判断为猫或者狗,特征信息总结不到位就很容易发生误判。
想要提升准确度,就得增加特征信息库容量,特征信息库太大的话,程序进行匹配就会很耗费时间,想要提高效率就要增加算力。
早期的计算机视觉识别就是采用类似的方法,罗平准备用的方法,就是在不增加太多算力的情况下,通过设定精准的特征信息库,更巧妙的算法设计,让程序具备基本的识别能力。
想要让机器人通过程序识别图片,罗平自己就得把摄像头的感光元器件工作原理,数模转换原理,二维像素矩阵生成规则等等一系列基础原理搞明白,知道这些信息怎么来的,然后才有可能通过程序让机器人识别出来。
这些理论知识网上搜不到完整的学习资料,在网络论坛查询的结果是,内容涉及到多个专业硕士博士的课程。
半途而废不是罗平的作风,书籍资料网上找不到,就联系罗娜帮忙,想来她们学校应该有这些教材,只是在林芝是没法自学了,只好继续他们的旅程。
到拉萨的路程四百多公里,新修整过的公路比较平整,经历过前面的一系列惊险路程后,这段公路尽管也要翻山越岭,却感觉轻松了许多。
不过感觉上再轻松,路也得一点点走,他们开车也需要六七个小时,这还是在一切顺利的情况下。
石文芳这几天和罗平一起研究,当然也知道了机器人编程的艰难程度,就算她几年后博士毕业,都不一定能做出来,感觉确实有点为难罗平了。
用罗娜调侃他们的话来说,公司聘用的那些博士硕士的专业知识都塞进罗平脑袋里,才够满足他需要的知识基础。
本章未完,点击下一页继续阅读。