(要闻)在小指尖上舞动“大数据”
本篇文章4172字,读完约10分钟
张冬冬正在演示算法。
即使她事先知道要拍照,她也出人意料地简单:一件白色t恤,一条黑色裙子,当然还有一个带隔层的背包,用来保护她的笔记本电脑——看起来她总能拿出来写几行代码。
她的背包就像一个“百宝箱”。除了电脑,它还有各种接口的数据传输线,可以连接这个小会议室几乎所有的设备
在新产品推出前的测试中,总会发现一些意想不到的漏洞,需要一夜之间消除,每个人往往会经历几个不眠之夜
张冬冬觉得他骨子里是个“技术流”。他喜欢和机器打交道,遇到问题时喜欢“用技术说话”
在北京,“Xi二七”是客流量最大的地铁站之一。离这里不远的中关村软件园有很多互联网公司和高科技企业。在网上,“Xi二七人”很容易被贴上标签,“码农”是最常见的说法。程序、算法、迭代、优化...有人说程序员的生活就是单调的睡觉工作,就像代码中的0和1一样。
1992年出生的张冬冬不同意这些观点。她是曙光信息产业有限公司大数据与创新事业部研究员,“Xi二七”人工智能算法工程师,主要从事超大规模视频智能分析引擎开发和算法优化《90后》《女》《程序员》这些不同的特质会和她碰撞出什么火花?记者近日来到位于中关村软件园的曙光信息产业有限公司,体验张冬冬“90后”人工智能算法工程师。
在介绍演示的时候,桌子上这台设备齐全的笔记本电脑跟不上她的节奏,系统会时不时卡住
即使张冬冬事先知道他要拍照,他今天的衣服还是出奇的简单:白色t恤、黑色裙子,当然还有一个带隔层的背包来保护笔记本电脑——看起来他可以随时拿出来写几行代码。
当我来到巨大的办公平台时,已经是上午10点了,张冬冬的工作站周围没有多少同事。“有些人在出差,有些人在开会,有些人可能刚刚下班。”张冬冬说。为了不影响在车站工作的同事,我们决定把体验的地方改成小会议室。大楼里的小会议室出奇的多,每间可以容纳五六个人,白板上反复擦除后用马克笔标记,仿佛可以重现很多热烈的讨论。
张冬冬的工作与我们经常看到的“电子眼”有关。这些分布在各个角落的“电子眼”一直在默默守护着人们的安全,但它们是如何在茫茫人海中快速准确地锁定目标的呢?如何将数量庞大、响应缓慢、没有应用价值的监控视频转化为易于搜索、深度挖掘的高密度数据?在他们的背后,一整套视频智能分析系统是不可或缺的。
为了帮助我这个门外汉快速理解,张冬冬上周对他的作品进行了“场景还原”。“狭义上,人工智能也是一种算法,依靠数据不断优化。大量数据往往包含大量冗余甚至无用的信息,因此需要进行数据清理和整合。”张冬冬指着屏幕说道。她第一次见面的时候有点尴尬。当她谈到技术时,她似乎马上就放下了。“拿这组人脸图片来说,每张都有一个标签,标签分为很多栏,上面标着人的编号、性别、年龄。和其他特征信息,当然,它们中的每一个也可能有多个图片。”
“下一步是可视化数据,一是检查画质,二是获取统计数据描述。这时就会发现一些‘噪声’(指对数据的干扰和影响)。”例如,张冬冬说:“例如,一张照片中可能有多张脸或没有脸,属于同一个人的不同图像被发现根本不是一个人,或者同一张照片被发现保存了两次,等等。-系统进入时的误操作会导致这些情况。为了保证机器能够学习到高质量的数据,就需要列出这些数据中存在的问题,然后根据不同的问题找到数据清洗的方法。数据清理是一个非常重要的过程。虽然需要时间,但关系到后续模型的准确性。”
在介绍演示的同时,桌子上这台设备齐全的笔记本电脑跟不上她的节奏,系统会时不时卡住,一直在努力理清思路的我也是。为了方便查看,张冬冬连接了墙上的电子屏幕。这时,我发现她的背包就像一个“百宝箱”,里面不仅有电脑,还有各种接口的数据传输线,几乎可以连接这个小会议室的所有设备。
键盘升降时,代码行落在屏幕上,远程服务器每次记录她。
数据清理后,前期要对数据进行预处理,包括从图片中截取人脸,将散乱的数据集中在同一个大文件中,这些都是为后续的模型训练做准备。张冬冬说:“人工智能对计算能力有很高的要求。由于原始数据量大,处理过程会消耗大量的cpu资源,处理时间也相对较长。以后训练的时候,如果数据量太大,我们也会采用分布式并行训练的方法来提高速度。”另外,数据增强也是预处理的一部分,与之前的工作相反——人为增加数据的“噪音”。
“数据清理需要去除噪音。为什么这个时候要加大噪音?”我有点迷茫。“这是为了使模型适应各种实际情况。人脸识别中,是处理逆光、不完整人像等极端情况。专业术语叫做‘提高模型的泛化能力’。”张冬冬解释道。
完成这些任务后,需要对原有的算法结构进行改进,俗称“换码”。“人脸识别的算法有很多,需要修改。前期我们评估过各种算法,有一个通用的算法结构,只要稍加改动就可以使用。”
说到这里,我们已经进入了模特培训阶段,张冬冬今天正式开始了她的工作。“训练的过程其实就是一个降低损失函数(预测值与实际值的差距)的过程。”键盘升降时,代码行落在屏幕上,远程服务器每次都记录她,不会放过任何程序故障。
“在机器学习中,样本一般分为三个独立的部分——训练集、验证集和测试集,其中测试集用于测试模型的性能。决定一个模型或算法好坏的有两个方面,一个是结构,一个是模型参数。训练的最终目的是找到合适的参数,使测试集的精度更高。”张冬冬说,当最终的测试集显示准确率已经比较高,并且已经收敛到一个稳定的状态时,训练就结束了,以后可以对新的数据进行预测和推理。
“程序员真的能记住这么多代码吗?”我很好奇看到她的手在飞。“其实这和我们背诗句背单词差不多。熟能生巧。”张冬冬笑了。“有时候我不能做到字字珠玑,但大体的逻辑和思路是可以记住的。”初秋的下午,阳光普照在公园空秋千上的街道上,偶尔有几首鸟鸣从敞开的窗户里传出来,随即被滚动的键盘敲击声所取代。旁边几个会议室的灯渐渐亮了,人进进出出。程序员的工作过程似乎没有传说中的那么有压力。
“其实你只看到了一面。”她似乎看出了我的疑惑。“从最初的数据收集到最终的模型训练,一个产品会有各种各样的问题。比如在新产品推出前的测试中总会发现一些意想不到的漏洞,需要一夜之间消除。大家都很紧张,经常经历几个不眠之夜。”
目前,张冬冬开发的超大规模视频智能分析引擎已经在国内多个大中城市得到应用。它基于深度学习技术和人工智能算法,融合了视频汇聚与分发、动态人脸识别、视频结构化分析、大数据多维分析等多种特性。它轻松训练了视频监控的“火眼”,保卫了成千上万家庭的安全。
理想的工作和生活需要平衡,就像找到一个最优的“算法”
在这个男性主导的行业,像她这样的女生并不多。张冬冬觉得自己内心是一个“技术流”,遇到问题时喜欢和机器打交道,喜欢“用技术说话”。
2015年从北京交通大学信息管理与信息系统专业毕业后,她选择去英国留学,在伦敦大学学院学习网络科学与大数据分析专业。当时,人工智能技术在世界上刚刚兴起。张冬冬坦言,在留学期间,她真正意识到这项技术代表着未来。2016年3月,人工智能公司deepmind的联合创始人戴密斯·哈萨比斯牵头开发“alphago”,与围棋世界冠军、职业九段棋手李世石展开角逐,最终以4-1的总比分胜出。哈萨比斯也是这个学校毕业的。“我不敢说这样的‘牛人’是榜样,但他的成就确实对我产生了一些影响。”虽然她已经离开了学校,但她仍然保持着看论文的习惯。“人工智能技术发展太快,必须紧跟最前沿的技术。看论文是最省时省力的方式。”
不知不觉,天色已晚,已经接近理论上的“下班时间”,我们渐渐从工作谈到了生活。张冬冬认为,与软件园的许多人相比,他不是一个加班加点的疯子。“理想的工作和生活需要平衡,就像找到一个最优的‘算法’,不断减少你的‘损失函数’。”
每天接触尖端技术,张冬冬生活中的爱好是历史、博物馆和古建筑。她还参加了这个领域的非营利组织。“我们会带大家去参观博物馆,传播一些历史文化知识。”她觉得这些活动可以降低她的节奏,调节她的身心。
张冬冬很乐意向他周围的同事寻求建议,他也希望通过努力工作来改进他们的工作。“这是一个‘迭代’过程,产品是这样,技术是这样,人也是这样。”她认为,“90后”相对独立,在很多问题上有自己的判断,不能跟随别人,这是创新上的优势。“人工智能的应用在中国发展迅速,但与国外相比,一些关键和底层的理论和技术仍有差距。这是我们这一代人应该努力的方向。”
大众说
沙超群(曙光信息产业有限公司高级副总裁):
我还记得四五年前,我的同事在台上做报告时,大声呼吁“必须给90后一个机会”。突然之间,我们很多团队中的90后已经领先了。近年来,在我公司的技术骨干中,“90后”的比例迅速上升,包括我们承担的一些重大国家项目,其中也存在相当一部分“90后”。
信息产业瞬息万变,新技术不断涌现。说到产品层面,时间短,任务重,困难多,挑战大,让我看到了很多90后的闪光点。我记得很清楚,去年“十一”假期,一个项目组有将近40人加班。中长假是中秋节。我提前告诉他们“中秋节不许你来”。结果那天去公司的时候,还是二十多个人,大部分都是“90后”。
张冬冬开发的视频智能分析引擎是世界上最大的在线视频分析系统之一。她在公司不到两年,经常出差几个月。“扎”在项目现场不断优化产品。这让我觉得“70后”也是可以拼搏的。
随着阅历的不断增长,更多优秀的“90后”正在涌现。在我公司承担的E级超级计算机原型项目和“地球数值模拟装置”原型装置中,“90后”承担的任务越来越艰巨。
宋怀鸣(曙光信息产业有限公司大数据与创新事业部总工程师):
我们R&D团队的平均年龄在30岁左右,“90后”是这个团队的主力军,占30%以上,技术研究在一线的比重更高。
“90后”张冬冬经常要处理大量数据,并在此基础上不断训练算法,优化模型。有时,为了提高精度和性能,他不得不计算大量的数据。但是这种精准性在实际应用中会带来非常明显的效果,让我感觉“90后”在优秀方面并不逊色于“80后”。“90后”科技人员的成长背景决定了他们接触的信息量大,思维转换能力强,从不同的角度看待问题,尝试一些不同的方法解决问题,这可能是“90后”科技人员的特点和创新的优势。我觉得,未来“90后”在处理具体问题的时候,如果能够更加坚持和耐心,一定会取得更好的效果。(记者顾)
标题:(要闻)在小指尖上舞动“大数据”
地址:http://www.huarenwang.vip/new/20181024/11.html
免责声明:莆田新城网是福建莆田地区知名的本地城市生活门户网站,莆田新城网所著的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,莆田新城网将予以删除。