当前位置:主页 > 理论探索 >

人工智能数据工厂里的年轻人:教机器认识这个

http://www.szsitic.gov.cn    112天前发布

  原标题:数据工厂里的年轻人   ■本报见习记者 向凯   在上海徐家汇一家广告公司做文案的索琳,从未想过自己也能参与打磨人工智能的应用。她最近接到任务,教一位只存在于手机应用程序里的“老爷爷”与用户对话。比如,当用户问“世界上谁最美”,他就会回答“当然是你最美”。一问一答均由索琳事先写好,再由一家擅长语音识别的人工智能(AI)公司植入。索琳编写了近3000条问答,一心想把“老爷爷”培养得更风趣、睿智。不过,实际上她只是提供了最基础的数据。   一千多公里之外的贵州惠水县百鸟河数字小镇,一家提供数据服务的公司,22岁的吴潘威正对着电脑用鼠标“贴标签”:将一张普通道路交通图中的机动车、行人、非机动车逐一框中……和索琳教机器对话一样,吴潘威贴标签的目的是教人工智能看图识物,他们被叫作“数据标注员”。   当前,以互联网、大数据、人工智能为代表的新一代信息技术日新月异。人工智能在去年、今年两度被写入政府工作报告;而大数据,已经成为世界认识贵州的新名片。在脱贫攻坚主战场的贵州,大数据的经济增速已连续7年位居全国前列。   产业勃兴,数据标注员因此成为新兴职业。多名业内人士告诉记者,目前国内至少有大小近千家标注公司,【肩膀酸痛是怎么回事 共20余万名数据标注员。   在百鸟河数字小镇,仅吴潘威所在的梦动科技有限公司就有400多名标注员。他们是踩着信息技术浪潮的流水线工人。   “教机器认识这个世界”   这是一张微笑的普通女性的脸,她的鼻子、嘴巴、眼睛、眉毛和脸部轮廓布满了点,一共有149个,它们被叫做“人脸关键点”。   在百鸟河数字小镇,吴潘威与同事们坐在电脑前,将图片放大,用鼠标移动这些小点,使它们落在合适的位置。吴潘威浏览了成千上万张人脸图片,在他的眼中,这些人脸没有肤色、性别、老少之分,只有清晰与模糊的区别,一张像是从监控摄像里截取的模糊图片会让他多花几倍时间。   人工智能本身不会识别物体,而要依靠海量训练。当人脸关键点被一一标注之后,计算机才能建立起对人脸的认知。而人脸关键点的数目并不固定,不同数目的背后连接的是不同的算法。“吴潘威们”只需按照人工智能工程师们设定的数目规范来标注。换言之,这些数据标注员并不需要了解算法之复杂,他们所做的,更像在工厂流水线重复作业。   百度无人驾驶汽车,是梦动科技接手的第一个项目。公司人工智能服务部总监曾芸说:“刚接到无人车项目时,我们所有人都是蒙的,觉得这个事情不大靠谱,毕竟无人驾驶在我们眼里是高精尖的科技。”   2016年5月,百度派技术人员来开讲座,开诚布公——“你们就是在训导机器,教机器认识这个世界。”那时,所有人都不知道有“数据标注员”这个职业,吴潘威和一起实习的小伙伴们互相称呼“画框的”。   可不就是“画框的”?几十个人坐在电脑前按动鼠标画框,机动车分成大型车、小型车,非机动车分成自行车、摩托车、三轮车,还有行人、交通信号灯,都要一一框起来。   “标注员都是‘滚雪球’带教带出来的,那时一个人一天要画几百个框,以至于后来走在路上看什么东西都想画个框把它框住。”曾芸回忆说。   “后来,看到无人驾驶汽车在美国的硅谷跑,在乌镇的世界互联网大会跑,说实话还是蛮振奋的。”吴潘威腼腆地笑着说,不管科技有多先进,至少无人车里出现的路况扫描图像他是熟悉的,“也许那就是我之前标注过的。”   那种感觉,就像一不小心踩到了时代潮流的浪尖上。