Skip to content
Menu
Plum Blog
  • Contact
Plum Blog

有多少人工,就有多少智能

Posted on 2018年8月20日2019年4月30日

人工智能行业有句老话:有多少人工,就有多少智能。

经常有人问我,这个问题能否用AI解决,那个问题能否用AI解决。

我的回答是,首先看你有多少数据,以及有多少人搞数据。

数据的重要性不言而喻,在我之前的文章有谈及。

而很多人忽略的一个事实是,搞数据的人力储备,同样不可或缺。

我们知道计算机视觉的模型训练,依赖大量的样本图片。首先要有足够的原始图片,有了图片后还要对数据进行组织和标注,这两项都是耗时巨大的工作。

先说说数据组织

一般缺乏数据的中小型公司,会采取众包、爬虫等方式获取外部数据。

而对平台型公司,自己的业务就能产生海量数据,这种是机器学习最佳实践。

但是,不意味着有数据来源,工作就轻松了。

对数据的组织、整理、分类,又是一项费时费力的工作。

再次以机器审核为例,通过模型训练,自动识别图片是否违规(比如色情、涉政)。

我们自己的业务,每天大概产生一亿张图片,这些图片都进入机器学习模型,用来做秩序审核。

模型审核的结果,包括两种可能:违规、不违规。

但是,这只是机审的结果,它可能正确或不正确,因此需要人工二审介入。

人工二审的工作点:

  • 在违规图片里,审核出哪些是真的违规(TP)、哪些是误判的(FP)
  • 在不违规图片里,审核出哪些是真的不违规(TN)、哪些是漏判的(FN)

工作流程如下:

上述TP、FP、TN、FN四个成分,是我们最终需要的数据,用来产生模型训练的样本,构建合适的数据分层。

我们看到,人工二审在这个体系里至关重要,它负责结果的最终正确性。

线上每天产生一亿张原始图片,假设机审的结果,识别为正的图片为10万张,那么人工二审就要在10万张里,挑选出TP和FP。

识别为负的图片有9千多万张,自然不可能全部人审,那么就抽样。哪怕是按5%抽样,也有将近500万张图片,需要在其中挑选出TN和FN。

这是一项工作量十分巨大的工作,我们有几十号人兼着来做这个事。

再说说标注

同样是一项耗时费力的工作,还要依赖于先进的工具,比如好用的标注系统。

前面文章说过,标注规则依赖于业务的不同而不同,有的简单,大多数很复杂。

我自己试过标一项人体关键点数据,半天才标了50张,头昏脑涨的。

而线上系统每天产生数万张图片要标注,这个工作量可想而知。

标完还要审,因为每个人对标注规则的理解不一致,不太可能一次性标完就通过。

不过,标注有一些可以省力的地方,包括:

  • 标的时候,用模型预标注,再由人工去核对,就快得多
  • 审的时候,可以采用多标方式,标完由模型过一遍,如果多个人标的结果一致,则自动通过;如果结果差异大,则打回重标

没有轻松的数据工作

样本的数量,标注的质量,对模型的结果至关重要。而不管样本还是标注,都意味着非常巨大的工作量。在进行机器学习业务之前,先想清楚自己是否有足够的数据,以及是否有足够的人来处理数据。

Print this entry

近期文章

  • 春天的身姿
  • 元宵节,吃汤丸
  • 云游戏?当然没有前途
  • 玛莎拉蒂,为美而生
  • 春节快乐
  • 农历腊月廿八
  • 农历腊月廿六
  • 小年夜,思故乡
  • 江春入旧年
  • 谈谈苹果产品
  • 空虚与抑郁症
  • 梅花,春天的信使
  • 生日感言
  • 不负时光、不负春风
  • 开玛莎的正确姿态
  • 浪花城迎来了久违的阳光
  • 从总裁换到莱万特手记
  • 小寒过后,气温骤降
  • 使用perl读取excel文件
  • 元旦寄语
  • 没有完美的天气
  • 年末了,气温有点燥热
  • 我的岁月我的车
  • 善用bench脚本,远离垃圾厂家
  • 美式咖啡
  • 祥和节日,真爱永存
  • 冬至日,想你的黑夜最长
  • 抑郁症与环境挑战
  • 我想要一所这样的房子
  • Merry Xmas 2020
  • 浪花城迎来寒冷的冬天
  • 怀念Ithaca
  • 该死的抑郁症
  • 晚来天欲雪,能饮一杯无
  • 台山一日游
  • 小区里的喵星人
  • 今日大雪
  • 永远赚不到超出认知范围外的钱
  • 大雪时节,怀念北方的雪
  • 阳光大好,适合在办公室装B
  • 年底了,絮絮叨叨
  • 人生如老车,细思多忧伤
  • 温暖的冬季,一点遐思
  • 南北的景观与人文差异
  • 东北大雪,南方30度
  • 东北之行 — 长白山
  • 东北之行 — 长春
  • 东北之行 — 母校
  • 所谓的闺蜜,恶毒到极点
  • 我喜欢这样的妹纸

标签

AI (24) 宇宙与人生 (19) 情感 (191) 技术 (60) 抑郁症 (56) 新冠病毒 (9) 汽车 (22) 生活 (219) 职场 (25) 行业观点 (35) 读书文艺 (30)
©2021 Plum Blog