也是了,孟繁岐恍然明悟。
检测任务的数据集收集和标注的成本更高,这也是为什么孟繁岐夺冠的大赛,分类图片一千多万张,检测图片才几万张。
目前所有的这些内容全部都是人工去标注。
一张分类图片,只需要标注一个标签,它是什么即可。
而标注一张检测图片,经常需要在上面添加数个,甚至十数个检测框,需要细致到具体轮廓,然后再添加类别。
标注的成本,自然是十数倍的差别。
为图片添加选框和标签的工具也不完善,操作繁琐,就更使得其缓慢。
截止到现在,深度神经网络为基础的检测算法还有展现出什么实际的商业价值,还停留在实验室研究阶段,实际上并没有得到这些大公司足够的重视。
目前商业用的检测算法,还是传统技术为主,并不需要训练数据,而是通过人工设计的滤波器去提取特征。
孟繁岐演示使用的公开voc检测数据一共就几万张,相比日后动辄几千亿的模型参数量,几个t的数据量,这个规模有点像过家家。
此时此刻,就白度内部而言,李彦弘这个深度学习研究院,也只在私下积累了不到十倍的私有数据量,也就差不多二三十万张。
对于白度来说,基于这个本钱,想直接像后来的chtgpt一样,提供一个人人可用的智能,那还差了十万八千里。
“李彦弘开这个技术发布会的意图,其实就是伸手要数据。”孟繁岐稍一思索就想明白了,“通过展现这种神奇的效果,诱惑需要工业检测的厂商,需要医疗图像检测的机构,想要开发自动驾驶的车企。”
“你们给我数据,我就能帮你们做这个功能。”
李彦弘这是想趁这个技术优势,收割一大波免费的数据啊!
这小算盘,打得太精了。孟繁岐心中啧道。
这个时间段,这种图片数据的价值还没有得到广泛的理解,借助检测技术的飞跃,白度收割这些图片起来就像噶韭菜。
再过一段时间,就没那么容易白赚了。
“李总,你要是开技术发布会的话,能不能也宣传宣传我这个原作者,给我也打打广告?”孟繁岐半开玩笑半认真地说道。
李彦弘开技术发布会去介绍自己的olo检测算法的话,可想而知,其关注度还是非常之高的。
都说流量时代,就是一坨屎有了流量都能演男女主角。
李彦弘如果在发布会上,将自己的功劳如实说出,都不需要添油加醋。
其社会影响力,远远比自己发好几篇顶会都来得猛。
君不见,技术发了多少《自然》,《科学》顶刊了。关注度完全不如阿尔法狗击败李世石,柯洁。
老百姓不关注那个。
“当然没问题。”李彦弘非常爽快地答应了,“这个技术本身就是你独立研发创作,你愿意匿名,还是愿意来到台前,我都欢迎支持。”
“不过,如果要介绍你的话,我个人有一个小小的请求,我希望能够称呼你为,‘白度研究院特约研究员’,你看可不可以?”