其实我觉得NLP稍微难一些
抽象,歧义多,一词多义,表达方式多这些都是他的特点,但是我觉得最难得还是主观性太强
我们在日常生活表达的时候都只会说个大概,听者会自动补全描述语。并且,在不同的环境下,同样的句子你可能补全的也不一样。
这只是个人观点。我也想听听大家的观点,欢迎大家留言
这工作量也不小啊。。。
这个帖子大致是和谁是世界上最好的编程语言类似的讨论吗哈哈哈
不走技术岗还是有很多坑位的吧
确实,预处理工作都是很费时费力的
比赛周期那么长或多或少有这方面因素吧
我还听说有的大佬为了刷分,专门把一些难区分的样本另用模型处理,然后再集成在一起
手写字符集排名前几个100%的,据说就这么刷出来的。。。
只是这种处理除了刷分没啥别的意义,并不能提升多少泛化能力
虽然没啥实际意义,但是告诉我们数据集标注真的很重要……
看情况吧,有些标注错误也是这么发现了,比如AI识虫比赛的大佬就把标错的虫子检出来了……
提问意义不大啊,
比赛是比赛,落地是落地,刷分还得靠tricks
太强了
这是个好思路,可以辅助做数据清洗
标注错误率会成为模型精度的天花板么?
是很强,
就是我觉得这种策略是权宜之计吧,
如果用太多个别处理,就又回到手动编写逻辑的老路了吧
就变成“人工智能”了~~
嗯,就是这么回事
这是肯定的吧。不知道每年有多少费用用在了数据的标注上。
感觉这是必然的。目标检测已经有这种情况,图像分割就更不用说了。之前发现了个很好的图像分割场景,然而一想到像素级的标注问题就头大。
话说打比赛的时候,测试集要是有标注错误咋办,哈哈
这工作量也不小啊。。。
这个帖子大致是和谁是世界上最好的编程语言类似的讨论吗哈哈哈
不走技术岗还是有很多坑位的吧
确实,预处理工作都是很费时费力的
比赛周期那么长或多或少有这方面因素吧
我还听说有的大佬为了刷分,专门把一些难区分的样本另用模型处理,然后再集成在一起
手写字符集排名前几个100%的,据说就这么刷出来的。。。
只是这种处理除了刷分没啥别的意义,并不能提升多少泛化能力
虽然没啥实际意义,但是告诉我们数据集标注真的很重要……
看情况吧,有些标注错误也是这么发现了,比如AI识虫比赛的大佬就把标错的虫子检出来了……
提问意义不大啊,
比赛是比赛,落地是落地,刷分还得靠tricks
太强了
这是个好思路,可以辅助做数据清洗
标注错误率会成为模型精度的天花板么?
是很强,
就是我觉得这种策略是权宜之计吧,
如果用太多个别处理,就又回到手动编写逻辑的老路了吧
就变成“人工智能”了~~
嗯,就是这么回事
这是肯定的吧。不知道每年有多少费用用在了数据的标注上。
感觉这是必然的。目标检测已经有这种情况,图像分割就更不用说了。之前发现了个很好的图像分割场景,然而一想到像素级的标注问题就头大。
话说打比赛的时候,测试集要是有标注错误咋办,哈哈