我觉得自然语言发展的过程中产生了很多像“阑尾”一样的东西。比如英文的第三人称单数,我真没明白这有什么表达功能,属于脱了裤子放屁和不脱直接放的区别。还有就是一些非规则的过去式、过去分词,有些是为了规避其他单词,有些就是“历史文化”演化的原因吧。让机器去理解这个没多大意义,人们应用中规范就可以了。我觉得学语言最大的障碍就是这些不规范的语法。我记得看过一个美剧“战争之王“,我觉得说king of war没啥问题,native speaker明白是warload的意思。非英语国家的人没必要学得那么地道,够用就好。复数全加s,ium之类的废掉。过去式全用ed。难道说writed美国人就听不懂了么?但机器和外国人就得浪费存储空间和时间记住wrote之流,没啥意义。乔姆斯基代表的语言学家穷尽一生也没法完美的用简练规则的语法表示英语,现在英美小学生学的自然拼读也只能用个80%。把那不规则的20%改了不就得了?我觉得哪种语言先规范化,哪种语言会因为更适合机器和人都方便理解而获得更多的强势。
我觉得自然语言发展的过程中产生了很多像“阑尾”一样的东西。比如英文的第三人称单数,我真没明白这有什么表达功能,属于脱了裤子放屁和不脱直接放的区别。还有就是一些非规则的过去式、过去分词,有些是为了规避其他单词,有些就是“历史文化”演化的原因吧。让机器去理解这个没多大意义,人们应用中规范就可以了。我觉得学语言最大的障碍就是这些不规范的语法。我记得看过一个美剧“战争之王“,我觉得说king of war没啥问题,native speaker明白是warload的意思。非英语国家的人没必要学得那么地道,够用就好。复数全加s,ium之类的废掉。过去式全用ed。难道说writed美国人就听不懂了么?但机器和外国人就得浪费存储空间和时间记住wrote之流,没啥意义。乔姆斯基代表的语言学家穷尽一生也没法完美的用简练规则的语法表示英语,现在英美小学生学的自然拼读也只能用个80%。把那不规则的20%改了不就得了?我觉得哪种语言先规范化,哪种语言会因为更适合机器和人都方便理解而获得更多的强势。
原来我和你像的一样。昨天听完毕老师的课后,我觉得就没啥区别了。
原来卷积也可用于NLP,卷积本身也是种用于CV特别有效的embedding。
NLP更好玩吧,我觉得以后说不定会有比卷积网络更牛的图片embedding方法呢,最近就有个大四的小哥,用频域信息embedding图像,提升以一个点的分类准确率。真得很NB。
现阶段我觉得复现论文最有趣。
是,一讲到cnn,大家都会想到图像识别。最天然适合于CNN的我觉得是分类任务,所以NLP的情感分类,垃圾检测什么的也都可
是很nphhh
其实还有一个观点就是深度学习对CV领域还是推动很大的,不是说nlp在这波深度学习浪潮下没有进展,而是说突破并没有cv那么巨大。
很多文本分类任务,就比如说你用一个巨复杂的双向LTSM的效果,不见得比好好做手工feature + svm好多少,而svm速度快、小巧、不需要大量数据、不需要gpu,很多场景真不见得深度学习的模型就比svm、gbdt等传统模型就好用。
我觉得nlp发展应该比CV更慢一点,nlp和cv都挺有趣的hh
我觉得深度学习可以说成是自动特征提取吧。通用的当然不如专用的高效。一个解决特定现实问题的项目中(不是很大陆的的那种很成熟的分类或检测问题),开发者会决定那些features自己提取、映射,那些features让深度网络自己去学。
我觉得NLP要想充分的解决自然语言的问题,不如我们从根本上创造一种更像数学系统那样高效的知识表达、传递系统。自然语言本身就不完美,就是99%用又严谨、又鲁棒的数学系统模拟了自然语言系统,又有多大意义呢?我们用AI完美的揭示了“八卦”系统,又有啥用呢?如果开发一种人类和机器都适应的一种新语言,才是科学与文明的提升吧。大开脑洞了。哈
像“中国队大败美国队”这样的歧义句子,是可以通过上下文理解。但更好的方式是规范语法。
我觉得自然语言发展的过程中产生了很多像“阑尾”一样的东西。比如英文的第三人称单数,我真没明白这有什么表达功能,属于脱了裤子放屁和不脱直接放的区别。还有就是一些非规则的过去式、过去分词,有些是为了规避其他单词,有些就是“历史文化”演化的原因吧。让机器去理解这个没多大意义,人们应用中规范就可以了。我觉得学语言最大的障碍就是这些不规范的语法。我记得看过一个美剧“战争之王“,我觉得说king of war没啥问题,native speaker明白是warload的意思。非英语国家的人没必要学得那么地道,够用就好。复数全加s,ium之类的废掉。过去式全用ed。难道说writed美国人就听不懂了么?但机器和外国人就得浪费存储空间和时间记住wrote之流,没啥意义。乔姆斯基代表的语言学家穷尽一生也没法完美的用简练规则的语法表示英语,现在英美小学生学的自然拼读也只能用个80%。把那不规则的20%改了不就得了?我觉得哪种语言先规范化,哪种语言会因为更适合机器和人都方便理解而获得更多的强势。
而且我觉得机器智能会促进语言的规范化。将来(较远的)小孩子们学的首要第二语言都会是数学机器语言吧,哈
必然nlp
nlp
我懂你的意思,其实很多的时候语言真的已经很规范了。
目前很多的数据来源都是我们日常生活中的表达,我们很多的时候都会选择简单表达啊啥的。我们去听肯定很好理解,但是让机器来做就是一个比较麻烦的事。所以更多的时候来说是我们表达的时候不太规范,但现在肯定是表达越明了越好。对吧?
所以我觉得这是nlp更加难的地方
大开脑洞挺好,我也是想看看大家的想法hh
个人觉得NLP,主要人类语言太丰富多样了
这样说 在国内
nlp最强的还是哈工大