计算机视觉和自然语言处理哪个好

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

时间女神发布于2022-07

计算机视觉与自然语言处理，这两个都好，并且有种互相交融联合建模的趋势。在我们人类获取的信息中，视觉占90%，听觉占9%，其他占1%。但是视觉内容其实是要经过我们的大脑对其进行加工的，也就是只提取图像的高级特征作为信息输入。如下一张图，我们会得到两个信息，胡桃，可爱。这和自然语言一句话的信息也就差不多了，当然因为图像本质上存储的信息就多，如果我们想抽取其线稿，或者分析其配色，这些特征都是原本就存在图像上的。只是我们大部分时候会忽略这些信息。

下面介绍主流的计算机视觉和自然语言处理的应用领域，然后我们就可以根据自己的兴趣来选择自己的学习方向。

1、计算机视觉的常见应用领域

（1）图像分割。如使用图像分割来完成手写文字擦除，是我们的试卷重新变得整洁干净。以下是效果图：

（2）关键点检测。如用关键点检测来实现医疗图像的中央凹位置定位。

（3）图像风格迁移。如下将东南大学动漫化。

（4）重建背景。我们可以擦除图片中的一个区域，然后模型根据一定的规则对其进行合理的推理、填补。如下，我们擦除少女，然后让模型生成窗户的背景。

当然，计算机视觉的应用远不止这些领域，一方面这些领域的算法在不断更新迭代，另一方面，新的视觉图像处理领域也在快速的探索中。

2、自然语言处理的常见应用领域

（1）机器翻译。如：往生堂堂主是胡桃。翻译为：The hall leader of the hall of death is walnut.机器翻译尽管已经比较成熟，但是例如从英文视频中
自动提取语音并翻译为中文字幕依然相当大的精度误差，难度很高。机器翻译也是目前自然语言处理已经产生了巨大商业价值的领域。

（2）对话机器人。比如，身边没人陪你聊天时，可以打开小度与小度进行对线。当然，这个领域目前来讲只在客服领域的前期阶段产生了价值，想要和人类交流，依然需要进一步的研究，著名的图灵测试就是基于对话的形式。

（3）文章续写。我们可以构建情节，然后让语言生成模型进行内容生成。也可以让AI对我们已经写的文章进行续写。这个领域同样需要进一步的研究，我试过文章续写模型，每一小句话可能看起来还行，但是一段下来，或者几段下来，模型就会陷入来回反复的怪圈，逻辑会变得混乱。

因为，在现实生活中，我们使用到自然语言的场景非常之多，所以自然语言的应用领域也非常的广。

3、自然语言处理与计算机视觉的联合建模

（1）根据文字描绘生成图像。如下图。

（2）根据小说内容，让模型生成该小说的一部电影或电视剧。

还有很多联合建模的场景，例如视频总结，图片描述等领域。具体选择计算机视觉还是自然语言处理就看自己对哪一个更感兴趣吧！

全部评论(2)

fi_Past

#2 回复于2022-07

被禁言了哥？

顺

顺势

#3 回复于2022-08

看应用方向。个人觉得多维认知自然语言更高效些；精准识别可能视觉更高效些