人工智能生成图片标题描述（看图说话）

图像标题生成器模型结合了计算机视觉和机器翻译的最新进展，利用神经网络生成现实的图像标题。神经图像标题模型被训练，以最大限度地产生给定输入图像的字幕的可能性。并且可以用来生成新的图像描述。例如，下面是使用 MS COCO数据集.训练的神经图像标题生成器可能生成的标题。

生成结果：在田野里骑马的人

在这篇文章中，我们将通过一个中级水平的教程，介绍如何使用谷歌的Show和Tell 模型在数据集上训练图像标题生成器。我们使用框架来构建、培训和测试我们的模型，因为它相对容易使用，并且拥有一个不断增长的在线社区。

为什么生成标题?

最近在计算机视觉和自然语言处理任务中应用深度神经网络的成功，启发了人工智能研究人员在这些以前分离领域的交集中探索新的研究机会。标题生成模型必须平衡对视觉线索和自然语言的理解。这两个传统上不相关领域的交叉点有可能在很大程度上实现变革。虽然这项技术有一些简单的应用，比如为视频生成摘要，或为未标注的图像加标题，但更有创意的应用程序可以极大地提高大部分人的生活质量。与传统的计算机视觉试图使世界更容易访问和理解计算机一样，这项技术有潜力使我们的世界更容易理解。它可以作为一名导游，甚至可以作为日常生活的视觉辅助工具，比如来自意大利人工智能公司Eyra.的Horus 可穿戴设备

图像描述生成（Image ）是一个融合计算机视觉、自然语言处理和机器学习的综合问题，它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易人工智能图片素材，但是对于机器却非常具有挑战性，它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外，模型还需要能够抓住图像的语义信息，并且生成人类可读的句子。

基于强化学习的模型

基于强化的模型主要是对文本生成过程进行优化[7]。将文本生成看成一个决策过程，每个时刻生成单词都是一个，而对于生成序列的质量评估可以看成value。生成文本序列的评估指标作为，例如CIDEr。使用强化学习的好处在于可以直接利用不可微分的评价指标作为优化目标。另外，在训练过程中，生成序列的时候，通常采用的是上一时刻单词的-truth，而测试过程中又只能使用模型自己生成的上一时刻单词，即使用-的策略。这会造成 bias的问题。

假设从策略中采样的单词序列是Ws，利用策略梯度算法进行优化：

这里的b是一个，它不影响梯度的计算，但是可以减少。r是，p0是策略中产生该单词序列的概率。

文章提出了一个SCST（self- ）算法人工智能图片素材，

这里的采用的是测试过程使用的算法产生序列的，例如使用。

另一篇文章[8]，则采用的是- 作为，通过训练一个模型，将文本、图像映射到同一个空间。然后将图像与文本的相似度作为。

这里fe、ht分别是图片与文本的函数。

训练使用的是actor-算法：

v0是价值网络，作为的动态。

当采用beam 进行解码的时候，通过结合策略pπ、与value估计v0来计算一个单词的得分。

本文到此结束，希望对大家有所帮助。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至81118366@qq.com举报，一经查实，本站将立刻删除。发布者：简知小编，转载请注明出处：https://www.jianzixun.com/98894.html