AI 为表情符号生成有趣的字幕

汇顺利幽默表情包网

制作模因可以获得研究生学分吗? 如果使用深度学习技术来实现这一点是可能的。

23 岁的劳伦斯·皮尔森 (Lawrence Peirson) 正在斯坦福大学攻读理论天体物理学博士学位,但决定今年选修几门人工智能课程。 在一个课堂项目中,他和他的同学 E. Meltem Tolunay 开发了一个神经网络,可以生成表情符号的说明文字。 他们发布了一份关于该网络的白皮书,标题恰如其分:“Dank Learning”(“Dank”是“Cool”的同义词)。

尽管已经有很多训练深度学习模型来生成图像文本描述的例子。 例如,准确生成图像的标题“冲浪板上的男人”或“拿着蛋卷冰淇淋的孩子”。 但对于表情符号,皮尔森想挑战神经网络是否可以突破字面解释并创建幽默的字幕。

尽管 Peirson 最初对生成的模因的有趣性持怀疑态度,但他最终发现深度学习模型确实可以生成“一些非常有趣且原创的幽默内容”。

获取“深度表情包”

神经网络为流行的动物模因类别生成字幕。 为了收集训练深度学习模型所需的数据,Peirson 从 memegenerator.net 网站上抓取了大约 400,000 个用户生成的表情包。 网站提供了各种表情模板,并允许用户匹配自己的文字描述。

该数据集包含大约 3,000 张基本图像,每张图像都附有多个不同的文本说明。 由于输入数据来自用户,深度学习模型处理的表情符号字幕的质量各不相同。

“我们使用了 400,000 个模因,其中大多数都不是那么有趣,但至少它们教会了系统什么是模因以及什么样的笑话与图像内容相关,”他说。

网络表情符号已经在互联网上流传多年,Reddit、Facebook、9GAG和Quick Meme等网站是它们的大本营。 最受欢迎的模因可能带有超过 200 万条原始字幕。

模因通常引用流行文化、时事或只有特定互联网亚文化才能理解的“模因”。 (皮尔森创建了一个名为“标准温度和压力下铕的比热容”的模因页面。)

这些模因捕捉了数字文化中最好和最坏的一面。 论文指出,训练数据大多充满咒骂、种族主义和性别歧视的表情包。 Peirson 觉得这些内容需要在未来的训练中过滤掉,但他指出这个问题并不是表情符号所独有的。 “这通常是自然语言处理中的一个大问题。”

深度学习模型采用 CUDA 语言编写,并使用 NVIDIA GPU。 Peirson 和 Tolunay 尝试了未标记的数据和带有模因标题标记的数据(例如,Success Kid 或 Rampage Comics),但没有发现模因质量有任何显着差异。

“这些模因非常有趣,但以一种‘还好,但不是很有趣’的方式,”皮尔森说。 “模因借鉴了这种幽默感。

神经网络为此类动物模因生成了字幕。

表情包变酷并不容易

为了评估深度学习模型的成功,两人开发了“困惑度分数”来检查神经网络是否能够明确识别数据中的模式。 他们根据数百个预先格式化的模因计算了“混乱指数”。 例如Boromir(电影《指环王》中的角色)表情包,这个表情包的文字描述中总是包含“一个不简​​单”的字样。

但对模因的真正考验是它是否有趣。

在一项定性调查中,皮尔森和她的合著者在白皮书中向受访者展示了人类创建的模因和深度学习模型生成的模因。 他们向受访者提出了两个问题:“表情包是由人类还是计算机创建的?” 和“你如何评价模因的幽默感?”。

佩尔森表示,采访显示,深度学习模型创建的模因“与人类创建的模因几乎没有区别”。

他们还研究了神经网络如何为训练数据集之外的模因生成字幕。 在这种情况下,算法根据在训练数据中看到的内容推断未知图像中的模式。 为了测试这一点,皮尔森甚至向深度学习系统展示了一张自己的照片,生成的文本非常有趣。

皮尔森将自己的照片输入深度学习模型,该模型生成了这种表情。

模因经常像病毒一样传播并成为“影响者”,以模因为主题的白皮书也很受欢迎。 佩尔森说,当该项目获得媒体报道和关注时,她感到“震惊”。 一款名为 Dank Learning 的移动应用程序也即将在 App Store 上推出。

他说,这个项目为了解模因的强大力量开辟了新的视角。 每天,世界各地有数百万用户在社交媒体网站上传播表情包。

在 Peirson 看来,强大的人工智能有潜力根据时事的“突发奇想”生成表情符号,从而影响公众的看法。 广告商还可以使用表情符号来提高品牌知名度:“让表情符号病毒式传播是一种很好的营销方式。”