生成式摘要的经典模型-电子发烧友网

写在前面

在一文详解生成式文本摘要经典论文Pointer-Generator中我们介绍了生成式摘要的经典模型，今天我们来分享一篇带风格的标题生成的经典工作。

以往的标题模型产生的都是平实性标题，即简单语言描述的事实性标题。但是，实际上我们可能更需要有记忆点的爆款标题来增加点击量/曝光率。因此，衍生出了一个新任务——带有风格的标题生成，即Stylistic Headline Generation，简称SHG。

本篇文章将介绍TitleStylist模型，该模型是针对SHG任务提出的，它可以生成相关、通顺且具有风格的标题，其中风格主要包括三种：幽默、浪漫、标题党。

论文名称：《Hooks in the Headline: Learning to Generate Headlines with Controlled Styles》

论文链接：https://arxiv.org/abs/2004.01980v1

代码地址：https://github.com/jind11/TitleStylist

1. 问题定义

首先假设我们有两类数据和：是由文章-标题对组成的数据；是由具有某种特定风格的句子组成的数据。

我们用来表示数据，其中表示文章，表示标题。此外，我们用来表示数据。需要注意的是，中的句子可以是书本中的句子，不一定是标题。

假设我们有、、。那么，SHG任务目的是从中学习，也就是从分布、中学习出条件分布。

2. 核心思想

TitleStylist模型整体上是一个Transformer结构，分为Encoder（编码器）和Decoder（解码器）。TitleStylist利用多任务学习，同时进行两个任务：

标题生成：有监督任务；在数据S上，根据文章原文生成相应标题。

带有风格的文本重构：无监督或自监督；在数据上，输入为扰乱后的句子，生成原句。

标题生成与带有风格的文本重构两个任务的数据集和模型都是独立的。为了生成带有风格的标题，TitleStylist通过参数共享将二者融合。

3. 模型细节

3.1 序列到序列模型架构(Seq2Seq Model Architecture)

如上图，TitleStylist采用了Transformer架构的seq2seq模型，它包含编码器和解码器。为了提高生成的标题的质量，TitleStylist使用MASS模型来初始化模型参数。

3.2 多任务学习

为了分离文本的风格和内容，模型引入多任务学习框架。在这里主要包含两个任务：标题生成及DAE（Denoising Autoencoder）。根据论文描述，我们在这里将DAE称为带风格的文本重构。

有监督的标题生成

在标题生成任务中，首先我们输入文章原文，然后经过编码器获得向量表征；接着，再利用解码器生成标题。

换句话说，在标题生成任务中，我们是利用编码器和解码器学习条件分布。我们设是编码器的待优化参数，是解码器的待优化参数，那么标题生成任务的损失函数如下：

其中是单向语言模型，即：

这里代表句子的长度。

无监督/自监督的风格文本重构

在文本重构任务中，对于句子，我们通过随机删除或者遮盖某些词，或者改变文本中词的顺序可以获得破坏版本的句子。将作为模型输入，经过编码器获得中间表征，再经过解码器进行还原获得。这个任务的目的是在还原句子时使模型学到风格化句子的能力。

同样我们设是编码器的待优化参数，是解码器的待优化参数，那么文本重构任务的损失函数如下：

联合学习

最终，多任务学习会最小化将两部分的损失函数之和：

3.3 如何生存带有特定风格的相关标题

到目前为止，大家可能会有所疑问：两个任务除了损失函数是一同优化外再没有看到其他任何关联，那么TitleStylist怎么可能学到问题部分定义的终极目标，毕竟我们只有来自分布、的数据，并没有来自分布的数据。

实际上，TitleStylist通过设计参数共享策略，让两个任务的编码器及解码器存在某种关联，最终以此来建模。那么如何进行参数共享呢？

最简单的，可以直接共享所有参数（与共享，与共享）。这样模型等于同时学了标题生成与带风格的文本重构两个任务。其中标题生成的任务让模型学到了如何生成与文章内容相关的标题；带风格的文本重构则让模型学到了如何在还原文本时保留文本具有的风格。在两个任务的相互加持下，模型就可以生成和文章相关的又具有特定风格的标题。

好了，我们就想到这里。接下来看看TitleStylist究竟是怎么做的。

3.4 参数共享

刚才我们所说的直接共享所有参数的方式存在一个问题，就是模型并没有真正地显式地区分开文本内容与文本风格，那么模型就是又学了中的事实性风格，又学了中的特定风格（比如幽默、浪漫或标题党）。

TitleStylist为了更好地区分开文本内容与文本风格，显式地学习数据中所包含的风格，选择让编码器共享所有参数，解码器共享部分参数。个人认为编码器端之所以完全共享参数，是想在编码时尽可能保留原文信息。

如上图所示，解码器端的参数主要被分成两部分：黄色部分表示不依赖风格的参数，是共享的；剩余依赖风格的参数，不共享。

具体地，存在于Layer Normalization及Decoder Attention，即层归一化及解码器注意力两部分：

(1) 带风格的层归一化（Style Layer Normalization)

带风格的层归一化这个部分是借鉴图像风格迁移的思想。其中分别是的的均值和标准方差，是模型需要学习的与风格相关的参数。

(2) 带风格的解码器注意力（Style-Guided Encoder Attention）

TitleStylist认为两个任务的解码器端在逐个生成下一个词时的注意力机制应该有所不同。在这里，TitleStylist主要是设置了不同的，以此生成不同的从而形成不同的注意力模式。

这里代表风格，对标题生成而言其实可以算作事实性风格；对文本重构而言，可能是幽默、浪漫或标题党风格。

TitleStylist结合完全共享参数的编码器与部分参数共享的解码器来实现其目标模型，最终可以生成带有特定风格的又与原文内容相关的标题。

总结

好了，带风格的标题生成论文《Hooks in the Headline: Learning to Generate Headlines with Controlled Styles》的内容就到这里了。在本篇文章中，我们就论文思想与论文所提出的模型的结构设计进行了介绍。论文实验部分小喵没有细看，大家感兴趣的话可以下载原文并结合源码进行学习。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解码器

解码器

+关注

关注
9

文章
1143

浏览量
40776
编码器

编码器

+关注

关注
45

文章
3646

浏览量
134687

原文标题：文本生成 | 一篇带风格的标题生成的经典工作

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

借助谷歌Gemini和Imagen模型生成高质量图像

在快速发展的生成式 AI 领域，结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示，然后使用 Imagen 3

发表于 01-03 10:38 •298次阅读

借助谷歌Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高质量图像

Google两款先进生成式AI模型登陆Vertex AI平台

新的 AI 模型，包括最先进的视频生成模型Veo以及最高品质的图像生成模型Imagen 3。近日，我们在 Google Cloud 上进一步

发表于 12-30 09:56 •79次阅读

NVIDIA推出全新生成式AI模型Fugatto

NVIDIA 开发了一个全新的生成式 AI 模型。利用输入的文本和音频，该模型可以创作出包含任意的音乐、人声和声音组合的作品。

发表于 11-27 11:29 •365次阅读

在设备上利用AI Edge Torch生成式API部署自定义大语言模型

使用 TFLite 运行时的设备上实现高性能的 PyTorch 模型推理。 AI Edge Torch 生成式 API 使开发者能够在设备上引入强大的新功能，例如摘要

发表于 11-14 10:23 •453次阅读

在设备上利用AI Edge Torch<b class='flag-5'>生成</b><b class='flag-5'>式</b>API部署自定义大语言<b class='flag-5'>模型</b>

三行代码完成生成式AI部署

LLM加载与推理部署能力，实现了OpenVINO对CNN网络、生成式模型、LLM网络主流模型的全面推理支持。

发表于 08-30 16:49 •428次阅读

三行代码完成<b class='flag-5'>生成</b><b class='flag-5'>式</b>AI部署

NVIDIA AI Foundry 为全球企业打造自定义 Llama 3.1 生成式 AI 模型

Foundry 提供从数据策管、合成数据生成、微调、检索、防护到评估的全方位生成式 AI 模型服务，以便部署自定义 Llama 3.1 NVIDIA NIM 微服务和新的 NVIDI

发表于 07-24 09:39 •719次阅读

NVIDIA AI Foundry 为全球企业打造自定义 Llama 3.1 <b class='flag-5'>生成</b><b class='flag-5'>式</b> AI <b class='flag-5'>模型</b>

声智完成多项生成式算法和大模型服务备案

2024年7月20日，北京声智科技有限公司依据国家《生成式人工智能服务管理暂行办法》，顺利完成了壹元大模型的生成式人工智能（大语言

发表于 07-23 15:25 •655次阅读

声智完成多项<b class='flag-5'>生成</b><b class='flag-5'>式</b>算法和大<b class='flag-5'>模型</b>服务备案

经典卷积网络模型介绍

经典卷积网络模型在深度学习领域，尤其是在计算机视觉任务中，扮演着举足轻重的角色。这些模型通过不断演进和创新，推动了图像处理、目标检测、图像生成、语义分割等多个领域的发展。以下将详细探讨

发表于 07-11 11:45 •536次阅读

如何用C++创建简单的生成式AI模型

生成式AI（Generative AI）是一种人工智能技术，它通过机器学习模型和深度学习技术，从大量历史数据中学习对象的特征和规律，从而能够生成全新的、完全原创的内容，包括文本、图像、

发表于 07-05 17:53 •897次阅读

生成式AI与神经网络模型的区别和联系

生成式AI与神经网络模型是现代人工智能领域的两个核心概念，它们在推动技术进步和应用拓展方面发挥着至关重要的作用。本文将详细探讨生成式AI与神

发表于 07-02 15:03 •804次阅读

Runway发布Gen-3 Alpha视频生成模型

专为电影和图像内容创作者提供生成式AI工具的Runway公司近日宣布，其最新的Gen-3 Alpha视频生成模型已经正式问世。这款模型在多方

发表于 06-19 09:25 •586次阅读

生成式 AI 进入模型驱动时代

随着ChatGPT和大型语言模型(LLM)呈现爆炸式增长，生成式人工智能(GenerativeAI)成为近来的一大热词。由此引发了一场争论：哪种AI

发表于 04-13 08:12 •545次阅读

联想携手京东，紧扣大模型和生成式AI技术

联想与京东携手，紧扣大模型和生成式AI技术带来的产业机遇，在多个领域展开深入合作。

发表于 04-12 10:27 •644次阅读

小白学大模型：什么是生成式人工智能？

来源：Coggle数据科学什么是生成式人工智能？在过去几年中，机器学习领域取得了迅猛进步，创造了人工智能的一个新的子领域：生成式人工智能。这些程序通过分析大量的数字化材料产生新颖的文本

发表于 02-22 08:27 •1702次阅读

OpenAI 在 AI 生成视频领域扔出一枚“王炸”，视频生成模型“Sora”

ABSTRACT摘要2月16日凌晨，也就是中国大年初七，OpenAI在AI生成视频领域扔出一枚“王炸”，宣布推出全新的生成式人工智能模型“S

发表于 02-22 08:25 •396次阅读

搜索历史

生成式摘要的经典模型

评论