你所在的位置: 首页 > 正文

内容算法是如何工作的

2019-07-09 点击:1626
manxbet客户端

R8yGtFtDax79bC

牛牛耳? |数字营销技术状态

数字营销技术空间

“了解有关营销技术业务报告的更多信息”

作者|李彪腾讯PCG新闻产品技术部算法中心

如今,算法已经应用于因特网的各个领域,特别是在媒体内容领域。该算法不仅能够为个性化和个性化内容提供准确和多样化的推荐,还能够实现内容制作和内容管理。近日,腾讯PCG新闻产品技术部算法中心李伟应邀到腾讯媒体研究院进行内部共享,并详细介绍了算法应用产品方案。以下是部分记录。

我今天与您分享的主题是算法增强内容的内容处理和分发,侧重于内容处理。在开始之前,让我们在腾讯新闻中介绍算法的应用场景。

RUyV1bbIorhaOs

首先,腾讯新闻APP中各种内容形式(如文本,视频,音频,主题,问题和答案等)的理解和分发涉及推荐系统和启用AI算法的内容的操作。

第二个是将腾讯新闻推向微信。每次有大图和三个新闻,总共有四个。点击一些底部页面跳转到腾讯新闻APP。

第三,Dolphin Wisdom,一个“听新闻”神器,主要用于智能扬声器,汽车音响和智能家电,目前市场上提供70%的语音信息;它涉及语音汇总,录音和个性化语音推荐算法。

第四个,Dreamwriter,涉及很多东西,如写作,内容创作,筛选和绘图。这也是本文的重点。

1.算法框架

该算法的总体框架包括底层算法和上层应用程序。基础算法包括NLP词法,句法,文本理解,视觉图像质量,图形匹配,图像和视频理解算法,以及一些用于搜索的基本算法。

底层算法移植两个主要应用,即推荐系统和搜索,推荐系统可分为五个步骤。

RUyV1c49HIkPxr

1

内容处理

它也被称为内容管理系统,它嵌入了文本分类,标记,抽象提取,语义分析,内容重复数据删除,内容分析,纠错?成洌秆〉饶谌荽硐喙厮惴ā?

2

索引

在主要选择之后,准备分发给用户的信息(例如图形和视频)被添加到索引中。

3

肖像

它可以分为两部分:基本肖像和扩展肖像。基本肖像通过兴趣类别为用户提供个性化推荐,例如用户分类,标签,用户基础属性,用户地理位置和用户使用时间段。它还可以参考第三方提供的图像,为用户提供相应的建议。

扩展图像将具有一些隐含的识别,例如使用矢量来基于他点击的新闻序列来描述他的兴趣点,而不是将他的兴趣分类到类别或标签中。此向量也将用于召回和排序。 in。

4

召回

根据用户的肖像描述的用户兴趣和用户行为的顺序,找到他在库中需要的文章。例如,通过肖像的标签回忆,通过模型回顾用户的肖像和文章的匹配程度,根据用户的行为顺序进行回忆等。

回想起来的时候,我们还必须考虑文章的热度,比如四川地震,可能不是用户的兴趣所在,但它是最近的热点,也是召回,让用户消费这些信息。

另外,有必要考虑人群聚类。用户可能与其他组具有相似的兴趣,但它们不会反映在用户标记中。此时,有必要进行一些聚合以向用户推荐其他人喜欢的内容。

最后,通过以上多种召回方式在库中找到更大的候选文章集合,随时向用户推荐,但最终只显示一部分,因此需要输入顶行才能选择顶部。

5

精加工

这涉及对设计基础数据维度(例如用户维度和内容维度)的算法进行排序,以表征各种角度,包括简单的价值特征,交叉特征,甚至复杂的模型计算特征。转到DNN + FM模型以进行点击和持续时间估算。

它的目的是筛选出数十万个候选信息,为什么不是10或20?

因为这需要考虑业务需求,如多样性因素,不能堆积用户兴趣的信息,我们必须注意文章的多样性,这涉及到处理重新破解,给用户更多候选文章。

2.算法授权内容

该算法实现了内容操作,在公司内部称为青云项目,英文为Dreamwriter。其主要目的是通过算法协助内容的操作,以提高其工作质量和效率。

RUyV1cOInip8Uk

新闻内容运营和流程

首先看一下这个项目的背景,作为一个公司级的内容媒体平台,有很多手稿要存储,有六个主要问题,包括稿件编辑,纠错,筛选,映射,视频增量和热点监控。整个过程非常耗时。这挤压了编辑参与深层创作的时间,我们需要通过算法解放他,让他创造更好。

3.算法还能做什么?

1

自动写作

DreamWriter如何撰写简短的论文并撰写长篇论文?它是如何工作的?基于模板的写作方法。实际例程是根据原始数据捕获或购买一些格式化到库中的实时数据,然后进行逻辑判断,然后根据信息的类型和类别,选择相应的模板生成稿件发布。

RUyV1cm1Tqn4wC

如何构建模板库?如何做出逻辑判断?

在构建模板库时,我们首先通过手动编写一个简单的手稿模板,例如编辑和操作。基于此模板,我们遍历算法,然后通过模板填写一些单词,然后在不同的上下文中挖掘单词。不同的模板,循环迭代挖掘,以获得更多的模板。在模板进入模板库之前,需要根据判断标准手动检查。

接下来,我们结合深度学习生成的模型来改善模板的多样化,例如句子表达式,可以表示为A,或者可以表示为B,通过算法找到A和B的变化,最简单的是执行替换同义词。最后,为了克服凝聚力问题,您可以获得更好的模板库。

在拥有模板库然后进行逻辑判断之后,更决定根据内容源和它所属的场景类型使用哪些模板。我们当前的模板范围非常大,有些类别可以直接发布而无需人工审核。

然而,目前业界自动写作的场景仍然相对有限。从过程的角度来看,它依赖于算法提取的模板。当模板没有例程时很难做到。例如,让它写一部文学作品。是的,因为它需要聪明的想法。如果你让它写一份财务报告或一个游戏报告,机器肯定会做得很好,因为模型是固定的。另外,机器草稿的制作还存在一些问题,如新的冷词不能很好地嵌入文章中,生成的句子会重复出现。

2

自动地图

这项工作在新闻中非常重要,其目的是增强用户体验并吸引用户浏览信息。有些文章没有图片。你如何用算法映射它们?当文章比较长时,如何实现细分?一些文章中只有一两张图片。由于三张图片的点击率高于单张图片的点击率,您如何填写三张图片?有时候会有更多的图片,如何选择高质量的图片,还能匹配语义?

首次选择图片时,只要您可以过滤掉表情符号,微博,文本地图和表格图表,就可以使用图像分类模型。缺点是有时所选择的图像和文章的语义含义不匹配。这很好。

例如,在我在互联网上制定平面图之前,标题是我住在长江尽头的长江。这意味着房子特别长。你住在这。我住在那里,我必须跑得很远才能见面。具有一个版本的地图是其优惠,但平面图不匹配。后来,通过使用语义匹配模型解决了上述问题。整个语义匹配模型的准确率超过90%。怎么实现呢?

首先,对标题或正文的内容进行一些识别。训练时,计算正例的图像特征与负例的图像特征之间的相对距离差。如果它大于阈值,则认为语义匹配是成功的,即,正例比负例更负。图片和文章主题更接近。

件的图像被视为否定示例,或者随机选择一些否定示例。

在上述基础上,对于没有图片的文章,我们首先创建一个相对简单且可以与第三方合作的图书馆。它还构建了另一个由历史分发的有问题图像库,并监视其标记。利用该库,将解决匹配没有图片,更少图片和多个图片的图片的问题。然而,该模型需要进一步改进,例如图像的位置和文本的匹配,例如图像的主体与文章想要描述的主题之间的语义匹配。

3

自动提取摘要

它可以分为两种类型,一种是全文摘要,另一种是分段摘要。如何提取摘要?整个过程可分为四个步骤。

第一步是预处理并对片段进行一些分析。例如,图像的注释不适用于摘要。例如,整篇文章只有很少的单词,不适合摘要。

第二步是对句子进行评分,即判断文章的哪些句子更有可能被选为抽象句子,假设与文章标题最相关的句子被用作摘要的候选者,基于其提取许多特征,例如句子的位置。段落开头或结尾的句子更有可能表达最重要的信息。

第三步是句子选择。结合句子评分,然后考虑冗余和连贯性来过滤句子。在筛选句子时,会有很多候选句子。您需要删除冗余。然后从库中选择一个句子。然后匹配所选择的句子集,并且具有高相似性的句子将放弃。您还会遇到句子得分高的情况,但它不反映文章的核心内容。你需要做一些处理。

第四步是后处理,对所选句子进行一些整合,然后形成摘要,然后手动评估内容是否流畅以及信息覆盖是否完整。

另外,智能语音信息不能太长,因为10分钟或5分钟的语音会让用户非常讨厌。此时,有必要从新闻片中提取一些摘要,以确保可以在一分钟内阅读。

4

自动生成短视频

根据摘要图,然后合成文本,您可以自动生成短视频,即图形到视频。有些文章,尤其是娱乐,有很多图片和大量文字,但没有相应的视频。如何将这些图片制作成视频?

首先,一些摘要被分解,摘要的句子被分解,这些句子被放在每张图片上。然后,通过手动记录声音或合成人声,然后在图像之间进行渲染和选择背景音乐,生成视频。虽然它与真实视频有一些差距,但它的效果非常好。

对于图片很少的文章,当它不足以支持几十秒的视频时,你需要首先用自动地图映射它,然后通过自动提取摘要来提取文章的本质,最后生成一个短视频自动。

5

分类平台

当AI协助操作时,有许多分类,例如文章质量分数,音调分数,自动筛选,主要分类,二级分类,地理分类和主题分类。归根结底,从算法的角度来看,分类任务。

最困难的是定义分类标准。例如,根据质量,质量分为三个级别,第一级,第二级和第三级是什么。必须有一个标准。在此过程中,编辑需要经常与算法团队沟通,以制定标准,如何标记数据,以及不断反馈这些注释的质量。

在确定标准之后,可以通过文本分类方法累积某个样本。我们的分类平台可以自动进行培训,模型选择,评估和在线服务。

6

自动纠错

由于错别字的范围没有明确定义,因此错别字的纠正是非常困难的。常见的同音异义词或近似错误的拼写错误(例如发布和发布)很容易纠正。匹配错误甚至更难,单词或单词本身没有错,但它不适合在这种情况下使用。不匹配涉及长距离语义匹配(例如第一次和第二次传递)。短距离的语义是错误的。设计知识中存在更多难度,例如政治问题或历史人物信息。

从应用程序的角度来看,算法纠错有时不是很准确,其中一些没有错误但是算法提示错误,比如某个字符,那么你需要一个红色的提醒。有时这个地方可能是错的,但是算法没有找到正确的词来纠正,有一个错误的提醒。

自动纠错可大致分为两个步骤。第一步是预处理输入文本,然后添加规则系统。一般规则是成语和谚语。这是一项习惯惯例。如果单词错误,请直接更正。

第二步是通过模型校正中频和高频词,并通过自制方法校正低频词。一般来说,某个词是错误的,它的分词也是错误的。这需要结合上下文进行纠正,这更加困难。通过算法模型学习可以实现高频词的校正。对于低频率,很难学习。

7

生成简报

也就是说,自动生成综合文章,并自动生成综合文章,该文章完全由算法执行。怎么做?

第一种是根据过去一天用户的反馈选择一篇文章,提出一组候选文章,然后从每篇文章中提取摘要。然后是地图和选择,以便您获得由标题,摘要和图片组成的简短内容,然后将这些文章集成在一起。下一步是生成一个标题,使用户更容易点击,最后需要手动审核。

8

热点监控

热点监控提供来自不同来源的热点的实时监控。在监控之前需要更快地找到热点,如何实现呢?

第一个是通过微信和微博,微信热点是通过内部合作找到的。微博热点通过捕获大V之间的转发和重新评估来找到热点。

第二种是根据用户的消费情况找到热点,这将是相对延迟的,例如推荐系统中的统计热点召回。

第三是通过网站的库存找到所谓的热点,比如自媒体文章非常同质,通过算法获得潜在的热点。

RIUkA8B2zhnRBX

“将数字业务与数字营销联系起来”

握住牛耳朵?更好地了解营销技术业务报告

商业对接,商业合作,品牌公司和会议/采访邀请等。

请致电&微信号:13051575215

电子邮件:niuying

日期归档
xbet娱乐官网 版权所有© www.soulsofcourage.com 技术支持:xbet娱乐官网 | 网站地图