你看到的文章其实都是它写的,解密百度智能写作机器人!

阅读: 评论:0

你看到的⽂章其实都是它写的,解密百度智能写作机器⼈!
2016 年,百度全⾯发⼒内容⽣态领域,借助⼈⼯智能 (AI)、⾃然语⾔处理 (NLP)、深度学习 (Deep Learning) 等技术和百万级别的⽤户标签,推出个性化信息资讯流,与此同时,百度战略级产品「百家号」2017 年预计将向内容⽣产者分成 100 亿,以此⿎励个⼈和机构⼊驻参与内容创作。
最新天气⽽在众多内容⽣产者之中,⼀位特殊的「作者」显得格外引⼈瞩⽬——那就是在去年上线的百度智能写作机器⼈(Writing-bots)。据了解,⽬前百度智能写作⽂章可涵盖社会、财经、娱乐等 15 个⼤类,并可实现体育新闻、热点新闻等多领域全机器创作。
图 1:百度智能写作机器⼈⽂章⽰例
⽽从⽬前写作的⽂章来看,百度智能写作机器⼈在语⾔组织、语法和逻辑处理⽅⾯都已具备了相当的能⼒,甚⾄可以熟练地使⽤专业术语对新闻事件进⾏分析,写作质量⼏乎可以贴近⼈类的⽔平。
那么,百度智能写作机器⼈究竟是如何写稿的?未来机器写作是否有望取代⼈类?带着对这位「神秘作者」的好奇,我们与百度智能机器写作团队展开了⼀次对话,试图揭开机器⼈写作背后的奥秘。
Q1. 为什么会想到让机器⼈写稿?百度智能写作机器⼈的研发背景是怎样的?
答:2016 年,百度确⽴了「搜索+信息流」双向智能适配的信息分发 2.0 模式,由于资讯流产品和百家号的迅速发展,⽤户资讯阅读需求呈现出了较⼤的增长,与此同时,我们发现,⼀些⽤户感兴趣的内容,⽐如、股票、旅游等话题,却很少有资讯⽂章涉及,因⽽存在着⼤量资源的短缺,于是我们就希望结合百度⾃然语⾔处理、⼤数据分析、⼈⼯智能等技术优势,通过机器写作的⽅式,聚合全⽹信息和百度优质资源,快速⽣产⽂章满⾜⽤户的需求,实现⽤户兴趣点的快速(分钟级快讯)、⾼效(省时省⼒)、⾼覆盖(中长尾)满⾜和资讯内容的深度定制以及个性化推荐,从⽽在内容⽣态⾥⾯帮助⽣态⾃建。
Q2. ⽬前百度智能写作机器⼈可以写作哪些类型的⽂章?是否可以实现原创?
答:⽬前我们的智能写作机器⼈产出的⽂章主要有三种类型:速报类、知识类和资讯聚合类。速报类,如⽐赛信息、股讯快报等,对时效性要求⽐较⾼,需要瞬时将结果⽣成⽂章。知识类主要是科普类的⽂章,如教育(诗词、历史知识)、⽣活(菜谱,保健知识)、旅游等。知识类⽂章的数据内容主要来⾃百度的知识库和全⽹优质资源,通过对优质数据资源的组织聚合和计算推理,为⽤户提供更加丰富的知识和信息。⽽资讯聚合类是基于全⽹实时资讯数据,根据⽤户关注点,⽣成⽤户感兴趣的、以话题为中⼼的资讯⽂章,⽐如某⼀个电影热映,我们会对电影的主演、之前的作品等信息做⼀些扩展和盘点;对于热点事件,我们会对事件的发展过程和关键信息进⾏分析聚合,形成事件脉络,便于⽤户了解事件全貌等。这类⽂章是在现有的资讯信息基础上,重新智能聚合⽣成新的⽂章。
从技术⽅案上看,主要分为两类:
⼀类是基于结构化数据、知识库或优质资源直接⽣成的⽂章。速报和⼤部分知识类⽂章是基于这类技术⽅案。这类⽂章因为直接从数据通过分析聚合或知识推理⽣成原始稿件,因此可以说是原创。贵州旅游景点图
另⼀类是在已有稿件的基础上通过内容分析聚合⽣成的新的⽂章。⼤部分资讯聚合类⽂章,如话题盘点、事件脉络、热门要闻回顾等都属于此类。因为是基于已有稿件内容创作新的稿件,因此可以看作是⼆次创作。当然,我们也可以在⼀篇⽂章的⽣成中结合上述两种技术,进⾏混合创作。
Q3. 百度智能写作在技术上是如何实现的,基本的创作流程是什么?
上海最值得去的五个景点答:我们的智能写作整体是基于⼤数据分析、内容理解和⾃然语⾔⽣成等技术得以实现的,基本创作流程主要分为数据采集、数据分析、⾃动写稿、审核签发等环节。其中核⼼流程「⾃动写稿」部分通常还包括⽂档规划(document planning)、微观规划(micro-planning)和表层实现 (surface realization) 三个阶段,分别解决稿件写什么、怎么写以及如何润⾊呈现的问题。⽐如⽂档规划,需要确定写什么内容,采⽤什么结构来写,微观规划则更加细致化,具体要确定怎么来写每个段落、每个
句⼦、每个标题以及内部的结构组织等。表层⽣成,则是对⽂章整体的润⾊和改写,⽐如如何调整⽂章格式、给⽂章配图等。
何调整⽂章格式、给⽂章配图等。
图 2:百度智能⽂章⽣成过程
Q4. 百度智能写作有哪些特点和优势?实际应⽤情况如何?
答:⽬前媒体报道的写作机器⼈⼤多⾯向体育、财经等特定领域,我们的智能写作⽂章类型更加多样,覆盖的领域更为⼴泛,并且可以实现个性化的推荐和订阅。总体来说,实际的⽤户需求、⼤规模数据资源,先进的技术积累,以及产品应⽤中的反馈迭代,形成了百度智能写作的独特价值和优势。
甘肃天水天气预报
我们的智能写作的⽂章类型和话题源于实际的⽤户和产品需求。根据对资讯流产品内容分布和⽤户兴趣点分布的分析,我们确定了三类⽂章类型:速报类、知识类和资讯聚合类,分别⽤于改善产品中三类需求满⾜问题:⾼时效性需求,中长尾需求,和热点话题信息的⾼效获取需求。在具体话题的选择上,我们根据⽤户兴趣点分布确定话题覆盖优先级。⽬前百度智能写作的⽂章已经涵盖电影,美⾷、旅游、汽车、创业、房地产等 50 多个话题,涉及社会、财经、娱乐等 15个领域。
百度在数据资源和⼈⼯智能技术⽅⾯的积累为智能机器写作的研发提供了有⼒⽀持。
在数据⽅⾯,除了海量的全⽹优质数据,百度拥有⼤量的⾃建⾼质量数据,包括百度阿拉丁(优质资源开放平台)、百度知道、百度百科、知识图谱等,不仅可以⽀持基于结构化数据的⽂章⽣成,还可以⽀持基于内容聚合⽅式的⽂章⽣成。百度阿拉丁的时效性结构化数据,如体育⽐赛、、股票信息、恶劣天⽓预警等,是速报类⽂章⽣成的数据基础。百度百科、百度知道和知识图谱是知识类⽂章⽣成的重要数据来源。以百度百科中的城市百科为例,城市百科中包含了⼤部分城市的景点、美⾷、⽂化排⾏榜数据,这些数据与对应景点、美⾷的描述数据相结合就可以⽣成城市旅游、美⾷、⽂化的介绍⽂章。同时,基于海量的⽤户⾏为⽇志数据,可以准确地捕捉对这些内容感兴趣的⽤户,就可以实现⽣成内容的个性化推荐和满⾜。
在技术⽅⾯,百度在内容理解、语⾔⽣成、知识推理、机器学习等⽅⾯的技术积累,是智能机器写作的重要技术基础。以资讯聚合类⽂章⽣成为例:⾸先,聚合类⽂章的话题选择和资讯内容获取是基于内容理解和⽤户理解技术。利⽤百度⾃建的关注点图谱(主题、实体、事件标签以及标签间的关系)和标签预测技术,我们为每篇资讯内容打上关注点标签,同时根据⽤户的搜索或阅读⾏为可以获得⽤户的关注点标签,即⽤户的兴趣点。这样就获得了⽤户感兴趣的话题,同时基于内容标签可以获得相关话题的资讯内容。其次,基于内容理解和⽣成技术对于同⼀话题的内容进⾏压缩和聚合,相关技术包括:事件分析,话题聚类,事件脉络抽取,⾃动摘要,标题⽣成、结构⽣成等,⽽机器学习和知识推理是这些技术实现的基本⽅法。图 3 以事件脉络型⽂章的⽣成为例说明聚合类⽂章写作中所依赖的主要技术。可以看到,百度深厚的技术积累为智能机器写作提供了有⼒的技术⽀撑。
图 3 事件脉络型⽂章⽣成主要技术
上海欢乐谷开放时间2022
九寨沟好玩的地方⽬前,我们的智能写作机器⼈在百家号和百度资讯流产品中已累计发⽂近万篇,阅读量超过千万。图 4 是智能机器⼈写作的新闻实例,包括通⽤领域新闻,⽣活新闻,体育新闻等。随着产品的应⽤,我们可以积累更多数据和⽤户反馈,不断实现技术的更新迭代。
图 4:百度智能机器⼈写作应⽤实例
Q5. 智能写作技术上最⼤的难点是什么?百度未来是否会尝试深度⽂章的撰写?
答:⼈类作者在撰写⽂章时通常会对数据、内容和话题进⾏深⼊理解,并可以进⾏演绎、推理和联想,从⽽完成更深⼊的报道,充分表达⾃⼰的观点和⽴场。⽽相⽐之下,机器则更长于数据分析和规范的写作,在⾃然语⾔深⼊理解,以及让稿件具有观点和⽴场等⽅⾯还有很⼤的提升空间。
在深度⽂章写作⽅⾯,我们也在做⼀些探索和尝试,⽐如情感分析等研究,⼒图让机器写作更贴近⼈类,甚⾄希望有⼀天它能有⾃⼰的⽴场和观点,更加⼈性化。但就⽬前⽽⾔,我们的智能写作机器⼈会更聚焦⽤户需求,偏重数据分析和客观⽂章的撰写,致⼒于帮助内容创作者减少重复劳动,节省更多精⼒去撰写更加优质的深度内容。
Q6. 百度智能写作机器⼈背后的团队构成是怎样的?
Q6. 百度智能写作机器⼈背后的团队构成是怎样的?
答:我们的智能机器写作研发团队成员来⾃百度阿拉丁团队、NLP 团队、知识图谱团队、互联⽹数据研发团队以及质量保证团队等不同部门。研发初期主要通过⼩规模数据样本和简单的⼈⼯处理实现技术探索和原型设计,随着技术的进展和⽤户需求的增长,产品、技术、资源、平台等多个团队展开联动,着⼿推进更加成熟的产品落地。
Q7. 在内容创业迎来了新风⼝的当下,百度推出了战略级产品百家号,并以百亿分成⿎励内容原创,如何看待智能写作机器⼈与内容⽣产者的关系?百度智能写作下⼀步的发展⽬标是什么?
答:我们认为智能写作机器⼈与内容⽣产者之间主要有两层关系:⼀是「代替」,将作者的重复性、规范性写作和客观数据聚合类劳动⽤机器进⾏替代,让作者可以更好的投⼊到深度⽂章的创作。⼆是「服务」,⼈⼯智能可以通过⼤数据帮助编写深度⽂章的作者,进⾏语料、素材的⾼效率搜集与初级加⼯⼯作,同时也可以基于⾏业的深度结构化数据完成基础数据分析及⽂章⽣成⼯作,服务于内容⽣产者,提升他们的写作效率。⽽这也正是我们智能写作的未来的发展⽬标——⼈机混合编辑。
Q8. 百度智能写作机器⼈与⼈类有哪些差异?未来是否会完全取代⼈类?
答:智能写作机器⼈和⼈类相⽐可以说是各有所长,智能写作⾸先肯定是速度快,可以在短时间内搜
集⼤量数据和信息完成创作,其次是有特别强的数据分析、收集能⼒。⼈⼀天看⼀百篇⽂章就很多了,但是机器则可以不知疲倦不停学习,随时随地收集和⽣产内容。尽管⼈类写作相对机器⽽⾔,时间较长,成本也较⾼,但⼈可以对⼀个事件进⾏演绎、联想,从更加丰富的层⾯上进⾏创作,表达⾃⼰的观点和⽴场,因⽽在深度撰写⽅⾯具有难以替代的优势,因此在可预见的未来,我们认为机器完全取代⼈类的可能性不⼤,智能写作机器⼈对于能够深耕⽂章内容、有独⽴观点见解的内容创作者⽽⾔,不仅不会成为「抢饭碗」的替代者,反⽽会成为帮助作者⽣产优质内容的贴⼼助理。

本文发布于:2023-08-02 03:04:42,感谢您对本站的认可!

本文链接:http://www.035400.com/whly/1/561078.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:写作   机器   智能   百度   内容   数据   技术
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2024-2030 Comsenz Inc.Powered by © 文化旅游网 滇ICP备2022007236号-403 联系QQ:1103060800网站地图