哈斯日志
纪录我们在网路上奔波的历程!
  • »新帖子
  • 知识管理的算法
  • 信息知识管理技能
  • 碎片化阅读、海量信息时代的轻量级知识管理
  • 俞军和他的产品经理课
  • 为什么我们都对搜索不满意却又无可奈何
  • 搜索产品市场机会探讨:头条不做搜索做什么
  • 搜索产品市场机会探讨
  • 搜索产品市场机会探讨
  • 我教怎么在微信上通过bot做知识管理的
  • 今日头条搜索跟百度的简单体验对比


  • » @twitter
  • 百度AI写作大脑是怎么工作的
    星期五, 七月 05, 2019
    百度智能写作大脑的工作正式靠知识图谱驱动,根本上构建语义图谱关系,对于理解语义、生成语义都有重大影响。与深度学习算法强调的不可知论相悖的事,一旦要让算法干活、产生价值,就得让算法的输出是可控可靠的,给马戴上嚼子、套上缰绳,才能更好的发挥作用
    2019年百度开发者大会,大家都在关注robinlee被浇水的事情,在开发者大会所呈现的技术的创新、算法的进步上关注的不够。作为一个从业者,其实看到百度开发者大会所展示的百度大脑的能力、产品化、商业化的roadmap上还是颇感欣喜。
    当然,首先表态,对于robinlee被浇水这一件事,作为旁观者,我其实是鄙视浇水的当事人的。一个人以侮辱他人来表达自己的存在感,这是一种卑贱的行为。我们在崇尚个体独立表达、自由行使自己的权力,边界应该是不侵害他人,不能以侮辱他人为基础。这是我的观点。
    舆论的一边倒起哄和看热闹,百度的人也应该深刻反省了,作为国内最优秀的技术公司,在带给中国网民获取信息的便利和自由上在过去19年作出了巨大的贡献,尤其是在一个相对开放、自由的互联网信息技术市场上,依靠团队的实力、坚持,创始人的经营和创新走到了今天,成为全球技术创新领域中国的标杆企业,这是一个让人敬仰的事实。但是今天的百度产品体验和质量每况愈下,百度人真要好好反省。
    今天,我主要想说说百度智能写作大脑。
    百度大脑、百度AI写作大脑的历史进展和我就不赘述了,你可以百度一下,找不到是百度的问题。
    百度智能写作大脑能做什么
    今年百度开发者大会所释放的百度AI写作大脑的技术能力和业务场景,整体上包含智能摘要、语音合成、视频检索、视频生成、文本生成、语言理解、知识图谱和视频理解,能够完成对文本信息音视频版生成,也能反过来用。
    32F80286-9220-4AE2-99EA-08C07F4397D1
    能够做到这一点,主要是因为百度大脑的5.0升级
    4F95F339-579E-4A21-8FB0-39A68F815
    机器能够通过视觉、语音等模拟信号转成可计算文本,然后通过知识图谱构建起语义理解和生成算法能力。
    百度智能写作的技术流程
    之前百度的彭卫华老师,出来分享过,他认为“首先是写作触发,接着文章生成,然后是质量控制,最后是文章发布”。在百度智能写作大脑中,写作触发主要通过网络热点发现、主题分析、观点分析等,核心立意点是生成具有传播力的信息内容。
    他们会从从微博、feed 内容等资源中,提取、匹配出热点事件与概念,接下来判断是否适合机器写作,过滤掉太发散、太泛的话题,生成的话题包括非个性化与个性化的话题,其中个性化话题是通过用户画像进行定向下发到辅助写作系统、百家号熊掌号甚至合作媒体平台上。
    在文章生成部分,彭卫华分享了“宏观规划,包括素材组织与篇章结构规划;微观规划,包括词汇选择与句子结构、自然语言表达的句子;表层实现,具体包括文本生成与润色配图等”。
    其中,规划中素材选择、组织、句子、词汇的选择,都依赖于知识图谱驱动的关联及关系发现。那么知识图谱就在这里发挥了极为重要的作用。
    百度的知识图谱构建方法


    在百度的技术体系中,通过知识图谱做“知识的汇集、整理以及再加工,图谱中的每条边,均是基于语义的链接,是一个极其复杂的知识语义网络”目前百度知识图谱数据包含亿级别实体以及千亿级别的事实,以专家权威、百科实体、垂类挖掘与全网属性挖掘为组成部分,可以做到高时效性的秒级更新,在智能写作中扮演着核心角色,贯穿智能写作的全部流程。
    另外一块,还通过事件图谱分别持续地动态地获取客观世界的事件,并丰富事件属性、建立事件间关联关系,构成以事件为基本单位的知识网络。
    (图片素材来自datafun社区,彭卫华老师的分享)

    (图片素材来自datafun社区,彭卫华老师的分享)
    这些信息和语义单元被挖掘出来以后 ,通过知识图谱和关系权重,不断在各种生成和表达优化上进行应用。
    自然语言生成(NLG)
    这是最有技术含量的一块,目前今日头条已经在用生成来做资讯标题生成、阿里巴巴在用文本生成做商品介绍和描述的标题的个性化生成。百度在写文章写作上的探索可能走的更远。
    彭伟华老师介绍“NLG 主要包含 text2text、data2text、多模到文本三种形式,考虑知识图谱作为先验知识进行相关生成。从人工方案角度讲,主要有人工规则与模板两种。从机器学习方法上来讲,深度学习方向主要包含:seq2seq、DRL、VAE、GAN 等相关技术,非深度学习技术方向包括:排序、基于文法、规则/模板学习、概率图模型等。”

    (图片素材来自datafun社区,彭卫华老师的分享)

    (图片素材来自datafun社区,彭卫华老师的分享)
    欣喜的是,百度把这些技术和能力,通过百度语言和知识技术开放平台供给给所有创新、创业的人,创造者们,可以尽情折腾了。

    百度智能写作平台官方介绍
    1 自动创作:通过接入数据、配置专属写作模板,快速实现批量和自动生成文章的能力。支持聚合写作、关键词创作等多种内容自动生成能力。
    ---从示例来看,基本上是两种实现方式
    (1)纯算法驱动的文本生成,包含对联、写诗这种
    (2)模板生成,就是基于数据和对数据建模分析可视化之后,用模板来生成一个图文描述信息。
    2 辅助创作:可从素材发现、创作工具角度,提供热点发现、事件脉络、热词分析、文本纠错、用词润色、文本审核、文章分类、文章标签、标题生成等技术

    (图片素材来自datafun社区,彭卫华老师的分享)
    ---从示例来看,这个就比较丰富了,能解决很多实际创作、写作、跟文字工作相关的具体的痛点和问题,比如说我最近就感觉痛苦不堪的“智能”输入法问题,输入法太智能了反倒是出错更多、词不达意更多了。
    仔细体验了相关的功能演示、甚至调用了接口去在实际业务上体验,发现这个功能已经挠到了痒痒点了,但是还欠点火候,其文本纠错、用词润色等,都能大大增加写作的输入效率和质量
    B147E97B-390A-48EC-834D-F7FE254A60BA
    其热点发现能力、热词分析能力,如果能结合风云榜,基于热点事件、热词、热门源来形成,可能对于做热点运营和内容创作的人来说会大大增强有用度。
    重点想说说,百度智能写作的标题生成,简直是秒杀“震惊体”“揭秘体”“刚刚体”“惊呼体”“刚刚体”“吓尿体”“难道体”...,温情默默充满关怀
    AEAF55E1-99B9-43A7-99C6-F6644E3DC30A
    3 多模态创作:提供包括图文、视频内容在内的多模态自动创作能力,快速实现文本到视频、视频到文本的多种内容创作能力,全面赋能内容创作。这个是一个比较给力,也比较有想象力的事儿,十分期待!能不能尽快开放API体验一下呵。
    算法生成还有很多挑战
    文本生成,行业上还有较大调整和进化空间,真正要做到端到端的输出,还有很多挑战,目前从行业各位技术大咖的分享和交流来看,还有巨大想象空间和增长潜力。尤其是多模态、跨模态的结合。
    技术演进上,GPT2、BERT、百度的ernie都有了惊人的反馈,怎么更好地应用的产品和体验端,这非常值得探讨

    标签: , , , ,

    阅读《百度AI写作大脑是怎么工作的》更多内容...
    This Written at 七月 05, 2019 by loverty.   ,