2020年媒体技术趋势报告：人工智能篇

过去一年，人工智能生态的领导企业一直在争夺“人工智能云共享”，以期成为值得信赖的AI远程服务提供者。在西方，该领域由亚马逊、微软和谷歌领导，其次是苹果、IBM、Salesforce、SAP和甲骨文。在亚洲，AI云由阿里巴巴等巨头主导。

Future Today Institute日前发布了《2020年娱乐、媒体和科技趋势报告》。介绍了包括人工智能、合成媒体、区块链等共计16种前沿趋势，以及其中的157项具体革新。本文摘选了人工智能项目，供读者阅读。

人工智能

AI已经不再是一种趋势，而是计算机时代的第三纪元。本篇报告从AI的不同方面汇总了娱乐、媒体和技术的趋势。在新闻业中，AI成为了各大新闻机构的宠儿。路透社的Lynx Insight程序可以帮助记者挖掘大数据。《华盛顿邮报》的 Heliograf被用来报道选举和体育赛事。杜克大学记者实验室的ClaimBuster则可以帮助记者进行事实核查。

弗兰肯算法的扩散（Proliferation of Franken-algorithms）

算法只是定义和自动处理数据的规则。它们使用的是计算机可以理解的“如果……那么”逻辑。举个例子：如果网站浏览者的IP地址位于芝加哥，那么算法就允许他们直接进入；如果IP地址位于伦敦，则算法就会按照GDPR的要求先显示隐私和cookie政策。尽管人们可以直接按照自己想法设计某个算法，但是所有算法系统一起工作就有可能会带来问题。开发人员并不总是事先知道算法之间将如何一起工作。有时，几个开发人员团队都在独立地处理不同的算法和数据集，但是只有算法被设计出来以后才能看到如何运行。这也就是最近股市和电商网站出现崩溃的原因。对于像Facebook这样的大型公司而言这是一个艰巨的挑战，因为在任何特定时间，会有数十亿的算法同时工作，根本无法预测其运行结果。

专用、开放和自主开发的AI技术（Proprietary, Open and Homegrown AI Languages）

Python是一种具有许多预构建库和框架的先进的编程语言。麻省理工学院开发了一种名为Julia的开源语言，专注于数值计算，此外还有AI的提出者John McCarthy于1958年创建的Lisp语言。各大公司正在开始构建和发布自己的软件包以及用于AI应用程序的独特编程语言。Uber用Python编写了自己的概率编程语言Pyro。不同于OSX与Android或者早期Mac与PC阵营的对立，这一举动意味着AI生态系统未来将走向分裂。市场会发现在不同的AI框架和语言之间转化代价高昂。

问题数据集（Problematic Data Sets）

公司自主训练研制的AI并不具备代表性，因此不能被广泛采用。MIT的研究学者发布了一款名为“Norman”的AI用来捕获识别照片。他们做了一组对比实验，一组系统采用的是经过训练的标准数据，另一组则没有经过训练，结果令人大跌眼镜：采用标准数据的系统显示出来是“一个棒球手套的黑白照”，而另一个系统则显示出的是“一个白天在国外被枪杀的男人”。一些为了生成自然语言的新系统于2019年发布。虽然这些系统都事先经过训练，但它们曾经用来学习自然语言的Reddit和亚马逊上的评论却被删除了。原因在于：Reddit和Amazon评论员都偏向白人和男性，因此这些人的话并不能代表所有人。这说明开发人员仍然面临挑战。如今已经变得很难从真人那里获得真实的数据来训练系统了，而且由于新的隐私政策出现，开发人员只能更多地依赖公共数据集和有问题的数据集。

数据的深层链接（Deep Linking）

自智能手机问世以来，深层移动连接就已经使用户在手机所有软件中查找和共享数据。但是现在深层连接却让用户越来越难找到自己想要的信息。2019年，Yelp餐厅在其软件中标明了准确的联系信息，但是当客户点击时，他们就被跳转到Grubhub软件里订餐去了。即使客户关掉了软件并想直接打电话订餐，该软件仍将其转换成Grubhub上的号码，因为这样Grubhub可以将其归类为“营销”活动并向餐馆收取高额的佣金。如今深层链接有三种：传统深层链接，延迟深层链接和语境化深层链接。传统深层链接会从一个软件或网站重新定向您：如果单击某人在Twitter上发布的Baltimore Sun链接，那么理论上只要用户安装了Baltimore Sun软件，它就自动打开Baltimore Sun。延迟深层链接也直接链接到该软件（如果已安装），或直接链接到软件商店让用户先下载该软件。语境化深层链接的服务更强大，可以使用户直接从站点转到软件、从软件到站点或从软件到软件，还可以提供个性化信息，尽管故意向消费者隐瞒了整个过程。

AI云（AI in the Cloud）

过去一年，人工智能生态的领导企业一直在争夺“人工智能云共享”，以期成为值得信赖的AI远程服务提供者。在西方，该领域由亚马逊、微软和谷歌领导，其次是苹果、IBM、Salesforce、SAP和甲骨文。在亚洲，AI云由阿里巴巴等巨头主导。这是一个价值2500亿美元的行业，并且仍在迅速发展。纽约大学斯特恩商学院教授Arun Sundararajan说：“（这场竞争的）收益是成为下一个技术时代的操作系统。”娱乐和媒体公司将在未来几年找到更多使用AI云的方式。

AI芯片组（AI Chipsets）

对我们来说，平常笔记本和手机上搭载的CPU性能已经在不断提升，却满足不了机器学习的要求。它们的问题在于，缺少足够的处理单元，去完成下一个计算机时代所需的连接和计算。这时就需要一组新型处理器，华为、Apple、IBM等企业都在试水新系统的构建和SoCs。简而言之，这意味着芯片已经可以在AI项目中发挥作用，并且有更快的速度和更精确的数据——也不难预料到，几家企业在未来即将开展竞争。特斯拉的新型定制AI芯片虽然不如最初描述得那么引人注目，但已于2019年4月发布。Google的Tensor处理单元（或TPU）是专门为AI的深度学习而构建的，旨在与该公司的TensorFlow系统配合使用。

无处不在的数字助理（Ubiquitous Digital Assistants）

Siri、Alexa和天猫等数字助理使用语义和自然语言处理我们的数据，有时甚至在我们不知道要问什么之前提前预测我们下一步想要或需要做什么。FTI模型在2017年预测，到2020年，将有近一半的美国人拥有并使用数字助理，而FTI模型将继续追踪这个方向的趋势。亚马逊和谷歌主导了智能语音市场，但数字助理是无处不在的。现在，有成千上万的可跟踪响应的数字助理软件和小程序。新闻机构、娱乐公司、营销商、信用卡公司、银行、地方政府机构（警察、公路管理）、政治运动以及许多其他活动也在通过数字助理传达重要信息。

利用短视频生成虚拟环境（Generating Virtual Environments From Short Video）

芯片设计师Nvidia正在教AI用短视频片段构建逼真的3D环境，利用了此前生成对抗网络（GANs）的研究成果。Nvidia系统从开源数据集中生成的图形将用于自动驾驶领域。设计师使用了划分成不同类别（建筑物、天空、车辆、标志、树木、人）的短片段对GAN进行了训练，从而生成这些对象的新版本。自动生成虚拟环境的应用前景无穷：物流（仓库、工厂、运输中心）、城市规划模拟，甚至包括测试游乐园和购物中心内的客流量场景。

机器识别（Machines Performing Cognitive Work）

公司不再仅仅依靠AI系统执行繁琐的重复性任务。更先进的系统正在企业帮助优化工作流程并主动生成策略。这意味着人们并没有被机器人完全取代；相反，机器人是按照人类的工作能力而创造出来的。从仓库到审计公司，人工智能系统开始执行认知任务——在此过程中，人类只需要执行基础的操作。

亚马逊的自动化系统帮助提高仓库的效率、指导员工完成工作。沃尔玛使用计算机视觉来查找熟烂的农产品，其AI系统可以对仅从堆中取出坏苹果的人进行检查。在新闻编辑室中，类似的系统可以帮助记者筛选非常庞大的数据集以查找异常或识别人员。

机器进程自动化（Robotic Process Automation）

机器流程自动化（RPA）使企业能够在办公室内实现任务和流程的自动化，从而使员工可以把更多时间花在更有价值的工作上。

Google的Duplex是RPA的一种，用于向他人进行常规电话通话。亚马逊使用RPA筛选简历，然后再对最优秀的候选人进行排序。在银行业务中，Blue Prism和Automation Anyware可以帮助员工处理重复性工作，提高员工们的生产力水平。这项技术将使媒体和娱乐公司能够在客户服务等许多不同领域中节省成本以做出更好的实时预测。

机器人（Bots）

基本意义上的机器人是指，为自动完成某一特定任务而设计的软件应用。在媒体领域，机器人可被分为两大类：新闻型机器人（news bots）和生产力型机器人（productivity bots）。前者可以协助集合新闻信息，并自动为读者推送特定新闻事件；而生产力型机器人，则可以帮助新闻组织自动化他们的日常流程。

机器人的下一个重大进步不在技术方面，而是监管。在2018年的竞选中，我们看到了“僵尸网络”的复苏，“僵尸网络”是指发送误导性内容的计算机网络。由于人们对越来越多的机器人诈骗感到担忧，加利福尼亚州制定了一项新法律，该法律于2019年7月1日生效，要求机器人在在与人类的交往中必须清晰、醒目、合理地表明自己不是人类。

实时机器学习（Real-Time Machine Learning）

机器学习指的是一种应用算法来分析数据，从而可以更好地完成各种任务的系统，并且随着时间推移，它会越来越擅长这些任务。但这种系统也面临着效率问题：系统需要停下来解析数据。而最新研究表明，实时机器学习可以随数据获取而实时调整模型。这标志着数据移动方式以及我们检索信息方式的巨大变化。

比如说，即便是在多种语言混杂的情况下这种技术也能自动同声传译；它也可以对内容分发进行随时调整，从而为读者提供更具个性化的内容。比起刻板地使用历史数据（读者XX只喜欢体育类报道），实时偏好则能够将内容纳入推荐机制（读者XX在接下来的几天里对大选新闻的需求可能会更强烈）。

自然语言理解（NLU）（Natural Language Understanding (NLU)）

对于Siri和Alexa等对话式AI系统而言，让机器准确了解某人的意思难度较大。这些系统都经过训练后最多可以理解语句中的代词。如果消费者问“狮子王在Cinemark剧院几点钟上映？然后在那附近停车”，系统会自动推断“那”的意思是“Cinemark剧院”。从技术上讲，此过程称为“插槽结转”。它可以使用句法语境来理解代词的意思，除非我们说了带有许多不同代词的复杂句子。事实是，在日常交流中我们的说话都很混乱随意、滥用单词，甚至只用语气词来传达意思。

2019年，亚马逊研究科学家在NLU方面取得了令人瞩目的进步，他们推出了新的架构，能够帮助Alexa在人类不说完整的句子的情况下也能很好地理解人类。
机器阅读理解（MRC）（Machine Reading Comprehension (MRC)）

MRC使得系统阅读大数据、推断含义并且立即得出答案的流程成为可能。举个例子，当你搜索时，你是希望系统直接给出一个确切答案，还是提供给你一堆“欲知后事如何请看更多超链”的URL合集？让机器自己找出问题所在，这就是MRC。

在未来，MRC是实现强人工智能的关键性步骤之一，而近期，它则可以协助我们把技术手册、历史地图和医疗记录等各种资料转化为易于搜索的信息集合。

自然语言生成（NLG）（Natural Language Generation (NLG)）

自然语言生成技术现今已被不少媒体与营销机构所应用，基于大规模的数据集来进行自动内容生产。NLG可实现的功能包括，集成关键词、提升SEO（Search Engine Optimization，搜索引擎优化，即利用搜索引擎的规则来提升网站的搜索排名）以及为用户批量提供个性化的内容。

Arria NLG、IBM Watson语音转文字技术、Amazon Polly、谷歌云语音转文字技术，叙事科学公司Narrative Science和自动观察公司Automated Insights利用大型数据集构建叙事以帮助非数据科学界人士更好地了解其组织中正在发生的事情。NLG在各个专业领域都有无数的用例，可为律师、政客、医生、顾问、金融分析师、市场营销人员及其他人士提供帮助。

机器学习中的实时语境（Real-Time Context in Machine Learning）

IBM公司研发的Project Debater可以通过消化大量文本，从语境中找出逻辑漏洞、假消息。虽然目前处于测试阶段，但已经能够通过实时学习利用实际环境分辨真伪信息了。

多任务强化学习算法（General Reinforcement Learning Algorithms）
AlphaZero的团队开发的新算法可以学习多个任务。比如AlphaZero不仅在围棋上无人可敌，在象棋和日本象棋中也出类拔萃。

更快的深度学习（Much Faster Deep Learning）

深度学习（Deep Learning, DL）是机器学习中相对较新的分支，也会很快无形地融入到各个组织机构当中。设计者会结合包括文本、图像、视频、演讲等类似内容在内的各种数据库使用较为特殊的深度学习算法。

从概念层面上来讲，它不算新，最近更新的是计算处理能力和可用数据的数量。落实到实践上，这就意味着更多的人类事务可以被计算机自动完成，比如设计软件写代码。

DL受计算机网络运行速度的制约：几年前，用ImageNet网站中的数据集来训练图像识别功能，可能要花费一个月或者更长时间；而现在，Facebook可以在一小时内实现相同的效果。随着计算机提速和硬件技术的提升，系统也会以更加“超人”的速度完成任务。
强化学习与分层强化学习（Reinforcement Learning and Hierarchical RL）

强化学习（Reinforcement Learning, RL）是处理决策型问题的强力工具，应用于AI系统训练，使之拥有超出常人的能力。在计算机模拟过程中，一个系统尝试、失败、学习、实验,然后再次尝试——这一系列步骤都能飞速完成，且每次试错都会对它的未来尝试有所修正。

我们所熟悉的AlphaGo就是基于RL机制学习如何决定战胜人类棋手。但这项技术也存在问题：当智能体（agents）缺乏足够的监督（supervisor，简单来说监督就是设定输出值/目标，在数据中发现潜藏模式能更容易，而无监督式学习不设定输出值，下文在机器学习相关技术中出现的“监督”也是同一个概念），或是需要运行一项长时间的复杂任务时，可能会遇到困难。

这时，研究者将尝试应用分层强化学习（Hierarchical Reinforcement Learning）——能够发现高水准的行动，有条理地克服学习困难，最终以出乎人类意料的速度掌握新的任务。RL可以提升AI系统的“智能”，来使汽车能在非常规条件下自动驾驶，或者协助军用无人机实现之前尚未实现过的复杂动作。

持续学习（Continuous Learning）

现在，深度学习技术已经可以帮助系统学习，去以更接近人的所作所为的方式来完成复杂任务，但是这些任务仍然很具象，比如在某一项比赛中打败人类。并且它们需要遵循一个严格的程式：收集数据、设定目标、应用某一项算法。这一过程需要人工参与，也会花费不少时间，特别是需要监督式训练（supervised training）的早期阶段。持续性学习（CL）将偏重于构建提升自主学习与增量学习的技能，研究者未来还将持续扩展其能力边界。

多任务学习（Multitask Learning）

电影《龙威小子（The Karate Kid）》里，园丁宫地先生承诺教男孩Daniel空手道，但Daniel很快厌倦了日复一日的训练。对于Daniel来说，漆栅栏、汽车、无休止的“打蜡、封蜡”……这些事情看起来都毫无用处，肯定不能帮他学会空手道。当然，最后所有的杂务都被证明与空手道有关，这样的训练也帮他成为一名空手道冠军。提起这部电影，是因为研究者最近就在训练智能系统像Daniel这样学习。

当开发者使用机器学习时，他们要尝试用这种方式解决单个特定的问题。他们会监督智能系统微调，且不断修正，直到系统的表现符合预期。但是仅仅聚焦于单个任务，经常会指向无效结果——也许有比研究者发现的机制更好的解决方案呢？于是，新的研究领域，也就是多任务学习就产生了，让系统像Daniel这样，在各种各样的相关任务中寻求联系，探寻如何更好地解决问题。

生成式对抗网络（Generative Adversarial Networks (GANs)）

换脸技术在2019一直热度不断。基于生成式对抗网络（或GANs）的换脸技术很容易实现。我们可以把GAN理解为无需任何人员参与的图灵测试。GAN是无监督的深度学习系统，由两个在相同数据（例如人的图像）上训练的相互对抗的神经网络组成。比如说，第一个AI创建看上去很真实的女人的照片，第二个AI将生成的照片与真实女人的照片进行比较。第一个AI根据第二个AI的判断重新对其生成过程进行一次又一次的调整，直到自动生成看起来完全真实的女人图像为止。

thispersondoesnotexist.com网站正是利用该技术不断生成逼真的照片，而实际上这些照片并不存在。GANs也被用来实现旧照片或画作的动态化。今年，斯科尔科沃科技学院和三星AI中心的研究人员利用该技术让蒙娜丽莎摇了摇头、让拉斯普丁演唱了碧昂丝的《Halo》。
自动化机器学习（Automated Machine Learning (AutoML)）

自动化机器学习（AutoML）是一种新的机器学习方法，它可以将原始数据和模型匹配在一起以显示最相关信息，从而帮助一些机构摆脱目前耗时且困难的传统的机器学习方法。现在，谷歌、亚马逊和微软都提供了许多AutoML产品和服务。

定制化机器学习（Customized Machine Learning）

Google的Cloud AutoML可以帮助用户可以上传自己的数据建构模型，就算非专业人士也可以训练机器学习。

AI的持续偏见（Ongoing Bias In AI）

AI有严重的偏见已不是秘密。这个问题是多方面的。举个例子，用于训练AI的数据集通常来自Reddit或亚马逊的评论以及Wikipedia等本身就充满偏见的地方。建立模型的人往往不知道自己存在偏见。随着我们的计算机系统越来越多地用于决策，我们可能会发现自己被算法分到一个组别中，虽然对我们而言可能没什么影响，但实际上可能产生巨大隐患。

AI偏见导致内乱（AI Bias Causes Civil Unrest）

实际上每天你都在主动地或被动地创建不计其数的数据（比如在Facebook上上传和标记照片、开车去上班等）。这些数据通常是在你没有发现的情况下被算法挖掘和使用的，并用于制作广告、帮助潜在广告主预测我们的行为、确定我们的抵押贷款利率，甚至帮助执法部门预测我们是否可能犯罪。

包括马里兰大学、哥伦比亚大学、卡内基•梅隆大学、麻省理工学院、普林斯顿大学、加州大学伯克利分校、国际计算机科学研究所等在内的许多大学的研究人员正在研究自动决策的副作用。你或者你认识的某个人可能会陷入算法错误的一面，比如说你会由于一些不透明或不易理解的原因不符合贷款资格，不能拿到特定药物或不能了解房租价格。并且越来越多的数据在不知情的情况下被收集并出售给第三方。

文章来源：腾讯媒体研究院在职硕士、在职博士学历学位教育

2020年媒体技术趋势报告：人工智能篇

项目咨询、课程试听

在线报名

CONTACT

联系我们:

SOCIAL LINKS

关注我们:

LINKS

链接:

WeChat

2026 1V1规划: