微软深度学习框架通用教程交流(你必须知道的一些事儿)

欢迎来到令人兴奋的微软Azure机器学习新世界! 不论你是一位专业的数据科学家还是有抱负的新手,都可以通过微软发布的基于云的平台来快速创建、分享、测试、训练、失败、修复、再培训,并以便于使用的Web服务形式部署功能强大的机器学习实验。所有的这些都基于最新的算法。利用这一平台,你可以通过在新数据集上不断地“训练”来微调你的实验结果。

比尔·盖茨曾说,“机器学习中的一个突破,其价值抵得上10个微软”。新的Azure机器学习服务以一种真正的基于云的差异化方式承担起这一令人激动的挑战,它利用一个强大的假设(一些大的数据集、有效的信用卡和浏览器),让今天的机器学习企业家们能学习如何从众多大数据仓库中获利。

1.1 什么是机器学习

机器学习可以被描述为一种利用经验来改进的计算系统。它也可以被描述为一种将数据转换为软件的方法。无论使用什么术语,结果仍然是相同的。数据科学家已经成功地开发了若干创建软件“模型”的方法,这些模型在用海量数据培训后,用于预测某些模式、趋势和结果。

预测分析学是Azure机器学习背后的一种基础技术,它可以被简单地定义为一种科学地利用过去预测未来的方式,以帮助得出预期的结果。

在某些情况下,机器学习和预测分析通常会特别有用,因为它们可以远远超过一般人开发的标准的规则引擎或编程逻辑。如果想使用实例或过去的历史经验数据对所需的输出或预测进行优化,机器学习是很好用的手段。描述机器学习的方法之一是把它与现代计算机编程范式进行比较。

传统的编程模式下,程序和数据通过计算机处理以产生所需的输出,例如用程序来处理数据并产生一个报告(见图1-1)。

微软深度学习框架通用教程交流(你必须知道的一些事儿)(1)

图1-1 传统的编程范式

而用机器学习进行处理,处理范式便发生巨大的变化。数据和所需的输出是由计算机逆向设计的,来产生一个新的程序,如图1-2所示。

微软深度学习框架通用教程交流(你必须知道的一些事儿)(2)

图1-2 机器学习编程范例

这个新程序的作用是,它可以根据所提供的输入数据有效地“预测”输出,这种方法的主要优点是,所产生的“程序”是利用大量的学习数据和反馈数据训练构建起来的,能够基于提供数据预测期望的输出。从某种意义上说,这相当于有能力创造一只可以下金蛋的鹅!

一个关于预测分析的典型例子在Amazon网站上随处可见,你每搜索一件商品,页面会向你呈现一个推荐商品目录,这是因为“买过此类商品的顾客还买了目录里的商品”。这是利用预测分析和人类购买心理建立一个非常有效的营销策略的典型案例。

人类社会本能的需求之一便是不落后,跟随潮流。结合这些深层的心理动机与正确的历史交易数据以及优化的过滤算法,如何实现一个高效的电子商务销售策略便显而易见了。

人类自然本能之一就是害怕置身事外,特别是当其他人都在做的时候。这是社会网络的潜在基础,并且预测分析不会有比结合网络预测分析人类本性更有效用和效率了。结合人类固有的欲望心理与正确的历史交易数据,然后使用优化的过滤算法,便可以实现一种高效的电子商务促销策略。

接下来分析一下这个高度有效的预测算法对数据的要求。基本要求是历史订单,通过这些订单,系统可以查找与当前浏览物品一起购买的其他物品。然后通过结合用户的个人资料,如年龄、性别、婚姻状况和邮政编码等,对历史数据进行过滤,这样便可以为用户推荐更有针对性的物品列表,甚至满足其他要求。

如果你能够根据他在过去购买的物品类别推断出用户的偏好和购买模式,事情会变得怎样?如果有人购买了弓、箭和野营炉,那么他可能是一位狩猎者。同样,这样的人极有可能喜欢户外活动以及与之相关的野营设备、皮卡车,甚至是棉花糖。

这种联合当前数据来推断额外的数据属性的模式才是数据科学真正起飞的所在,掌握有效利用这项技术的方法将为组织带来巨大的财富。与机器相比,数据科学家们能够做出更具价值的数据见解与推断,并将其与机器学习过程相结合,来最大化收益。

这也为什么在“快速失败”或确认自定义预测算法的逻辑的过程中,机器学习具备可以快速地测试预言和理论的能力。幸运的是,这是一个Azure机器学习真正闪光的领域。在后续章节中,我们将陆续学习如何快速创建、共享、部署和测试Azure机器学习实验,并迅速地部署组织中的预测分析系统。

从某种意义上说,Azure机器学习类似于培养孩子或训练动物,当然它们不需要食物、水,也不需要休息。我们知道,持续地自适应改进是达尔文进化论的主要特征之一。与此类似,Azure机器学习是计算理论和机器学习能力进展一座重要的里程碑。

机器学习可以与演化本身的许多概念做类比,尤其是在当有充足的时间和数据(现实世界中的经验)的情况下,自然界的有机体如何通过遗传和行为来适应和克服环境的变化这件事情上。

自然法则就是适者生存。

1.2 当下的机器学习风暴

由于以下行业趋势,当下流行的预测分析系统正在以远快于机器进化水平的速度发展。

  • 数据以指数级的速度增长。
  • 我们实实在在地处在价值连城的历史交易数据的“大山”上,并且这些数据通常都被数字存储,容易读取。
  • 我们可以通过嵌入式系统和链接着各种设备的“物联网”演化系统获得日益丰富的实时数据。
  • 我们拥有了生成新的合成数据的能力,可以通过对现有历史数据的推导和预测来生成现实的模拟数据。
  • 全面数字存储价格低廉。
  • 如今,我们很容易从网络上获得大量免费的或低成本的、全球范围内可用的数字存储设备。
  • 从个人设备到私有云和公有云,我们有多种存储机制来容纳永无止境的数据流。
  • 普适计算能力。
  • 如今,云计算服务无处不在,我们随时可以以具有竞争力的价格选择大量的云服务和托管合作伙伴。
  • 易访问。只要拥有一张信用卡和一个浏览器,你便可以开始以小时或分钟计费的方式来访问自己所需要的所有内容。
  • 数据分析的兴起。在许多现实世界的商业应用案例中,预测分析可以带来很好的收益,起到了推动经济的良好作用。

因此我们可以得出,机器学习一个很有趣的方面就是它总是自适应的,并且总是从任何错误或者误算中进行学习。因此,良好的反馈/校正循环系统对于微调预测模型是必不可少的。廉价的云存储设备的出现和不断发展的普适计算使得从数据中快速和高效地挖掘价值变得更加简单。

1.3 预测分析

当今,预测分析随处可见。当你意识到它在日常生活的正常消费中起了多么大的作用时,你甚至会感到恐惧。预测分析系统已经深深地融入了人们生活的方方面面。从保护你的电子邮件、预测你可能喜欢的电影,预测你将支付的保险费,到预测你下一次抵押贷款申请时的贷款利率,这项技术的使用一定程度上会决定收益。

俗话说“差之毫厘,谬以千里”。在当今这个时代下,任何机会都会转瞬即逝。敢于进行分析的人才能创建商业模型并且收获潜在的利益。这再次说明,数据分析预测能力将对我们的社会发挥越来越重要的作用,甚至会达到推动全新的商业模式形成和行业发展的作用,而这一切完全依赖于预测分析的力量和当下正以惊人速率产生的数据。

1.4 无限的机器学习燃料

随着数字时代的发展,当下大多数人时刻都在通过万维网、社交媒体、趣味图片创造着大量新的数字数据。据估计,目前全球数据增长情况是,每两天全世界创造的数据相当于从人类文明之初到21世纪初所产生的数据总量。有人预测,到2020年,全球数字世界的规模将接近44万亿吉字节。

“物联网”是当今最热门的技术发展趋势之一。它是基于“所有互联设备都能通过互联网进行通信”这一概念。毫无疑问,这种新技术革命的兴起也将有助于推动现今大数据的增长,预计在未来十年内将会呈指数增长趋势。在不久的将来,几乎每一个昂贵的消费设备都将成为某种物联网信息交换形式的候选,例如预防性维护、制造反馈以及使用细节等方方面面的用途。

物联网技术是指数以十亿计的具有唯一标识的日常设备,能够自动地记录、发送和接收数据。例如,行走过程中,智能手机中的传感器可能会追踪你的行走速度;一个高速公路收费站可能会使用多个高速摄像机来跟踪交通态势。就目前的估计,当今全世界仅有大约7%的设备进行了连接和通信。而这7%连接的设备上产生的数据量估计仅占当今全世界数据总量的2%。预计到2020年,这个数字将增长到全世界数据总量

的10%。

物联网的迅猛发展势必会影响有效数据的规模,或者说会影响那些可以被用来加以分析以产生有效结果或预测决断的数据的规模。通过比较,2013年,整个数字世界中只有22%的信息被认为是有用数据,而这部分有用数据中被用来分析的比例不超过5%。这就导致了大量的数据仍然未被处理和充分利用。得益于来自物联网数据的增长,据估计,到2020年,超过35%的数据将会被认为是有用数据。这是你可以使用商业机会挖到今天的数据“金矿”的地方,也是你在可预见的未来可以了解到商业趋势将怎样持续增长的地方。

物联网设备和数据流的持续增长也会带来一个额外的好处,那就是数据科学家还将具备独有的能力来进一步结合、合并和提炼数据流,并使从数据中得到的商业更智能。单数据流的物联网数据本身就是非常有价值的,但当与其他相关数据流相结合时,它便可以以指数级的速度变得强大起来。例如预报和调度电梯的预见性维护工作。电梯的传感器设备定期地向云端监控系统发送数据流便是极为有益的。当这一数据与其他数据(例如天气信息、地震活动和本建筑中安排即将到来的重大事件日期)相结合时,它将立刻大大提高你的预测分析能力,帮助你预测出需要的有效模式和相关的预见性维护工作。

目前,物联网设备数量急剧增长会带来诸多的好处,它将为与客户互动、简化业务周期和降低运营成本提供许多新的渠道。当然,物联网现象也将给IT行业带来许多新的挑战,比如业界需要通过诸如加密和访问控制这样的措施来获取、管理、存储和保护这些新的数据流。在许多情况下,企业自身也应当承担一部分额外提高数据保护级别的责任,这样才能保障机密信息及个人身份信息安全。

与人类相比,机器学习的最大优势在于:做科学预测时,它能够考虑更多的变量。考虑到数据量每18个月就会翻一番这一事实,就知道,现在没有比使用Azure机器学习这样的令人兴奋的新技术解决关键业务问题更合适的了。

物联网对今天新一代的数据科学企业家来说是一个巨大的机会。新一代的数据科学家们知道如何采集数据、处理数据和在正确数据集上建模,以产生一个可以用来成功地预测预期结果的引擎。

1.5 日常生活中预测分析的例子

在我们今天的社会生活中,预测分析的例子简直无处不在。

  • 垃圾邮件过滤器——该应用基于内容、标题、来源,甚至是用户的行为(例如,总是删除此发件人的邮件)。
  • 抵押贷款申请——通常情况下,你的抵押贷款和信用是通过先进的预测分析算法引擎决定的。
  • 各种形式的模式识别——包括邮件邮递时的光学字符识别(OCR),智能手机上的语音识别,甚至高级安全系统中的人脸识别。
  • 人寿保险——包括计算死亡率、预期寿命、保险费和给付。
  • 医疗保险——保险公司试图基于患者历史的医疗报销和类似患者的背景信息,以确定未来的医疗费用。
  • 责任/财产保险——保险公司可以基于人口统计分析汽车和业主的保险风险。
  • 信用卡欺诈检测——这个过程是基于使用情况和活动模式的。在过去的一年中,信用卡交易的人数已突破10亿。借助智能手机的功能集成,通过近场通信(NFC)的非接触式支付的数目也急剧增加。
  • 航班——航空公司根据以往的空中旅行模式和飞行数据计算费用、航班安排和收益。
  • 网页搜索结果——预测分析可以帮助我们确定在页面上呈现哪些广告、推荐信息以及显示内容的顺序。
  • 预见性的维护——利用预测维护我们可以监控几乎所有的内容:飞机、火车、电梯、汽车,甚至数据中心。
  • 保健——预测分析在确定患者治疗效果和未来保健方面被广泛地使用,这种应用是基于与该患者相匹配的类似患者的历史数据。
1.6 机器学习的早期历史

在探寻机器学习早期历史的时候,我们发现一个有趣的现象,即它和“农历”的概念有很多相似之处,这种现象可以追溯到19世纪早期。

农历一直是农民、牧场主、捕猎者和渔民所依赖的关键因素。农历的创造者把过去的天气状况、月相、雨水和土地旱涝情况等重要的历史观测数据给他们的“用户”,用户以此作为指导来掌握来年的播种、收割和捕猎的适宜时机。

让我们快速回到现代,关于机器学习的威力、实用性和最大化地节约成本的一个简单范例是来自美国邮政局。机器运用光学字符识别(OCR)功能,每小时能够准确地识读成几十万封的邮政信件上的地址。仅2013年,美国邮政局便处理了超过1584亿封邮件,这意味着美国邮政局每天能够用机器准确识读上百万封纸质信件上的地址和邮政编码。可以想象,处理如此庞大数量的邮件,靠人力劳动是根本不能完成的。

在早期,邮件分拣处理完全靠全国数以千计的邮政工人手工完成。20世纪80年代后期至20世纪90年代早期,邮局开始引进早期的手写识别算法和基于规则处理的技术来帮助“过滤”每天的数量庞大的邮件。

因为信封的格式、形状和尺寸有所不同,实际上文字识别对于邮局来说是一个非常大的难题。不仅如此,书写地址时所用的各式各样的书写方式和书写工具——从钢笔到蜡笔,更增大了识别的复杂度,你可以想象到邮局面临的困难有多大。尽管技术上有很大进步,到1997年,全国仅10%的邮件能自动化分类处理,那些无法自动扫描识别的邮件就要传送到手工分拣中心,靠人识读和处理。

20世纪90年代后期,美国邮局开始把这个自动化问题作为机器学习问题处理,用字符识别的数据集和人工识读的已知结果作为输入数据集。不久,这种方法提供了丰富的训练数据,帮助创建了第一个精确的OCR预测模型。他们通过增加字符降噪算法和随机轮换对模型微调来增加它的准确性。

如今,美国邮局是OCR技术的世界先驱,用它识读的手写邮件地址有将近98%的正确率,在机器打印的地址上能够达到将近99.5%的准确率。这是了不起的成就,尤其是考虑到在1997年的时候它仅能自动识别10%。当发现所有写着邮寄给“圣诞老人”的信件都能被分拣到位于阿拉斯加的手工分拣中心时,作者无比高兴。在那里,这些邮件由志愿者回复。

以下是几个有趣的示例,关于机器学习在美国一个古老、庞大的政府机构里表现出神奇的影响力。

  • 523000000:每天处理的邮件数目。
  • 22000000:平均每小时处理的邮件数目。
  • 363300:平均每分钟处理的邮件数目。
  • 6050:平均每秒钟处理的邮件数目。

关于早期机器学习的另一个例子是让计算机下象棋来击败人类对手。人工智能(AI)伊始,研究者经常用象棋作为一个基本的例子证明AI理论。象棋AI程序就是模拟象棋大师的推理解决问题。象棋大师在对弈的任意时刻,都是从庞大数量的可能的变化方案中挑选最佳的下一步。早期的计算机象棋AI目标非常明确:建造出一个机器能够击败世界大师。1997年,由IBM研制的深蓝象棋计算机实现了这一目标,并在锦标赛上成功地在比赛控制时间内击败了象棋大师加里·卡斯帕罗夫。

Jeppardy游戏展也为机器学习和AI的最新进展提供了精彩的一课。2011年2月,名为Waston的IBM计算机在著名的Jeopardy挑战赛上成功击败了两个人类对手(Ken Jennings和Brad Rutte)。为了赢得这场比赛,Waston不得不回答每一个具有细微差别的自然语言问题,包括双关语、同义词、同形同音异义词、俚语以及技术术语。有趣的是,Waston在整场比赛中都是离线状态的。

这意味着Wasson不能借助于任何外部,像必应和谷歌这样的搜索引擎的力量,它必须依赖多年来日积月累的经验信息。运用先进的机器学习技巧、数据分析和自然语言处理技术,Waston能够先将问题分解,然后探寻和对比可能的答案,最后将可能的答案根据“准确置信度”进行排序,所有的这一切大约在3秒钟内就可以完成。

微软有着悠久的在产品中应用预测分析学和机器学习的历史。下面是其中一些早期例子。

  • 1999年,微软Outlook邮件服务包含了垃圾邮件过滤功能。
  • 2004年,Search结合机器学习作为微软的搜索引擎技术。
  • 2005年,SQL Server 2005在大型数据库里嵌入“数据挖掘”处理能力。
  • 2008年,微软必应地图结合机器学习的交通预测服务。
  • 2010年,Kinect将观察和翻译用户手势的能力与过滤掉起居室背景噪声的能力结合起来。
  • 2014年,Azure机器学习将多年的预测分析学的创新技术通过Azure云平台提供给用户。
  • 2014年,微软发布了人工智能助理“Cortana”,介绍了一个基于流行的Halo video game 系列的数字助理,极大地促进了机器学习成为今天移动社会的完美数码伴侣的进程。
  • 2014年,微软预测实验室在其网站上发布了一个令人震惊的真实的例子,也就是实时预测实验。

机器学习的一个最显著的特征便是学习过程永远没有结束的时刻,因为机器从来没有学完的时候。每当计算错误的时候,一个修正的反馈就会输入到系统中,如此同样的错误将不会再犯。这意味着机器学习的任务从未真正“完成”过,你永远都不会真正的“满载而归”,因为它是一个持续的迭代过程,它要维护反馈循环系统的正常运行,不断地根据新的输入数据集以及输出结果的正负反馈完善模型。从严格意义上讲,该模型没有手写的代码,只是通过训练数据集和每个训练实例数据的正、负输出结果的反馈进行“纯粹”的机器学习。

这是机器学习的真正价值,它的字面意思是机器从自己的错误中进行学习。丘吉尔曾经说过,“所有的人都会犯错误,但只有智者会从错误中吸取教训”,这无疑是一种高尚的品德并且值得每一个人去追求。不管怎样,不断地自我纠正这一概念已经被机器学习的理念完全吸收,并且已成为机器学习范式真正独特的一个方面。也正因如此,机器学习可以成为帮助人类成功预测未来的有效工具之一,并在当今的技术领域独树一帜。

1.7 科幻小说变为现实

在科幻小说中,人类用虚幻的故事使人工智能达到了顶峰——机器具有真正的“学习”能力和自我意识。如早期的一部经典电影《2001太空漫游》中,有一台HAL 9000计算机就有“超能力”。

在这部影片中,HAL 9000计算机负责驾驶发现者1号宇宙飞船,它具有很多高级的AI功能,如讲话、语音识别、人脸识别和读唇语。HAL9000还能理解情感、表达情感以及下棋。当HAL 9000做了一次不准确的预测时,人们对它产生了怀疑,随后才由船员重新控制飞船。

另一个很好的例子来自科幻电影《终结者》系列。在这部影片中,“天网”计算机系统最初是由美国军方激活并控制国家的核军火库的。起初,“天网”以惊人的速度学习。一段时间后,它获得了自我意识。当操作员们意识到“天网”计算机的超能力后,他们变得惊慌失措,并试图关闭它。具有了自我意识的“天网”系统将操作员们的“努力”视为对自己的攻击,并得出了所有人类都在试图摧毁它的结论。为了抵御人类的“攻击”,天网系统自我操控发射了核导弹。

在流行科幻电影《少数派报告》中,专业的专案组警察通过预测犯罪嫌疑人在将来可能犯下哪些罪行来识别和逮捕犯罪嫌疑人,从而赶在犯罪嫌疑人犯下任何罪行之前对其实施惩罚。

当今社会,日常生活中的各类数据呈指数级增长,再加上存储变得日益廉价,云服务也提供了方便的计算访问能力,这就使得预测分析变得越来越重要与普及。使用者如果能够很好地加以利用,预测分析将会成为一个很好的工具甚至是武器。

1.8 总结

Azure机器学习是利用可完全托管的云服务建立预测分析解决方案的关键一步。Azure机器学习通过发布一个具有云优势的、全面的机器学习服务来克服目前大多数企业在部署和使用机器学习时遇到的困难。客户和合作伙伴现在可以建立数据驱动的应用程序,这些应用程序可以在短短的几小时内预测和改变未来的结果,而这一个过程,以前需要花费几周甚至是几个月的时间。

Azure机器学习把包括新的分析工具和为Xbox、Bing这样的Microsoft产品开发的强力算法等能力以及多年的机器学习经验集于一身,形成一个简单易用的云服务。

对于客户来说,这意味着他们几乎不用承担创建、开发和扩展机器学习解决方案的启动成本。可视化的工作流程和模板的使用让普通机器学习任务简单易用。有了它,用户可以在几分钟内发布应用程序接口、提供Web服务以及与其他人合作,并能快速地把分析资产转化为企业级生产云服务。

本文摘自《Azure 机器学习》

微软深度学习框架通用教程交流(你必须知道的一些事儿)(3)

《Azure 机器学习》

JEFF BARNES 著

本书讲解了微软 Azure 机器学习这种服务,开发人员可以使用建立预测分析模型 (使用各种数据源的数据集),然后轻松地部署这些模型作为云 web 服务的提供者。本服务提供了丰富的功能,支持很多的端到端工作场景,可以构造预测模型,以便容易地访问到常用数据源,进行数据搜索和可视化。

今日互动:你对本文的看法,并转发即可获得图书1本

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页