五月花火盛

一个小故事

一天早上,遇到一家长送孩子上学。经过一棵树旁边时,家长指着那棵树问孩子,“你知道这是什么树吗?”一个简短的小对话扰动了我的神经,小孩子究竟是如何获得新知识的?

因为我最近用多智能体模拟软件NetLogo模拟了一个自动化工厂,整个工厂的运作全部由机器人完成,机器人/智能体需要不断从环境中学习知识,并作出响应,背后的理论支撑是AI的一个重要分支–符号推理,几十年前比较红火的专家系统基本上全是用的这个理论。符号推理侧重的是用基础知识库+事实推演出新知识。联系到小孩子学习新知识的场景,我得出了几个粗陋的见解。

首先是,新知识是如何从旧知识中产生的?前人已经研究得相当清楚,归纳法是不可以的,它只是将两个基本知识用另一套语言进行了表述;演绎法,则将基本的知识点进行延展,可以获得新知识,常说的三段式其实就是演绎法,举个例子:

大前提:树有叶子

小前提:槐树是一种树

则可以推演出结论,槐树有叶子。

第二点是人的知识建立,很符合伟大的先哲们归纳的公理体系,首先是孩子脑子里有了几个基本的人、物概念,包括树的概念(相当于是公理),其次是孩子会用推理,在知道某物是树的情况下,可以快速获得某树是什么树的知识;

第三点是有关当下炙手可热的深度学习,Deep Learning给许多领域带来了突破,包括图像、语音、自然语言处理等。虽然它解决了许多问题,但它本质是一个复杂函数的拟合,成百上千乃至百万级的参数,在大数据的训练下,对多种输入都能进行很好地处理并给出正确的结果,但它的致命缺点是非确定性,它不一定能正确处理新输入。而符号推理侧重的是环环相扣,明确的知识构建及推理,所以两者结合应该是非常好的点,可能许多人都在探索。但如果深究的话,我就容易产生困惑。因为知识是存在生命期的,一个知识,现在是正确的,不意味着它会一直正确下去。用今人构建的知识库、专家系统,只是使用的当下经验,所以它给出的结果也是会出错的,这样的话,即使是用清晰的规则来定义处理逻辑,也很难保证结果的绝对正确。另外,人处理事情的逻辑本质上也可以看做是个非常复杂非常复杂的函数,也是在不断变化。受限于了解的内容,人得到的知识都是特定条件下的知识。我不清楚,是不是可以把专家系统跟深度学习系统同等对待(他们均存在判断未知数据出错的情况),是不是意味着逻辑推理和深度学习两种途径其实是殊途同归;

第四点是,人类好像被上帝诅咒了,虽然可以熟练使用技巧,却难以察觉本质,比如很难意识到演绎方法的使用,很难想象我们竟然一直在地心引力的束缚下生活,因为天圆地方的概念非常符合我们的感觉,我们本来就该在地面行走,一切都非常自然。但是上帝说,要有光,于是牛顿诞生了,牛顿给出新的解释,并且让人觉得相当彻底,无懈可击,“原来世界是这个样子的”。但现代科学对牛顿体系的评价是这只是特殊情况的近似,爱因斯坦的理论再次颠覆了人们的时空观。这个世界真是存在太多没有被人意识到的存在。

 一个预料之中的新闻

4月30日,港交所公布“同股不同权”政策,5月3日,小米递交IPO申请文件,有望成为港交所“同股不同权”第一股。

雷军在公开信里面说,小米是一家以手机、智能硬件和IoT平台为核心的互联网公司。整个公开信里面几乎没有用英文词汇,IoT(Internet of Things)格外亮眼,小米是较早布局智能家居的企业,但几年前物联网的发展特别缓慢,随着网络的提速,带宽的增加,IoT的发展时机越来越成熟,而小米正是这个领域的领头羊,小米非常有可能在万物互联的时代成为一个平台级的公司,成为新的巨无霸。

而我们都知道,每一个成就背后都有无数个奋斗的故事,如果我们去了解下雷军的经历,我们会发现他一直是非常典型的邻家男孩,一路成长,一路榜样。

我相信,每个人内心都有一个热血青年存在,愿一如少年!

CNCC-2017-存储系统专题

阅前须知
本文分享内容来自CNCC存储系统相关的论坛内容,论坛名称为“下一代数据中心存储技术与系统”,此篇博文主要关注的是云计算环境下文件系统的发展趋势及研究点。
关键词:RDMA,bypass
阿里云高级总监,吴博士分享了阿里云存储几年来的经验教训,并讲述了存储系统的机遇。
个人感觉,吴博士之前的一位讲者肖教授总结得非常好,所以分享下他的Slide。
summary-xiao
在CNCC大会上,频繁听到的一个词是RDMA(Remote Direct Memory Access),这是种低延迟的通信解决方案,是高性能计算环境中的标配,正逐渐被cloud等多种环境采纳借鉴;另外一个高频度词是bypass,通过将不必要的软件操作短路(通常是内核)来降低软件栈开销。这两个词在吴博士的分享中也被提到多次。
吴博士首先概述了阿里云存储提供的几种类型的存储服务,包括对象存储,块存储,日志存储等,并提到盘古的分层架构。接下来我将按照吴博士阐述的几个方面,进行简单介绍。
pangu
Storage Disaggregation
随着网络带宽的提高,从网络上直接存取数据的延迟比从disk上存取数据的延迟更低,因此存储计算分离的设计被越来越多的公司采用,因为这可以进一步提高大规模计算的扩展性,可靠性。我们需要意识到的是,网络是云计算的根本。因此,从网络上研究,如何更好地支持存储,是一个很好的方向及研究点。
storageDisaggregation
Centralized Metadata Management
中心化的元数据管理,比分布式的管理效率更高,但前提是要保证避免spof(single point of failure)。
centralizedMetadata
控制平面与数据平面的分离
尽量将正交的操作分离,避免相互影响。提到这个方面,我想到了针对Spark Streaming进行的一个优化,就是将控制平面与数据平面进行了分离,传送门
Predictability
性能具有可预期性,是系统的一个非常好的表现,也是做系统的人的不懈追求。
predictability
When Software becomes the BottleNect
从传统的软件中可以看到时代的背影,当年对内存是像对待黄金一样珍惜,而随着技术的发展,内存越来越大,价格越来越低,应用可以更多地将数据置于内存,而不用精心设计如何与磁盘打好交道来提高效率。类似的道理,传统的软件栈可能在新时代的场景下不再是最优的方案,内核的TCP/IP协议栈对每个tcp连接都需要插手管理,低延迟,高并发的应用是不能忍受频繁的内核态、用户态切换,数据copy等开销的,所以利用RDMASPDKDPDK等技术进行性能的提升成为了一种趋势。此外,面临新型存储介质及其他设备如何才能更好地发挥他们的价值,如何重构现有的软件栈以适应新事物,这些都是要考虑的问题。
softwareAsBottleneck
重要的经验
吴博士参与设计开发过多个系统,遇到过许多坑,分享了许多重要的经验,包括:
1)系统及性能的可调试性,系统的debugability是非常重要的一个属性,Twitter开发的新一代流处理计算平台Heron的一个很重要的设计目标就是便于跟踪、监控,我们需要的是白盒,尽量避免使用黑盒,系统人员要能看到底,不希望眼前都是透明的。
2)动态参数的调整,避免重新发布来调整参数
3)自我调整及自我检测以提高自适应能力
4)硬件+软件+App(ml,db,IoT等)codesign,高效率的系统肯定要考虑全局,当贯通了必要信息,一个决策才是比较优化的。Motivation是进行设计的出发点,结合需求/workload/场景来设计是重要原则。吴博士当时极力推荐阅读一篇论文,那是一篇2017年4月的论文,Attack of the Killer Microseconds,提出要跟随技术的发展,对微妙级延迟进行多加关注。
5)Intelligence,ML,IoT things,Serverless computing
存储系统作为计算机领域中的系统,不能只专注于存储系统自身的发展,需要及时跟进吸收计算机其他领域的知识,乃至跟计算机无关的领域。整个世界的联系越来越紧密,交叉学科、思维借鉴、组合创新,均不可或缺。
本人不是单纯地复述吴博士的观点,某些内容包含了个人的一些见解,还是希望感兴趣的去看下会议记录的直播回放,内容更加详细完整,视频地址为:https://www.yizhibo.com/l/MZDn3Rtut0Fy-ViZ.html,感谢东南大学参会学生提供的直播视频。
上一篇cncc专题文章:2017CNCC开幕日特邀报告

CNCC–26日特邀报告

本文主要分享CNCC26日上午特邀报告的部分内容,内容主要包含以下几个部分:

    • 丘成桐教授报告
    • 梅宏教授报告
    • 沈向洋教授报告
    • 李飞飞教授报告

丘成桐教授报告

丘成桐教授在大会上做的报告是《现代几何学在计算机科学中的应用》,讲述了计算机与数学,尤其是几何学的关系。丘教授渊博的学识,不禁让人肃然起敬,从下面几张简陋的图片中就能看出(丘教授的slides,很大概率是用LaTeX编写的,规规整整,学术范满满)。他说几何学可以为其他学科提供想法,几何中的许多概念都可以引入到计算机,反过来,计算机对几何的发展也有促进作用,深以为然。
overview1
overview2
specific
sum1
sum2

梅宏教授报告

工科向来不及理科的深奥,丘教授的报告让我见识到了理论的精确、严谨,却不知其真正含义,而梅宏院士的报告《软件定义一切:挑战和机遇》听起来就比较亲近易懂,梅宏院士在疯狂地为“软件定义一切”打call,但我认为软硬件协同才是根本,软件定义离不开硬件的支持,计算机的生态从底到上看似松散实则联系非常紧密,一个软件应用调用的一个非常简单的API,能呈现出效果在于其含义经过层层传递,最后被硬件精确地执行,对于系统开发者来说软硬件协同不可避免,而对于消费者来说,软件定义一切的接口真真切切地方便。梅院士对软件业的描述及挑战和机遇的精彩的报告还是非常不错的,学术研究者可以关注下,下面分享一些图片。我们在福州打滴滴时,司机还在说他们是在为滴滴打工,要交22%的平台费用,细思极恐,滴滴可以说是一个新的互联网平台,但它没有一辆自己的车,通过互联网,他实现了很好的低成本扩张,最后成功地成为了中国最大的出租车公司,以前各地的出租车公司都是划区而治的,但现在的局面完全不一样了。但滴滴的服务在高峰期体验不好,一旦自动驾驶开始商业化,这将是另一个大的飞跃,调度效率更高,所需人员大量减少,那时就会呈现出新的局面,冥冥之中,我预感到这个时刻已经快要到来。
sdn
sdx
basic-sdx
software
software1
sum1
sum2
sum3
sum4
sum5

沈向洋教授报告

本届大会的一个大主题是智能,所以少不了NLP,CV的内容。微软的沈向洋在其《理解自然语言:描述、对话和隐喻》报告中,直接说,“懂语言者得天下”,当然对小冰,小娜的夸奖赞不绝口,不过会作诗的小冰确实挺有意思的~,小冰是怎么“想到”笑容的虚假的?
overview
poem
shen-poem
poem2

李飞飞教授报告

接下来是大名鼎鼎的李飞飞做的报告《Visual Intelligence: Beyond ImageNet》,从寒武纪物种大爆发的重要原因–眼睛的出现,讲到人类视觉的超高能力。目前深度学习在物体检测及识别任务上有了非常好的表现,但对于场景的理解,图片中关系的认识几乎处于0的阶段,所以李教授也在积极推动视觉智能的发展。
寒武纪
继续阅读“CNCC–26日特邀报告”

阅前须知

1.本博客所有文章均为原创,转载等操作请提前联系本人。

2.如果文章内容侵犯了您的版权,请及时联系。

3.文章内容难免存在纰漏,欢迎大家指正。

最近有点忙

还在体育馆练武的我,突然接到授课的短信,才意识到只有一天时间去准备我的课件。针对那么一群活泼的孩子,我应该怎样讲授才好呢?心有悸悸地在晚上和第二天的上午准备着

初中生,有的积极,有的安静,知识储备足够,但创造性及创新意识仍然不足,作业仍然繁多,大把大把可以挥霍的青春

我以4年本科及多半年研究生的经历来看待,要求比我只低8、9级的年轻人,显然是以“赢者心理”为出发点的。

还记得第一次参加运动会是在初中的实验中学,小学、初中,自己有使不完的力气,总自信自己跑得很快,这次的短跑让我意识到我老了。

受伤之后,心里总是有个影子,不敢发力,上午还算稳稳地过去了,重在参与!下午的接力倒是用了全力,感觉自己又年轻了,身体却真的是很疲惫。

以前都是参与者,这次作为组织者,看着淡定及辛苦的队友,也是累并快乐着!

 

 

看看喧嚣的案件

1.当社会把你逼得无路可走的时候,不要忘了,在你身后还有一条路,那就是犯罪,记住,这并不可耻。–马雅可夫斯基

2.这一起被广为关注的案件根源在于经济利益,这从一个侧面反映了中国经济当下面临的困境。当实体经济无法通过正规渠道融资时,民间高利贷就会大行其道,大量热钱游荡在上面的金融产品而没有落实到实体经济,迟到会对社会带来负面影响。希望这个事件可以让决策的高层下决心去解决问题。

3.冠县,身处冀鲁豫三省交界处,极目所望,尽是广袤的平原,有萧城遗址,万亩梨园,马颊河度假区等,或许我们可以帮助提振下小城的旅游业。

 

从此是路人

小米的体验,只能让我成为路人了!

重启后,竟然只能通过密码进入,为何不支持更安全的指纹?

每个人都这么多密码,集中式管理密码的应用能否成立?奶罩哥在做的事情

雁栖生活

放了多半年的蒜不少都🌱了,肉也不足了,就想种起来吧,他们养绿植,我养蒜苗,并且更青翠,还可以割了炒菜吃~

远处的山景致不错,真想有空去爬过去玩~

最近看了星爷的《喜剧之王》,看到了许多以前见到的经典片段,一直都没有完整地欣赏,感觉非常不错!有一幕印象深刻,就是星爷面对撒泼的张柏芝,不是恶言相向,而是深情地说了句“我爱你”,这是情商极高的境界!除此之外,就是星爷对梦想的坚持了,这份专业、执着最终成就他!

(WordPress的排版太渣了啊)

对Spark的进一步理解

Spark 已经被使用得非常广泛了,最近看到某些公司招聘时对Scala的要求及对Spark的理解,对Hadoop的要求已经退居其次,其成熟程度由此可见一斑。

Spark作为一个执行引擎,使用了一个很迷惑人的编程抽象RDD(resilient distributed dataset),并且说其具有容错的特性,但要意识到数据真正的可靠性是依赖存储层的,试想Spark的某个节点上的数据是没有副本的,那么这个节点宕机后,其上的数据是无法恢复的。当经过这些思考后,对分层的设计思想的认识就更深了,当存储层解决好了可靠性,上层就可以不用考虑,只管优化计算就好了,从这个层面上看,Spark就是通过最大限度地使用内存以提速的一个MR优化,此外提供了丰富易用的API。

另外AMPLab中的人讲故事,运用语言的能力确实很强。

鸡年的华幕已缓缓拉开

刚开始决定要一个一个问候好友时,内心还是忐忑的,这种略虚的东西,个人不怎么感冒,但开始送福后,感觉这也是一个有趣的事情,就刷刷地进行起来了。
刚开始是这样的

接下来有演变成这样的


这就可以多过几招
还有直接这样的

[捂脸]

当然,还有许多维持初始状态的

许多东西,有印象时不记录下就流走了,所以堆砌了些文字,日后再看也是一乐。几百个人,一个一个地发,我感觉自己还是蛮拼的(自夸脸),毕竟第一次有意识地过本命年,拼了,12年后可以再来一波。问候虽然不多,有的仅是一个简单的[嘿哈]表情,但我是怀着真挚的心意的,愿你们都健康快乐~没有飞扬的文采,还好微信有很赞的过年表情。当然,自从转向了微信后,qq就几乎被嫌弃了,qq上的好友们,我也是记得你们的。
大年初一看了部13年的贺岁档影片《私人订制》,顺便写了个影评。我意识到我需要在送祝福前,先说句“对不起”,不管我做没做过不妥当的事情,所以,先给所有人说声“对不起”,接下来祝福大家鸡年大吉,为了少说“对不起”,Come on!