Skip to content →

Catbaron's Palace Posts

海量数据处理总结

备战百度,在海量数据处理的主题上做一个总结。
详情来自http://www.cnblogs.com/pkuoliver/archive/2010/10/02/mass-data-topic-1.html

1.Bloom Filter

将数据通过hash函数映射到位数组,比如hash(str)=3则将位数组第三位置为1
对每一条数据都用k个hash函数进行映射,也就是一条数据会将位数组的最多k位的值置1
在查找数据是否存在的时候,则对其进行k次hash,如果位数组中对应的各位都被置1了,则说明该数据已经存在(明显是有一定错误率的)
Bloom Filter可以用来实现数据字典,进行数据的判重,或者集合求交集.
同时,对其进行改进,即位数组每一位不再是0/1,而是数据出现的次数counter,那么出现数据则+1,删除数据则-1,这样可以实现删除操作。

Leave a Comment

OpenVPN分析

OpenVPN

从架构上来看,OpenVPN在某种程度上和 tinc 或者和VTun 比较相近,它是一个基于用户模式(user-mode)的程序,通过 TUN/TAP 接口与 TCP/IP 栈进行通信。作为用户程序运行的 OpenVPN,带来了移动性和易维护性的优点,正如我们在 VTuntinc 中看到的那样。和 tinc 一样,OpenVPN 在VPN服务中使用两种通道:一个携带用户的IP数据报文的数据通道,一个处理“密钥交互和配置(key negotiation and configuration)这种协议事务的控制通道。

OpenVPN 把两个通道都封装在UDP数据包中。两个通道使用相同的端口,所以一个给定的数据报既可以包含数据通道数据也可以包含控制通道数据。因为OpenVPN使用TLS协议进行认证和密钥交换,而TLS需要一个可靠的传输层,所以OpenVPN在控制通道中添加了一个可靠的层。这样保证了TLS所需要的可靠性,但是在数据通道中没有高可靠性的层( but that there will not be competing reliability layers on the data channel),所以我们在SSL和SSH VPN 中看到的干扰现象不会发生。

Leave a Comment

暗夜红天(译“red sky at night”)

By Matthew Juke(新闻作者,译者注)

20世纪九十年代,中国从一个封闭的壳中苏醒,开始看到越来越多的科幻作家涌现出来。在我们面前的,则是中国最突出也是最高产的两位科幻作家,韩松和潘海天。书虫准备在三月十七日的中国科幻和中国未来可能性的主题中邀请此二人(who are going to be putting forth the case for Chinese science fiction and the prospects for the future of the country at the Bookworm on March 17.)

在此之前,他们对环球时报谈到了科幻的过去,当下,以及在未来的状况。

第三代(Third foundation)

早在变革和开发之前,中国科幻便开始了启蒙(emerge)。而当下,这两个人都被看作是中国第三代科幻人。

2 Comments

渡边,青豆,和卡夫卡

这一段时间,一直想写一点关于村上春树的一点感受,现在终于有时间了。刚洗了澡,宿舍还真冷。

接触村上春树,算是从10年刚开始。当然,再早一点,高中的时候算是久仰过大名,但也只限于听说过那部《挪威的森林》。

真正用拜读的态度去读村长,应该就是从《挪》开始。我一直以为在此之前并未接触过村长的文章,然而某天翻开一本村长短篇小说集的目录时,一篇《电视人》赫然跃入眼底。

这真是一种戏剧性的邂逅,原来很久之前,我和村长的第一次相遇,竟然是在《SFW》上的一篇短篇科幻小说,正是《电视人》。

那时我尚年幼,对这篇文章作者并未在意,但是当时这篇文章怪异的行文方式让我印象深刻,也因此,《电视人》这个标题深深刻入脑海,以至于在翻到文集目录的时候,才恍然大悟。原来你就是当年路过窗前的那个怪异少年啊。

为什么忽然想读《挪》,原因已经记不清楚了。然而事实是,这是我难得的正确决定之一。

我对《挪》十分喜欢,无论是故事本身,还是讲故事的方式,都十分精彩。我习惯在手机上面读书,可以利用等人,等车,等饭,等睡的闲散时间随时阅读。但是在看过《挪》之后,决定一定要买下一本,摆在书架上面。过几天回家之后,打算再重新读一遍。

当时去书店买《挪》的时候,已经有《1Q84》的BOOK1出售了。

Leave a Comment

仲夏晨之梦

当我们的作品可以勉强跑起来,足够我们通过课程设计的答辩的时候,自习室的窗台已经有晨曦爬了进来。尽管在夏天,天亮的比较早,但我们还真是和代码斗争了一整晚。电脑桌面上的时钟忠实地告诉我,还有一个小时就到了早饭时间了。

你知道,我这里是指的正常的早饭时间,也就是七点到七点半的时间。

我和猫说,难得有机会早起,我们去吃早饭吧。猫说,太早了吧。我说那我们就出去走走吧。

凌晨的那场世界杯比赛已经踢完了,狂热的球迷也都已经在舍友的呓语中翻身爬到自己的床铺。走廊里和谐静谧,只有自己的脚步声。整个世界一下安静的让人觉得陌生。在这个吵吵闹闹喋喋不休的城市,就算是大学里面也每天充斥这各种罗哩罗嗦的事情。这种麻烦事情向海草一样束缚住理想的手脚。你想摆脱它,但很多时候却不得不以它为食。最大的悲剧莫过于,被包养的同时还想独立。

Leave a Comment

吵吵闹闹

生活周围一直有一堆人吵吵闹闹,这让我很不爽

不知道从什么时候开始,不喜欢和别人相处了

米特尼克说过,人,是信息安全中最薄弱的一环

所以,我觉得, 人,是很不安全的东西

身边的一些人,真是啰嗦啊,而且装b装的厉害。好像天上地下无所不通的样子。

还有,世界杯以来,个寝室里面嘈杂的调侃
拖鞋在走廊里的摩擦声
qq刺耳的提示声
短信提示声
电话铃声
敲门声
水声

整个生活都很啰嗦,罗嗦罗嗦罗嗦……

还有,我宿舍里的韩国人。每天会生产各种噪声。对于韩国,,我不想多说什么,69什么的,圣战什么的,棒子什么的,跟我都没关系,在我看来,单纯的仇视,毫无理由的仇视,甚至自己制造出理由仇视,都不是什么聪明的做法。尽管如此,我还是无法忍受韩国人的生活习惯。每天在我学习和睡觉的时候,身后的各种噼里啪啦的声响真是很麻烦呐。

今天写了一点Java,对语法有了基本的了解。果然,Java和c的区别很大。但是,还是喜欢c的简洁。同学跟我争论说,就应该丰富才对,就像瑞士军刀一样。我说,现在瑞士军刀还是拿来用的东西么,大家都用来收藏了。

收到消息说,本市将引入监管手段,全市网吧午夜0点断网,并对全市网吧进行监控。

而,疼训受到了中宣部的表扬,因为它致力于网络文化的和谐建设。

我想起了wow吧的一句签名:每当我对你打呵呵的时候,其实我心里说的是qnmlgb的。

我真想说,呵呵。

下午,打了一会篮球。身体果然还是不够强壮。

现在巴西正在和葡萄牙火拼,两边都很积极。

世界杯开打很久了。该回家的,不该回家的都回家了。

不过,还好阿根廷还在。

3 Comments

晚上出去吃饭了。

大鸟说,好虚啊,出去吃东西补补吧。于是就去了。

天气还不错,出来吃饭的人很多。路两旁的小摊都支了起来。在外面点上一些烧烤,要上几瓶啤酒,是享受黄昏的好方式。

和小林三个人一路走到火万里,点了肉串和拉皮。然后就是闲扯。和小林无非是扯手机,iPhone,Android,计算机,网络什么的。或者预测各大巨头的发展趋势之类。

最近要做Java和jsp的东西,同时还要用c#做课设,所以看了一点相关的东西。发现原来自己之前对面向对象的理解很片面。c++还真是一个扭曲的东西,难怪自己一直对他没好感。

关于大学,也上了两年了。中国大学的现状,也有一点了解。得出的结论无非是,作为一个行政机构,想建立世界一流水平的大学,无异于痴人说梦。

根本没有希望。

于是关于出国,之前的愿望又忽然变得愈加强烈起来。对于一个没有故乡情结的家伙来说,能够到处走走,真是不错的未来。一个人去客地他乡,踏踏实实的过自己的生活,写自己的程序,做自己的项目,玩自己的玩具。

真是莫大的诱惑。

英国,日本,真向往啊。

暑假要去社会实践,北京,还是深圳?

从北京回家真方便。不过深圳作为大陆最南,还真想去看看。纠结……

不过现在更倾向于去深圳……

一会出去搞一枚硬币解决吧。

以上。

Leave a Comment