web analytics

存档

2010年2月 的存档

Python处理encoding的小技巧

2010年2月8日 3 条评论 3,875 人阅读    

用Python写过处理文本经常会遇到需要decoding或者encoding, 尤其是处理中文的时候。

encoding的问题处理起来是个脏活儿,报错不太容易看懂,网上相关资料不太好查。有同感?请继续读下去。

常规做法是读取文件的时候立刻decode, 所有的处理工作都用unicode,写会文件的时候encode. 但是等到读取的时候在处理的代码读/写起来都很别扭,感觉像穿上鞋以后袜子滑下来了…Python 3.1.1以上的版本解决了该问题。在Python 3.1.1中,打开文件可以加入encoding的参数:

file = open(filename, encoding='xxx')

啊,这样看起来终于舒坦了。 不同写如下的code了

file = open(filename)
for line in file:
    decoded_line = line.decode('xxx')
    do something else
提倡使用utf8
分类: Python 标签:
好烂啊有点差凑合看看还不错很精彩 (8 人打了分,平均分: 4.38 )
Loading ... Loading ...

分享:我的Reader订阅

2010年2月8日 21 条评论 6,001 人阅读    

应网友workout和其他热心读者的要求,我罗列一些自己觉得值得推荐的feed。用纯文字罗列如下,想找到以下的话可以通过Google。希望大家在此互相分享。

适合读者:广谱技术爱好者,国外互联网信息爱好者,用户行为和设计爱好者, 语言爱好者,阅读狂。

技术类

  • Coding horror
  • Joel on software
  • unified Python planet

业界信息

  • 谷歌黑板报
  • Search Blog: Bing
  • Search
  • 百度爱好者
  • silicon valley watcher
  • Google Blogscoped
  • Google Code Blog
  • 月光博客
  • apple4us
  • 古奥
  • 望月的博客
  • Google Operating System

杰出个人博客

  • Paul Graham Essays
  • Pure Pleasure – lixiaolai.com
  • The noisy channel
  • 李开复新浪博客
  • 韩寒博客
  • the trump blog
  • Matt Cutts
  • Linus blog
  • Paul Buchheit (Gmail创始人)
  • Peter Norvig (人工智能大儒, Google 研究总监)
  • too (Google 创始人博客)
  • Alon Halevy’s Blog
  • Daniel Lemire’s blog
  • Clay Shirky
  • Earning My Turns
  • How to change the world

阅读全文…

好烂啊有点差凑合看看还不错很精彩 (15 人打了分,平均分: 4.40 )
Loading ... Loading ...

如何修改微软人体工学键盘的Zoom键

2010年2月7日 8 条评论 1,722 人阅读    

如果你不是订阅本站的用户,你很肯能可能是通过搜索引擎的魔力来到本文的。

微软的软件产品咱们暂且不谈,他们生产的键盘鼠标确实很不错。例如,经典的 microsoft natural ergonomic keyboard 4000 (见图)。著名Google工程师博主Matt Cutts用的就是这个(参考链接)。

可是每个入手该键盘的geek都会觉得,这个弱智的设计师把zoom键放在中间干嘛,应该用来当上下滚轮嘛。

无独有偶,该问题已经被先辈们解决,笔者只搜到了英文文章

为了让中文读者方便找到并使用,暂且将关键步骤翻译如下:

  1. 下载微软键盘驱动 http://www.microsoft.com/hardware/download/download.aspx?category=MK
  2. 找到command.xml文件,应该是在 C:\Program Files\Microsoft IntelliType Pro\
  3. 编辑command.xml文件(建议之前备份),替换所有 <C319 Type=”6″ Activator=”ZoomIn” /><C319 Type=”6″ Activator=”ScrollUp” />,  所有 <C320 Type=”6″ Activator=”ZoomOut” /> 替换为 <C320 Type=”6″ Activator=”ScrollDown” /> 用Notepad或者记事本可以实现,应该是10个左右。
  4. 重启电脑(貌似这一步不能省)

图例:修改前

图例:修改后

这样你就可以用Zoom来替代鼠标滚轮了。

分类: 杂项资源 标签:
好烂啊有点差凑合看看还不错很精彩 (5 人打了分,平均分: 3.40 )
Loading ... Loading ...

分享:我是如何使用Google Reader的

2010年2月7日 8 条评论 6,653 人阅读    

相信不少读者都是通过Google Reader (貌似没有中文名) 看到本文的,而多数Google Reader的爱好者都是贪婪的。如果你像我一样,估计未读数量从来都是1000+。遇到强迫症就麻烦了。下面一个方法能让阅读变得有“轻重缓急”。

  1. 承认不是所有种子一样重要,有些更新你想立刻知道(例如某新闻类的博客:古奥),有些只是希望不要错过(例如某经典博客:Joe l on Software),还有一些可能只是娱乐用的(例如:煎蛋
  2. Reader是可以为种子建文件夹的,所有“重要而必读”的种子都可以放在一个文件夹里,文件夹的名称最好是用“_” 开头,这样排序的时候可以在最前面(见图解)
  3. 每当打开Google Reader的时候,先看重要的种子即可,其他的有时间再读。

笔者的Reader界面(献丑了)

分类: 编程语言 标签: ,
好烂啊有点差凑合看看还不错很精彩 (8 人打了分,平均分: 3.88 )
Loading ... Loading ...

iPad进化图

2010年2月6日 10 条评论 3,561 人阅读    

分类: 业界新闻, 轶事趣闻 标签:
好烂啊有点差凑合看看还不错很精彩 (31 人打了分,平均分: 4.26 )
Loading ... Loading ...

Python程序员的进化

2010年2月1日 26 条评论 15,596 人阅读    

以前本站发布过一篇《程序员的进化》,以一种幽默的代码展现方式调侃了程序。下面这篇是关于Python程序员的。以阶乘为例,很有意思。

新手程序员

def factorial(x):
    if x == 0:
        return 1
    else:
        return x * factorial(x - 1)
print factorial(6)

第一年的刚学完Pascal的新手

def factorial(x):
    result = 1
    i = 2
    while i <= x:
        result = result * i
        i = i + 1
    return result
print factorial(6)

阅读全文…

好烂啊有点差凑合看看还不错很精彩 (32 人打了分,平均分: 4.59 )
Loading ... Loading ...

如何防范密码被破解

2010年2月1日 18 条评论 1 人阅读    

你会用什么样的算法来为你的用户保存密码?如果你还在用明码的话,那么一旦你的网站被hack了,那么你所有的用户口令都会被泄露了,这意味着,你的系统或是网站就此完蛋了。所以,我们需要通过一些不可逆的算法来保存用户的密码。比如:MD5, SHA1, SHA256, SHA512, SHA-3,等Hash算法。这些算法都是不可逆的。系统在验证用户的口令时,需要把Hash加密过后的口令与后面存放口令的数据库中的口令做比较,如果一致才算验证通过。

但你觉得这些算法好吗?我说的是:MD5, SHA1, SHA256, SHA512, SHA-3。如果你使用的是MD5算法来加密你的口令,如果你的口令长度只有小写字母再加上数字,假设口令的长度是6位,那么在目前一台比较新一点的PC机上,穷举所有的口令只需要40秒钟。而据我们了解,几乎有90%以上的用户只用小写字母和数字来组织其口令。对于6位长度的密码只需要最多40秒就可以破解了,这可能会吓到你。

如果你愿意花2000美金和一周的时间来构建一个CUDA,那么,你可以在你组建的这个集群中使用进行密码穷举运算,其速度是,1秒钟可以计算7亿个口令。对于目前实际当中使用的比较复杂的口令,其破解率也可以高达每秒一个。当然,这里说的算法是MD5,SHA之类的算法。

那么,对于这样的一种情况来说,我们怎么办?我们还是有办法的。

阅读全文…

好烂啊有点差凑合看看还不错很精彩 (14 人打了分,平均分: 4.29 )
Loading ... Loading ...