Browsed by
标签: Python

Python 自然语言处理

Python 自然语言处理

推荐一本免费的在线电子书,《用Python进行自然语言处理》, 用NLP 工具包(开源免费,Python)来进行文本分析。特别适合初学计算语言学的学生。好像没有好的中文切词。当然,免不了需要提一下 Dan Jurafsky 教授,大家可以搜索一下,找找他的讲义。

简要翻译一下提纲:

阅读全文 Read More

好烂啊有点差凑合看看还不错很精彩 (7 人打了分,平均分: 3.29 )
Loading...
用TCC可以干些什么?

用TCC可以干些什么?

Tiny C Compiler 是一个微型的 C 语言编译器,支持 Windows 和 Linux 平台。其项目主页是: http://bellard.org/tcc/ 。你可以使用这个不到100K的编译器编译你的C文件,其支持C的预处理,编译,机器码汇编和链接。编译速度也超过了gcc,而且它支持ISO C99标准,并且,tcc还包括了一些内存和数组边界的检查。其还可以编译Linux的内核。

不过,TCC 最有趣的特性是可以用 UNIX 系统上常见的 #!/usr/bin/tcc 的方式来执行 ANSI C 语言写就的源程序,省略掉了在命令行上进行编译和链接的步骤,而可以直接运行 C 语言写就的源程序。这样就能做到像任何一种其它的脚本语言比如 Perl 或者是 Python 一样,显著的加快开发步调。可以像编写 Shell 脚本一样的使用 C 语言,随便想一想都觉得是一件奇妙的事情。但是 TCC 还有一些其它的特性呢!

阅读全文 Read More

好烂啊有点差凑合看看还不错很精彩 (6 人打了分,平均分: 3.00 )
Loading...
用Python写NCurses UI

用Python写NCurses UI

Ncurses是一个能提供基于文本终端窗口功能的动态库. Ncurses可以:

  • 可以使用整个屏幕
  • 创建和管理一个窗口
  • 使用8种不同的彩色
  • 为您的程序提供鼠标支持
  • 使用键盘上的功能键

Ncurses可以在任何遵循ANSI/POSIX标准的Unix/Linux系统上运行,除此之外,它还可以从系统数据库中检测终端的属性,,并且自动进行调整,提供一个不受终端约束的接口。因此,Ncurses可以在不同的系统平台和不同的终端上工作的非常好。

阅读全文 Read More

好烂啊有点差凑合看看还不错很精彩 (12 人打了分,平均分: 3.67 )
Loading...
Python调用C语言函数

Python调用C语言函数

使用Python的ctypes,我们可以直接调用由C直接编译出来的函数。其实就是调用动态链接库中的函数。为什么我们需要这样做呢,因为有些时候,我们可能需要一个性能上比较讲究的算法,有些时候,我们可以在Python中使用已经有了的现成的被封闭在动态链接库中的函数。下面是如何调用的示例。

首先,我们用一个乘法来表示一个算法功能。下面是C的程序:

int
multiply(int num1, int num2)
{
    return num1 * num2;
}

阅读全文 Read More

好烂啊有点差凑合看看还不错很精彩 (17 人打了分,平均分: 4.12 )
Loading...
Python处理中文的时候的一些小技巧

Python处理中文的时候的一些小技巧

相信第一次处理中文的朋友们可能都会对中文的encoding 和程序的报错很头疼。

如果你像我一样希望能够把事情尽快做好而不去深究,你可能会写一些异常处理的代码把 UnicodeEncodingError糊弄过去先,但当你开始怀疑有多少encoding出错的信息被你丢弃的时候,可能你会很惊奇。于是,你还是会想坐下来,(洗把脸)然后面对自己必须弄懂什么是utf-8,什么是 ‘gb2312’, 什么是 ‘gbk’ 和其中的猫腻。正如有时候猛撕小伤口上邦迪胶布的快感一样,有时候当你认真面对一些你平时一直回避的问题的时候(其实有时候需要的不是勇气), 你反而会觉得“不过如此”,并且能够一劳永逸的解决问题。

关于Python处理Unicode,我所能找到的最言简意赅的入门教程是:

Unicode In Python, Completely Demystified (揭秘Python Unicode)

简要罗列一下最重要最实用的点:

阅读全文 Read More

好烂啊有点差凑合看看还不错很精彩 (11 人打了分,平均分: 3.36 )
Loading...
Python脚本如何对文件通配符匹配

Python脚本如何对文件通配符匹配

有时候,我们可能会写一些轻量级的脚本去处理很多符合某种pattern的文件,例如“某目录下的 *logfile.csv” 但是,我们大多数脚本的参数都是 sys.argv, 如何解析 wildcard 匹配呢?

test.py

 from glob import glob
...
if __name__ == "__main__":
    file_names = glob(sys.argv[1])
    for file_name in file_names:
        do_something(file) 

这样就可以像使用其他终端命令一样使用脚本test.py 进行wildcard匹配了

>> test.py ./*logfile.csv

好烂啊有点差凑合看看还不错很精彩 (5 人打了分,平均分: 1.80 )
Loading...
Python中实现多属性排序

Python中实现多属性排序

我们有一组记录:

list_records =
(
 (department, name, salary),
 (department, name, salary),
 ...
 (department, name, salary)
)

然后我们想进行类似 MS – Excel 里的 “then sort by” 中的功能一样先基于department排序,然后再在部门内按照salary排序。

其他编程语言可能相对复杂,我这里写出一个用Python实现的最简方法(也许有比这个还短的,来挑战吧)

阅读全文 Read More

好烂啊有点差凑合看看还不错很精彩 (8 人打了分,平均分: 2.88 )
Loading...
2009年脚本语言排名

2009年脚本语言排名

EDC(Evan Data Corporation)发布了一份脚本语言的调查报告,这个调查报告调查了500个以上的开发者和IT专家,在这份调查表中,PHP, Ruby和Python成为了前三强。这个调查总共调查了这些脚本语言:Actionscript, Flex, Javascript, Microsoft F#, Microsoft Powershell, Perl, PHP, Python, Ruby, VB Script。主要评估以下这些方面:

  • 易用性。Ease of Use overall
  • 异常处理。Exception handling
  • 扩展性。Extensibility
  • 可维护性和易读性。Maintainability / Readability
  • 跨平台。Cross-platform portability
  • 社区。Community
  • 实用性。Availability of tools
  • 质量。Quality of tools
  • 性能。Performance
  • 内存管理。Memory management
  • 客户端脚本。Client side scripting
  • 安全性。Security
  • 阅读全文 Read More

    好烂啊有点差凑合看看还不错很精彩 (7 人打了分,平均分: 3.14 )
    Loading...
    【引文】如何用Python往Google Spreadsheet上写数据

    【引文】如何用Python往Google Spreadsheet上写数据

    现代企业里,数据决定着方向,人们都想随时看到各种报表。很多项目可能都需要dashboard一类的工作,把分散的数据变成一些能随时查看实时数据的图表,这个工作有两个环节:

    1. 把数据汇集起来,放入CSV或者数据库
    2. 一个服务器端的程序能够读到这写数据,根据需要生成在线的图表 (离线的也可以,那样每次人们想看这些图的时候都会来麻烦你,如果你在度假,他们会想敲开你的电脑)

    阅读全文 Read More

    好烂啊有点差凑合看看还不错很精彩 (5 人打了分,平均分: 1.80 )
    Loading...