程序的本质复杂性和元语言抽象
(感谢 @文艺复兴记(todd) 投递此文)
目录
组件复用技术的局限性
常听到有人讲“我写代码很讲究,一直严格遵循DRY原则,把重复使用的功能都封装成可复用的组件,使得代码简短优雅,同时也易于理解和维护”。显然,DRY原则和组件复用技术是最常见的改善代码质量的方法,不过,在我看来以这类方法为指导,能帮助我们写出“不错的程序”,但还不足以帮助我们写出简短、优雅、易理解、易维护的“好程序”。对于熟悉Martin Fowler《重构》和GoF《设计模式》的程序员,我常常提出这样一个问题帮助他们进一步加深对程序的理解:
如果目标是代码“简短、优雅、易理解、易维护”,组件复用技术是最好的方法吗?这种方法有没有根本性的局限?
虽然基于函数、类等形式的组件复用技术从一定程度上消除了冗余,提升了代码的抽象层次,但是这种技术却有着本质的局限性,其根源在于 每种组件形式都代表了特定的抽象维度,组件复用只能在其维度上进行抽象层次的提升。比如,我们可以把常用的HashMap等功能封装为类库,但是不管怎么封装复用类永远是类,封装虽然提升了代码的抽象层次,但是它永远不会变成Lambda,而实际问题所代表的抽象维度往往与之并不匹配。
以常见的二进制消息的解析为例,组件复用技术所能做到的只是把读取字节,检查约束,计算CRC等功能封装成函数,这是远远不够的。比如,下面的表格定义了二进制消息X的格式:
Message X: -------------------------------------------------------- | ID | Name | Type | Size | Constraints | -------------------------------------------------------- | 1 | message type | int | 1 | = 0x01 | -------------------------------------------------------- | 2 | payload size | int | 2 | > 0 | -------------------------------------------------------- | 3 | payload | bytes | <2> | | -------------------------------------------------------- | 4 | CRC | int | 4 | | --------------------------------------------------------
它的解析函数大概是这个样子:
bool parse_message_x(char* data, int32 size, MessageX& x) { char *ptr = data; if (ptr + sizeof(int8) <= data + size) { x.message_type = read_int8(ptr); if (0x01 != x.message_type) return false; ptr += sizeof(int8); } else { return false; } if (ptr + sizeof(int16) <= data + size) { x.payload_size = read_int16(ptr); ptr += sizeof(int16); } else { return false; } if (ptr + x.payload_size <= data + size) { x.payload = new int8[x.payload_size]; read(ptr, x.payload, x.payload_size); ptr += x.payload_size; } else { return false; } if (ptr + sizeof(int32) <= data + size) { x.crc = read_int32(ptr); ptr += sizeof(int32); } else { delete x.payload; return false; } if (crc(data, sizeof(int8) + sizeof(int16) + x.payload_size) != x.crc) { delete x.payload; return false; } return true; }
很明显,虽然消息X的定义非常简单,但是它的解析函数却显得很繁琐,需要小心翼翼地处理很多细节。在处理其他消息Y时,虽然虽然Y和X很相似,但是却不得不再次在解析过程中处理这些细节,就是组件复用方法的局限性,它只能帮我们按照函数或者类的语义把功能封装成可复用的组件,但是消息的结构特征既不是函数也不是类,这就是抽象维度的失配。
程序的本质复杂性
上面分析了组件复用技术有着根本性的局限性,现在我们要进一步思考:
如果目标还是代码“简短、优雅、易理解、易维护”,那么代码优化是否有一个理论极限?这个极限是由什么决定的?普通代码比起最优代码多出来的“冗余部分”到底干了些什么事情?
回答这个问题要从程序的本质说起。Pascal语言之父Niklaus Wirth在70年代提出:Program = Data Structure + Algorithm,随后逻辑学家和计算机科学家R Kowalski进一步提出:Algorithm = Logic + Control。谁更深刻更有启发性?当然是后者!而且我认为数据结构和算法都属于控制策略,综合二位的观点,加上我自己的理解,程