深入理解C语言

深入理解C语言

Dennis Ritchie  过世了,他发明了C语言,一个影响深远并彻底改变世界的计算机语言。一门经历40多年的到今天还长盛不衰的语言,今天很多语言都受到C的影响,C++,Java,C#,Perl, PHP, Javascript, 等等。但是,你对C了解吗?相信你看过本站的《C语言的谜题》还有《谁说C语言很简单?》,这里,我再写一篇关于深入理解C语言的文章,一方面是缅怀Dennis,另一方面是告诉大家应该如何学好一门语言。(顺便注明一下,下面的一些例子来源于这个slides

首先,我们先来看下面这个经典的代码:

int main()
{
    int a = 42;
    printf(“%d\n”, a);
}

从这段代码里你看到了什么问题?我们都知道,这段程序里少了一个#include <stdio.h> 还少了一个return 0;的返回语句。

不过,让我们来深入的学习一下,

  • 这段代码在C++下无法编译,因为C++需要明确声明函数
  • 这段代码在C的编译器下会编译通过,因为在编译期,编译器会生成一个printf的函数定义,并生成.o文件,链接时,会找到标准的链接库,所以能编译通过。
  •  但是,你知道这段程序的退出码吗?在ANSI-C下,退出码是一些未定义的垃圾数。但在C89下,退出码是3,因为其取了printf的返回值。为什么printf函数返回3呢?因为其输出了’4′, ‘2’,’\n’ 三个字符。而在C99下,其会返回0,也就是成功地运行了这段程序。你可以使用gcc的 -std=c89或是-std=c99来编译上面的程序看结果。
  • 另外,我们还要注意main(),在C标准下,如果一个函数不要参数,应该声明成main(void),而main()其实相当于main(…),也就是说其可以有任意多的参数。

我们再来看一段代码:

#include <stdio.h>
void f(void)
{
   static int a = 3;
   static int b;
   int c;
   ++a; ++b; ++c;
   printf("a=%d\n", a);
   printf("b=%d\n", b);
   printf("c=%d\n", c);
}
int main(void)
{
   f();
   f();
   f();
}

这个程序会输出什么?

  • 我相信你对a的输出相当有把握,就分别是4,5,6,因为那个静态变量。
  • 对于c呢,你应该也比较肯定,那是一堆乱数。
  • 但是你可能不知道b的输出会是什么?答案是1,2,3。为什么和c不一样呢?因为,如果要初始化,每次调用函数里,编译器都要初始化函数栈空间,这太费性能了。但是c的编译器会初始化静态变量为0,因为这只是在启动程序时的动作。
  • 全局变量同样会被初始化。

说到全局变量,你知道 静态全局变量和一般全局变量的差别吗?是的,对于static 的全局变量,其对链接器不可以见,也就是说,这个变量只能在当前文件中使用。

我们再来看一个例子:

#include <stdio.h>
void foo(void)
{
    int a;
    printf("%d\n", a);
}
void bar(void)
{
    int a = 42;
}
int main(void)
{
    bar();
    foo();
}

你知道这段代码会输出什么吗?A) 一个随机值,B) 42。A 和 B都对(在“在函数外存取局部变量的一个比喻”文中的最后给过这个例子),不过,你知道为什么吗?

  • 如果你使用一般的编译,会输出42,因为我们的编译器优化了函数的调用栈(重用了之前的栈),为的是更快,这没有什么副作用。反正你不初始化,他就是随机值,既然是随机值,什么都无所谓。
  • 但是,如果你的编译打开了代码优化的开关,-O,这意味着,foo()函数的代码会被优化成main()里的一个inline函数,也就是说没有函数调用,就像宏定义一样。于是你会看到一个随机的垃圾数。

下面,我们再来看一个示例:

#include <stdio.h>
int b(void) { printf(“3”); return 3; }
int c(void) { printf(“4”); return 4; }
int main(void)
{
   int a = b() + c();
   printf(“%d\n”, a);
}

这段程序会输出什么?,你会说是,3,4,7。但是我想告诉你,这也有可能输出,4,3,7。为什么呢? 这是因为,在C/C++中,表达的评估次序是没有标准定义的。编译器可以正着来,也可以反着来,所以,不同的编译器会有不同的输出。你知道这个特性以后,你就知道这样的程序是没有可移植性的。

我们再来看看下面的这堆代码,他们分别输出什么呢?

int a=41; a++; printf("%d\n", a);
int a=41; a++ & printf("%d\n", a);
int a=41; a++ && printf("%d\n", a);
int a=41; if (a++ < 42) printf("%d\n", a);
int a=41; a = a++; printf("%d\n", a);

只有示例一,示例三,示例四输出42,而示例二和五的行为则是未定义的。关于这种未定义的东西是因为Sequence Points的影响(Sequence Points是一种规则,也就是程序执行的序列点,在两点之间的表达式只能对变量有一次修改),因为这会让编译器不知道在一个表达式顺列上如何存取变量的值。比如a = a++,a + a++,不过,在C中,这样的情况很少。

下面,再看一段代码:(假设int为4字节,char为1字节)

struct X { int a; char b; int c; };
printf("%d,", sizeof(struct X));
struct Y { int a; char b; int c; char d};
printf("%d\n", sizeof(struct Y));

这个代码会输出什么?

a) 9,10
b)12, 12
c)12, 16

答案是C,我想,你一定知道字节对齐,是向4的倍数对齐。

  • 但是,你知道为什么要字节对齐吗?还是因为性能。因为这些东西都在内存里,如果不对齐的话,我们的编译器就要向内存一个字节一个字节的取,这样一来,struct X,就需要取9次,太浪费性能了,而如果我一次取4个字节,那么我三次就搞定了。所以,这是为了性能的原因。
  • 但是,为什么struct Y不向12 对齐,却要向16对齐,因为char d; 被加在了最后,当编译器计算一个结构体的尺寸时,是边计算,边对齐的。也就是说,编译器先看到了int,很好,4字节,然后是 char,一个字节,而后面的int又不能填上还剩的3个字节,不爽,把char b对齐成4,于是计算到d时,就是13 个字节,于是就是16啦。但是如果换一下d和c的声明位置,就是12了。

另外,再提一下,上述程序的printf中的%d并不好,因为,在64位下,sizeof的size_t是unsigned long,而32位下是 unsigned int,所以,C99引入了一个专门给size_t用的%zu。这点需要注意。在64位平台下,C/C++ 的编译需要注意很多事。你可以参看《64位平台C/C++开发注意事项》。

下面,我们再说说编译器的Warning,请看代码:

#include <stdio.h>
int main(void)
{
    int a;
    printf("%d\n", a);
}

考虑下面两种编译代码的方式 :

  • cc -Wall a.c
  • cc -Wall -O a.c

前一种是不会编译出a未初化的警告信息的,而只有在-O的情况下,才会有未初始化的警告信息。这点就是为什么我们在makefile里的CFLAGS上总是需要-Wall和 -O。

最后,我们再来看一个指针问题,你看下面的代码:

#include <stdio.h>
int main(void)
{
    int a[5];
    printf("%x\n", a);
    printf("%x\n", a+1);
    printf("%x\n", &a);
    printf("%x\n", &a+1);
}

假如我们的a的地址是:0Xbfe2e100, 而且是32位机,那么这个程序会输出什么?

  • 第一条printf语句应该没有问题,就是 bfe2e100
  • 第二条printf语句你可能会以为是bfe2e101。那就错了,a+1,编译器会编译成 a+ 1*sizeof(int),int在32位下是4字节,所以是加4,也就是bfe2e104
  • 第三条printf语句可能是你最头疼的,我们怎么知道a的地址?我不知道吗?可不就是bfe2e100。那岂不成了a==&a啦?这怎么可能?自己存自己的?也许很多人会觉得指针和数组是一回事,那么你就错了。如果是 int *a,那么没有问题,因为a是指针,所以 &a 是指针的地址,a 和 &a不一样。但是这是数组啊a[],所以&a其实是被编译成了 &a[0]。
  • 第四条printf语句就很自然了,就是bfe2e104。还是不对,因为是&a是数组,被看成int(*)[5],所以sizeof(a)是5,也就是5*sizeof(int),也就是bfe2e114。

看过这么多,你可能会觉得C语言设计得真扯淡啊。不过我要告诉下面几点Dennis当初设计C语言的初衷:

1)相信程序员,不阻止程序员做他们想做的事。

2)保持语言的简洁,以及概念上的简单。

3)保证性能,就算牺牲移植性。

今天很多语言进化得很高级了,语法也越来越复杂和强大,但是C语言依然光芒四射,Dennis离世了,但是C语言的这些设计思路将永远不朽。

(请勿用于商业用途,转载时请注明作者和出处)

(转载本站文章请注明作者和出处 酷 壳 – CoolShell ,请勿用于任何商业用途)

好烂啊有点差凑合看看还不错很精彩 (62 人打了分,平均分: 4.13 )
Loading...

深入理解C语言》的相关评论

  1. 说明一下,字节对齐并不仅仅是为了性能,否则它就是个可有可无的功能。

    字节对齐是为了获得更好的 CPU 兼容性,因为有的 CPU 根本不能正确的存取不对齐字节上的整数。(这在嵌入式系统中很常见)。不对齐的字节上的整数存取将会得到一个错误的值。。。所以如果不能做到字节对齐就会在程序调试时遇到很多莫名其妙的问题。

  2. @Mike
    C++的所谓全局变量是指global namespace scope中的变量,C有这玩意?
    这里的“全局”是指声明的变量名所在的作用域。C++全局变量对应的东西在C里面叫file scope variable。global variable这货,我记得ISO C就在附录里提过一次(而且不是这里的意思),在K&R的书里面据说也没这玩意。
    你要表达某个变量的变量名具有external linkage(外部链接)而可以在多个翻译单元内可见并保证它们指称的变量是同一个,那么可以说这个变量名指称的变量是external variable(外部变量),这在C/C++中通用。
    本来以为因为C++默认全局变量定义就是外部的,所以很多人就混淆了这两点。不过后来发现,谭XX的书里就是这种牛头不对马嘴的说法……于是欣欣然理解了。

  3. 请问:
    int a=41; a = a++; printf(“%d\n”, a);
    这段代码a可以被赋值为42,为什么文章还说是“行为则是未定义的”

  4. @fireduck
    标准规定未定义和一个实现具体表现出什么行为是两回事。未定义是指对于遵照标准的语言实现,存在未定义行为的程序应被认为是错误的、不可移植的程序(如果考虑依赖于具体方言中的扩展,在这个角度上可以是正确的),对具体行为(包括实现须给出的诊断信息)没有要求。所以未定义行为不应该预期结果的存在性,编译/运行有未定义行为的程序就算直接崩溃也不违反标准。

  5. int a=41; a = a++; printf(“%d\n”, a);示例五的行为则是未定义的,请问在什么情况下它的结果不是42,求教!

  6. 能写出”i=i++;”这种语句的,肯定是老师的原因。

    我本科不是计算机专业,选修过C语言。真的很无语,那C语言老师,天天都在教“i=2; i=i++; i 的结果是多少?” 这种问题。最后的期末考试,简直就是张C语言的脑筋急转弯,各种稀奇古怪完全不可能(也不允许)在实际中出现的代码要你分析运行结果。至于用C语言解决实际问题,几乎没提到。

    反正学了一学期,实在没什么收获。

  7. gerald2008 :
    能写出”i=i++;”这种语句的,肯定是老师的原因。
    我本科不是计算机专业,选修过C语言。真的很无语,那C语言老师,天天都在教“i=2; i=i++; i 的结果是多少?” 这种问题。最后的期末考试,简直就是张C语言的脑筋急转弯,各种稀奇古怪完全不可能(也不允许)在实际中出现的代码要你分析运行结果。至于用C语言解决实际问题,几乎没提到。
    反正学了一学期,实在没什么收获。

    同样的感受 说句不好听的 大学里有用c语言做过项目的微乎其微

  8. #include
    int b(void){
    printf(“3”);
    return 3;
    }

    int c(void){
    printf(“4”);
    return 4;
    }

    int main(void){
    int a = b() + c();
    printf(“%d\n”, a);
    }
    这个例子在eclipse CDT中的输出为347,貌似是被当成字符,和博主的结果不同,请问是什么原因?

  9. linus脱袜子 :
    #include
    int b(void){
    printf(“3″);
    return 3;
    }
    int c(void){
    printf(“4″);
    return 4;
    }
    int main(void){
    int a = b() + c();
    printf(“%d\n”, a);
    }
    这个例子在eclipse CDT中的输出为347,貌似是被当成字符,和博主的结果不同,请问是什么原因?

    我用的mingw gcc

  10. 未定义就是说此时编译器就算运行游戏或者关闭计算机也是允许的,早期的gcc在遇到#program时会运行好几个linux电子到游戏就是从这边来的@fireduck

  11. 这种规则要怎样去掌握呢?如果根本就没有涉及到这些开发,学这些会不会感觉非常的费力?究竟解决了什么问题?

  12. 第四条printf语句就很自然了,就是bfe2e104。还是不对,因为是&a是数组,被看成int(*)[5],所以sizeof(a)是5,也就是5*sizeof(int),也就是bfe2e114。
    ===========================
    这里有写错吗 5*sizeof(int) 不是应该等于20?

  13. 实际开发中,这篇文章中描述的情况绝大部分都不会出现,你敢这么写代码准备被批吧

  14. 作者这句话:“知道为什么要字节对齐吗?还是因为性能。因为这些东西都在内存里,如果不对齐的话,我们的编译器就要向内存一个字节一个字节的取” 显然是没有学好《计算机体系结构》。

    早在1993年的80586(pentium)时代,CPU的针脚的数据总线就是64比特,也就是读写内存时,一次处理8个字节。而Intel/AMD的CPU进入64位时代,是在2003-2005年!此前,从1987年80386起就一直是32位CPU的天下。

    那么,为什么要字节对齐呢?这是怕一个数据(如2字节的word、4字节的DWORD、8字节的QWORD/double等等)跨了上述内存/磁盘的8字节边界。特别是,CPU实际读写的是cache中的数据,如果上述多字节数据跨了cache line,那么本该一条指令处理的数据,就会造成指令执行失败、伸直cache missing。 所以,数据必须字节对齐,这是CPU的硬件要求,否则会抛出CPU异常。

  15. 你的理解有点问题,作者在说编译器,是正确的。
    翻开一颗32位处理器的指令集,会发现既有搬或者存32bit Word的的指令,
    也有搬或者存8bit Byte的指令。Word或者Byte是存在一个对应大小的寄存器里面。
    我将一个内存中的word搬到处理器的general寄存器,可以32bit搬也可以搬4次byte
    对CPU来说,数据对不对齐无所谓。
    @ligand

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注