《Head First C》第478页审读-ManBetX社区

《Head First C》第478页审读

空军发表于 2013-05-12 12:35 5404 阅读

从客户端读取数据

《Head First C 中文版》第11章网络与套接字 第478页 read_in() 函数：

int read_in(int socket, char *buf, int len)
{
  char *s = buf;
  int slen = len;
  int c = recv(socket, s, slen, 0);
  while ((c > 0) && (s[c-1] != '\n')) {
    s += c; slen -= c;
    c = recv(socket, s, slen, 0);
  }
  if (c < 0)
    return c;
  else if (c == 0)
    buf[0] = '\0';
  else
    s[c-1] = '\0'; // <---- 用\0替换\r。
  return len - slen;
}

书上这个 read_in() 函数倒数第3行说 用\0替换\r，实际并未成功，因为 s[c-1] 是读取的最后一个字符，通常是 \n 而不是 \r。

紧接着的 return len - slen; 也不正确。read_in() 函数应返回读取的字符数，考虑最简单的情形：假设函数体第3行的 recv(socket, s, slen, 0); 一次性收到了所有的数据，则 while 循环体不会被执行，此时 slen == len，则最后的 return len - slen; 显然有误。

即使需要多次调用 recv() 函数接收数据，最后的 return len - slen; 也不会返回正确的字符数，看看后面的测试例子就知道。

测试

为了能够方便地测试 read_in() 函数，我们使用了管道，主进程 fork() 一个子进程，子进程向管道发送数据，主进程从管道接收数据。

send() 函数打印拟发送的字符数和字符串，然后向管道写数据。

recv() 函数从管道读取数据，然后打印收到的字符数和字符串。

prints() 函数用于打印非 \0 结尾的字符串，并把 \r 等非图形字符转义打印，便于看得清楚。

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <errno.h>
#include <unistd.h>
#include <ctype.h>
#include <sys/types.h>

void error(const char *msg)
{
  fprintf(stderr, "%s: %s\n", msg, strerror(errno));
  exit(1);
}

void prints(const char *s, int len)
{
  int i;
  printf(" [");
  for (i = 0; i < len; i++) {
    switch (s[i]) {
      case '\\': printf("\\\\"); break;
      case '\r': printf("\\r");  break;
      case '\n': printf("\\n");  break;
      case '\0': printf("\\0");  break;
      default  :
        if (isprint(s[i])) putchar(s[i]);
        else printf("\\x%02x", s[i] & 0xff);
    }
  }
  printf("]\r\n");
}

int send(int socket, const char * buf, int len, int flag)
{
  printf("send   :%3i bytes", len);
  prints(buf, len);
  return write(socket, buf, len);
}

int say(int socket, const char *s)
{
  int r = send(socket, s, strlen(s), 0);
  if (r == -1) fprintf(stderr, "say: %s\n", strerror(errno));
  return r;
}

int recv(int socket, char * buf, int len, int flag)
{
  int n = read(socket, buf, len);
  printf("recv   :%3i bytes", n);
  prints(buf, n);
  return n;
}

int read_in(int socket, char *buf, int len)
{
  char *s = buf;
  int slen = len;
  int c = recv(socket, s, slen, 0);
  while ((c > 0) && (s[c-1] != '\n')) {
    s += c; slen -= c;
    c = recv(socket, s, slen, 0);
  }
  if (c < 0)
    return c;
  else if (c == 0)
    buf[0] = '\0';
  else
    s[c-1] = '\0'; // <---- 用\0替换\r。
  return len - slen;
}

int main()
{
  int fd[2];
  if (pipe(fd) == -1) error("Can't create the pipe");
  pid_t pid = fork();
  if (pid == -1) error("Can't fork process");
  if (!pid) {     // 这里你在子进程中。
    close(fd[0]); // 子进程不会读取管道，所以我们关闭读取端
    const char *ss[] = { "Who'", "s t", "here?\r\n" };
    int i;
    for (i = 0; i < 3; i++) say(fd[1], ss[i]);
    return 0;
  }
  close(fd[1]);   // 父进程不需要向管道写数据，关闭写入端
  char buf[255];
  int len = read_in(fd[0], buf, sizeof(buf));
  printf("read_in:%3i bytes", len);
  if (len != -1) prints(buf, strlen(buf));
  else puts(" []");
}

编译并运行，结果如下（你的机器上 recv 执行次数可能会有所不同）：

$ gcc -std=c99 a.c && ./a.exe
send   :  4 bytes [Who']
send   :  3 bytes [s t]
send   :  7 bytes [here?\r\n]
recv   :  4 bytes [Who']
recv   : 10 bytes [s there?\r\n]
read_in:  4 bytes [Who's there?\r]

可见 \r 并没有被移除，read_in() 函数的返回值也不是读取的字符数。

修正

只需修改 read_in() 函数的最后几行就能解决这个问题：

int read_in(int socket, char *buf, int len)
{
  char *s = buf;
  int slen = len;
  int c = recv(socket, s, slen, 0);
  while ((c > 0) && (s[c-1] != '\n')) {
    s += c; slen -= c;
    c = recv(socket, s, slen, 0);
  }
  if (c < 0)
    return c;
  else if (c == 0)
    buf[0] = '\0';
  else if (c > 1 && s[c-2] == '\r')
    s[c-2] = '\0'; // <---- 用\0替换\r。
  else
    s[c-1] = '\0';
  return strlen(buf);
}

再次编译并运行，现在得到正确的结果（你的机器上 recv 执行次数可能会有所不同）：

$ gcc -std=c99 a.c && ./a.exe
send   :  4 bytes [Who']
send   :  3 bytes [s t]
send   :  7 bytes [here?\r\n]
recv   :  4 bytes [Who']
recv   : 10 bytes [s there?\r\n]
read_in: 12 bytes [Who's there?]

补充

上一小节修正程序 else if (c > 1 && s[c-2] == '\r') s[c-2] = '\0'; ，其实有一个很微妙的 bug，考虑一种极端情形，如果行末的 "\r\n" 是由 recv() 分两次读取的，这时 c == 1 ， '\n' 前面的 '\r' 是上一次 recv() 读取的，就无法正确删除 '\r' 。

当然，如果输入是由书中所说的 telnet 提供的，行末的 "\r\n" 总是一起来的，这种极端情形应该几百万年也不会出现一次。即使是由上面第二小节的测试程序故意分两次发送行末的 "\r\n" ， recv() 多半也是一次就接收了，正如前面的测试结果所展现的。

也就是说，这种微妙的 bug 可能一辈子也遇不到一次，这是最难发现也最难调试的 bug 。如果是火箭发射之类关键程序，潜伏的 bug 是最可怕的，平时一直都不会出问题，总是运行正常，关键时刻出问题就是灾难性的。曾有报道“”。

言归正传，知道哪里有 bug ，解决起来是相当简单的：记录到目前为止所读取的字符数，然后用 buf[n-2] 代替 s[c-2] 判断是否 '\r' 并删除之（如果是的话）。顺便也就得到了函数应该返回的值，不必调用因扫描整个字符串而比较耗时的 strlen() 函数了。

唠叨了这么多，有耐心看到这儿的童鞋，能否在评论中吱一声，说说您的看法。最后说一句，修正后程序的局部变量 slen 不再需要了，直接用传入的参数 len 代之可也。C 语言的函数参数是传值的，程序中对 len 的修改不会影响到调用函数（当然，指针变量需另外讨论，这也是 C 语言初学者的经典话题了）。

int read_in(int socket, char *buf, int len)
{
  char *s = buf;
  int c = recv(socket, s, len, 0);
  int n = c;
  while ((c > 0) && (s[c-1] != '\n')) {
    s += c; len -= c;
    n += c = recv(socket, s, len, 0);
  }
  if (c < 0) return c;
  else if (c == 0) buf[n=0] = '\0';
  else if (n > 1 && buf[n-2] == '\r') buf[n-=2] = '\0';
  else buf[--n] = '\0';
  return n;
}

按照黄兄的建议重构：取消变量 s ，改 do ... while 避免用到两次 recv() 函数。

int read_in(int socket, char *buf, int len)
{
  int n = 0, c;
  do
    c = recv(socket, buf + n, len, 0);
  while ((c > 0) && (buf[(n+=c) - 1] != '\n'));
  if (c < 0) return c;
  else if (c == 0) buf[n=0] = '\0';
  else if (n > 1 && buf[n-2] == '\r') buf[n-=2] = '\0';
  else buf[--n] = '\0';
  return n;
}

本文仅用于学习和交流目的，不代表ManBetX社区观点。非商业转载请注明作译者、出处，并保留本文的原始链接。

11推荐收藏感谢

按时间
按推荐

这已经不是审读了，是代码审查。。

lt 发表于 2013-05-12 19:33:57

推荐
- 我感觉也是，太牛逼了
  
  staryin 发表于 2013-05-13 12:24:00
- 直接研究代码了。
  
  2gua 发表于 2013-05-15 17:24:50
非常好的审读！

黄志斌发表于 2013-05-12 12:50:30

推荐
- 我在审读时就没有发现这个问题。
  
  黄志斌发表于 2013-05-12 15:53:59
- 我在审读时把好多代码都放过去了，跟你们比起来，不够用心啊。
  
  veldts 发表于 2013-05-12 16:27:30
- 我审读时一般仅仅是阅读代码，感觉有问题的地方先记下，以后有空时再敲入代码实际运行，还要写一些辅助的测试代码，如本例所示。
  
  空军发表于 2013-05-13 07:39:00
read_in() 函数最后一句：
return strlen(buf);
这个 strlen() 函数需要扫描 buf，速度很慢。其实是可以避免的。

黄志斌发表于 2013-05-12 13:04:17

推荐
- 可以考虑 int n = 0; 每次调用 recv() 时 n += c; 然后第一个 else 分支 return 0; 第二个 return n - 2; 第三个 return n - 1;
  
  空军发表于 2013-05-12 13:40:29
修正后的 read_in() 函数中的 slen 是没有必要的，可以直接使用 len，也就是说：
删除 int slen = len; 这一句，后面出现的三处 slen 用 len 代替。

空军发表于 2013-05-12 14:01:17

推荐
- 不错，C 语言的函数调用是传值的，函数内部修改 len 并没有什么不良影响。
  
  黄志斌发表于 2013-05-12 14:47:47
read_in() 函数如下修改会不会难以理解？

int read_in(int socket, char *buf, int len)
{
　char *s = buf;
　int c = recv(socket, s, len, 0);
　int n = c;
　while ((c > 0) && (s[c-1] != '\n')) {
　　s += c; len -= c;
　　n += c = recv(socket, s, len, 0);
　}
　if (c < 0)
　　return c;
　else if (c == 0)
　　buf[n = 0] = '\0';
　else if (n > 1 && buf[n-2] == '\r')
　　buf[n -= 2] = '\0'; // <---- 用\0替换\r。
　else
　　buf[--n] = '\0';
　return n;
}

空军发表于 2013-05-12 14:21:21

推荐
- 把 else if (c > 1 && s[c-2] == '\r') 改为用 n 来判断，主要是考虑最后一次 recv() 只读取 '\n' 一个字符的极端情形，这时 c == 1，'\n' 前面的 '\r' 是上一次 recv() 读取的，用 c 判断就无法正确删除 '\r'。
  
  空军发表于 2013-05-12 14:27:32
- 建议直接改为返回 void 。
  
  黄志斌发表于 2013-05-12 14:48:18
- [n-=2]又是用语言特性,不提倡
  
  lt 发表于 2013-05-12 19:39:23
其实《Head First C 中文版》这本书中根本就没有用到 read_in() 函数的返回值。
可以考虑把该函数的签名改为：
void read_in(int socket, char *buf, int len);
如果确实需要返回值，可以由调用者计算 strlen(buf) 得到。

黄志斌发表于 2013-05-12 14:44:43

推荐
- 这样，在大多数调用者不需要这个返回值的情况下，节省了时间。而如果有调用都需要返回值，也可以获得。
  
  黄志斌发表于 2013-05-12 14:46:08
- 还要考虑 recv() 出错 c < 0 时 return -1 的情形，read_in() 函数的返回值不能改为 void。
  
  空军发表于 2013-05-12 14:50:36
- 另外，即使 send() 或 recv() 出错，传给 void prints(const char *s, int len) 的 len 是负数，我们的 prints() 也能正常工作，太好了。
  
  空军发表于 2013-05-12 14:53:53
- 嗯，这倒是要考虑的。那么干脆返回 boolean 值好了。
  
  黄志斌发表于 2013-05-12 14:54:38
- prints() 函数的最后一句 printf("]\r\n"); 可以改为 puts("]"); 节省6个字符。
  
  空军发表于 2013-05-12 14:56:09
- 如果 '\r' 和 '\n' 是分两次由 recv() 得到的，想要正确删除 '\r'，就必须计算 n，那么返回 n 也就是举手之劳了。况且本书的惯例是返回 -1 表示出错。
  
  空军发表于 2013-05-12 15:00:39
- 嗯，这么说也有道理。
  
  黄志斌发表于 2013-05-12 15:44:29
- 记得读书的时候.h里的东西叫函数原型，不叫签名，参数可以只有类型
  
  lt 发表于 2013-05-13 12:38:43
- 是的，我以前读的书中也是这样的。
  
  黄志斌发表于 2013-05-13 14:24:32
- #include <stdio.h>
  int a(int);
  int main()
  {
  return a(1);
  }
  int a(int b)
  {
  return b+1;
  }
  vc6能通过。
  
  lt 发表于 2013-05-15 19:55:55
- gcc也没问题 echo $? 和 echo %ERRORLEVEL%的结果都对
  
  lt 发表于 2013-05-15 20:22:10
在我的 Arch Linux 64-bit 操作系统下的编译和运行结果：
$ gcc --version
gcc (GCC) 4.8.0 20130502 (prerelease)
Copyright © 2013 Free Software Foundation, Inc.
本程序是自由软件；请参看源代码的版权声明。本软件没有任何担保；
包括没有适销性和某一专用目的下的适用性担保。

$ gcc -std=c99 a.c && ./a.out
send : 4 bytes [Who']
send : 3 bytes [s t]
send : 7 bytes [here?\r\n]
recv : 4 bytes [Who']
recv : 10 bytes [s there?\r\n]
read_in: 4 bytes [Who's there?\r]

我猜楼主应该是在 Windows XP 32-bit 操作系统的 Cygwin 环境了运行。

黄志斌发表于 2013-05-12 15:04:40

推荐
- 为什么这么不同的环境，运行结果却惊人的一致，都是 send: 4,3,7; recv: 4,10. 有没有什么深刻的原理。
  
  黄志斌发表于 2013-05-12 15:07:23
- send: 4,3,7; 是我们的子进程主动分三次发往管道的；
  recv: 4,10 则是主进程从管道读取的，如何分次就不是我们控制的了。
  
  空军发表于 2013-05-12 15:15:10
- send: 4,3,7; 这是肯定大家都一样的，但是 recv 大家可以不同的，比如 recv: 14.
  
  黄志斌发表于 2013-05-12 15:19:04
- 理论上，同一个机器多运行几次，recv 也有可能不同。
  
  空军发表于 2013-05-12 15:27:44
- 嗯，理论上是这样。
  
  黄志斌发表于 2013-05-12 15:31:26
- 看来用 gcc 的程序的进程间通信（使用管道）的底层原理是同一套，无视 gcc 版本的不同和操作系统的巨大差异。
  
  黄志斌发表于 2013-05-12 15:33:13
- 而 Microsoft 的 C 编译好像不支持 fork 函数。
  
  黄志斌发表于 2013-05-12 15:33:57
我的运行环境正是 Win XP，gcc 版本是 4.5.3：

$ uname -a
CYGWIN_NT-5.2 DELL1200 1.7.18(0.263/5/3) 2013-04-19 10:39 i686 Cygwin

$ gcc --version
gcc (GCC) 4.5.3
Copyright © 2010 Free Software Foundation, Inc.
本程序是自由软件；请参看源代码的版权声明。本软件没有任何担保；
包括没有适销性和某一专用目的下的适用性担保。

空军发表于 2013-05-12 15:12:14

推荐
- 从 uname -a 的输出中的 i686 可以看出是 32-bit 操作系统。
  
  黄志斌发表于 2013-05-12 15:14:21
- 不过 CYGWIN_NT-5.2 有点难以理解。请参见：https://en.wikipedia.org/wiki/Windows_NT#Releases
  
  黄志斌发表于 2013-05-12 15:17:22
- 楼主的 gcc 版本也太低了。
  
  黄志斌发表于 2013-05-12 15:25:54
- Windows 下的 Cygwin 目前能找到的最新的 gcc 就是这个版本的。
  
  空军发表于 2013-05-12 15:36:01
- mingw的gcc新
  是4.7.2
  
  lt 发表于 2013-05-12 19:37:52
- gcc 4.7.2 已经很新了。
  
  黄志斌发表于 2013-05-12 20:42:11
第483页的代码未使用 read_in() 函数的返回值。
代码用了 strncasecmp()，所以 read_in() 函数没能正确删除 '\r' 也没事，如果比较函数名中没有 n，则有问题。
因此 read_in() 函数的两个 bug 都没能对该页代码造成伤害，不知是有幸还是不幸？

空军发表于 2013-05-12 15:34:13

推荐
- 这运气也太好了一点吧？两个 bug 都被绕过了。
  
  黄志斌发表于 2013-05-12 15:46:07
- 因此没能发现 bug，也可以说是运气太差了。
  
  空军发表于 2013-05-12 15:47:00
- 嗯，也可以这么说吧。我在审读时，编译和运行了第 483 页的代码，运行结果和书上期望的一致。所以也就没有发现这两个 bug 。
  
  黄志斌发表于 2013-05-12 15:52:57
补充中的程序看起来更短了，仔细一看，原来是程序中换行的格式变了。

黄志斌发表于 2013-05-13 14:28:01

推荐
另外，这个 read_in 函数中，是否可以使用 do ... while 循环代替原来的 while 循环，以避免两次调用 recv 函数？

黄志斌发表于 2013-05-13 14:29:25

推荐
我们假设 recv 函数的返回值不会大于它的第 3 个参数 len 。这个假设是合理的。
但是，有没有可能出现这种情况：前几次调用 recv 时返回正数，最后一次调用 recv 时返回零？

黄志斌发表于 2013-05-13 14:56:07

推荐
- 本书这个例子是用来接收 telnet 中以 "\r\n" 结尾的输入，最后一次调用 recv() 函数收到的最后一个字符应该是 '\n'，结束循环时 c > 0。如果接收到的输入不以 "\r\n" 结尾，read_in() 函数就会返回一个空字符串。
  
  空军发表于 2013-05-14 20:21:34
- 以 "\r\n" 结尾的输入，最后一次调用 recv() 函数也可能返回零。可以把 n 的初值置为零。然后判断 n == 0，就不会有这个问题了。
  
  黄志斌发表于 2013-05-16 13:59:40
还可以取消变量 s，用 buf + n 代替。

黄志斌发表于 2013-05-13 18:42:10

推荐

《Head First C》第478页审读

从客户端读取数据

测试

修正

补充

空军

相关图书

嗨翻C语言