精华+网络socket编程指南.docx

资源描述

精华+网络socket编程指南.docx

《精华+网络socket编程指南.docx》由会员分享，可在线阅读，更多相关《精华+网络socket编程指南.docx（38页珍藏版）》请在冰点文库上搜索。

精华+网络socket编程指南.docx

精华+网络socket编程指南

Beej网络socket编程指南

--------------------------------------------------------------------------------

介绍

　　Socket编程让你沮丧吗？

从manpages中很难得到有用的信息吗？

你想跟上时代去编Internet相关的程序，但是为你在调用connect（）前的bind（）的结构而不知所措？

等等…

好在我已经将这些事完成了，我将和所有人共享我的知识了。

如果你了解C语言并想穿过网络编程的沼泽，那么你来对地方了。

--------------------------------------------------------------------------------

读者对象

　　这个文档是一个指南，而不是参考书。

如果你刚开始socket编程并想找一本入门书，那么你是我的读者。

但这不是一本完全的socket编程书。

--------------------------------------------------------------------------------

平台和编译器

　　这篇文档中的大多数代码都在Linux平台PC上用GNU的gcc成功编译过。

而且它们在HPUX平台上用gcc也成功编译过。

但是注意，并不是每个代码片段都独立测试过。

--------------------------------------------------------------------------------

1）什么是套接字？

2）Internet套接字的两种类型

3）网络理论

4）结构体

5）本机转换

6）IP地址和如何处理它们

7）socket（）函数

8）bind（）函数

9）connect（）函数

10）listen（）函数

11）accept（）函数

12）send（）和recv（）函数

13）sendto（）和recvfrom（）函数

14）close（）和shutdown（）函数

15）getpeername（）函数

16）gethostname（）函数

17）域名服务（DNS）

18）客户-服务器背景知识

19）简单的服务器

20）简单的客户端

21）数据报套接字Socket

22）阻塞

23）select（）--多路同步I/O

24）参考资料

--------------------------------------------------------------------------------

什么是socket？

　　你经常听到人们谈论着“socket”，或许你还不知道它的确切含义。

现在让我告诉你：

它是使用标准Unix文件描述符（filedescriptor）和其它程序通讯的方式。

什么？

你也许听到一些Unix高手（hacker）这样说过：

“呀，Unix中的一切就是文件！

”那个家伙也许正在说到一个事实：

Unix程序在执行任何形式的I/O的时候，程序是在读或者写一个文件描述符。

一个文件描述符只是一个和打开的文件相关联的整数。

但是（注意后面的话），这个文件可能是一个网络连接，FIFO，管道，终端，磁盘上的文件或者什么其它的东西。

Unix中所有的东西就是文件！

所以，你想和Internet上别的程序通讯的时候，你将要使用到文件描述符。

你必须理解刚才的话。

现在你脑海中或许冒出这样的念头：

“那么我从哪里得到网络通讯的文件描述符呢？

”，这个问题无论如何我都要回答：

你利用系统调用socket（），它返回套接字描述符（socketdescriptor），然后你再通过它来进行send（）和recv（）调用。

“但是...”，你可能有很大的疑惑，“如果它是个文件描述符，那么为什么不用一般调用read（）和write（）来进行套接字通讯？

”简单的答案是：

“你可以使用！

”。

详细的答案是：

“你可以，但是使用send（）和recv（）让你更好的控制数据传输。

”存在这样一个情况：

在我们的世界上，有很多种套接字。

有DARPAInternet地址（Internet套接字），本地节点的路径名（Unix套接字），CCITTX.25地址（你可以将X.25套接字完全忽略）。

也许在你的Unix机器上还有其它的。

我们在这里只讲第一种：

Internet套接字。

--------------------------------------------------------------------------------

Internet套接字的两种类型

　　什么意思？

有两种类型的Internet套接字？

是的。

不，我在撒谎。

其实还有很多，但是我可不想吓着你。

我们这里只讲两种。

除了这些,我打算另外介绍的"RawSockets"也是非常强大的，很值得查阅。

那么这两种类型是什么呢？

一种是"StreamSockets"（流格式），另外一种是"DatagramSockets"（数据包格式）。

我们以后谈到它们的时候也会用到"SOCK_STREAM"和"SOCK_DGRAM"。

数据报套接字有时也叫“无连接套接字”（如果你确实要连接的时候可以用connect（）。

）流式套接字是可靠的双向通讯的数据流。

如果你向套接字按顺序输出“1，2”，那么它们将按顺序“1，2”到达另一边。

它们是无错误的传递的，有自己的错误控制，在此不讨论。

有什么在使用流式套接字？

你可能听说过telnet，不是吗？

它就使用流式套接字。

你需要你所输入的字符按顺序到达，不是吗？

同样，WWW浏览器使用的HTTP协议也使用它们来下载页面。

实际上，当你通过端口80telnet到一个WWW站点，然后输入“GETpagename”的时候，你也可以得到HTML的内容。

为什么流式套接字可以达到高质量的数据传输？

这是因为它使用了“传输控制协议（TheTransmissionControlProtocol）”，也叫“TCP”（请参考RFC-793获得详细资料。

）TCP控制你的数据按顺序到达并且没有错

误。

你也许听到“TCP”是因为听到过“TCP/IP”。

这里的IP是指“Internet协议”（请参考RFC-791。

）IP只是处理Internet路由而已。

那么数据报套接字呢？

为什么它叫无连接呢？

为什么它是不可靠的呢？

有这样的一些事实：

如果你发送一个数据报，它可能会到达，它可能次序颠倒了。

如果它到达，那么在这个包的内部是无错误的。

数据报也使用IP作路由，但是它不使用TCP。

它使用“用户数据报协议（UserDatagramProtocol）”，也叫“UDP”（请参考RFC-768。

）

为什么它们是无连接的呢？

主要是因为它并不象流式套接字那样维持一个连接。

你只要建立一个包，构造一个有目标信息的IP头，然后发出去。

无需连接。

它们通常使用于传输包-包信息。

简单的应用程序有：

tftp,bootp等等。

你也许会想：

“假如数据丢失了这些程序如何正常工作？

”我的朋友，每个程序在UDP上有自己的协议。

例如，tftp协议每发出的一个被接受到包，收到者必须发回一个包来说“我收到了！

”（一个“命令正确应答”也叫“ACK”包）。

如果在一定时间内（例如5秒），发送方没有收到应答，它将重新发送，直到得到ACK。

这一ACK过程在实现SOCK_DGRAM应用程序的时候非常重要。

--------------------------------------------------------------------------------

网络理论

　　既然我刚才提到了协议层，那么现在是讨论网络究竟如何工作和一些关于SOCK_DGRAM包是如何建立的例子。

当然，你也可以跳过这一段，如果你认为已经熟悉的话。

现在是学习数据封装（DataEncapsulation）的时候了！

它非常非常重要。

它重要性重要到你在网络课程学（图1：

数据封装）习中无论如何也得也得掌握它。

主要的内容是：

一个包，先是被第一个协议（在这里是TFTP）在它的报头（也许是报尾）包装（“封装”），然后，整个数据（包括TFTP头）被另外一个协议（在这里是UDP）封装，然后下一个（IP），一直重复下去，直到硬件（物理）层（这里是以太网）。

当另外一台机器接收到包，硬件先剥去以太网头，内核剥去IP和UDP头，TFTP程序再剥去TFTP头，最后得到数据。

现在我们终于讲到声名狼藉的网络分层模型（LayeredNetworkModel）。

这种网络模型在描述网络系统上相对其它模型有很多优点。

例如，你可以写一个套接字程序而不用关心数据的物理传输（串行口，以太网，连接单元接口（AUI）还是其它介质），因为底层的程序会为你处理它们。

实际的网络硬件和拓扑对于程序员来说是透明的。

不说其它废话了，我现在列出整个层次模型。

如果你要参加网络考试，可一定要记住：

应用层（Application）

表示层（Presentation）

会话层（Session）

传输层（Transport）

网络层（Network）

数据链路层（DataLink）

物理层（Physical）

物理层是硬件（串口，以太网等等）。

应用层是和硬件层相隔最远的--它是用户和网络交互的地方。

这个模型如此通用，如果你想，你可以把它作为修车指南。

把它对应到Unix，结果是：

应用层（ApplicationLayer）（telnet,ftp,等等）

传输层（Host-to-HostTransportLayer）（TCP,UDP）

Internet层（InternetLayer）（IP和路由）

网络访问层（NetworkAccessLayer）（网络层，数据链路层和物理层）

现在，你可能看到这些层次如何协调来封装原始的数据了。

看看建立一个简单的数据包有多少工作？

哎呀，你将不得不使用"cat"来建立数据包头！

这仅仅是个玩笑。

对于流式套接字你要作的是send（）发送数据。

对于数据报式套接字，你按照你选择的方式封装数据然后使用sendto（）。

内核将为你建立传输层和Internet层，硬件完成网络访问层。

这就是现代科技。

现在结束我们的网络理论速成班。

哦，忘记告诉你关于路由的事情了。

但是我不准备谈它，如果你真的关心，那么参考IPRFC。

--------------------------------------------------------------------------------

结构体

　　终于谈到编程了。

在这章，我将谈到被套接字用到的各种数据类型。

因为它们中的一些内容很重要了。

首先是简单的一个：

socket描述符。

它是下面的类型：

int

仅仅是一个常见的int。

从现在起，事情变得不可思议了，而你所需做的就是继续看下去。

注意这样的事实：

有两种字节排列顺序：

（重要的）高字节（有时叫"octet"，即八位位组）在前面，或者（不重要的）低字节在前面。

前一种叫“网络字节顺序（NetworkByteOrder）”big-endian。

有些机器在内部是按照这个顺序储存数据，而另外一些则不然。

当我说某数据必须按照NBO顺序，那么你要调用函数（例如htons（））来将它从本机字节顺序（HostByteOrder）转换过来。

如果我没有提到NBO，那么就让它保持本机字节顺序。

我的第一个结构（在这个技术手册TM中）--structsockaddr.。

这个结构为许多类型的套接字储存套接字地址信息：

structsockaddr{

　　unsignedshortsa_family;/*地址家族,AF_xxx*/

　　charsa_data[14];/*14字节协议地址*/

　　};

sa_family能够是各种各样的类型，但是在这篇文章中都是"AF_INET"。

sa_data包含套接字中的目标地址和端口信息。

这好像有点不明智。

为了处理structsockaddr，程序员创造了一个并列的结构：

structsockaddr_in（"in"代表"Internet"。

）

structsockaddr_in{

　　shortintsin_family;/*通信类型*/

　　unsignedshortintsin_port;/*端口*/

　　structin_addrsin_addr;/*Internet地址*/

　　unsignedcharsin_zero[8];/*与sockaddr结构的长度相同*/

　　};

用这个数据结构可以轻松处理套接字地址的基本元素。

注意sin_zero（它被加入到这个结构，并且长度和structsockaddr一样）应该使用函数bzero（）或memset（）来全部置零。

同时，这一重要的字节，一个指向sockaddr_in结构体的指针也可以被指向结构体sockaddr并且代替它。

这样的话即使socket（）想要的是structsockaddr*，你仍然可以使用structsockaddr_in，并且在最后转换。

同时，注意sin_family和structsockaddr中的sa_family一致并能够设置为"AF_INET"。

最后，sin_port和sin_addr必须是网络字节顺序（NetworkByteOrder）！

你也许会反对道：

"但是，怎么让整个数据结构structin_addrsin_addr按照网络字节顺序呢?

"要知道这个问题的答案，我们就要仔细的看一看这个数据结构：

structin_addr,有这样一个联合（unions）：

/*Internet地址（一个与历史有关的结构）*/

　　structin_addr{

　　unsignedlongs_addr;

　　};

它曾经是个最坏的联合，但是现在那些日子过去了。

如果你声明"ina"是数据结构structsockaddr_in的实例，那么"ina.sin_addr.s_addr"就储存4字节的IP地址（使用网络字节顺序）。

如果你不幸的系统使用的还是恐怖的联合structin_addr，你还是可以放心4字节的IP地址并且和上面我说的一样（这是因为使用了“#define”。

）

structin_addr{

　　union{

　　struct{u_chars_b1,s_b2,s_b3,s_b4;}S_un_b;

　　struct{u_shorts_w1,s_w2;}S_un_w;

　　u_longS_addr;

　　}S_un;

　　#defines_addrS_un.S_addr

　　/*canbeusedformosttcp&ipcode*/

　　#defines_hostS_un.S_un_b.s_b2

　　/*hostonimp*/

　　#defines_netS_un.S_un_b.s_b1

　　/*network*/

　　#defines_impS_un.S_un_w.s_w2

　　/*imp*/

　　#defines_impnoS_un.S_un_b.s_b4

　　/*imp#*/

　　#defines_lhS_un.S_un_b.s_b3

　　/*logicalhost*/

　　};

--------------------------------------------------------------------------------

本机转换

　　我们现在到了新的章节。

我们曾经讲了很多网络到本机字节顺序的转换，现在可以实践了！

你能够转换两种类型：

short（两个字节）和long（四个字节）。

这个函数对于变量类型unsigned也适用。

假设你想将short从本机字节顺序转换为网络字节顺序。

用"h"表示"本机（host）"，接着是"to"，然后用"n"表示"网络（network）"，最后用"s"表示"short"：

h-to-n-s,或者htons（）（"HosttoNetworkShort"）。

太简单了...

如果不是太傻的话，你一定想到了由"n"，"h"，"s"，和"l"形成的正确组合，例如这里肯定没有stolh（）（"ShorttoLongHost"）函数，不仅在这里没有，所有场合都没有。

但是这里有：

htons（）--"HosttoNetworkShort"

　　htonl（）--"HosttoNetworkLong"

　　ntohs（）--"NetworktoHostShort"

　　ntohl（）--"NetworktoHostLong"

现在，你可能想你已经知道它们了。

你也可能想：

“如果我想改变char的顺序要怎么办呢?

”但是你也许马上就想到，“用不着考虑的”。

你也许会想到：

我的68000机器已经使用了网络字节顺序，我没有必要去调用htonl（）转换IP地址。

你可能是对的，但是当你移植你的程序到别的机器上的时候，你的程序将失败。

可移植性！

这里是Unix世界！

记住：

在你将数据放到网络上的时候，确信它们是网络字节顺序的。

最后一点：

为什么在数据结构structsockaddr_in中，sin_addr和sin_port需要转换为网络字节顺序，而sin_family需不需要呢?

答案是：

sin_addr和sin_port分别封装在包的IP和UDP层。

因此，它们必须要是网络字节顺序。

但是sin_family域只是被内核（kernel）使用来决定在数据结构中包含什么类型的地址，所以它必须是本机字节顺序。

同时，sin_family没有发送到网络上，它们可以是本机字节顺序。

--------------------------------------------------------------------------------

IP地址和如何处理它们

现在我们很幸运，因为我们有很多的函数来方便地操作IP地址。

没有必要用手工计算它们，也没有必要用"<<"操作来储存成长整字型。

首先，假设你已经有了一个sockaddr_in结构体ina，你有一个IP地址"132.241.5.10"要储存在其中，你就要用到函数inet_addr（）,将IP地址从点数格式转换成无符号长整型。

使用方法如下：

ina.sin_addr.s_addr=inet_addr（"132.241.5.10"）;

注意，inet_addr（）返回的地址已经是网络字节格式，所以你无需再调用函数htonl（）。

我们现在发现上面的代码片断不是十分完整的，因为它没有错误检查。

显而易见，当inet_addr（）发生错误时返回-1。

记住这些二进制数字？

（无符号数）-1仅仅和IP地址255.255.255.255相符合！

这可是广播地址！

大错特错！

记住要先进行错误检查。

好了，现在你可以将IP地址转换成长整型了。

有没有其相反的方法呢？

它可以将一个in_addr结构体输出成点数格式？

这样的话，你就要用到函数inet_ntoa（）（"ntoa"的含义是"networktoascii"），就像这样：

printf（"%s",inet_ntoa（ina.sin_addr））;

它将输出IP地址。

需要注意的是inet_ntoa（）将结构体in-addr作为一个参数，不是长整形。

同样需要注意的是它返回的是一个指向一个字符的指针。

它是一个由inet_ntoa（）控制的静态的固定的指针，所以每次调用inet_ntoa（），它就将覆盖上次调用时所得的IP地址。

例如：

char*a1,*a2;

a1=inet_ntoa（ina1.sin_addr）;/*这是198.92.129.1*/

a2=inet_ntoa（ina2.sin_addr）;/*这是132.241.5.10*/

printf（"address1:

%s\n",a1）;

printf（"address2:

%s\n",a2）;

输出如下：

address1:

132.241.5.10

address2:

132.241.5.10

假如你需要保存这个IP地址，使用strcopy（）函数来指向你自己的字符指针。

上面就是关于这个主题的介绍。

稍后，你将学习将一个类似"wintehouse.gov"的字符串转换成它所对应的IP地址（查阅域名服务,稍后）。

--------------------------------------------------------------------------------

socket（）函数

我想我不能再不提这个了－下面我将讨论一下socket（）系统调用。

下面是详细介绍：

#include;

intsocket（intdomain,inttype,intprotocol）;

但是它们的参数是什么?

首先，domain应该设置成"AF_INET"，就象上面的数据结构structsockaddr_in中一样。

然后，参数type告诉内核是SOCK_STREAM类型还是SOCK_DGRAM类型。

最后，把protocol设置为"0"。

（注意：

有很多种domain、type，我不可能一一列出了，请看socket（）的man帮助。

当然，还有一个"更好"的方式去得到protocol。

同时请查阅getprotobyname（）的man帮助。

）

socket（）只是返回你以后在系统调用种可能用到的socket描述符，或者在错误的时候返回-1。

全局变量errno中将储存返回的错误值。

（请参考perror（）的man帮助。

）

--------------------------------------------------------------------------------

bind（）函数

　　一旦你有一个套接字，你可能要将套接字和机器上的一定的端口关联起来。

（如果你想用listen（）来侦听一定端口的数据，这是必要一步--MUD告诉你说用命令"telnetx.y.z6969"。

）如果你只想用connect（），那么这个步骤没有必要。

但是无论如何，请继续读下去。

这里是系统调用bind（）的大概：

#include;

intbind（intsockf

展开阅读全文