网络Cookie工作原理
引言
虽然大多数网络Cookie使用起来相当简单,但是它们也有自己独特的原理。由于涉及到互联网隐私问题,Cookie从2000年就开始受到广大媒体的关注,直到现在仍存在着激烈的争论。
然而,Cookie提供了使Web更加容易导航的能力。几乎每个网站的设计人员都会使用Cookie,因为它们能够提供更好的用户体验,并使得收集有关网站访问者的准确信息变得非常容易。
在本文中,我们将了解Cookie背后的基本技术及其支持的一些功能。
Cookie基本知识
2000年4月,笔者在一家颇有规模和影响力的报纸上阅读了一篇有关深入探讨互联网隐私的文章,文中对Cookie进行了定义。定义大致是这样的:
- Cookie是网站放置在硬盘上的程序。它们驻留在计算机上,用于收集有关您和您在互联网上执行的任何操作的信息,只要网站需要,就可以下载此Cookie收集的所有信息。
类似这样的定义在新闻报道中相当普遍,而问题在于所有这些信息都是错误的。Cookie不是程序,不能像运行程序一样运行。因此,Cookie自己不能收集任何信息,也不能从您的计算机上收集与您有关的任何个人信息。
下面是Cookie的正确定义:Cookie是指Web服务器可以在用户的硬盘上存储的一段文本。Cookie允许网站将信息存储在用户的计算机上,并在以后检索此信息。这些信息以名称/值对的形式存储。
例如,网站可以为每个访问者生成唯一的ID号,并使用Cookie文件将此ID号存储在每个用户的计算机上。
如果使用微软的IE浏览器来浏览页面,则可以看到存储在计算机上的所有Cookie。它们通常驻留在名为c:windowscookies的目录中。当笔者在计算机上查看该目录时,发现了165个文件,每个文件都是一个包含名称/值对的文本文件,并且笔者的计算机上存储了与每个网站相对应的一个文件。
您可以看到这个目录中的每一个文件都是简单的普通文本文件,通过查看文件名可以看出是哪个网站将该文件存储到您的计算机上(这些信息也存储在文件中)。通过单击每一个文件,可以将其打开。
例如,笔者访问过goto.com,该网站已将一个Cookie放置在笔者的计算机上。goto.com对应的Cookie文件包含以下信息:
UserID A9A3BECE0563982D www.goto.com/
Goto.com已在笔者的计算机上存储了一个名称/值对。此名称/值对的名称为UserID,值为A9A3BECE0563982D。当笔者第一次访问goto.com时,该网站为笔者分配了一个唯一的ID值,并将其存储在笔者的计算机上。
(请注意,在上面显示的三个值之后,可能还有一些其他的值存储在文件中。这些值是浏览器的管理信息。)
Amazon.com在笔者的计算机上存储的信息更多一些。当查看Amazon在笔者的计算机上创建的Cookie文件时,发现其中包含以下信息:
session-id-time 954242000 amazon.com/
session-id 002-4135256-7625846 amazon.com/
x-main eKQIfwnxuF7qtmX52x6VWAXh@Ih6Uo5H amazon.com/
ubid-main 077-9263437-9645324 amazon.com/
可以看出,Amazon在笔者的计算机上存储了主用户ID、每个会话的ID以及会话的开始时间(以及一个不知道表示什么的x-main值)。
大多数网站仅在计算机上存储一条信息,即用户ID。但是网站可以根据需要存储许多名称/值对。
名称/值对只是命名的数据段,而不是一个程序,也不能“执行”任何操作。网站只能检索它放置在计算机上的信息,而无法检索其他Cookie文件中的信息,也不能检索计算机上的任何其他信息。
Cookie数据是如何移动的?
如上一节中所述,Cookie数据只是网站存储在您的硬盘上的一个名称/值对。所有Cookie数据都是这样。网站存储此数据,并在以后接收此数据。一个网站只能接收其存储在计算机上的数据,该网站不能查看任何其他Cookie或计算机上的任何其他内容。
数据将按以下方式移动:
- 如果在浏览器中键入一个网站的URL,则浏览器会向该网站发送相关网页的请求(有关讨论,请参阅Web服务器工作原理)。例如,如果在浏览器中键入URLhttp://www.amazon.com,则浏览器将联系Amazon的服务器并请求其主页。
- 当浏览器执行上述操作时,它会在您的计算机上寻找Amazon设置的Cookie文件。如果找到Amazon Cookie文件,浏览器就会将该文件中的所有名称/值对连同URL一起发送给Amazon的服务器。如果未找到任何Cookie文件,则不会发送任何Cookie数据。
- Amazon的Web服务器将接收Cookie数据和页面请求。如果接收到名称/值对,Amazon就可以使用它们。
- 如果未接收到任何名称/值对,Amazon将知道您之前从未访问过该网站。服务器将在Amazon的数据库中为您创建一个新ID,然后将名称/值对放置在它发送的网页的标头中,从而发送到您的计算机上。计算机将名称/值对存储在硬盘上。
- 每当您访问网站并请求页面时,Web服务器可以更改名称/值对或添加新对。
服务器还可以将其他一些信息连同名称/值对一起发送,这些信息中包括到期日期。另一个信息是路径(以便网站可以将不同的Cookie值与网站的不同部分相关联)。
您可以控制整个过程。在浏览器中设置一个选项,以便每当网站向您发送名称/值对时,浏览器都会通知您。之后,您便可以接受或拒绝这些值。
网站是如何使用Cookie的?
Cookie由于为使用网站的人解决了一个大问题而逐渐发展起来。从广义上说,Cookie允许网站在计算机上存储状态信息,这些信息可让网站记住浏览器所处的状态。ID是一条简单的状态信息——如果计算机上存在某个ID,则相应网站就会知道您之前已访问过该网站。这个状态表明“您的浏览器至少已访问该网站一次”,并且该网站可以通过那次访问记住您的ID。
网站可以按照许多不同的方式使用Cookie。以下是一些最常见的示例:
- 网站可以准确确定网站的实际访问人数。研究表明,由于存在代理服务器、缓存、集中器等,网站用来准确计算访问者数量的唯一方法就是为每个访问者设置一个包含唯一ID的Cookie。通过使用Cookie,网站可以确定:
- 访问者人数
- 新访问者和重复访问者的人数对比
- 访问者的访问频率
网站通过使用数据库来完成此任务。当访问者第一次访问网站时,网站会在数据库中创建一个新ID,并将此ID作为Cookie发送。当用户下一次返回网站时,网站会在数据库中将与此ID相关的计数器递增,从而知道访问者的返回次数。
- 网站可以存储用户首选项,以便使此网站的外观对于每一个访问者都可以是不同的(通常称作自定义)。例如,如果您访问msn.com,该网站会为您提供“更改内容/布局/颜色”的功能,还允许输入您所在地区的邮政编码来获取自定义的天气信息。当您输入邮政编码时,下面的名称/值对就会添加到MSN的Cookie文件中:
WEAT CC=NC%5FRaleigh%2DDurhamandREGION= www.msn.com/
由于笔者居住在北卡罗来纳州罗利市,这样的天气预报才有意义。
大多数网站似乎都会将类似这样的首选项存储在网站的数据库中,并仅将ID存储为Cookie。不过,将实际值存储在名称/值对中是另一种实现方式(稍后我们将讨论此方法不受欢迎的原因)。
- 电子商务网站可以实现购物车和“快速结帐”选项这样的功能。Cookie包含一个ID并可让网站跟踪您向购物车中添加的不同商品。您添加到购物车中的每个商品会与您的ID值一起存储在网站的数据库中。当您结帐时,网站通过从数据库检索您的所有选择,就可以知道购物车中的商品。在不使用Cookie或类似对象的情况下,人们很难实现方便的购物机制。
在所有这些示例中,请注意,数据库可以存储您从网站选择的商品、您从网站查看的页面以及您通过在线表单提供给网站的信息等,所有信息都存储在网站的数据库中。在大多数情况下,存储在计算机上的全部内容只是一个包含您的独特ID的Cookie。
Cookie存在的问题
Cookie使许多原本不可能的事情变为了可能,但它还不是一种完善的状态机制。例如,Cookie在以下一些方面还不够完善。
- 人们经常共享计算机——在公共场所使用的任何计算机以及在办公环境或家中使用的许多计算机都可以由多个人共享。假设您使用公共计算机(例如在图书馆中)从网上商店买东西,商店会在计算机上留下一个Cookie,这样便导致其他人稍后可能会试图使用您的帐户从商店买东西。商店之所以通常会发布有关此问题的大量警告,原因就在于此。然而即使如此,还是会有错误发生。例如,笔者曾经使用笔者妻子的计算机从亚马逊网站(Amazon) 买东西,后来,当她访问亚马逊网站并单击“一键通”按钮时,并没有意识到只是这么单击一下就实际上购买了一本书。
在恰当地使用了帐户的Windows NT计算机或UNIX计算机的系统上,则不会出现这类问题。帐户可以将所有用户的Cookie分开。然而帐户在其他操作系统上太过随意,这是个问题。
如果您在公共计算机上尝试按照上面的例子做,并且使用该计算机的其他人已访问过博闻网,则历史记录URL可能会显示一个长长的文件列表。
- 清除Cookie——如果您的浏览器出了问题并致电技术支持人员,技术支持人员可能会首先要求您清除计算机上所有的临时网络文件。执行此操作后,您会丢失所有的Cookie文件。这时当您再次访问某个网站,该网站会认为您是一个新用户,并会为您分配一个新的Cookie。这往往会在识别新访问者还是回访者方面造成网站记录错误,同时也会让您难以恢复以前存储的首选项。这就是网站在某些情况下要求您注册的原因——如果您使用用户名和密码进行注册,则可以登录并恢复首选项,即使您丢失Cookie文件也没有关系。如果将首选项的值直接存储在计算机上(如上述MSN天气示例),则无法进行恢复。这就是现在许多网站将所有用户信息存储在一个中央数据库中,而仅将一个ID值存储在用户的计算机上的原因。
如果您清除对应于博闻网的Cookie文件,然后重新访问上一节中的历史记录URL,则会发现博闻网没有您的历史记录。网站必须为您创建一个新的ID和Cookie文件,新的ID没有任何相关数据存储在数据库中。
- 多台计算机——多台计算机——人们经常会在一天内使用多台计算机。例如,笔者在办公室和家中各有一台计算机,还有一台在旅途中使用的便携式计算机。除非网站经过了特别设计来解决这一问题,否则笔者这三台计算机上会有三个不同的Cookie文件。通过这三台计算机访问的任何网站都会将笔者视为三个不同的用户进行跟踪,设置三次首选项会有些烦人。不过,允许注册并集中存储首选项的网站可使笔者在三台计算机上轻松拥有同一帐户,但是网站开发人员必须在设计网站时做好相应的规划。
如果您从一台计算机上访问上一节中演示的历史记录URL,然后从另一台计算机上再次尝试相同的操作,则会发现您的历史记录列表是不同的。这是因为服务器为您创建了两个ID,一个ID对应于一台计算机。
总的来讲,除了要求用户进行注册并在中央数据库中存储所有信息之外,可能没有任何其他简单的解决方案来解决这些问题。
当您使用博闻网注册系统进行注册时,可以通过以下方式解决此问题:网站会记住您的Cookie值,并将其与您的注册信息存储在一起。如果您有机会从任何其他计算机(或已丢失Cookie文件的计算机)登录,则服务器将修改该计算机上的Cookie文件以包含与您的注册信息相关的ID。这样,多台计算机上就可以使用的相同ID值了。
关于Cookie的争议
读到这里时,您可能很想知道为什么媒体一直以来会对Cookie和网络隐私存在这些争议。从上文中,您已了解到Cookie都是善意的文本文件,并且知道它们提供了大量有用的Web功能。
然而有两个方面的问题引起了有关Cookie的强烈争议:
- 第一个方面的问题已困扰消费者长达数十年。假设您通过传统的邮购目录购买东西,目录公司可以从订单中获取您的姓名、地址和电话号码,并且也知道您购买的商品。该公司可以将您的信息出售给可能希望向您销售类似产品的其他公司,这就是促成电话营销和垃圾邮件的来源。
在一个网站上,网站不但可以跟踪您购买的商品,还可以跟踪您阅读的网页和单击的广告等。如果您稍后购买物品并输入您的姓名和地址,则网站可能会比传统的邮购公司知道更多有关您的信息。这样可以更加精确地寻找目标,但会给很多人带来不便。
不同的网站具有不同的策略。博闻网具有严格的隐私策略,并且不会向任何第三方出售或与之共享有关我们的读者的任何个人信息,除非您特地告诉我们这样做(例如,决定参加一个电子邮件计划中)。我们会聚合信息并进行发布,例如,如果记者询问博闻网有多少访问者或网站上的哪一个页面最受欢迎,我们会根据数据库中的数据来创建这些聚合统计信息。
- 第二个方面的问题是互联网特有的。有一些基础设施提供商实际上可以创建在多个网站上可见的Cookie,DoubleClick就是这方面最出名的例子。许多公司使用DoubleClick在其网站上提供广告横幅服务。DoubleClick会在网站上放置一些小型(1x1像素GIF文件,以方便DoubleClick在您的计算机上加载Cookie,这样它就可以跨多个网站跟踪您的活动。它可能会查看到您在搜索引擎中键入的搜索字符串(这更多的是缘于一些搜索引擎实现其系统的方式,而不是因为要有意进行任何恶意操作)。由于它可以从多个网站收集有关您的如此多的信息,因此DoubleClick可以制作内容非常丰富的配置文件,当然这些配置文件仍是匿名的
随后,DoubleClick又向前迈进了一步。通过收购一家公司,DoubleClick扬言将这些内容丰富的匿名配置文件与姓名和地址信息重新链接在一起,标明这些信息的所有者并进行出售。如此一来,这种做法开始让人觉得非常像是在窥探用户的隐私,这也正是引起争议的原因。
DoubleClick以及诸如此类的公司在做此类事情时处于一个独特的位置——因为它们为如此多的网站提供广告服务。由于Cookie因网站而异,所以跨网站配置的功能并不适用于单个网站。
评论
查看更多