网站时光机

网站时光机
Wayback Machine
Wayback Machine logo 2010.svg
截图
Wayback Machine.png
2021年10月的网站时光机首页
网站类型
存档
持有者 网际网路档案馆
网址 web.archive.org 编辑维基数据链结
注册 可选
推出时间 2001年10月24日[1][2]
现状 活跃
程式语言 JavaPython

网站时光机(英语:Wayback Machine)是全球资讯网数位档案馆,由位于美国加利福尼亚州旧金山非营利组织网际网路档案馆建立,亦为该组织最重要的服务之一。它允许使用者「回到过去」,检视过去的网站的样子。其创始人布鲁斯特·卡利Bruce Gilliat开发了网站时光机,旨在透过储存已失效网页的存档副本,以「普及所有知识」(universal access to all knowledge)。自2001年推出以来,已有4,520多亿页面被加入档案馆。

历史

网站时光机由网际网路档案馆的创始人布鲁斯特·卡利和Bruce Gilliat于2001年推出,以解决网站在维护或关闭时无法检视内容的问题[5],此外还能检视网页的历史存档版本,创始人Kahle和Gilliat希望以此能为整个网际网路「普及所有知识」(universal access to all knowledge)。[6]

Wayback Machine这个名称源于动画片The Rocky and Bullwinkle Show中的「WABAC机器」(发音为Way-back),这是一个时间旅行装置。[7][8]在动画片的皮博迪的不可能的历史一集中,角色使用这一机器来见证、参与甚至改变历史上的著名事件。[9]

网站时光机于1996年开始存档快取网页,目标是在五年后将服务公之于众。[10]从1996年到2001年,这些资讯储存在数位磁带上,Kahle偶尔允许研究人员和科学家使用资料库。[11]2001年,网际网路档案馆成立五周年时,加州大学伯克利分校举行了网站时光机的公布仪式。[12]当网站时光机推出时,它已经存档了超过100亿个页面。[13]

如今,资料储存在网际网路档案馆的大型Linux节点群集上。[6]有时会重新存取并存档网站的新版本(参见下文技术细节)。[14]如果网站允许网路时光机「爬虫索引」网站并储存资料,则也可以透过在搜寻方块中输入网站的URL手动撷取网站。[10]

技术细节

网路时光机已经开发了软体用于「爬虫索引」并下载所有可公开存取的全球资讯网页面、Gopher阶层、Usenet公告板系统和可下载软体。[15]这些「爬虫」收集的资讯并不能包括网际网路上所有可用的资讯,因为许多资料受发布者限制或储存在不可存取的资料库中。为了克服部分快取网站的不一致性,2005年,网际网路档案馆开发了Archive-It.org,使得机构和内容创作者可以自愿收集和储存数位内容,并建立数位档案馆。[16]

爬虫索引来自各种来源,其中一些是从第三方汇入的,而另一些是由存档内部生成的[14]。自2010年以来,「Worldwide Web Crawls」一直在执行,并撷取全球网站[14][17]

快照撷取的频率因网站而异。[14]「Worldwide Web Crawls」中的网站包含在「爬网列表」(crawl list)中,每次爬网都会将网站存档一次。[14]爬网可能需要数月甚至数年才能完成,具体取决于其大小。[14]例如,"Wide Crawl Number 13"从2015年1月9日开始,于2016年7月11日完成。[18]但是,一次可能有多个爬网正在进行,并且一个站点可能包含在多个爬网列表中,因此,对站点进行爬网的频率有很大的不同。[14]

储存容量的增加

随着多年来技术的发展,网站时光机的储存容量不断增加。2003年,仅经过两年的公开存取,网站时光机便以每月12兆位元组(TB)的速度增长。资料储存在由网际网路档案馆的工作人员客制化设计的PetaBox机架系统上。第一个100兆位元组(TB)的机架于2004年6月全面投入使用,不过很快就发现,这些储存空间远远不够。[19][20]

网际网路档案馆在2009年其客制化的储存体系结构迁移到Sun开放式储存,并在Sun系统加利福尼亚园区的Sun模组化资料中心中代管了一个新的资料中心[21]截至2009年,网站时光机包含大约3拍位元组(PB)的资料,并以每月100兆位元组(TB)的速度增长。[22]

2013年1月,该公司宣布了2400亿个URL的突破性里程碑。[23]2013年10月,该公司宣布了「储存页面」(Save a Page)功能[24],允许任何网际网路使用者存档URL的内容。这成为了代管恶意二进位档案的服务滥用威胁。[25][26]

截至2014年12月,网站时光机存有4350亿个网页,将近9拍位元组(PB)的资料,并且每周增长约20兆位元组(TB)。[13][27][28]

据报导,截至2016年7月,网站时光机存有约15拍位元组(PB)的资料。[29]

截至2018年9月,网站时光机存有超过25拍位元组(PB)的资料。[30][31]

成长

2013年10月至2015年3月,该网站的全球Alexa排名从163[32]变为208[33]。2019年3月,该排名为244[34].

网站时光机的成长 [35] [36]
年份 已存档的页面数(单位:亿)
2005
400
2008
850
2012
1,500
2013
3,730
2014
4,000
2015
4,520

网站排除方针

历年来,网站时光机一直尊重机器人排除标准(robots.txt)以决定一个网站是否会被爬网;或者如果已经被爬网,它的存档是否可以公开检视。透过使用robots.txt,网站所有者可以选择登出网站时光机。如果站点阻止了网页存档,则域中以前存档的任何页面也将立即显示为不可用。此外,网际网路档案馆表示,「有时网站所有者会直接联络我们,要求我们停止对网站进行爬网或存档。我们会遵守这些请求。」[37][38]

2017年4月17日,有报导称,一些网站已经倒闭,成为暂停的域(Domain parking)。它们透过使用robots.txt把自己排除在搜寻引擎之外,导致在无意中被网站时光机排除。[39]

网站时光机的网站排除方针(Website exclusion policy)部分基于2002年加利福尼亚大学伯克利分校资讯管理和系统学院发布的《管理删除请求和维护档案完整性的建议》(英语:Recommendations for Managing Removal Requests and Preserving Archival Integrity),此建议赋予网站所有者阻止存取网站存档的权利。[40]网站时光机遵守了这一政策,以避免昂贵的诉讼。[41]

网站排除方针于2017年开始放宽,当时它停止遵循robots.txt,并对美国政府和军方的网站进行爬网和显示网页。截至2017年4月,网站时光机更广泛地忽略了robots.txt,而不仅对于美国政府网站。[42][43][44][45]

用途

自2001年网站时光机公开发布以来,学者们一直在研究它的储存和收集资料的方式,以及其存档中实际包含的页面。截至2013年,学者们已经在网站时光机上撰写了大约350篇文章,其中大部分来自资讯科技图书馆学社会科学领域。社会科学学者们使用网站时光机分析了从90年代中期至今网站的发展对公司的成长的影响。[13]

当网站时光机存档一个页面时,它通常会包含大多数超连结,以使这些连结被网际网路的不稳定性轻易破坏时,能够仍然保持活动状态。印度的研究人员研究了网站时光机储存线上学术出版物中的超连结的能力的有效性,发现它储存了略多于一半的超连结。[46]

有记者使用网站时光机检视失效的网站、过时的新闻报导以及被更改的网站内容。其内容已被用于追究政治家的责任,揭穿争论场合上的谎言[47]。2014年,乌克兰东部分裂地区叛军顿涅茨克人民军领导人伊戈尔·斯特列尔科夫的社群媒体的存档页面显示,他吹嘘自己的部队击落了一架疑似乌克兰军用飞机,后来才知道这架飞机实际上是一架马航民航客机(马来西亚航空17号班机),之后,他删除了发布的这篇文章,并指责乌克兰军方击落了这架飞机[47][48]。2017年,在社群网站reddit的讨论中,有人表示存取过archive.org 并发现白宫网站删除了所有提及气候变化的内容,对此,一位使用者评论道:「科学家有必要在华盛顿举行一次游行」,此事成为了为科学游行(March for Science)举行的原因。[49][50][51]

局限性

2014年,从抓取网站到它可以在网站时光机上被检视之间存在6个月的延迟时间[52]。目前,该延迟时间为3-10小时[53]。网站时光机仅提供有限的搜寻功能,它的「站点搜寻」(Site Search)功能允许使用者根据描述站点的词汇来寻找站点,而非网页本身的词汇。[54]

由于网路爬虫的限制,网站时光机无法完全存档互动式网页,例如Flash平台和使用JavaScript渐进式网路应用程式编写的表单,因为这些功能需要与宿主网站互动。网站时光机的网路爬虫很难提取任何未使用HTML或其变形编码的内容,这通常会导致超连结损坏和图像遗失。因此,网路爬虫无法存档不包含指向其他页面的连结的「孤立页面」(Orphan page)。[54][53]由于其爬虫程式仅能根据其预设的深度限制追踪有限数量的超连结,因此它无法存档每个页面中的每个超连结[17]

法律证据

民事诉讼

Netbula LLC v. Chordiant Software Inc.

在2009年的「Netbula, LLC v. Chordiant Software Inc.」一案中,被告Chordiant提出动议,要求Netbula禁用其网站上的robots.txt档案,因为该档案导致网站时光机追溯性地复原了对Netbula网站先前版本的存档的存取权限,Chordiant相信这些页面中存在有利于诉讼的材料[55]

Netbula反对该动议,理由是被告要求更改Netbula的网站,他们应该直接为这些页面直接传唤网际网路档案馆[56]。然而,网际网路档案馆的一名雇员发表了宣誓声明,支援Chordiant的动议,表示在「不对其运营造成大量负担,费用和干扰」的情况下,无法透过任何其他方式存取网页。[55]

美国加利福尼亚北区联邦地区法院圣何塞分部的地方法官霍华德·劳埃德(Howard Lloyd)驳回了Netbula的论点,并命令他们暂时禁用robots.txt阻止程式,以使Chordiant可以检索他们想要的存档页面。[55]

波兰电视台

在2004年10月的「 Telewizja Polska USA, Inc. v. Echostar Satellite」No. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (N.D. Ill. October 15, 2004)一案中,一名诉讼当事人试图使用网站时光机的档案作为有效证据的来源,此举可能属于首次。波兰电视台是TVP Polonia的供应商,EchoStar运营Dish Network。在审判程式之前,EchoStar表示,它打算提供网站时光机快照,作为波兰电视台网站过去内容的证据。

参考文献

  1. ^ WayBackMachine.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. (原始内容存档于2020-05-14). 
  2. ^ InternetArchive.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. (原始内容存档于2020-05-12). 
  3. ^ archive.org Competitive Analysis, Marketing Mix and Traffic - Alexa. alexa.com. [2020-06-06]. (原始内容存档于2020-05-18). 
  4. ^ 印度政府突然全国封锁「Wayback Machine」!事前未发出通知. 香港 Unwire.hk. 2017-08-10 [2018-05-03]. (原始内容存档于2017-08-10) (中文(香港)). 
  5. ^ Notess, Greg R. The Wayback Machine: The Web's Archive. Online. March–April 2002, 26: 59–61. 
  6. ^ 6.0 6.1 Internet Archive Blogs. blog.archive.org. [2018-10-15]. (原始内容存档于2018-10-20) (美国英语). 
  7. ^ Green, Heather. A Library as Big as the World. BusinessWeek. 2002-02-28. (原始内容存档于2011-12-20). 
  8. ^ Tong, Judy. Responsible Party – Brewster Kahle; A Library Of the Web, On the Web. New York Times. 2002-09-08 [2011-08-15]. (原始内容存档于2011-02-20). 
  9. ^ Can the Internet Be Archived?. The New Yorker. 2015-01-26 [2019-01-23]. (原始内容存档于2015-01-25). 
  10. ^ 10.0 10.1 Internet Archive: Wayback Machine. archive.org. [2018-10-15]. (原始内容存档于2014-01-03) (英语). 
  11. ^ Cook, John. Web site takes you way back in Internet history. Seattle Post-Intelligencer. 2001-11-01 [2011-08-15]. (原始内容存档于2014-08-12). 
  12. ^ Wayback Goes Way Back on Web. Wired. 2001-10-28 [2017-10-16]. (原始内容存档于2017-10-16). 
  13. ^ 13.0 13.1 13.2 Arora, Sanjay K.; Li, Yin; Youtie, Jan; Shapira, Philip. Using the wayback machine to mine websites in the social sciences: A methodological resource. Journal of the Association for Information Science and Technology. 2015-05-05, 67 (8): 1904–1915. ISSN 2330-1635. doi:10.1002/asi.23503 (英语). 
  14. ^ 14.0 14.1 14.2 14.3 14.4 14.5 14.6 Kalev Leetaru. The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web. Forbes. January 28, 2016 [October 16, 2017]. (原始内容存档于October 16, 2017). 
  15. ^ Kahle, Brewster. Archiving the Internet. Scientific American – March 1997 Issue. [2020-04-25]. (原始内容存档于2012-08-03) (英语). 
  16. ^ Kaplan, Jeff. Archive-It: Crawling the Web Together. Internet Archive Blogs. 2014-11-27 [2020-04-24]. (原始内容存档于2017-10-12) (英语). 
  17. ^ 17.0 17.1 Worldwide Web Crawls. Internet Archive. [2020-06-25]. (原始内容存档于2017-10-19). 
  18. ^ Wide Crawl Number 13. Internet Archive. [2020-06-07]. (原始内容存档于2017-10-19) (英语). 
  19. ^ Internet Archive: Petabox. archive.org. 2020-06-07 [2020-06-07]. (原始内容存档于2020-06-03) (英语). 
  20. ^ Kanellos, Michael. Big storage on the cheap. CNET News.com. 2005-07-29 [2020-06-07]. (原始内容存档于2007-04-03). 
  21. ^ Internet Archive and Sun Microsystems Create Living History of the Internet [网际网路档案馆和Sun系统创造了网际网路的鲜活历史]. Sun Microsystems. 2009-03-25 [2020-06-07]. (原始内容存档于2009-03-26) (英语). 
  22. ^ Mearian, Lucas. Internet Archive to unveil massive Wayback Machine data center [网际网路档案馆推出大规模网站时光机资料中心]. Computerworld.com. 2009-03-19 [2020-09-07]. (原始内容存档于2009-03-23) (英语). 
  23. ^ Kahle, Brewster. Wayback Machine: Now with 240,000,000,000 URLs [网站时光机:现有240,000,000,000个URL]. blog.archive.org. Internet Archive Blogs. 2013-01-09 [2020-06-07]. (原始内容存档于2014-04-14) (英语). 
  24. ^ Rossi, Alexis. Fixing Broken Links on the Internet. archive.org. San Francisco, CA, US: Collections Team, the Internet Archive. October 25, 2013 [2020-06-11]. (原始内容存档于2014-11-07). We have added the ability to archive a page instantly and get back a permanent URL for that page in the Wayback Machine. This service allows anyone – wikipedia editors, scholars, legal professionals, students, or home cooks like me – to create a stable URL to cite, share or bookmark any information they want to still have access to in the future. 
  25. ^ The VirusTotal Team. 207.241.226.190 IP address information. virustotal.com. Dublin 2, Ireland: VirusTotal. 2015-03-25 [2020-06-11]. (原始内容存档于2014-07-14). 2015-03-25: Latest URLs hosted in this IP address detected by at least one URL scanner or malicious URL dataset. ... 2/62 2015-03-25 16:14:12 [complete URL redacted]/Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [complete URL redacted]/CBLightSetup.exe 
  26. ^ Advisory provided by Google. Safe Browsing Diagnostic page for archive.org. google.com/safebrowsing. Mountain View, CA, US. 2015-03-25 [2020-06-11]. (原始内容存档于2015-04-06). 2015-03-25: Part of this site was listed for suspicious activity 138 time(s) over the past 90 days. ... What happened when Google visited this site? ... Of the 42410 pages we tested on the site over the past 90 days, 450 page(s) resulted in malicious software being downloaded and installed without user consent. The last time Google visited this site was on 2015-03-25, and the last time suspicious content was found on this site was on 2015-03-25. ... Malicious software includes 169 trojan(s), 126 virus, 43 backdoor(s). 
  27. ^ Internet Archive Frequently Asked Questions. [2020-06-11]. (原始内容存档于2009-02-21). 
  28. ^ Internet Archive Frequently Asked Questions. 2014-12-18 [2020-06-11]. (原始内容存档于2014年12月18日). 
  29. ^ Can the manipulation of big data change the way the world thinks? [操纵巨量资料能改变世界的思维方式吗?]. The National. 2017-01-05 [2020-06-07]. (原始内容存档于2017-01-12) (英语). 
  30. ^ Crockett, Zachary. Inside Wayback Machine, the internet's time capsule. The Hustle. 2018-09-28 [2020-06-07]. (原始内容存档于2018-10-02) (英语). 
  31. ^ Heffernan, Virginia. Things Break and Decay on the Internet—That's a Good Thing. WIRED. 2018-09-18 [October 26, 2018]. (原始内容存档于2018-09-25) (英语). 
  32. ^ Archive.org Site Info. Alexa Internet. [2020-06-11]. (原始内容存档于2013年10月28日). 
  33. ^ Archive.org Site Overview. Alexa Internet. [2020-06-11]. (原始内容存档于2015-04-09). 
  34. ^ Archive.org Traffic, Demographics and Competitors - Alexa. 2019-03-23 [2020-06-11]. (原始内容存档于2019-03-23). 
  35. ^ michelle. Wayback Machine Hits 400,000,000,000!. Internet Archive. May 9, 2014 [2020-06-11]. (原始内容存档于2014-08-26). 
  36. ^ Internet Archive Wayback Machine. 网际网路档案馆. [2020-06-01]. (原始内容存档于2015-02-13). 
  37. ^ Some sites are not available because of Robots.txt or other exclusions. What does that mean?. 网站时光机. [2020-06-13]. (原始内容存档于2011-04-15) (英语). ......All of this information is contained in a file called robots.txt. While robots.txt has been adopted as the universal standard for robot exclusion, compliance with robots.txt is strictly voluntary...... Alexa, the company that crawls the web for the Internet Archive, does respect robots.txt instructions, and even does so retroactively. If a web site owner ever decides he/she prefers not to have a web crawler visiting his / her files and sets up robots.txt on the site, the Alexa crawlers will stop visiting those files and mark all files previously gathered as unavailable......sometimes a web site owner will contact us directly and ask us to stop crawling or archiving a site. We comply with these requests. 
  38. ^ Cox, Joseph. The Wayback Machine Is Deleting Evidence of Malware Sold to Stalkers. 2018-05-22 [2020-06-13]. (原始内容存档于2018年5月22日). 
  39. ^ Robots.txt meant for search engines don't work well for web archives. Internet Archive. 2017-04-17 [2020-06-13]. (原始内容存档于2018-12-04) (英语). 
  40. ^ Recommendations for Managing Removal Requests And Preserving Archival Integrity. 加利福尼亚大学. 2002-12-14 [2020-06-13]. (原始内容存档于2017-09-18) (英语). 
  41. ^ Retroactive robots.txt removal of past crawls AKA Oakland Archive Policy. 网际网路档案馆. 2014-07-07 [2020-06-13]. (原始内容存档于2017年10月10日) (英语). 
  42. ^ Mark Graham. Robots.txt meant for search engines don't work well for web archives [用于搜寻引擎的robots.txt不适用于网路存档]. Internet Archive Blogs. 2017-04-17 [2020-06-18]. (原始内容存档于2017-04-17) (英语). 
  43. ^ Archivierung des Internets: Internet Archive ignoriert künftig robots.txt [网际网路档案馆:网际网路存档馆将忽略robots.txt档案]. heise online. [2020-06-18]. (原始内容存档于2017-04-27) (德语). 
  44. ^ Suchmaschinen: Internet Archive will künftig Robots.txt-Einträge ignorieren. Golem.de. [2020-06-18]. (原始内容存档于2017-06-19) (德语). 
  45. ^ Internet Archive will ignore robots.txt files to keep historical record accurate [网际网路档案馆将忽略robots.txt档案以保持历史档案的准确性]. Digital Trends. April 24, 2017 [2020-06-18]. (原始内容存档于2017-05-16) (英语). 
  46. ^ Sampath Kumar, B.T.; Prithviraj, K.R. Bringing life to dead: Role of Wayback Machine in retrieving vanished URLs. Journal of Information Science. 2014-11-21, 41 (1): 71–81. ISSN 0165-5515. doi:10.1177/0165551514552752 (英语). 
  47. ^ 47.0 47.1 Nelson, Steven. Wayback Machine Won't Censor Archive for Taste, Director Says After Olympics Article Scrubbed. US News. 2016-08-17 [2020-06-20]. (原始内容存档于2017-01-06). The Wayback Machine's unique search function frequently is used as a tool for journalists to review now-dead websites or to comb through dated news reports. The archived content has been used to embarrass politicians and expose battlefield lies. 
  48. ^ Lepore, Jill. What the Web Said Yesterday. The New Yorker. 2015-01-19 [2020-06-20]. (原始内容存档于2015-01-25). 
  49. ^ The March for Science began with this person's 'throwaway line' on Reddit [为科学游行始于此人在Reddit上「一带而过的话」]. Washington Post. [2017-04-23]. (原始内容存档于2017-04-23) (英语). 
  50. ^ Are scientists going to march on Washington? [科学家要去华盛顿游行吗?]. The Washington Post. 2017-01-24 [2020-06-20]. (原始内容存档于2017-01-31) (英语). 
  51. ^ Foley, Katherine Ellen. The global March for Science started with a single Reddit thread. Quartz. [2020-06-20]. (原始内容存档于2017-04-24) (英语). 
  52. ^ Internet Archive Frequently Asked Questions. 网际网路档案馆. 2014-04-02 [2020-06-25]. (原始内容存档于2014-04-02). 
  53. ^ 53.0 53.1 Using The Wayback Machine. help.archive.org. 网际网路档案馆. [2020-06-25]. (原始内容存档于2020-07-06). 
  54. ^ 54.0 54.1 Bates, Mary Ellen. The Wayback Machine. Online. 2002, 26: 80 –透过EBSCOhost. 
  55. ^ 55.0 55.1 55.2 Lloyd, Howard. Order to Disable Robots.txt (PDF). American-Justice.org. 2009-10-15 [2020-06-26]. (原始内容 (PDF)存档于2019-08-08). 
  56. ^ Cortes, Antonio L. Motion Opposing Removal of Robots.txt. American-Justice.org. 2009-09-29 [2020-06-26]. (原始内容存档于2011-05-13). 

参阅

  • 网际网路档案馆存档列表
  • 公共领域音乐
  • 网页存档
  • 数位图书馆

外部连结

镜像网站

实用程式