文本文件

文字档案
Text-txt.svg
副档名 .txt
网路媒体型式 text/plain
类型代码 TEXT
统一类型标识 public.plain-text
UTI结构 public.text
格式类型 档案档案格式视讯档格式

文字档案(text file,textfile,flatfile)一般指只有字元原生编码构成的二进位电脑档案,与富文字相比,其不包含字样样式的控制元素,能够被最简单的文字编辑器直接读取。

资料储存

由于结构简单,文字档案被广泛用于记录资讯,它能够避免其它档案格式遇到的一些问题。此外,当文字档案中的部分资讯出现错误时,往往能够比较容易的从错误中恢复出来,并继续处理其余的内容。文字档案的一个缺点是值较低,也就是说,其实本可以用更小的储存空间记录这些资讯。

格式

ASCII

ASCII标准使得只含有ASCII字元的文字档案可以在UnixMacintoshMicrosoft WindowsDOS和其它作业系统之间自由互动,而其它格式的档案是很难做到这一点的。但是,在这些作业系统中,换行符并不相同,处理非ASCII字元的方式也不一致。

MIME

文字档案在MIME标准中的类型为"text/plain",此外,它通常还附加编码的资讯。在Mac OS X出现前,当资源分叉(resource fork)指定某一个档案的类型为「TEXT」时,Mac OS就认为这个档案是文字档案。在Windows中,当一个档案的副档名为「txt」时,系统就认为它是一个文字档案。此外,处于特殊的目的,有些文字档案使用其它的副档名。例如,电脑的原始码也是文字档案,它们的字尾是用来指明它的程式语言的。

.txt

.txt是包含极少格式资讯的文字档案的副档名。.txt格式并没有明确的定义,它通常是指那些能够被系统终端或者简单的文字编辑器接受的格式。任何能读取文字的程式都能读取带有.txt副档名的档案,因此,通常认为这种档案是通用的、跨平台的。

在英文文字档案中,ASCII字元集是最为常见的格式,而且在许多场合,它也是预设的格式。对于带重音符号的和其它的非ASCII字元,必须选择一种字元编码。在很多系统中,字元编码是由电脑的区域设定决定的。常见的字元编码包括支援许多欧洲语言的ISO 8859-1

由于许多编码只能表达有限的字元,通常它们只能用于表达几种语言。Unicode制定了一种试图能够表达所有已知语言的标准,Unicode字元集非常大,它囊括了大多数已知的字元集。Unicode有多种字元编码,其中最常见的是UTF-8,这种编码能够向下相容ASCII,相同内容的ASCII文字档案和UTF-8文字档案完全一致。

Windows的.txt档案

微软的MS-DOS和Windows采用了相同的文字档案格式,它们都使用CR和LF两个字元作为换行符,这两个字元对应的ASCII码分别为13和10。通常,最后一行文字并不以换行符(CR-LF标志)结尾,包括记事本在内的很多文字编辑器也不在档案的最后添加换行符。

大多数Windows文字档案使用ANSI、OEM或者Unicode编码。Windows所指的ANSI编码通常是1位元组的ISO-8859编码,不过对于像中文、日文、朝鲜文这样的环境,需要使用2位元组字元集。在过渡至Unicode前,Windows一直用ANSI作为系统预设的编码。而OEM编码,也是通常所说的MS-DOS页码,是IBM为早期IBM个人电脑的文字模式显示系统定义的。在全萤幕的MS-DOS程式中同时使用了图形的和按行绘制的字元。新版本的Windows可以使用UTF-16LE和UTF-8之类的Unicode编码。

展现

用文字编辑器打开一个文字档案后,使用者可以看到可读的纯文字内容。控制字元有时被编辑器当做文字指令,有时被当做像纯文字那样可编辑的跳脱字元。尽管文字档案里面有纯文字资讯,但是通过特殊方法,档案内的控制字元(尤其是档案结束字元)可以让纯文字不可见。

参考

参见

#