时间:2022-12-12 16:12:00
不少朋友想把网络小说转换成txt文本格式,然后放进手机慢慢阅读,但把HTML转换成txt格式的工具真的很少。 编辑给大家找了TextForever。 那是免费的网页HTML批量TXT文本工具,可以将HTML转换为批量TXT格式。
TextForever是一种多功能的txt处理软件,此页面用于将网页的HTML批量转换为txt文本,并将HTML批量转换为txt格式。
但是,文本关注器的功能不是单一的。 TextForever是专门为组织电子版小说而开发的工具,用于将HTML转换为文本文件、文件合并、文件分割、段落合并、段落分割、内码转换、文本替换、HTML组织、文本提取、正则表达式( IE 5.5或更高版本)
软件的本名为FineReader,后来更改为TextForever。
1、HTML整理
2、文件分割
3、文本抽取
4、正则表达式
5、OCR
6、HTML-text
7、合并文件
八、段落合并
9 .段落分隔
10、编码转换
11、文本替换
=========准备工具============工具
文本版本1.79
迅雷(任何版本) )。
文本编辑器(例如EmEditor )
========教程==================。
1、打开网页,进入目录列表,F12或Ctrl U获取所有章节地址,切换到源代码模式。
2、通过将所有章节覆盖到文本编辑器中并替换补充网站,href=后引号,部分隐藏网站,如下所示
将副本7039_1.html替换为http://www.yx 12345.com/PCP dlist/7039 _1. html
全部执行置换就可以了。
3、然后分隔各章的地址,同样可以批量替换。 例如,每次批量替换href=和title=,然后将其保存为CSV格式文件(对于此格式文件,半角逗号是分隔符),并仅在Excel中打开如果章节ID一致,也可以使用迅雷。
4、迅雷批量下载结束后,请运行TextForever工具,按照下图的编号顺序分别进行设置。 当然,具体根据自己的实际情况进行设定。
5、第一步是选择典型的中文HTML (这主要是区分英语的空格换行等),取消选择UTF-8转入ANSI )目前大多数网站都是UTF-8,请不要转入编码。 不这样做的话,反而会乱码。 (在最后一点转换选择文件)然后用迅雷选择刚批量下载的HTML文件,记得全部选中。 这样,将HTML小说转换为TXT格式,使用该软件附带的文件合并功能合并为一个大的TXT文件就可以了。
=========从html文件转换为文本文件( HTML-Text )============HTML文件到文本文件
根据需要设置选项(也可以不选择任何内容就接受默认值),单击“转换”,选择“选择文件”按钮,然后在显示的对话框中选择要转换的文件(按住Ctrl键或Shift键) 或者,单击“转换”选择文件夹按钮,在显示的对话框中选择起始文件夹,然后单击“确定”或“确定”按钮即可。
如果单击“转换文件夹选择”按钮并选中“包括子文件夹”选项,则在转换过程中会自动转换所有子目录中的htm、html和shtml文件。 否则,只会转换选定目录下的文件。
如果转换的内容不正确,则真正的内容可能是在JavaScript中动态生成的。 也可以稍后使用IE内核开始转换并再试一次。 此选项相当于将其另存为IE文本文件,对于通过缺省选项不知道的网页,可以使用此选项进行尝试。 与在IE中打开网页不同,即使网页有错误,如果此处没有显示错误对话框并请求调试网页,则会直接跳过。 无论如何,错误对文本的获取影响不大。
对于用UTF-8编码的HTML文件,此类文件似乎越来越多。 情况有点复杂。
如果未选择使用IE内核,则转换结果取决于UTF-8转换ANSI选项。 如果选择此选项,则结果将是ANSI编码文本文件,而不是UTF-8编码文本文件。
如果选择使用IE内核,转换结果将始终是ANSI编码的文本文件。
如果要在简体中文Windows上转换简体UTF-8编码的HTML文件,或者在繁体中文Windows上转换繁体UTF-8编码的HTML文件,则默认情况下转换的ANSI编码文件没有问题但是,当使用简体中文Windows转换使用繁体UTF-8编码的HTML文件时,或者当使用繁体中文Windows转换使用简体UTF-8编码的HTML文件时,直接转换为ANSI通常会导致乱码
============文件合并( Merge Files )===============文件合并
在典型的网站上刊登电子版小说时,每章都会登载文件,所以将HTML文件转换为TXT文件后,需要将许多按章节顺序转换的TXT文件合并为一个文件。
使用方法:按照界面中显示的1、2、3、4、5的顺序,选择要合并的文件,选择合并的文件,根据需要设置选项,然后单击“开始合并”按钮即可开始合并
如果在第一步中选择合并文件而不是合并文件夹,则可以指定按中文数字对文件进行排序。 这是特别为了处理27章. txt、31章. txt等文件名而设定的。
============段落合并=paragraph===============段落合并
将HTML转换为TXT文件后,由于取消了HTML中的段落控件,传输的文件可能会变得零散,需要重新合并和分段。
使用方法:按照界面中显示的1、2、3的顺序,首先设置源文件的段落开始标志选项,然后设置输出文件的段落控制选项,最后选择源文件。 如果要处理单个文件,请在“选择源文件”框中,单击.按钮选择源文件,然后单击“开始合并”按钮开始合并。 要处理多个文件,请单击直接合并多个文件中的段落.按钮,然后在出现的对话框中选择要处理的所有文件。 按住Ctrl键或Shift键并单击文件可以选择多个文件。
选项说明:
源文件的段落开始标志框指定在输入文件中满足哪些条件作为段落的分段条件。 这样的条件有四个
以两个或指定数量的中文空格开头。
以四个或指定数量的英语空格开头。
前一行的长度比平均行长短1/20。 一般来说,这个条件用于出现OCR,没有整理的文件。
============段落分隔符( Reparagraph )================段落分隔符
在某些情况下,您可能需要使用段落合并功能合并和组织原文中的段落,然后根据指定的行宽对段落进行换行符,以避免在没有自动包围功能的浏览器中显示水平滚动条。
段落结合功能和段落分割功能是相互相反的过程,如果对分割结果不满意,可以结合再分割。
使用方法:按照界面中1、2、3的顺序,设置输出段落选项,然后设置源文件是否保留备份,最后选择源文件。 如果要处理单个文件,请在“选择源文件”( select source file )对话框中单击. ( . )按钮以选择源文件,然后单击“如果之前合并了文件,此处将自动输入合并后的文件名,以进行选择单击,然后单击“开始拆分”按钮开始拆分。 处理多个文件时,直接单击多个文件中的段落进行分隔.按钮,在弹出的对话框中选择要处理的所有文件。 按住Ctrl键或Shift键并单击文件可以选择多个文件。
在分割结果为行尾的最后的字节是一半的汉字的情况下,该汉字被分配到下一行,能够防止乱码; 分割的结果是,在行末可以将一个英语单词分割成一半后,将整个单词分为下一行。 如果行尾是英语空格、标点符号,根据习惯,即使这些字符超过了最大行长,也不会分成下一行。
选项说明:
最大行长项说明分行行长,以英文字母为单位。 请注意,一个中文字符等于两个英文字符。 值的范围为10到32767。
在段落开头添加选项,设置换行后段落的开头字符。 可以是两个中文字符、四个英语字符或空白字符。
在段落后添加空行选项指示是否需要在段落后添加空行。
===========编码转换( GB/GBK/Big5)==================编码转换
此功能可实现GB、GBK、Big5、Unicode代码的相互转换,以及从日语Shift JIS到中文GB 2312、UTF-8到Unicode的单向转换。 为了省事,转码进程使用了Windows自身提供的标准API接口。 由于转码需要使用Unicode作为中间代码,因此该功能在Unicode支持非常有限的Windows 95/98/me上不可用。 仅在支持GBK/Big5/Shift JIS代码页的2000/XP中可用。 通常,如果IE能够正常显示中文简体、中文繁体、日语网页,就可以正常转换。
使用方法:首先设置文件选项、转码选项,然后单击“转换”选择文件按钮。 在出现的对话框中选择要转换的文件,然后按住Ctrl键或Shift键并单击该文件,可以选择多个文件。 然后单击“打开”或“打开”按钮。 或者,单击“转换”选择文件夹按钮,在显示的对话框中选择起始文件夹,然后单击“确定”或“确定”按钮即可。
如果单击“转换文件夹选择”按钮并提前选择了“包括子文件夹”选项,则转换过程中将自动转换所有子目录中的txt文件。 否则,只会转换选定目录下的文件。
转码后发生固定错字时,可以通过文本置换功能进行修正。
文件选项说明:
复盖原始文件:转换的文件将复盖转换前的文件。
将原始文件另存为bak文件:转换后的文件不会复盖转换前的文件。 转换完成后,原始文件名后面会加上后缀. bak。
可选说明:左侧是原始文档的汉字代码,右侧是转换后的汉字代码。
GB码:按国家标准GB2312-80组织,包括所有简体字和常见符号。 在中文简体版的Windows中显示为简体,在繁体版的Windows中显示为乱码。
GBK码:是国家技术监督局于1995年为中文Windows 95制定的新的汉字内码规范。 其中GB表示国标,k表示扩展。 本规范在词汇层面支持ISO10646和GB13000的所有中日韩( CJK )汉字,并与国家标准GB2312-80信息处理交换代码兼容。 如果在简体中文版的Windows 95/98/2000中看到繁体中文和繁体的混合,此时大多数中文都是用GBK编码的。
Big5码:关于港台地区常见的汉字编码、繁体字。 该编码后的汉字在中文简体版的Windows 95/98/2000中多显示为乱码,但在繁体字版的Windows中正常显示。
Unicode代码: Windows 2000/XP中的字符编码用统一的代码表示世界各地的字符。 在Windows 95/98/Me上显示时,可能会显示许多问号。
Shift JIS :日语代码的一种。
UTF-8代码: Unicode代码的实现。
=========文本替换( Replace )============文本替换( Replace )===============文本替换)
批量文本替换指定的文件,例如从HTML文件中删除广告链接、js/css代码或从TXT文件中取消特定的固定文本。
在设计该功能时,主要根据我平时整理文件的经验,参考了32 v10.10a、居辰工作室的Text Witch v1.0、风林的文本整理器v2.0等优点。 此外,为了加快速度,将整个文件读入内存,然后替换为内存。 因此,虽然在处理某些大型文件时可能会出现问题,但处理一般数MB的文件应该没有问题。
使用方法:设置替换选项,然后输入替换内容即可开始替换。
替换选项说明:
一致词:对中文没用,不要要点。
忽略大小写:对中文没有用,不需要要点。
从Unix格式转换为Windows格式: Unix格式的文本文件使用换行符n,Windows格式的文本文件使用换行符rn。 通常,此选项也不需要点。
每次在选项中选择选项时,正确的处理时间都会增加,而选择忽略大小写选项也会消耗大量内存,因此请尽量不要选择不需要的选项。
输入替换内容的方法。 可以单击“添加文本或添加字符”按钮添加内容,也可以单击“调用”按钮调用以前保存的内容。 每个内容可以包含多行,并且一次可以替换多个内容。 特别适用于批量组织从web下载的HTML文件。 如果需要组织从同一网站下载的页面,请输入所有替换内容,然后单击“保存”按钮将其保存到磁盘,然后在组织该网站的页面时,单击“转入”按钮加载替换内容。
替换选项说明:
如果只想替换某个文件或几个文件,单击指定的文件按钮将其选中,然后在出现的对话框中选择文件即可。 您可以按住Ctrl键或Shift键并单击文件,一次选择多个文件。
如果需要替换某个目录下的文件,请在文件框中选择或输入文件选择条件,然后单击文件夹框右侧的按钮选择文件夹,再单击替换指定目录下的文件按钮如果选择了“包括子文件夹”选项,则子目录下的文件也会被替换。
============HTML整理( Tidy HTML )============HTML整理
该功能主要用于整理从网站大量下载的HTML文件,包括其中的广告链接解除、不正确的CSS设置和功能限制(禁止选择、禁止复制、禁止右键单击菜单)等,在部分HTML加密软件中对于制作电子书的人来说,也可以在打包之前用于检测HTML页面是否包含指向本地磁盘的绝对链接。
使用方法:
首先,选择要组织的HTML文件所在的文件夹。
根据需要选择发现选项,然后单击发现按钮开始扫描文件。
扫描结果出来后,请按每个项目双击打开看看。 不合适的东西可以编辑或删除。 完成后,单击“替换表中的所有项”按钮替换HTML文件。 如果觉得双击打开很麻烦,也可以导出为HTML文件进行查看,但请务必查看。 不这样做的话就有可能发生悲剧。
注:如果在步骤3中开始替换,则会替换原始的HTML文件。 请保留好文件的备份,以免后悔。
选项包括:
包括子文件夹:选择此选项可将选定目录下的所有子文件夹包含在扫描中。
从Unix格式转换为Windows格式: Unix格式的文本文件使用换行符n,Windows格式的文本文件使用换行符rn。 通常,此选项也不需要点。
解密网页:解密加密的HTML文件并检测解密结果。 对于未加密的网页,如果选中此选项,则不仅检测速度会变慢,而且组织的web代码看起来像重新排序了版本,因此默认情况下未选中此选项。
检测绝对链接:检测网页中是否包含绝对链接。 检测时不包含anchor链接。 理论上,所有到打包电子书的链接都必须是相对链接,不能是绝对链接。
检测CSS :检测网页中是否包含样式表。 您可以替换或清除不喜欢的样式表。
脚本检测:检测网页中是否包含脚本。 平时广告链接都在脚本里。
检查功能限制:检查网页是否包含功能限制。 包括禁止选择、禁止复制、禁止右击菜单等。
选择解密网页、检测绝对链接、检测CSS、检测脚本和检测功能限制等选项时请小心。 如果选择“全部”,则不仅检测速度会变慢,而且一次可能会列出许多检测结果,因此根据需要,您应该一次只检测一个或多个项目。 请勿选择不需要的选项。
============文件分割( Split Files )===============文件分割)
可以根据指定的大小分割文本文件,不需要剪切一半的汉字造成的乱码,也不需要将一个英语单词分割为两个文件。
根据手机的不同,jar文件的大小也有限制,所以在制作jar电子书之前需要剪切文本文件,然后包装成jar书。
使用方法:
首先设置文件选项,然后设置文件的最大长度。 然后,点击开始按钮,在弹出的对话框中选择想要分割的文件就可以了。 每次分割文件时,[ prod 137 ]都会在与选定文件相同的目录下创建子目录,并保存分割的文件。
============文本提取( Extractor )=============文本提取
从文本中提取或删除指定的内容。 其实,这个功能完全可以通过正则表达式的置换来实现,但是考虑到正则表达式并不是人人都知道的,所以我们自己创造了这样的大众化功能。
使用方法:
选择是提取起点到终点之间的内容,还是删除。
指定输出时是否输出起点、终点的内容,例如起点字符串、终点字符串。
设定起点。
设定终点。
设置提取完成后如何处理原始TXT文件。
如有必要,请单击要开始提取的框中的按钮。
提取开始选项说明:
如果只提取某个文件或几个文件,则选择指定的文件,单击提取按钮,然后在显示的对话框中选择文件即可。 您可以按住Ctrl键或Shift键并单击文件,一次选择多个文件。
如果需要提取某个目录下的文件,请在文件框中选择或输入文件选择条件,然后单击文件夹框右侧的按钮选择文件夹,再单击“提取指定目录下的文件”按钮即可。 如果选择了包含子文件夹选项,则还会提取子目录下的文件。
============正则表达式=regexp=============正则表达式
应用正则表达式实现批量文本检索、文本替换和文件分割功能。 合理使用这些功能时,可以替换本软件的以下全部或部分功能。 Html-Text、段落合并、段落分隔符、文本替换、HTML组织、文件分隔符和文本提取。 当然,前提是能写出正确的公式,否则建议隐藏此页面。
注:如果选择“搜索”,则在搜索之前,文件将在Windows资源管理器中按文件名排序,以便于匹配搜索结果。
支持正则表达式的软件通常基于一个成熟的正则表达式引擎实现,但当前可用的引擎有很多,从开放源代码到封装。 我试了一下,结果发现一些开源引擎有点不好用。 特别是在处理多字节字符et ( mbcs )时,不巧的是中文是典型的mbcs。 另一方面,微软在JScript/VBScript上提供的正则表达式引擎,不仅界面简单易用,而且也不说对MBCS的支持,所以成为我的首选。 此引擎目前有两个版本:版本1.0和版本5.5。 1.0版受IE 5支持,5.5版受IE 5.5支持。 经我测试,5.5版至少在以下几个方面比1.0版强。
1、支持非贪婪模式,但1.0版中所有匹配都是贪婪。
2、支持多线选项。 这影响了^,$,很常见。
所以我没有任何犹豫,直接选择了5.5版。 当然有两个限制:
1、TextForever正则表达式功能仅在安装了IE 5.5或更高版本的计算机上可用。 但是现在IE 6应该已经配置好了吧?
2、由于JScript/VBScript的内部都是基于UNICODE,所以用公式计算字数时,不是像一般的ANSI环境那样计算1个字、数字1个字、1个字2个字,而是用1个中文计算1个字。 编码转换使用当前的系统默认代码页。
有关微软正则表达式引擎5.5版的详细说明,请参阅JScript/VBScript相关文档。 本文的附录b部分提供了一个语法表,摘自微软出版的《VBScipt 用户指南》电子版。 这基本上是供会写正则表达式的人参考的,用它来学习正则表达式的写法可能会有点困难。 如果你真的想学,我建议你老老实实找本书翻。 这个正则表达式引擎比我使用的EditPlus v2.10c、32 10.10a复杂而强大,包括后向引用等。
使用方法:
1、添加正则表达式。 添加时,请测试表达式的效果。 如果表达式不正确,在这里给出提示。 输入表达式后,可以上移、下移、删除、修改、保存或根据需要调用以重用。
2 .选择要操作的文件所在的文件夹和要操作的文件。 如果选择了“包括子文件夹”选项,则操作将包含选定文件夹及其下所有子目录中的文件。 否则,只会处理选定目录中的文件。
3 .根据需要选择搜索、替换或拆分文件操作。 为了保险起见,建议在进行替换和切分之前,先在搜索功能上查一遍,确认正则表达式的匹配结果是否符合想象,以免失足而永远怨恨。
输入正则表达式时,有三个选项可用:
全局搜索:指示搜索正则表达式匹配时,是搜索文件中的所有匹配项,还是仅搜索第一个匹配项。 默认情况下,将搜索所有匹配项。
忽略大小写( Ignore Case ) :确定搜索正则表达式匹配时是否忽略大小写。 这对于中文没有用,所以默认情况下没有被选择。
如果选择了多行文本( Multiline ),则此时(与每行的开始位置一致)与每行的结束位置一致。 如果未选定,此时^与文件的开始位置相匹配,$与文件的结束位置相匹配。 默认设置为打开。
===========ocr=================ocr==========
将单色TIFF文件批量OCR为文本文件后,结果文件可以单独存储,也可以合并为一个大文本文件。 使用本功能前请阅读《用Pdg2Pic、TextForever实现批量OCR》、《在简体中文Office 2003下OCR繁体中文、日文、韩文》。
使用方法:首先选择需要OCR的文件夹,然后选择结果文件,根据需要设置OCR选项。 通常不需要更改默认设置。 开始OCR就可以了。
OCR选项说明:
1、自动旋转:如果页面出现扭曲,此功能可以修正扭曲。
2、自动拉伸:页面长宽比不平衡或倾斜时,可通过此功能进行修改。
3、OCR语言:选择OCR语言。 您现在可以选择英语、中文简体字、中文繁体字和日语。
自动旋转和自动拉伸需要很长时间,而且大多数PDG文件不需要修改,因此缺省情况下未选择这些选项。 如果页面变形严重,可以选择它,然后重新进行OCR。
=========TCR===================TCR===TCR=======
将文本文件批量压缩为tcr文件,或将tcr文件批量解压缩为文本文件。 您可以选择在压缩时是否过滤空白字符和段落标记,以节省存储和显示空间。 这个功能是用来制作用手机和PDA看的电子书的,如果只打算用电脑看书的话,应该不会使用这个功能。
使用方法:
TXT文件压缩:设置压缩文件选项,然后单击“开始压缩”按钮,在显示的对话框中选择要压缩的文件即可。 压缩的文件位于与选定文件相同的目录中,如果存在同名的文件,则会自动复盖。
TCR文件解压:点击开始解压按钮,在弹出的对话框中选择要解压的文件(可以选择多个)即可。 解压缩的文件位于与选定文件相同的目录中,如果存在同名的文件,将自动被复盖。
解压缩后,TextForever.htm文件将使用教程。