使用Python3和BeautifulSoup4处理本地html文件

遇到的问题

在制作第三个微信小程序“法语背单词记忆小助手”时,我需要处理大量单词有关的数据,为了一劳永逸解决单词释义、单词例句等种种方面的问题,我打算提取 mdx 词典数据,将词典里面所有单词的数据做成数据表,并上传至云开发。这样的话,另一个小程序“法语动词变位记忆小助手”也能共享成果。

作为一个懒人,肯定不会手动去处理这么多数据(提取 mdx 之后有 60 万行数据,去除对我来说没用的动词变位数据,还有 15 万行,共计 12000 余个单词)。所以打算使用 Python 和 Beautiful Soup(以下可能简称 BS)进行数据处理。引用官方文档的说法:Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。它能够通过你喜欢的转换器实现惯用的文档导航、查找,修改文档的方式。Beautiful Soup 会帮你节省数小时甚至数天的工作时间。

/uploads/2019/08/2019080501pybs.jpg

初始需要处理的文本

初始文本如下,下面仅选取两个单词的详情页作为示例:

搜索和替换的一些常用正则表达式

在最原始的文档中,有非常多无用 的标签,需要将这些标签删除。如果这些标签是定值,那么直接就能用普通的搜索替换就行批量替换;但若是标签中有有规律变动的 id 或者是标签之间的文字有所变动时,就需要使用正则表达式进行查找。在使用过程中,最常用的表达式总结一些就是这样的:

举例如下:<span class="Traduction_py">之间有不规则的文字内容,但是我需要将所有<span class=&#8221;Traduction_py"></span Traduction_py>和标签之间文字一起替换掉,例如下方的第一行。<span class="Locution2" id="12">标签中存在 id 号,但是我需要将所有的类似标签(不同 id)全部替换掉,例如下方的第二行:

Python3 中使用 beautifulsoup4

beautifulsoup4 是什么?

引用官方文档的说法:Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。它能够通过你喜欢的转换器实现惯用的文档导航、查找,修改文档的方式。Beautiful Soup 会帮你节省数小时甚至数天的工作时间。

安装 beautifulsoup4

从这部分开始就需要使用到 Python 了,至于如何方便快捷地 0 基础使用上 Python?这里可能会单独放一篇文章介绍,先立一个 flag。用简洁地话来说,需要配备一下几点:

  1. 先下载一个Anaconda(搜索即可,傻瓜安装)
  2. 装完之后搜索所安装的软件里有:Anaconda Prompt。打开。
  3. 输入下面代码即可安装完成 beautifulsoup4
  1. 搜索所安装的软件:Anaconda Navigator,选择 Spyder,把本文的代码修改一下贴上即可运行。

开始使用 beautifulsoup4

首先我们需要打开 html 文件,告诉程序你的文件存在什么地方。在 path 中需要将你的文件路径修改成自己的。html 文件怎么来?参照“初始需要处理的文本”,将代码保存在 Notepad++中另存为 html 即可开始实验。接下来两行就是打开 html 文件并且读取其中的内容。

下一步就是调用 Beautifulsoup 解析功能,解析器使用 lxml。并且使用 Python 中的 panda 包来存储目标数据。注意此处 BeautifulSoup 的大小写,不然会报错。

创建一个计数的,然后创建 result,之后的所有的数据都存在这里面,到时候打开 excel 表时就可以看到‘word’、‘word_cixing’等等的列,而数据正是随着这些列进行逐行增加的。

在这里建立一个循环。再初始 html 中我将原来 mdx 中的</>替换成了<zidingyi></zidingyi>。也就是说每一个单词的最外面罩着<zidingyi></zidingyi>,每一个<zidingyi></zidingyi>里面就是该单词的所有内容。

首先用了 find_all()命令,这样就能得到所有的<zidingyi></zidingyi>标签的内容,并用循环遍历。每一次读到的内容存储在 item 里面,再通过 BS 的 CSS 选择器选择了标签为 h1 的内容,这是单词本身。接下来,需要将读到的 list 转化为 string,这个在下节会讲到。

BeautifulSoup 对象表示的是一个文档的全部内容.。大部分时候可以把它当作 Tag 对象,它支持遍历文档树和搜索文档树 中描述的大部分的方法。再使用 get_text(),将所有标签之内的所有内容读出,储存到 new 的“word”字段里面,并且拼接到 result 中,为最后的文档输出做好准备。

这里只举了“word”一个例子,不同的字段对应着不同的样式或者是标签,可以从BS 的官方中文文档中寻找详细信息。

最后大功告成,将所有的数据保存到 excel 表格中。(具体路径和 excel 命名可以根据自己的实际需求改写)

/uploads/2019/08/2019080502pybs.jpg

其他的一些小细节

Python3 中将 list 合并转为 string

使用 ''.join,引号内可以加上相应的分隔符

如果 list 是数字类型或者不是 string 类型,那需要在 join 之前转换。

最终的代码(Python3)

参考资料

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注