微信小程序「法语记忆:学背单词动词变位」V3.3.1 更新:更新了词库

小程序主页法语记忆 学背单词动词变位

/uploads/2019/12/2019-12-24-01_23_07-conj-helper-v3-3-0.jpg

v3.3.1 更新内容

这次更新的主要内容是以下两点:

  1. 更新了法语背单词词库,现已完全覆盖所有词书内单词
  2. 调整了法语背单词入口页,增加了单词列表
/uploads/2019/12/2019-12-24-01_23_07-conj-helper-v3-3-0.jpg

更新法语背单词词库

之前使用了《a Frequency Dictionary of French》总结出来的 5000 词(下方简称“5000 词频”),但是这些单词有一小部分没有收录到拉鲁斯法汉在线词典中,所以就会导致一部分单词在用户使用时查询不到释义等情况。在之前的版本中,使用了“跳过”的办法,让用户先跳过这类单词。因为有几方面原因:

  1. 单词在原有词库本来就有,但是由于少了或者多了一个“s”或者“de”就会被认为不是同一个单词,导致查询失败。例如,“félicitation”和”félicitations”这两个词,在查阅了词典后发现,这个词在词典都是以复数形式作为原型的,所以这个单词在 5000 词频中的版本加上了一个 s。
  2. 单词在 5000 词频中有,但是在拉鲁斯法汉在线词典中没有。在通常情况下,拉鲁斯法汉在线词典中的词条收录是会比法法词典少很多,所以这次的更新大幅度增加了在小程序词库中没有的词。
  3. 删除了 5000 词频中的一些语气词,即使这些词在词库中有。

那些被增减的词

5000 词频中主要调整的词汇有以上这些,第一个数组内包含这次在 5000 词频中删去的单词,第二条数组内包含了在 5000 词频中增加的单词。这些词的筛选主要靠了 Python,词库中新增的单词有 317 个,具体如下(下方很长,直接跳过吧):

筛选的过程

完整代码下载,请点击这里,搜索文件名为20200129-compare_words_between_2_excels.py的文件。

如何快速上手 pandas?这里可以参考一个叫做“10 minutes to pandas”(10 分钟上手 pandas),这里的链接可以直达页面,在这个页面可以快速上手 pandas 库的使用方法。如果想查看某个函数的使用方法,可以直接 ctrl+F 进行查找。

思路也很简单:首先读取两个 excel 中的内容(即单词)并提取有用的部分,然后比较两个列表的差,最后写入一个新的 excel 文件。

爬取新增单词释义

完整代码下载,请点击这里,搜索文件名为20200129-larousse_web_crawler.py的文件。

然后是和上一节同样的步骤,即读取 excel 内的单词列表,这里不再赘述。下方的代码就是简单地从https://www.larousse.fr/dictionnaires/francais/中获取单词的释义和例句。在填充下方的代码之前需要先观察网页的链接结构以及想要爬取的页面元素。比如,这里我们需要爬取bonjour的释义和例句:那么经过观察之后发现,通过链接https://www.larousse.fr/dictionnaires/francais/bonjour即能找到该词。

for循环内首先进行了链接的字符串组合,伪装成浏览器去访问这个链接,然后用 beautifulsoup 去分析这个链接。

beautifulsoup 怎么用?这里有一篇文章可以参考:使用 Python3 和 BeautifulSoup4 处理本地 html 文件;此外,还能参考官方的中文文档,也写得非常清楚,用 ctrl+F 查询自己想要的内容。

这里使用了soup.find_all("标签",class_="属性")这里 p 为标签,class 为属性(但是千万不要忘了 class 后面有一个下划线)。怎么查看想要爬取内容的标签和属性?这里以 chrome 为例,在想要爬取的内容上点击鼠标右键,选择检查,如下图所示:

/uploads/2020/01/conj_helper_3_3_1_01.jpg
  1. 这里是单词的释义,找到右侧对应的标签和属性。
  2. 这里是 1 所对应的标签和属性位置,那么用definition = soup.find_all("li",class_="DivisionDefinition")去读取所有的内容,并存入definition,之后再根据实际情况使用.get_text()或者.string()进行文字的提取。
  3. 这里是单词的例句,找到右侧对应的标签和属性。
  4. 这里是 3 所对应的标签和属性位置,那么用exemple = soup.find_all("span",class_="ExempleDefinition")去读取所有的内容,并存入exemple,之后再根据实际情况使用.get_text()或者.string()进行文字的提取。

然后将所有的爬取结果慢慢使用.append()累加,最后一次性像上一节那样写进 excel 表格内。

这里并非完整代码。完整代码下载,请点击这里,搜索文件名为20200129-larousse_web_crawler.py的文件。

简化界面

这个版本将原来背单词入口的界面变得更加简洁,并将原来的“今日新词”挪到了“单词列表”内。在单词列表内,依次有“新词”、“待复习”、“已学习”三个切换标签,点击单词可以进行跳转到“单词详情”。在背单词页面中,将原来按钮上的 emoji 表情改成了更为直观的文字形式。具体如下图:

/uploads/2020/01/conj_helper_3_3_1_02.jpg

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注