由于之前有很多md文件的文章分布在不同的分类目录下（在同一父级目录下），使用docsify作为网站编译解释框架。

docsify用起来很舒服，之前在github.io没有seo方面的需求，后续有了seo的需求后，docsify在seo方面还需要等下一个大版本，实在等不及，只能考虑将批量转换所有md文件，支持hugo的Front Matter、内联md、摘要等属性设置。

写这个python脚本只是为了帮助人，而不是完全做了我们人该做的，本地也没有文章机器学习的能力，有机会考虑使用机器学习实现文章分类、标签、关键字、标题的自动生成，当然最后还是需要人为的完善这些自动生成的信息。

脚本介绍

python中实现一个类，用于处理：

1、scanFiles方法支持：扫描源目录所有md文件，提取文件支持hugo相关的FrontMatter等信息，并在hugo项目的content/post/目录下，按照目录层级创建目录及写入文件文件

2、scanFile方法支持：输入单个md文件路径，提取文件支持hugo相关的FrontMatter等信息，并在hugo项目的content/post/目录下，按照目录层级创建目录及写入文件文件

usage：

1
2
3

& python hugo-md-format.py > mdlog

代码实现

准备：安装jieba、enchant模块（enchant暂时可以不用，用于英文单词判断）

演示日志

这里我们使用处理单个文件scanFile方法进行演示：

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279




PS 9ong> & python hugo-md-format.py


···HugoMarkdown···


输入文章绝对路径，比如I:\src\hugo\9ong\content\post\其他\xxx.md：I:\src\hugo\9ong\content\post\其他\PHP技术精华合集.md





-----开始处理文章： I:\src\hugo\9ong\content\post\其他\PHP技术精华合集.md -----





获取文章信息：





{'filePath': 'I:\\src\\hugo\\9ong\\content\\post\\其他\\PHP技术精华合集.md', 'fileName': 'PHP技术精华合集', 'fileExt': '.md', 'parentDir': '其他', 'grandpaDir': '', 'fileCtime': '2020-05-27 15:48:53', 'fileMtime': '2020-05-27 16:42:34'}





读取文章内容...





Building prefix dict from the default dictionary ...


Loading model from cache C:\Users\jm\AppData\Local\Temp\jieba.cache


Loading model cost 0.710 seconds.


Prefix dict has been built successfully.


分析文章标签/关键词...





com      210


http     209


mp       209


weixin   209


qq       209


s        209


__       209


biz      209


MzIwNjQ5MDk3NA   209


mid      209


idx      209


sn       209


chksm    209


scene    209


21       209


wechat   209


redirect         209


PHP      160


实现     61


php      43


微信     23


方法     21


功能     20


—        19


技术     17


支付     15


学习     13


互联网   12


语言     11


开发     11


文件     10


代码     10


数据     9


中       9


篇       9


##       8


网站     8


程序     8


登录     8


实例     8


详解     8


问题     8


使用     8


操作     7


处理     7


技巧     7


程序员   7


四年     7


精华     7


合集     7


保留关键词： ['PHP']





准备文章meta信息：





---


title: "PHP技术精华合集"


isCJKLanguage: true


date: 2020-05-27 15:48:53


categories:


- 其他


tags:


- PHP


keywords:


- PHP


---





 





发现 <! -- /TOC -- >





插入< !--more-- >...





写入新文件： I:\src\hugo\9ong\content\post\其他\PHP技术精华合集.md





----- 完成文章处理： I:\src\hugo\9ong\content\post\其他\PHP技术精华合集.md  -----

效果

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75




---


title: "PHP技术精华合集"


isCJKLanguage: true


date: 2020-05-27 15:48:53


categories: 


- 其他


tags: 


- PHP


keywords: 


- PHP


---





< !-- TOC -- >





- [PHP](#php)


- [**一线资讯**](#一线资讯)


- [**微信技术**](#微信技术)


- [**电子商务技术**](#电子商务技术)


- [**时间操作**](#时间操作)


- [**基本实战**](#基本实战)


- [**浅谈PHP**](#浅谈php)


- [**求职就业**](#求职就业)





< !-- /TOC -- >


< !--more-- >

由于TOC 与more 标签会被markdown解析，这里都在前后加了个空格，防止解析

Python批量格式化hugo文章

内容目录

目录

脚本介绍

代码实现

演示日志

效果

脚本介绍

代码实现

演示日志

效果