忽然想到个提取PPT文字的好办法
就是把整个PPT转成html,然后用EDITPLUS打开所有页面
页面一般是slide0001.htm这样的命名格式
然后正则替换一些东西
<[^>]*>
空格
把前面不要的样式部分手工去掉
下一篇: 小孩房间的led灯不亮了
就是把整个PPT转成html,然后用EDITPLUS打开所有页面
页面一般是slide0001.htm这样的命名格式
然后正则替换一些东西
<[^>]*>
空格
把前面不要的样式部分手工去掉