1. 正则表达式基础(2)

    上一节记录了主要的一些元字符集,算是刚刚入了门。这一节主要介绍一些稍微需要动脑筋的东西。 分组捕获与后向引用 分组实际上就是个对括号,用处就是将一个匹配串当成一个整体来看,用于改变匹配的优先级。比如我们要匹配“abcabcabcabc”,就可以这样匹配:(abc){4} 。 在分组的基础上,我们就可以进行后向引用。所谓后向引用,就是将之前匹配到的字符串记录下来,供后来继续用,提高表达式的效率。 具体用法是,系统会给表达式中所有的分组标上序号,从1开始。接下来每当希望用到之前分组的内容时…

    MathJax, Regex阅读全文

  2. 正则表达式基础(1)

    正则表达式这东西真的特别常用,在搜索文本啊,写爬虫什么的都得用到。而且现如今各种语言,都会支持正则表达式。之前也零零碎碎的看过,但是很多细节都记不清,这里姑且把一些知识要点记录下来,供日后查找使用。 通用的正则表达式 由于正则表达式有很多种实现方式,所以各种方式之间有一些区别。但是以下的一些条件,则是在任何语言的正则中都适用的规律: 符号 匹配 ^ 匹配输入字符串开始的位置。 $ 匹配输入字符串结尾的位置。 * 零次或多次匹配前面的字符或子表达式。例如,zo* 匹配…

    MathJax, Regex阅读全文

  3. Beautiful Soup库的基本介绍

    beautiful soup库是python中用来解析html文件的一个工具,他能做到将html文件依据他的标签的特征来取出相应的标签块,比如取出网页的title啊,body啊,或者是某个id对应的东西啊,等等。从而为进一步的加工处理创造条件。从某种程度上讲是替代了正则的作用,但是比正则表达式使用的更加方便。 现在的beautiful soup库已经是第4.2版本了,所以我们通常叫他bs4。bs4作为一个库,其实是有很多的用法的。至于其具体用法,我是参考以下的文档的: http://www.…

    Python阅读全文

  4. Python模块下载工具pip和easy_install

    在写python的时候,经常会用到一些扩展包,作为python新手,经常又不知道去哪里找这些包。而且就算是找到了,下载下来之后还需要进行繁琐的安装、配置等操作。有时候为了进行这些安装还要去安装能够安装这些程序的程序,比如setuptools等。而安装这些东西有可能还会有很多奇奇怪怪的问题,这样严重影响了编程的体验。还好,python有几个类似ubuntu中apt-get一样的东西,相当于一个包管理器,能够十分便捷的帮我们安装到自己需要的模块,这就是pip和easy_install。 pip…

    Python阅读全文

  5. Linux下的图片格式转换工具imagemagick

    在玩Processing的时候,经常需要将大量的png文件作为帧,处理到gif图中。而他自带的插件似乎并没有用,所以就想在网上找个。网上当然有很多这种类型的工具啦,但是基本上都是像gimp这样的类Photoshop软件,虽然功能强大,但是为了这点小事还下一个这么大的软件,而且还不能用命令行。这显然不是Linux的精神。找了半天,终于找到了非常方便就能生成gif的小命令--imagemagick,用法简单而且还可以压缩,可以说是非常好用。 下载 myths@myths-X450LD:~$ s…

    Linux, Tools阅读全文

  6. 基于stdarg.h的可变参数函数的用法

    在开始学习C语言的函数的时候,我们就知道函数的参数个数应该是在函数声明的时候就指定的,这一点我们没有任何疑问。但是不知道大家有没有注意到我们的printf()函数,他的函数参数理论上并不是确定的,而是随着匹配字符串中的格式控制符的个数控制的。其实当时也没有注意到这一点,到是最近,偶然间看到了《嗨翻C语言》这本书,这里就详细讲解了这种可变参数函数的实现原理,今天考试间隙就顺带学习了一下,其实就是一种方法,知道了就晓得了,也是非常的简单。 头文件 这个用法需要引用一些宏,这些宏定义在C标准库“…

    C/C++阅读全文

  7. 解决Hdoj3337问题的简易爬虫

    这是好久前遇到的一道非主流题,当时愣是没弄明白题意。最近闲着没事翻开来看了看,并在网上找到了某大牛写的爬虫,写的真美,顿觉的有必要收藏一下。虽然现在不能完全看懂,但是我想不久的将来,当我想系统的学Python的时候,这肯定是很有用的东西。 Hdoj3337 题目非常短,主要是这句话: There is only one line in the input. It is a sentence which implies some integer. The length of the sente…

    Python, Spider阅读全文

  8. 利用chrome的缓存机制下载视频

    很多情况下,想要下载某奇艺某狐的视频的时候,非得需要登陆啊,会员啊才能下载。甚至有的根本不能下载,让人十分头大。而从我们专业的角度看,网页上的视频既然被你看到了,那么实际上就是被你下载(缓存)下来了,所以他禁止你下载其实就是在忽悠你,登陆网页本身就是下载html以及其媒体的过程。因此,让我们揭穿这些视频网站的谎言,愉快的看视频吧~ Windows下路径 C:/Users/Administrator/AppData/Local/Google/Chrome/User Data/Default/…

    Tools阅读全文

  9. Ubuntu下惠普最新打印机驱动下载

    原版ubuntu 14.04上安装的只支持的打印机版本太老了,新的打印机完全无法支持,之前每次需要打印都需要切换到windows下,甚是麻烦。后来想想,偌大的惠普怎么可能放弃Linux的打印机市场呢?所以最后终于下决心一定要找一个可用的驱动,也是累,终于找到了这个~纪念一下~~ 直接上命令: myths@myths-X450LD:~$ wget http://prdownloads.sourceforge.net/hplip/hplip-3.14.4.run 从 sourceforge 网站上…

    Linux阅读全文

  10. Apache2不支持php5的解析解决方案

    今天想写个php玩玩的结果突然发现我的apache2突然挂掉了,也不晓得怎么回事,于是就用彻底删除的命令apt-get remove --purge apache2 将他卸载然后重装。重装上去之后发现localhost可以打开了,但是php解析不了了。不光自己写的php无法解析,就连打开phpmyadmin也都变成了源码,十分的蛋疼。找了半天才发现原因是我在彻底卸载apache2的时候,--purge 参数把apache2对php5支持的模块也删掉了。。。。。所以,理所应当的死也登不上喽。 以…

    Apache阅读全文