易见源科技

技术文章
解决方案 编程技巧 开发经验

Python抓取段子的爬虫

发布于：2015-05-24 15:59 作者：admin 阅读(3085)

1.需求

按下回车键，显示一个段子，要求显示段子的作者、点赞数、评论数、顶等信息。

2.段子网站

地址：http://www.qiushibaike.com/hot/page/1，更换后面的数字可以获取不同页的段子，每页有10多条段子吧，因此爬虫从读取该网页并解析就好了。

3.实现方式

这里使用的Python库都是系统自带的，所以不需要安装额外的第三方库，使用的库主要是urllib2--用于获取网页内容，re-正则表达式解析获取网页信息。

其中urllib2需要注意设置header和以request的方式请求网页，而最主要的则是re正则表达式的写法了，这个见仁见智，我正则表达式不是很熟，也就能写个能用的，所以……质量不能保证哈。

获取的每个段子的内容基本都是这样子的：

[html] view plain copy print ?

<div class="article block untagged mb15" id='qiushi_tag_106723566'>
<div class="author">
<a href="/users/14932928">
<img src="http://pic.qiushibaike.com/system/avtnew/1493/14932928/medium/20141225021149.jpg" alt="王小婕" />
a>
<a href="/users/14932928">王小婕 a>
div>
<div class="content">
家里的哈士奇，训练捡东西一直没学会，直到有一天，兜里钱掉了，他丫叼着不撒口，从此学会捡钱了，有一天他和一个硬币较上劲了，叼不起来，丫的硬是用舌头舔回家……
div>
<div class="stats">
<span class="stats-vote"><i class="number">16479i> 好笑span>
<span class="stats-comments">
<span class="dash"> · span>
<a href="/article/106723566?list=hot&s=4774673" id="c-106723566" class="qiushi_comments" title="120条评论" target="_blank" onclick="_hmt.push(['_trackEvent', 'post', 'click', 'signlePost'])">
<i class="number">120i> 回复
a>
span>
div>
<div id="qiushi_counts_106723566" class="stats-buttons bar clearfix">
<ul class="clearfix">
<li id="vote-up-106723566" class="up">
<a href="javascript:voting(106723566,1)" class="voting" data-article="106723566" id="up-106723566" title="16904个顶">
<i class="iconfont" data-icon-actived="

		
			
			
				   王小婕  
			

			
				家里的哈士奇，训练捡东西一直没学会，直到有一天，兜里钱掉了，他丫叼着不撒口，从此学会捡钱了，有一天他和一个硬币较上劲了，叼不起来，丫的硬是用舌头舔回家……

			

			
				16479 好笑   ·   120 回复   
			

			
				
				
					
					
						 
										
											
												[python] view plaincopyprint? 
											
										
										
											
												#author 作者   
												

													strRe = '(.*?)'   
													

														#content and datetime 内容和时间   
														

															strRe += '.*?(.*?)
		
		
		        

        
    

    



	

	
	



    
        
            易见源官网|
            关于我们|
            联系我们
                                                                        
             核心服务|
            诚聘英才|
            问题反馈
        
        
        
           
            地址：湘潭市九华经济开发区百合御都2栋1单元201室  电话：0731-58389610
            合作机构：百度  阿里巴巴  腾讯  
            
商务流程快捷简易，业务过程透明可见，每个环节追本溯源，每个细节精益求精，努力提升客户信任度！
             

             
               Copyright © 2014-2022 湖南易见源科技有限公司  
    

    湘ICP备15001032号-3
            
             
             

             
             南部资源

网站首页

核心服务

客户案例

新闻资讯

技术文章

关于我们

联系我们

1.需求

2.段子网站

3.实现方式

南部资源