【短链接生成器】基于短网址APl接口的数据挖掘

以短网址为对象,mrw提供的短网址API接口,以及如何成为授权用户和信息提取及处理的方法。利用API接口可以高效迅捷地获取信息,但很多服务商并不完全开放API接口,而且对单位时间内的访问次数也有限制,因此对于所需的关键信息如果无法通过API得到时,需要结合其他方法获取。
 
 
短网址是近几年发展起来的一个在线工具平台,通过该工具平台可以接收或发送链接信息。用户可以通过关注感兴趣的人,接收关注人的链接信息,也可以在计算机或移动通信终端发送自己感兴趣的链接信息,其简单快捷的操作方式和发布信息的随时随地性,使这种形式的信息传播成为互联网的一大亮点,是Web2,0时代下产生的一种新型链接网络。
 
  一、短网址的研究现状
 
短网址的用户群基数巨大,信息传播迅速,而且短网址平台上有大量的媒体和商家用户,这些用户之间的关系和信息的传播方式。对商品的推介和舆情的监控有重要意义,因此基于短网址数据的分析和研究已成为一个非常有价值的研究方向。国外多以Twitter为对象来研究短网址。Teutte等人分析了Twitter的网络动态性,通过对出度和入度的增长和网络使用密度等的分析,研究其对网络变化的影响。研究了Spam信息的传播方式,并通过挖掘对短网址信息的内容进行了分析。近年来国内对短网址的研究也越来越多,从用户是否活跃,链接是否被转载和点击浏览设计了新的跟踪指标,并把该指标作为链接算法的因子提出来不同的核心用户发现算法廉捷等提出了采用短网址API来取得新浪微博数据的方法,并与传统的网络爬虫技术相比较,二者结合可以高效完整地获取短网址的链接数据。
 
近几年国内对短网址的研究越来越深入,从定性研究逐渐进人定量分析,对数据的需求也就越来越多,但多数链接并无明确说明信息的提取方式,使得进行短网址研究的第一项工作“信息获取”模糊不清因此980着重研究短网址信息的获取方式。大多数信息挖掘以短网址数据为研究对象。

码人网mrw.so缩短网址文章图片
 
二、mrw短网址提供的API接口
 
短网址开放在线工具平台提供了链接数据的接口,利用这些API接口,用户可以方便地获取需要的链接信息,或在平台中传播信息。
 
获取互联网的数据一般是通过网络爬虫实现的。但网络爬虫对计算机的配置和网速有较高的要求,运行效率较低而980短网址开放API接口可以更加简洁地获取相应的数据,为程序高效获取数据提供保障。因此研究使用API接口获取链接信息的方法及限制。
 
mrw短网址提供的API接口共有22类,几乎涵盖了所有的信息操作方法,同时也对API的调用权限进行了无限制。

短网址api接口:http://mrw.so/api.html
 
接口
 
关系链接口
 
时间线接口
 
LBS接口
 
短链接口
 
热度,趋势
 
标签接口
 
数据更新接口
 
投票接口
 
其他
 
文档更新历史
 
公共错误码说明
 
表情列表下载
 
兴趣图谱接口
 
三、链接信息提取的前提
 
  为了能够使用链接信息平台,获取需要的链接信息,用户需要获得信息平台的资源授权,过程如下:
 
  (1)使用短网址API的资格,无须申请成为开发者用户,只需在开放平台网站上按照简章使用。即可使用链接信息的许可权。
 
  (2)创建应用,使用API,即得到API接口验证序号(AppKey)和API接口密钥(AppSecret),对用户发出的请求进行数字签名。
 
  (3)获取OAUTH认证。所谓认证是指第三方软件不知道用户的用户名和密码,为用户申请获得提供方资源的授权OAUTH认证是获取用户资源授权的一个安全、公开而又简单的标准。当前,短网址对第三方授权采用的是OAUTH2,0协议获取认证就是获取访问令牌(AccessToken),是第三方获得资源授权的凭证,是第三方访问API资源的钥匙。
 
  四、链接信息提取的方法
 
  为方便短网址API的调用。980为用户提供了一个SDK,作为一种新的网络应用,短网址的SDK开发并不完善,使用SDK时可能会出现一些功能性的错误,所以应区别对待。必要时进行代码修改和完善。
 
  目前已开发并发布的SDK包括支持Java、C++等多种语言版本,采用Java语言作为开发工具。例如:在使用短网址API提供的SDK包,抓取的数据在EcliDse下显示是乱码,所以必须对其进行修改。可将SDK中的QHttpClient,java类的http请求方法中的以下部分代码进行修改
 
  byte[]b=newbyte[2048];
 
  GZIPInputStreamgzin=newGZIPInputStreamfresponse,getEntity0,getContent0);
 
  Int length=0;
 
  while((1ength=gzin,read(b))!=一1、
 
  {responseData,append(newString(b,0,length));}
 
  gzin,close0;
 
  修改为:
 
  BufferedReaderbr=newBufferedReader(newInput—
 
  StreamReader(newGZIPInputStream(response,getEntity0,getCon—
 
  tentO),"utf_8lt));
 
  Strings;
 
  while(s=br,readLine0)!=nul1)
 
  {responseData,append(s);}
 
  br,close0;
 
  这样从服务器读来的数据才可使用
 
  由于短网址的API对使用者的请求次数无限定,所以在获取数据时,一方面通过程序访问频率,另一方面在每一次访问中尽可能多地取得系统允许的信息量。程序需要通过线程访问频率。因为如果短时间内。程序运行中较频繁地调用API接口,虽然总的访问次数未超过每小时的1000次,但因为在这段时间内高度频繁地调用,系统会认为用户访问滥用,所以通常每调用100次请求后。程序将暂停几分钟,等下一个时间段再读取。而在每一次信息读取中,采用不同的函数方法效率也会不同例如为了能得到列表中所有的信息,如果使用inf0方法获取信息。每次只能得到一个用户的信息,而用fanslist可以得到30个用户信息。这样就减少了API的调用次数,从而能在相同调用次数下得到更多的用户信息。
 
五、链接信息的处理
 
  通过短网址API可以根据请求返回特定的XML或JSON文件。链接中用户状态与信息,可能包含一些个性化字符格式。这些字符会导致整个XML文档无法被正确解析,因此返回方式采取JSON格式更具稳定性。
 
  JSON数据格式非常简单,文件没有明显的格式信息,用来传输信息简单灵活。对于人来说处理起来不太容易,但由于JSON文件结构简单,因此通过计算机强大的处理能力来分析JSON文件具有很强的优势。另外JSON文件中因为没有属性标签,所以和XML文件对比,同样内容的查询结果,返回的XML文件要比JSON文件更大,因此作为海量微博信息的媒介工具,JSON文件更合适。
 
  基于短网址API接口提取信息效率较高,方便迅捷。