1. 程式人生 > >通過呼叫Twitter API抓取Twitter資料

通過呼叫Twitter API抓取Twitter資料

國內研究weibo的人比較多,資料也相對較多,但是twitter的資料相對較少。今天簡單說一下twitter api的使用。最近一小需求,採集含有指定關鍵詞的twitter資料,瞬間想到寫個爬蟲來抓取,後來突然想到twitter應該有open api可用。使用了vpn翻牆之後簡單的瞭解了twitter.com,決定直接使用 twitter api。由於twitter的open api現在也是基於oauth協議的,因此使用流程和國內一些社群比如說人人網,weibo的api的過程類似。

要想使用twitter api,首先要有twitter的賬號,並且在twitter deveoper中建立應用,地址:

https://apps.twitter.com/app/new

上邊怎麼填就不說了,建立成功之後可以獲得應用的資訊。建立成功之後你會獲得Consumer key和Consumer secret。將這兩個資料儲存下來。如下圖:


為了方便用java操作,這裡我們使用開源的twitter4j,最新版本為:twitter4j-4.0.2。(https://github.com/twitter/twitter4j)Twitter4J也就對Twitter 的API進行了java封裝,這樣的話我們就可以很方便的使用java才操作 twitter api。twitter4j-4.0.2.zip之後,我們可以看到說明文件和例項程式碼,當然也包括原始碼。糟糕的是我覺得說明文件寫的並不詳細,建議直接看示例程式碼和原始碼就好。

首先我們建立一個java專案(當然你也可以建立web應用)並匯入相關jar,然後在專案路徑下建立twitter4j.properties檔案,裡邊填寫剛才儲存下的Consumer Key和Consumer Secret。

專案結構:


twitter4j.properties

oauth.consumerSecret=gLpOB2rbyVTVc6DgmL***HQJzTpqTDMU5nOlrfs2ksI7muWZmQ
oauth.accessToken=2926555458-DwB2WcX8eF***hxRLkRZ6xIkCNHVNwj43e5CBWb

然後和所有基於oauth協議的開發api一樣,我們需要獲取授權資訊。程式碼如下:

import java.awt.Desktop;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Properties;

import twitter4j.Twitter;
import twitter4j.TwitterException;
import twitter4j.TwitterFactory;
import twitter4j.auth.AccessToken;
import twitter4j.auth.RequestToken;
/**
 * @ClassName: GetAccessToken
 * @Description:獲取授權資訊
 * @author God
 * @date 2014-12-12 上午11:19:53
 *
 */
public class GetAccessToken {
    public static void main(String[] args) {
    	String cPath="D:\\A_WorkSpace\\workspace14_CareerPredict\\twitter\\src\\twitter4j.properties";
        File file = new File(cPath);
        Properties prop = new Properties();
        InputStream is = null;
        OutputStream os = null;
        try {
            if (file.exists()) {
                is = new FileInputStream(file);
                prop.load(is);
            }
            if (args.length < 2) {
                if (null == prop.getProperty("oauth.consumerKey")
                        && null == prop.getProperty("oauth.consumerSecret")) {
                    
                    System.out.println(
                            "Usage: java twitter4j.examples.oauth.GetAccessToken [consumer key] [consumer secret]");
                    System.exit(-1);
                }
            } else {
                prop.setProperty("oauth.consumerKey", args[0]);
                prop.setProperty("oauth.consumerSecret", args[1]);
                os = new FileOutputStream("twitter4j.properties");
                prop.store(os, "twitter4j.properties");
            }
        } catch (IOException ioe) {
            ioe.printStackTrace();
            System.exit(-1);
        } finally {
            if (is != null) {
                try {
                    is.close();
                } catch (IOException ignore) {
                }
            }
            if (os != null) {
                try {
                    os.close();
                } catch (IOException ignore) {
                }
            }
        }
        try {
            Twitter twitter = new TwitterFactory().getInstance();
            RequestToken requestToken = twitter.getOAuthRequestToken();
            System.out.println("Got access token.");
            System.out.println("Request token: " + requestToken.getToken());
            System.out.println("Request token secret: " + requestToken.getTokenSecret());
            AccessToken accessToken = null;

            BufferedReader br = new BufferedReader(new InputStreamReader(System.in));
            while (null == accessToken) {
                System.out.println("Open the following URL and grant access to your account:");
                System.out.println(requestToken.getAuthorizationURL());
                try {
                	 //呼叫瀏覽器訪問Twiiter的授權頁面,帳號登入成功也就是授權成功後將會跳轉回到申請的APP中的Redirect_URI地址,並攜帶了request_token  
                    Desktop.getDesktop().browse(new URI(requestToken.getAuthorizationURL()));
                } catch (UnsupportedOperationException ignore) {
                } catch (IOException ignore) {
                } catch (URISyntaxException e) {
                    throw new AssertionError(e);
                }
              //輸入瀏覽器跳轉時攜帶的code引數(應該將Redirect_URI設定成本系統中的一個Servlet的地址,並且下面的程式碼放到Servlet中來處理授權資訊)  
                System.out.print("Enter the PIN(if available) and hit enter after you granted access.[PIN]:");
                String pin = br.readLine();
                try {
                    if (pin.length() > 0) {
                        accessToken = twitter.getOAuthAccessToken(requestToken, pin);
                    } else {
                        accessToken = twitter.getOAuthAccessToken(requestToken);
                    }
                } catch (TwitterException te) {
                    if (401 == te.getStatusCode()) {
                        System.out.println("Unable to get the access token.");
                    } else {
                        te.printStackTrace();
                    }
                }
            }
            System.out.println("Got access token.");
            System.out.println("Access token: " + accessToken.getToken());
            System.out.println("Access token secret: " + accessToken.getTokenSecret());

            try {
                prop.setProperty("oauth.accessToken", accessToken.getToken());
                prop.setProperty("oauth.accessTokenSecret", accessToken.getTokenSecret());
                os = new FileOutputStream(file);
                prop.store(os, "twitter4j.properties");
                os.close();
            } catch (IOException ioe) {
                ioe.printStackTrace();
                System.exit(-1);
            } finally {
                if (os != null) {
                    try {
                        os.close();
                    } catch (IOException ignore) {
                    }
                }
            }
            System.out.println("Successfully stored access token to " + file.getAbsolutePath() + ".");
            System.exit(0);
        } catch (TwitterException te) {
            te.printStackTrace();
            System.out.println("Failed to get accessToken: " + te.getMessage());
            System.exit(-1);
        } catch (IOException ioe) {
            ioe.printStackTrace();
            System.out.println("Failed to read the system input.");
            System.exit(-1);
        }
    }
}
這裡我們解釋一下”輸入PIN“這裡到底是輸入什麼?很簡單就是你在授權頁面登陸成功之後,瀏覽器跳轉時攜帶的code引數,如下圖所示:



執行完上面的程式碼之後,我們的授權資訊會被寫入到twitter4j.properties檔案中:

#twitter4j.properties
#Fri Dec 12 11:50:52 CST 2014
<pre name="code" class="html" style="color: rgb(54, 46, 43); font-size: 14px; line-height: 26px;">oauth.consumerSecret=gLpOB2rbyVTVc6DgmL***HQJzTpqTDMU5nOlrfs2ksI7muWZmQ
oauth.accessToken=2926555458-DwB2WcX8eF***hxRLkRZ6xIkCNHVNwj43e5CBWb
oauth.accessTokenSecret=vJsyhLZF3hKLFPUNJINMBI64UgCh***xzJz8p6oxZcS3Ioauth.consumerKey=***7E1l6GHWuMFTwcZ0tIGZhP 下面我們通過呼叫api來獲取包含指定關鍵詞的twitter。(你可以參考例項程式碼SearchTweets.java)本人程式碼如下:
import java.util.ArrayList;
import java.util.List;

import twitter4j.Query;
import twitter4j.Query.ResultType;
import twitter4j.QueryResult;
import twitter4j.Status;
import twitter4j.Twitter;
import twitter4j.TwitterException;
import twitter4j.TwitterFactory;

import com.twiter.info.domain.TwitterInfo;
import com.twiter.info.search.Search;
import com.twiter.info.utils.DateUtil;
import com.twiter.info.utils.ParserUtil;


public class SearchOnGetImpl implements Search{
	private Twitter twitter = new TwitterFactory().getInstance();
	private QueryResult result;
	
	public SearchOnGetImpl() {
	}

	@Override
	public <T> List<T> search(String key) {
		return search(key, 1000, null, null);
	}

	@Override
	public <T> List<T> search(String key, int count, String sinceDate) {
		return search(key, count, sinceDate, null);
	}

	@Override
	public <T> List<T> search(String key, int count, String sinceDate,
			String endDate) {
		List<TwitterInfo> infos=new ArrayList<>();
	
		Query query=new Query();
        try {
        	query.setResultType(ResultType.mixed);
        	query.setQuery(key);        	
            query.setCount(100);//設定每次獲取數量
            if(sinceDate!=null){
            	query.setSince(sinceDate);
            }
           if(endDate!=null){
        	   query.until(endDate);
           }
            do {
                result = twitter.search(query);
                List<Status> tweets = result.getTweets();
                String num = result.getQuery();
                int level = result.getAccessLevel();
                infos.addAll(res2TwitterInfos(tweets));
                if(infos.size()>=count)break;
            } while ((query = result.nextQuery()) != null);
        } catch (TwitterException te) {
            te.printStackTrace();
        }
       
		return (List<T>) infos;
	}
	/**
	 * @Title: res2TwitterInfos
	 * @Description: 轉換為目標實體類
	 * @param tweets
	 * @return List<TwitterInfo>
	 */
	public List<TwitterInfo> res2TwitterInfos(List<Status> tweets){
		TwitterInfo info=null;
		List<TwitterInfo> infos=new ArrayList<TwitterInfo>();
		for (Status tweet : tweets) {
			 info=new TwitterInfo();
			info.setId(String.valueOf(tweet.getId()));
			info.setContent(ParserUtil.E2C(tweet.getText()));
			info.setDate(DateUtil.date2StandardFormat(tweet.getCreatedAt()));
			info.setClient(ParserUtil.clean(tweet.getSource()));
            infos.add(info);
		}
		return infos;
		
	}

	@Override
	public <T> List<T> search(String key, int count) {
		
		return this.search(key, count, null, null);
	}
	
	public static void main(String[] args) {
		new SearchOnGetImpl().search("fe",5000);
	}
}


ok,到現在為止我們便可獲取包含fe關鍵詞的twitter資料。但是要注意,這種方式只能獲取一週之內的twitter資料。要想不斷的獲取的話,只能採取另外的方案,通過呼叫Streaming apis不斷的獲取twitter,然後自己再過濾。可以參考PrintSampleStream.java例項程式碼。

demo下載地址:http://download.csdn.net/detail/dd864140130/9451385