国产99久久精品_欧美日本韩国一区二区_激情小说综合网_欧美一级二级视频_午夜av电影_日本久久精品视频

最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
當前位置: 首頁 - 科技 - 知識百科 - 正文

Ubuntu12.04+Nutch2.2.1+MySQL配置筆記

來源:懂視網 責編:小采 時間:2020-11-09 15:42:23
文檔

Ubuntu12.04+Nutch2.2.1+MySQL配置筆記

Ubuntu12.04+Nutch2.2.1+MySQL配置筆記:日期:2013/10/13 系統 :Ubuntu12.04LTS JDK :1.7.0_21 Nutch :2.2.1 MySQL :5.5.32 -----------------------------------------------------------------------------------------------------
推薦度:
導讀Ubuntu12.04+Nutch2.2.1+MySQL配置筆記:日期:2013/10/13 系統 :Ubuntu12.04LTS JDK :1.7.0_21 Nutch :2.2.1 MySQL :5.5.32 -----------------------------------------------------------------------------------------------------

日期:2013/10/13 系統 :Ubuntu12.04LTS JDK :1.7.0_21 Nutch :2.2.1 MySQL :5.5.32 ------------------------------------------------------------------------------------------------------------------------------------------------------------


日期:2013/10/13

系統:Ubuntu12.04LTS

JDK:1.7.0_21

Nutch:2.2.1

MySQL:5.5.32

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Pre1:安裝配置OracleJDK

Pre2:安裝配置MySQL sudo apt-get install mysql-server,mysql-client

Pre3:安裝配置Apache Ant sudo apt-get install ant

Start:Ubuntu下搭建Nutch2.2.1,并以MySQL作為數據庫,UTF-8為默認編碼綜合配置


Step1:MySQL配置

首先編輯 /etc/mysql/my.cnf 文件在[mysqld]下面添加以下內容:

innodb_file_format=barracuda
innodb_file_per_table=true
innodb_large_prefix=true
character-set-server=utf8
collation-server=utf8mb4_unicode_ci
max_allowed_packet=500M

然后創建數據庫與數據表:

CREATE DATABASE nutch DEFAULT CHARACTER SET utf8mb4 DEFAULT COLLATE utf8;
CREATE TABLE `webpage` (
`id` varchar(767) NOT NULL,
`headers` blob,
`text` mediumtext DEFAULT NULL,
`status` int(11) DEFAULT NULL,
`markers` blob,
`parseStatus` blob,
`modifiedTime` bigint(20) DEFAULT NULL,
`score` float DEFAULT NULL,
`typ` varchar(32) CHARACTER SET latin1 DEFAULT NULL,
`batchId` varchar(32) CHARACTER SET latin1 DEFAULT NULL, 
`baseUrl` varchar(767) DEFAULT NULL,
`content` longblob,
`title` varchar(2048) DEFAULT NULL,
`reprUrl` varchar(767) DEFAULT NULL,
`fetchInterval` int(11) DEFAULT NULL,
`prevFetchTime` bigint(20) DEFAULT NULL,
`inlinks` mediumblob,
`prevSignature` blob,
`outlinks` mediumblob,
`fetchTime` bigint(20) DEFAULT NULL,
`retriesSinceFetch` int(11) DEFAULT NULL,
`protocolStatus` blob,
`signature` blob,
`metadata` blob,
PRIMARY KEY (`id`)
) ENGINE=InnoDB
ROW_FORMAT=COMPRESSED
DEFAULT CHARSET=utf8;
注:表中的字段根據nutch的conf文件“gora-sql-mapping”進行設置。同時也可通過自動方式生成數據庫和表:配置好“gora-sql-mapping”、“gora.properties”及其它文件后,首次通過運行”bin/nutchinject urls”即可自動生成數據庫和表,不過或許在自動生成的時候你會遇到問題,不過沒有關系,通過及時查看hadoop.log文件你便會發現很多問題(如下圖之一)與MySQL支持的數據類型、數據長度有關,只需要根據日志提示做修改、調試(可借助navicat工具像SQLServer方便操作數據庫),然后再重復自動生成過程,直到成功為止。


Step2:Nutch配置

獲取Nutch2.2.1,從官網http://www.apache.org/dyn/closer.cgi/nutch/下載,然后解壓至本地安裝目錄,如本地根目錄為${APACHE_NUTCH_HOME}

配置nutch對mysql的支持,修改${APACHE_NUTCH_HOME}/ivy/ivy.xml文件

將以下行的注釋取消:

default”/>

修改以下行:

為:

Step3:數據庫連接配置

編輯${APACHE_NUTCH_HOME}/conf/gora.properties文件,注釋掉默認的數據庫連接配置,同時添加以下配置內容:

###############################
# MySQL configure #
###############################
gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver
gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true
gora.sqlstore.jdbc.user=xxxx(MySQL用戶名)
gora.sqlstore.jdbc.password=xxxx(MySQL密碼)

Step4:數據表映射配置

修改${APACHE_NUTCH_HOME}/conf/gora.properties文件,這里的修改建議按照前面介紹的自動生成數據表的方法進行修改,網上說的要將primarykey的長度從512修改成767,即:

改: 為:

Step5:nutch-site.xml配置

添加以下配置:


	http.agent.name
	Your Nutch Spider


	http.accept.language
	zh-cn, en-us,en-gb,en;q=0.7,*;q=0.3
	*


	parser.character.encoding.default
	utf-8
	*


	storage.data.store.class
	org.apache.gora.sql.store.SqlStore
	*

特別需要注意,本人在配置過程中也遇到了:
java.lang.NullPointerException 
at org.apache.avro.util.Utf8.(Utf8.java:37) 
at org.apache.nutch.crawl.GeneratorReducer.setup(GeneratorReducer.java:100) 
at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:174) 
at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:649) 
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418) 
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:398) 
解決辦法就是在上述文件中另外添加一個屬性:


 generate.batch.id

 *

Step6:使用ant 構建Nutch

(關于ant的命令,這里就不說明了),只需要切換到${APACHE_NUTCH_HOME}下執行ant clean 然后ant 即可。構建完畢后會在${APACHE_NUTCH_HOME}目錄下生成runtime 文件夾。

Step:7 網頁抓取,種子配置

創建種子文件

cd${APACHE_NUTCH_HOME}/runtime/local 
mkdir -p urls 
echo 'http://www.sina.com.cn' > urls/seed.txt
echo 'http://www.ifeng.com' > urls/seed.txt
執行爬取操作
bin/nutchcrawl urls -depth 5 -topN 10

至此,已經完成了基本的配置。

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

文檔

Ubuntu12.04+Nutch2.2.1+MySQL配置筆記

Ubuntu12.04+Nutch2.2.1+MySQL配置筆記:日期:2013/10/13 系統 :Ubuntu12.04LTS JDK :1.7.0_21 Nutch :2.2.1 MySQL :5.5.32 -----------------------------------------------------------------------------------------------------
推薦度:
標簽: 筆記 ubuntu mysql
  • 熱門焦點

最新推薦

猜你喜歡

熱門推薦

專題
Top
主站蜘蛛池模板: 亚洲清纯自偷自拍另类专区 | 综合 欧美 国产 视频二区 | 国产99精品视频 | 国产手机视频在线观看 | 亚洲天堂欧美 | 日本久久香蕉一本一道 | 欧美成a人片在线观看 | 天堂va欧美ⅴa亚洲va一国产 | 欧美日本激情 | 欧美极品一区 | 国产精品一区二区久久不卡 | 亚洲欧美日本在线观看 | 欧美无极品| 欧美专区第一页 | 美日韩在线视频 | 视频二区 素人 欧美 日韩 | 国产欧美曰韩一区二区三区 | 久久大陆 | 美女露胸动态无遮挡 | 特一级大黄在线观看 | 91亚洲国产成人久久精品网站 | 久久精品国产亚洲精品2020 | 91精品国产99久久 | 国内自拍视频网站 | 欧美亚洲精品在线 | 日韩欧美不卡一区二区三区 | 亚洲欧美日韩在线观看播放 | 精品亚洲一区二区三区 | 免费观看a黄一级视频 | a免费国产一级特黄aa大 | 欧美成人猛男性色生活 | 欧美精品在线看 | 久久精品国产亚洲精品2020 | 亚洲欧美日韩高清一区二区一 | 欧美视频精品 | 国产日韩欧美高清 | 一区二区免费播放 | 日韩电影免费在线观看中文字幕 | 亚洲色图欧美激情 | 精品一区二区三区五区六区七区 | 自拍偷自拍亚洲精品被多人伦好爽 |