企業負面信息采集和分級系統設計與實現《網站規劃與設計》期末論文

《網站規劃與設計》期末論文

校外學習中心:湖南交通工程學院?學號:20161202011009x姓名?:xxx??成績

?

?

?

企業負面信息采集和分級系統設計與實現

 

摘?要

輿情監控對于企業來說是一個永恒的命題。伴隨著傳統互聯網的高度發展以及移動互聯網的興起,傳統紙媒已經不再是主流媒體。新型的互聯網媒體成為輿論的主流。在紙媒時代,輿情傳播速度慢,傳播源頭少,負面信息對企業造成的損害往往有限。而面對如今眾多的互聯網媒體,負面信息可以從任何時間產生,然后在一天甚至數小時內大范圍傳播,造成的損失難以估量。由此可見,企業輿情監控無疑遭到了全新的挑戰。如果可以快速高效準確的把握負面的網絡輿情,對于企業的生存和發展將是重大利好。為了解決這一問題,本畢業設計實現了一個企業負面信息采集與分級系統。系統的核心功能是網絡爬蟲和文本情感傾向分析。用戶可以通過用瀏覽器訪問服務器地址來使用此系統。系統采用B/S架構,用PHP語言編寫。在web系統構建方面,前端使用Bootstrap框架構建,后端使用Laravel構建。分詞和情感傾向分析則使用了百度提供的api。在項目管理上,本畢業設計通過GIT進行版本控制,通過快速原型和多次迭代推動項目流程,所編寫的文檔覆蓋項目的整個生命周期。

關鍵詞:Laravel;爬蟲;情感傾向分析;web系統;軟件工程;

 

目??錄

摘?要 I

Abstract II

目??錄 III

1??引言 1

1.1??背景 1

1.2??現狀 1

1.3??目的 2

1.4??范圍 2

1.5??主要內容 2

2??技術路線 3

2.1??網絡爬蟲 3

2.2??Laravel框架 3

2.3??DomCrawler組件 3

2.4??文本向量 4

2.5??TF/IDF權值 4

3??需求分析 5

3.1??功能性需求 5

3.1.1??用例模型 5

3.1.2??功能模型 7

3.1.3??數據模型 11

3.2??非功能性需求 13

3.2.1??易用性 13

3.2.2??通用性 14

3.2.3??可維護性 14

3.2.4??性能 14

3.2.5??時效 14

4??詳細設計 15

4.1??系統業務流程 15

4.2??系統結構設計 18

4.3.1??系統結構圖 18

4.3.2??數據訪問 19

4.3.3??身份認證 19

4.3.4??負面信息展示 20

4.3.5??負面信息管理 20

4.3.6??負詞庫管理 21

4.3.7??爬蟲管理 21

5??系統實現 23

5.1??搭建腳手架 23

5.2??路由規劃 24

5.3??模型的創建與實現 25

5.4??控制器的創建與實現 25

5.4.1??NegativeInfoController的設計 25

5.4.2??NegativeWordController的設計 27

5.4.3??SpiderController的設計 28

5.4.4??HomeController的設計 32

5.5??視圖的實現 33

5.5.1??HomeController下的視圖 33

5.5.2??NegativeInfoController下的視圖 36

5.5.3??NegativeWordController下的視圖 39

5.5.4??SpiderController下的視圖 39

6??系統測試 42

6.1??黑盒測試 42

6.2??缺陷統計 42

6.3??測試結論和建議 43

參考文獻 45

?

1??引言

1.1??背景

在互聯網時代,信息的傳播快速而廣泛。許多機構和個人可以輕易的發布、傳播信息。而負面信息在網絡的泛濫給企業帶來的傷害對比起傳統媒體來說有過之而無不及。企業負面信息主要會有以下三個方面的負面影響:

1.危害企業形象;

2.引發客戶的不信任甚至恐慌;

3.影響企業內部穩定。

在這樣的背景下,企業負面信息采集和分級系統具有重要意義。它可以幫助企業對網絡負面信息進行防范、預測、控制和處理,可以幫助企業決定采取何種策略和措施,把握網絡負面信息的轉化機會,盡可能的減少網絡負面信息影響損失,以保證企業安全運行,維護企業持續經營。

1.2??現狀

市面上現在已經存在一些對企業負面信息進行采集和監控的方法?,F行的方法主要如下:

1.通過人工進行周期性的線上搜索,對負面信息進行收集和階段性處理;

2.通過爬蟲對特定網站進行信息收集,之后通過人工審核判斷信息內容;

3.使用商業輿情監控系統,進行自動化信息收集和信息分級。

對于上述方法1,所使用的人力成本高昂,信息收集和處理效率低下,信息時效滯后,但準確度最高。對于上述方法2,人力成本得到了有效的控制,信息收集效率也得到了提高,信息處理準確度有一定保障,但存在處理效率較低和信息時效滯后的問題。對于上述方法3,人力成本幾乎可以忽略不計,信息收集和處理效率高,時效性強,可以做到接近實時監控,但信息準確度依賴于信息處理模型的好壞。

1.3??目的

本設計的主要目的是實現一個自動化的負面信息采集和分級系統,系統能針對給定的目標企業,從互聯網抓取(基于搜索引擎方式)其負面信息,然后根據負面信息嚴重程度進行簡單分級。

系統采用B/S架構,為用戶提供真正平臺無關的高可用服務。對于收集到的數據,系統在服務器進行持久化,提高用戶查詢速度,方便用戶查看歷史信息。系統提供的負面信息分級功能,幫助用戶快速過濾無效或低權值信息。系統還提供了一系列的管理功能,讓用戶對信息的處理能力不僅僅停留在查看上,最終幫助用戶進行輿情監控,輿情分析和輿情處理。

1.4??范圍

以下為本說明書的預期讀者:

項目管理人員、項目產品經理、軟件開發工程師、軟件測試工程師、系統運維工程師、系統使用者。

1.5??主要內容

本系統主要包括瀏覽器端和服務器端兩個部分。瀏覽器端是用戶使用的部分,是信息展示的載體,同時負責為用戶提供各種功能的入口。服務器端負責處理用戶請求,處理文本數據,與數據庫進行交互以及為瀏覽器端提供數據。

系統按功能劃分可以分為五個子系統:

  1. 負面信息展示系統;
  2. 用戶認證系統;
  3. 爬蟲系統;
  4. 負面信息管理系統;
  5. 負詞庫管理系統;

本說明書將以此為基礎,對系統進行分析和設計。

?

2??技術路線

此項目基于B/S架構,采用了經典的MVC模式。項目中除了使用了常規的PHP、MySQL、Apache等技術,還使用到了網絡爬蟲、Laravel框架、DomCrawler組件以及NLP等流行的技術。

2.1??網絡爬蟲

網絡爬蟲是一種自動化的程序,它最基本的功能是按照一定規則,對網絡上的信息進行捕獲。爬蟲技術的出現,主要是伴隨著互聯網的迅猛發展。大量的信息產生在萬維網上,如何有效捕獲信息成為了一個需要解決的問題。而網絡爬蟲技術隨著通用搜索引擎的出現和發展,逐漸形成體系成為一種新技術。之后,網絡爬蟲在不同的垂直領域,面對不同的業務環境,發展成不同的方向,比如,提高信息獲取速率的高并發多代理爬蟲,針對反爬蟲策略的反反爬蟲爬蟲,通過特定樣本訓練的人工智能爬蟲等等。爬蟲技術的本質是數據獲取,經常同數據處理技術結合起來面對業務需求。

2.2??Laravel框架

Laravel框架是目前最流行的PHP框架。Laravel的設計基于MVC構建,簡潔優雅而富有表現力。MVC是一種分層設計的思想,目的在于分離業務邏輯、數據和展示。這樣可以在改進其中一層的時候,不需要對其他部分進行修改,同時也可以實現只更新數據就改變展示效果。本項目使用的Laravel5.5版本,支持Composer包管理,日志遵循PHP-FIG,提供了項目的低耦合,高可維護,統一異常處理等特性。

2.3??DomCrawler組件

DomCrawler是Symfony開發的HTML和XML文檔操作組件。組件支持通過Composer自動加載。DomCrawler組件簡化了文檔的DOM導航。它讀取一個HTML/XML文本,并建立文檔樹。DomCrawler在內部實現了一個XPath解析器,所以它支持通過XPath訪問文檔樹的節點,高效準確而優雅。DomCrawler支持直接通過請求獲取頁面并轉化為DomCrawler對象,方便開發者快速開始自己的爬蟲應用。

2.4??文本向量

文本向量是一種文本表示模型,這種模型是為了讓計算機可以更好的識別文本。對于原始文本,許多文本挖掘或者文本分類算法無法直接處理,所以要對文本進行相應的處理,其中一種方法就是把文本向量化?;谠~典的文本向量化,首先需要確定一個向量空間。把詞典中的每個詞作為向量空間的一個維度,則對于基于N個詞的文本,可以表示為N維向量空間中的一個向量。

2.5??TF/IDF權值

對于文本向量,每一個維度需要有對應的值來表示。TF/IDF就是一種文本向量權值的計算思想。TF表示詞文本頻率,它表示對于一段文本,某個詞的權重應該伴隨它出現在文本中的頻率上升而上升,即詞權重與詞文本頻率正相關。IDF表示詞文件頻率,它描述了詞頻的另一種特性,即詞匯在全部樣本文件中出現的頻率越高,它在單個文件中的權重應該越低,故IDF也叫反詞頻。TF/IDF體現的思想是:如果一個詞在文件中反復出現,那么它應該是被強調的,應該被更加重視;但是這個詞如果在整個主題中都有很高的頻率,那么說明這個詞匯是普遍的,對于單獨的文本可能并沒有特殊意義??傊琓F/IDF為文本向量化提供了一種考慮相關性的計算思想。

更多
  • 該日志由 于2020年06月03日發表在 未分類 分類下, 你可以發表評論,并在保留原文地址 及作者的情況下引用到你的網站或博客。
  • 本文鏈接: 企業負面信息采集和分級系統設計與實現《網站規劃與設計》期末論文 | 幫助信息-動天數據
  • 版權所有: 幫助信息-動天數據-轉載請標明出處
  • 【上一篇】 【下一篇】

    0 Comments.