中文字幕在线一区二区在线,久久久精品免费观看国产,无码日日模日日碰夜夜爽,天堂av在线最新版在线,日韩美精品无码一本二本三本,麻豆精品三级国产国语,精品无码AⅤ片,国产区在线观看视频

      新聞事件的文本挖掘

      時間:2024-10-04 11:43:45 MBA畢業(yè)論文 我要投稿
      • 相關推薦

      新聞事件的文本挖掘

        一、引言

        近年來,隨著互連網的飛速發(fā)展和信息傳播手段的不斷進步,造成了大量的文本數據累積,其中很大一部分是短文本數據。這些數據中有很大一部分是只包含50-100個詞的短文本數據,如文章摘要、電子郵件、圖片標題、產品描述等。網頁上的大部分信息都是短文本信息。文本挖掘技術對于從這些海量短文中自動獲取知識、具有重要意義。本文介紹了文本挖掘在新聞文本挖掘中的應用,分析了新聞事件挖掘的研究現狀。

        二、文本挖掘概念

        文本挖掘是采用計算語言學的原理對文本信息進行抽取的研究和實踐文本挖掘可以對文檔集合的內容進行總結、分類、聚類、關聯分析以及趨勢預測等。Web文本挖掘和通常的平面文本挖掘有類似之處,但是文檔中的標記給文檔提供了額外的信息,可以借此提高文本挖掘的性能。

        三、文本挖掘在新聞文本挖掘中的應用

        "新聞的處理,是-種對事實的選擇、安排、解釋等意義化過程",作為文字傳播的一種特殊形態(tài),新聞在語言表達上有著較為明顯的個性特征,如篇章短小精干、表達客觀公正、語言準確簡潔等。新聞專題是指圍繞某一個突發(fā)的新聞事件或某一個廣泛受關注的問題提供詳細、深入的資料。這樣的專題信息目的明確、信息豐富,讓人一日了然地清楚整個新聞事件的前因后果和來龍去脈,能夠較好地滿足讀者的需要。但通常情況下,這些新聞專題都是經過專業(yè)人員加工處理的,即人工歸納到二起。新聞事件挖掘的目的是,是借鑒文本挖掘技術、文本分類和聚類技術,實現對新聞資料的自動組織、生成專題,以滿足網絡用戶檢索新聞信息的需要。專題的生成涉及到新聞事件的探測以及對新聞事件的跟蹤。

        四、新聞事件挖掘的研究現狀

        目前對于新聞事件的挖掘主要包括以下幾類問題:

        (→)主題發(fā)現與跟蹤(TopicDetectionandTracking,TDT)

        主題發(fā)現與跟蹤旨在開發(fā)一系列基于事件的信息組織技術,以實現對新聞媒體信息流中新話題的自動識別以及對己知話題的動態(tài)跟蹤。該研究作為一項1997年開始的公開測評而成為自然語言處理的→項研究熱點。TDT包括五項子任務,即:主題分割、話題跟蹤、新事件發(fā)現和報道關聯發(fā)現。

        主題分割主要采用相同詞語數目和詞語密度的方法,其優(yōu)點在于簡潔性和高效性,不受領域的限制。目前已有TextTiling算法等方法用于主題的分割。采用遺傳算法對TextTiling算法中的參數進行優(yōu)化,使得同→主題內的段落之間的總差異應盡可能地小,而不同主題間的總差異應盡可能地大。也有研究采用遺傳算法來直接尋找主題的最優(yōu)劃分。駱衛(wèi)華提出了基于分治多層聚類的話題發(fā)現算法,其核心思想是把全部數據分割成具有一定相關性的分組,對各個分組分別進行聚類,得到各個分組內部的話題(微類),然后對所有的微類在進行聚類,得到最終的話題。

        (二)熱點趨勢檢測(EmergingTrendDetection,ETD)

        熱點趨勢檢測用來自動識別熱點主題,從而識別主題趨勢的變化。熱點趨勢檢測主要包括三個部分:主題結構的識別,主題出現的檢測和主題特征分析。總結了目前研究的ETD系統和商業(yè)的ETD系統,其使用方法大多數以關鍵詞的詞頻分析為基礎,形成相關主題的發(fā)展趨勢。例如,采用關鍵詞項詞頻分析的方法,尋找芯片封裝領域內的技術發(fā)展規(guī)律。對于這類問題需要優(yōu)化關鍵詞的選擇,看哪一個或者哪一些關鍵詞與該主題上的關系最為密切。也有的研究使用序列模式挖掘來識別短語,生成短語的歷史圖,使用形狀查詢來識別指定趨勢的短語。

        (三)事件預測規(guī)則的發(fā)現

        該問題主要采用文本挖掘技術,同傳統的人工智能方法相結合,對于時序文檔集的關聯規(guī)則的進行挖掘,提供相應事件發(fā)生的預測規(guī)則。

        很多研究根據互聯網上的新聞稿來生成股票價格指數的規(guī)則。Wuthrich使用專家的先驗知識,通過對過去的新聞中出現的關鍵詞組的權重和對應的值產生可能性的規(guī)則,再利用這些規(guī)則對當天的新聞進行股票指數的預測。將關鍵詞組轉換成權重,采用基于規(guī)則、最近鄰和神經網絡的方法。Feldman等人使用多種分布模型對路透社的2萬多篇新聞進行了挖掘,得到主題、國家、組織、人、股票交易之間的相對分布,揭示了一些有趣的趨勢。而Mittermayer則自動對新聞稿進行預處理,將它們分成不同的新聞類型,其每→類都對股票價格升降有特定的影響,從而得到對應的交易指導規(guī)則。

        五、結論

        文本挖掘是挖掘的核心技術,將其文本聚類與分類等技術應用到新聞主題的檢測與跟蹤中,能自動在線檢測內容不斷更新的網絡新聞主題,提高了處理的速度,能及時提取更多有價值的信息給用戶,這是一個具有十分重要意義的課題,這項研究還需要進→步的深入。短文本挖掘技術是文本挖掘中的一個新興的方向,針對于短文本特點的方法有待于人們的進-步研究。

      【新聞事件的文本挖掘】相關文章:

      生物醫(yī)學文本挖掘研究熱點08-01

      基于WEB文本挖掘的統計分析VB+ACCESS08-07

      文本、解讀、詮釋與翻譯08-29

      挖掘員工潛能05-18

      試析漢英旅游文本的翻譯10-05

      抓住文本品析語言10-12

      事件營銷探析09-10

      文本聚類開題報告范文08-06

      超閱讀:數碼時代的文本變革06-26

      文學教學中的文本審美探討10-15

      主站蜘蛛池模板: 肇东市| 国产主播精品一区二区| 国产精品无套粉嫩白浆在线| 丝袜人妻无码中文字幕综合网| 一区二区三区在线视频免费观看| 亚洲国产日韩av一区二区| 国产成人自产拍免费视频| 老熟女一区二区免费| 亚洲区一区二在线视频| 中文字幕亚洲乱亚洲乱妇| 淫欲一区二区中文字幕| av毛片一区二区少妇颜射| 91日本人妻在线口爆吞精| 在线视频一区二区亚洲| 宜阳县| 观塘区| 欧洲乱码伦视频免费| 色综合色综合久久综合频道| 日韩中文字幕三级有码区| 久久国产乱子精品免费女| 亚洲五月七月丁香缴情| 偷拍熟女亚洲另类| 久久熟女乱一区二区三区四区| 国产美女a做受大片免费| 中国免费一级毛片| 国产粉嫩美女一区二区三| 绥滨县| 日韩av一区二区毛片| 精品午夜一区二区三区| 临沂市| 精品理论一区二区三区| 国产精品麻豆A啊在线观看| 久久亚洲第一视频黄色| 日本一级淫片免费啪啪| 女人一级特黄大片国产精品| 日本一区二区三区中文字幕最新| 日韩国产av一区二区三区精品| av大片在线无码永久免费网址| 国产成人福利在线视频不卡| 国产精品一级av一区二区 | 句容市|