熱門關鍵詞:
位置:首頁 > 技術文檔
中文文本分類中的特征選擇研究
  • 該文件為pdf格式
  • 文件大小: 899.23 KB
  • 下載次數
  • 文件評級
  • 更新時間:2014-06-12
  • 發 布 人: lengbingbing
  • 文件下載:
  • 立即下載

  • 文件介紹:
  • 該文件為 pdf 格式(源文件可編輯),下載需要 20 積分
  • 中文文本分類中的特征選擇研究
    目的: 隨著信息技術不斷前進和互聯網技術的迅猛發展和普及,信息呈近乎爆炸的形式急速膨脹。無論網絡上、企業中或是個人系統上,都有海量的信息需要處理。文本作為計算機系統中信息的最重要表現形式之一,其增長速度更為驚人。如何在海量文本庫中搜尋、過濾和管理這些文本成為一個亟待解決的問題。作為數據挖掘技術的重要手段之一,基于機器學習的文本分類技術可以在較大程度上解決文本庫雜亂無章的現象,幫助人們將大量的文本自動分門別類,從而更好地把握文本信息,使信息的價值最大化。 在采用向量空間模型對文本進行表示的情況下,文本分類的最大特點和困難之一是特征空間的高維性和文檔表示向量的稀疏性。中文的詞條總數有二十多萬條,尋求一種有效的特征抽取算法,降低特征空間的維數,提高分類的效率和精度,成為文本自動分類中需要首先面對的重要問題。特征選擇是解決這個問題的有效方法。 本選題的核心目的就在于研究如何進行特征項的選取,使得分類的效率和效果最好。 思路: 首先需要理解中文文本分類技術以及應用的框架,熟悉中文文本分類技術的各個組成部分,然后搭建一個中文文本分類的輔助平臺(包括分詞組件、分類器、測試文檔集、訓練文檔集,大部分都可以從開源軟件或公開資料里獲得),在輔助平臺的基礎上研究特征相的提取并用實驗檢驗之。 方法: 通過閱讀大量的資料或文檔學習所要用的知識和技術,并通過實驗驗證自己的想法和理論。 相關支持條件: PC、java或C++開發環境、中文文本分類輔助平臺(自己搭建)、Internet ...
文檔留言 共有條評論
驗證碼: 請在右側輸入驗證碼 看不清楚,換一個
中文文本分類中的特征選擇研究_下載(pdf格式) 技術文檔 主站蜘蛛池模板: 狠狠躁天天躁无码中文字幕图| 国产午夜无码片在线观看| 人妻无码中文久久久久专区| 成在线人免费无码高潮喷水| 亚洲爆乳精品无码一区二区三区| 亚洲中文无码av永久| 国产精品无码av天天爽| 国产成人AV片无码免费| 亚洲av日韩av无码| 色综合久久久无码中文字幕| 中文字幕无码精品三级在线电影 | 亚洲GV天堂GV无码男同| 无码人妻精品一区二区蜜桃AV| 无码精品久久久天天影视| 亚洲成?Ⅴ人在线观看无码| 人妻无码一区二区三区免费| 久久久久久国产精品无码下载| 无码人妻一区二区三区兔费| 少妇精品无码一区二区三区 | 国产成人无码免费看片软件| 亚洲中文字幕无码mv| 久久精品中文字幕无码| 久久伊人亚洲AV无码网站| 成人免费无码精品国产电影| 一本天堂ⅴ无码亚洲道久久| 无码国产午夜福利片在线观看 | 永久无码精品三区在线4| 亚洲中文字幕无码一去台湾| 亚洲Av无码专区国产乱码DVD| 无码人妻久久一区二区三区蜜桃| 亚洲精品无码日韩国产不卡av| 未满十八18禁止免费无码网站 | 无码137片内射在线影院| 精品久久久无码中文字幕| 国产成人无码a区在线视频| 亚洲成?v人片天堂网无码| 无码色AV一二区在线播放| 永久无码精品三区在线4| 亚洲无码高清在线观看| 无码人妻精品一区二区蜜桃百度 | 亚洲精品无码99在线观看|