加入收藏 | 设为首页 | 会员中心 | 我要投稿 均轻资讯网 (https://www.junqingwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 云计算 > 正文

基于云计算的数据挖掘

发布时间:2022-11-28 11:57:01 所属栏目:云计算 来源:
导读:  一年多没有跟新我的博客了,回过头来看看,总觉得缺点什么,于是决定重新开始更新我的blog。这一年多,我经历了很多事情。当然,最主要的是思想观念的提高。言归正传,最近在做一个云计算的项目。“云计算&
  一年多没有跟新我的博客了,回过头来看看,总觉得缺点什么,于是决定重新开始更新我的blog。这一年多,我经历了很多事情。当然,最主要的是思想观念的提高。言归正传,最近在做一个云计算的项目。“云计算”的概念我就不炒了,还是干点实事吧。我们这个项目主要是把云计算应用到电信企业的数据挖掘和知识获取上。至于主要内容,一方面是把一些经典的数据挖掘算法在并行计算平台上实现(主要是hadoop上),另一方面是研究具体的应用,以提供商业解决方案。
 
  至于具体算法,个人认为能否并行,也就是能否应用在Map/Reduce上云计算 数据挖掘,还是比较鲜明的。也就是说,有些算法一眼就能看出其并行策略,或很容易制定出并行策略,另外一些算法则很难并行,很少有那种很难断定能否并行的算法。下面列出的一些算法是我们已经实现的:
 
  Association Analysis:
 
  Apriori
 
  Classification:
 
  Nearest-Neighbor
 
  Naive Bayesian
 
  Clustering:
 
  K-means
 
  Canopy
 
  Fuzzy K-means
 
  Others:
 
  PageRank
 
  此外,我们还利用hbase做了一个抽取个人中心网络的应用,并用flex展示出来如下:
 
  接下来还要实现一些算法,包括:
 
  Neural Network
 
  SVM
 
  Logistic regression
 
  Graph Mining
 
  Cluster Evaluation
 
  Sequence Patterns Mining
 
  等。
 
  这里把Mahout Goal post出来,做个对比,同时也知道我们分析:
 
  High-performance, distributed matrix (both sparse and dense)
 
  Clustering (Canopy, K-Means, Mean Shift, etc) with distancing (Manhattan, Pearson, Tanimoto, etc)
 
  Naive Bayes classification and Bayesian network
 
  Backpropogation (Neural Network)
 
  Expectation Maximization (e.g. Probabilistic Latent Semantic Indexing)
 
  Locally-Weighted Linear Regression (LWLR) and logistic regression
 
  Support Vector Machine
 
  Gaussian Discriminant Analysis
 
  Singular Value Decomposition, Principal Components Analysis, Independent Component Analysis
 
  这其中有些我们已经实现了云计算 数据挖掘,不过还要继续努力。
 

(编辑:均轻资讯网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!