一年多没有跟新我的博客了,回过头来看看,总觉得缺点什么,于是决定重新开始更新我的blog。这一年多,我经历了很多事情。当然,最主要的是思想观念的提高。言归正传,最近在做一个云计算的项目。“云计算”的概念我就不炒了,还是干点实事吧。我们这个项目主要是把云计算应用到电信企业的数据挖掘和知识获取上。至于主要内容,一方面是把一些经典的数据挖掘算法在并行计算平台上实现(主要是hadoop上),另一方面是研究具体的应用,以提供商业解决方案。
至于具体算法,个人认为能否并行,也就是能否应用在Map/Reduce上,还是比较鲜明的。也就是说,有些算法一眼就能看出其并行策略,或很容易制定出并行策略,另外一些算法则很难并行,很少有那种很难断定能否并行的算法。下面列出的一些算法是我们已经实现的:
Association Analysis:
Apriori
Classification:
Nearest-Neighbor
Naive Bayesian
Clustering:
K-means
Canopy
Fuzzy K-means
Others:
PageRank
此外,我们还利用hbase做了一个抽取个人中心网络的应用,并用flex展示出来如下:
接下来还要实现一些算法,包括:
Neural Network
SVM
Logistic regression
Graph Mining
Cluster Evaluation
Sequence Patterns Mining
等。
这里把Mahout Goal post出来,做个对比,同时也知道我们分析:
High-performance, distributed matrix (both sparse and dense)
Clustering (Canopy, K-Means, Mean Shift, etc) with distancing (Manhattan, Pearson, Tanimoto, etc)
Naive Bayes classification and Bayesian network
Backpropogation (Neural Network)
Expectation Maximization (e.g. Probabilistic Latent Semantic Indexing)
Locally-Weighted Linear Regression (LWLR) and logistic regression
Support Vector Machine
Gaussian Discriminant Analysis
Singular Value Decomposition, Principal Components Analysis, Independent Component Analysis
这其中有些我们已经实现了,不过还要继续努力。
<!---->
分享到:
相关推荐
一种基于云计算数据挖掘平台架构的设计与实现.pdf
工作流系统与基于云计算数据挖掘平台的整合研究,陈承星,吴斌,近年来,云计算以其高灵活性,高可靠性,动态可扩展,高性价比等特性,得到了蓬勃发展。云计算将大量用网络连接的计算资源统一管
基于云计算的数据挖掘分析.pdf
基于云计算物联网数据挖掘模式的构建.pdf
浅析基于云计算的物联网数据挖掘技术.pdf
基于云计算平台的物联网数据挖掘研究,张毅,崔晓燕,随着社会的不断发展,信息产业已经逐渐成为了国民经济发展的重要支柱,而物联网作为新一代信息技术的重要组成部分成为推动人类文
基于云计算的数据挖掘平台架构及其关键技术研究 (3).pdf
基于云计算的大数据挖掘平台.pdf
基于云计算的大数据挖掘体系构建分析.pdf
基于云计算的海量数据挖掘研究 (1).pdf
基于云计算的大数据挖掘内涵及解决方案研究.pdf
基于云计算的医疗大数据挖掘平台.pdf
基于MapReduce的分布式云计算数据挖掘方法.pdf
基于云计算的大数据挖掘内涵及解决方案研究 (2).pdf
基于云计算环境下气象数据挖掘技术的研究.pdf
基于云计算与GPU的大数据挖掘比较.pdf
基于云计算服务模式的数据挖掘应用平台的构建.pdf
基于云计算的海量数据挖掘 从需求来讲,首先说我们所处理的数据是海量的,我们以往都期望用高性能机或者是更大规模的计算设备来做这件事情。实际上我们要从海量数据中搞到可理解的知识,大规模的数据挖掘是我们追求...
基于云计算平台物联网数据挖掘系统设计.pdf
基于云计算的数据挖掘浅析.pdf