pythonweb大数据分析(Python实现的大数据分析操作系统日志功能示例)
类别:脚本大全 浏览量:2383
时间:2022-03-29 18:58:26 pythonweb大数据分析
Python实现的大数据分析操作系统日志功能示例本文实例讲述了Python实现的大数据分析操作系统日志功能。分享给大家供大家参考,具体如下:
一 代码
1、大文件切分
|
import os import os.path import time def FileSplit(sourceFile, targetFolder): if not os.path.isfile(sourceFile): print (sourceFile, ' does not exist.' ) return if not os.path.isdir(targetFolder): os.mkdir(targetFolder) tempData = [] number = 1000 fileNum = 1 linesRead = 0 with open (sourceFile, 'r' ) as srcFile: dataLine = srcFile.readline().strip() while dataLine: for i in range (number): tempData.append(dataLine) dataLine = srcFile.readline() if not dataLine: break desFile = os.path.join(targetFolder, sourceFile[ 0 : - 4 ] + str (fileNum) + '.txt' ) with open (desFile, 'a+' ) as f: f.writelines(tempData) tempData = [] fileNum = fileNum + 1 if __name__ = = '__main__' : #sourceFile = input('Input the source file to split:') #targetFolder = input('Input the target folder you want to place the split files:') sourceFile = 'test.txt' targetFolder = 'test' FileSplit(sourceFile, targetFolder) |
2、Mapper代码
|
import os import re import threading import time def Map (sourceFile): if not os.path.exists(sourceFile): print (sourceFile, ' does not exist.' ) return pattern = re. compile (r '[0-9]{1,2}/[0-9]{1,2}/[0-9]{4}' ) result = {} with open (sourceFile, 'r' ) as srcFile: for dataLine in srcFile: r = pattern.findall(dataLine) if r: t = result.get(r[ 0 ], 0 ) t + = 1 result[r[ 0 ]] = t desFile = sourceFile[ 0 : - 4 ] + '_map.txt' with open (desFile, 'a+' ) as fp: for k, v in result.items(): fp.write(k + ':' + str (v) + '\n' ) if __name__ = = '__main__' : desFolder = 'test' files = os.listdir(desFolder) #如果不使用多线程,可以直接这样写 '''for f in files: Map(desFolder + '\\' + f)''' #使用多线程 def Main(i): Map (desFolder + '\\' + files[i]) fileNumber = len (files) for i in range (fileNumber): t = threading.Thread(target = Main, args = (i,)) t.start() |
3.Reducer代码
|
import os def Reduce (sourceFolder, targetFile): if not os.path.isdir(sourceFolder): print (sourceFolder, ' does not exist.' ) return result = {} #Deal only with the mapped files allFiles = [sourceFolder + '\\'+f for f in os.listdir(sourceFolder) if f.endswith(' _map.txt')] for f in allFiles: with open (f, 'r' ) as fp: for line in fp: line = line.strip() if not line: continue position = line.index( ':' ) key = line[ 0 :position] value = int (line[position + 1 :]) result[key] = result.get(key, 0 ) + value with open (targetFile, 'w' ) as fp: for k,v in result.items(): fp.write(k + ':' + str (v) + '\n' ) if __name__ = = '__main__' : Reduce ( 'test' , 'test\\result.txt' ) |
二 运行结果
依次运行上面3个程序,得到最终结果:
07/10/2013:4634
07/16/2013:51
08/15/2013:3958
07/11/2013:1
10/09/2013:733
12/11/2013:564
02/12/2014:4102
05/14/2014:737
希望本文所述对大家Python程序设计有所帮助。
原文链接:https://blog.csdn.net/chengqiuming/article/details/78601136
您可能感兴趣
- python怎么用代码写出心形(六行python代码的爱心曲线详解)
- 如何去阿里云解析域名(利用Python+阿里云实现DDNS动态域名解析的方法)
- python怎么给rsa加密(Python生成rsa密钥对操作示例)
- 简述python2与python3的不同点(Python2与Python3的区别实例分析)
- python中jieba库怎么用(详解Python数据可视化编程 - 词云生成并保存jieba+WordCloud)
- python基础教程常用函数整理(Python基础之函数的定义与使用示例)
- python提取字符串中的正则表达式(python3正则提取字符串里的中文实例)
- python中什么是迭代器(一篇文章彻底搞懂Python中可迭代Iterable、迭代器Iterator与生成器Generator的概)
- python关闭程序强制退出线程(python多线程调用exit无法退出的解决方法)
- python实例教程(Python魔法方法详解)
- python sql注入怎么避免(Python实现SQL注入检测插件实例代码)
- python微信红包代码(php生成微信红包数组的方法)
- python怎么转换jar包(利用python脚本如何简化jar操作命令)
- python人脸识别库(python3人脸识别的两种方法)
- python 时间戳转化为格式(Python datetime和unix时间戳之间相互转换的讲解)
- python使用门算法加密文件(python实现可逆简单的加密算法)
- 《内在美》后,一大波新韩剧来袭,李钟硕朴信惠宋慧乔玄彬回归(一大波新韩剧来袭)
- 给孩子选购保温杯,注意这4个步骤,比颜值更重要(给孩子选购保温杯)
- 保温好 容量大 颜值高 保温杯你给娃娃买对了吗(保温好容量大颜值高)
- 《道德经》 人生避开骄狂,才能免去祸患(道德经人生避开骄狂)
- 郭麒麟(郭麒麟)
- 古人十句 戒骄 名言,醍醐灌顶,受益匪浅(古人十句戒骄名言)
热门推荐
- 用于播放视频文件的html5元素(html5自动播放mov格式视频的实例代码)
- react组件封装成函数方法(React虚拟列表的实现)
- dede执行查询语句(dede搜索关键字/tag标签不能区分大写字母的临时解决方法)
- 搭建php和mysql的运行环境(Windows环境开发PHP完整配置教程Apache+Mysql+PHP)
- knn算法详细步骤(Python实现KNNK-近邻算法的示例代码)
- phpstudy安装后在哪里开启(phpstudy怎么卸载?如何彻底删除phpstudy)
- mysql事务级别设置(mysql在项目中怎么选事务隔离级别)
- dedecmsv6如何安装(dedecms 下载地址加迅雷专用链的操作方法 比较全)
- mysql怎样建立索引(MySQL创建索引需要了解的)
- docker容器解决隔离的技术(Docker+selenium实现自动化健康报备的方法)
排行榜
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9