疯狂java


您现在的位置: 疯狂软件 >> 新闻资讯 >> 正文

java多线程读取大文件


 

 
本程序是基于这么一种考虑,某系统后台有个将近2G大小的日志文件,你用任何编辑器去打开它,都将会很困难。针对这样的大文件解析处理,解决方案是使用多个线程,分割读取指定的大文件。获取我们所需要的信息。不多说,上代码了,有注释可以帮助理解。
 
 
packagecom.thread.multipl.mysolution;
importjava.io.IOException;
importjava.io.RandomAccessFile;
importjava.util.concurrent.CountDownLatch;
/**
*这个线程用来读取文件,当获取到指定关键字时,在指定的对象加1
 
*
*/
publicclassReadThreadextendsThread{
//定义字节数组(取水的竹筒)的长度
privatefinalintBUFF_LEN=256;
//定义读取的起始点
privatelongstart;
//定义读取的结束点
privatelongend;
//将读取到的字节输出到raf中randomAccessFile可以理解为文件流,即文件中提取指定的一部分的包装对象
privateRandomAccessFileraf;
//线程中需要指定的关键字
privateStringkeywords;
//此线程读到关键字的次数
privateintcurCount=0;
/**
*jdk1.5开始加入的类,是个多线程辅助类
*用于多线程开始前统一执行操作或者多线程执行完成后调用主线程执行相应操作的类
*/
privateCountDownLatchdoneSignal;
publicReadThread(longstart,longend,RandomAccessFileraf,Stringkeywords,CountDownLatchdoneSignal){
this.start=start;
this.end=end;
this.raf=raf;
this.keywords=keywords;
this.doneSignal=doneSignal;
}
publicvoidrun(){
try{
raf.seek(start);
//本线程负责读取文件的大小
longcontentLen=end-start;
//定义最多需要读取几次就可以完成本线程的读取
longtimes=contentLen/BUFF_LEN+1;
System.out.println(this.toString()+"需要读的次数:"+times);
byte[]buff=newbyte[BUFF_LEN];
inthasRead=0;
Stringresult=null;
for(inti=0;i<times;i++){
//之前SEEK指定了起始位置,这里读入指定字节组长度的内容,read方法返回的是下一个开始读的position
hasRead=raf.read(buff);
//如果读取的字节数小于0,则退出循环!(到了字节数组的末尾)
if(hasRead<0){
break;
}
result=newString(buff,"gb2312");
///System.out.println(result);
intcount=this.getCountByKeywords(result,keywords);
if(count>0){
this.curCount+=count;
}
}
KeyWordsCountkc=KeyWordsCount.getCountObject();
kc.addCount(this.curCount);
doneSignal.countDown();//currentthreadfinished!notedbylatchobject!
}catch(IOExceptione){
//TODOAuto-generatedcatchblock
e.printStackTrace();
}
}
publiclonggetStart(){
returnstart;
}
publicvoidsetStart(longstart){
this.start=start;
}
publiclonggetEnd(){
returnend;
}
publicvoidsetEnd(longend){
this.end=end;
}
publicRandomAccessFilegetRaf(){
returnraf;
}
publicvoidsetRaf(RandomAccessFileraf){
this.raf=raf;
}
publicintgetCountByKeywords(Stringstatement,Stringkey){
returnstatement.split(key).length-1;
}
publicintgetCurCount(){
returncurCount;
}
publicvoidsetCurCount(intcurCount){
this.curCount=curCount;
}
publicCountDownLatchgetDoneSignal(){
returndoneSignal;
}
publicvoidsetDoneSignal(CountDownLatchdoneSignal){
this.doneSignal=doneSignal;
}
}
 
 
packagecom.thread.multipl.mysolution;
importjava.io.File;
importjava.io.RandomAccessFile;
importjava.util.concurrent.CountDownLatch;
publicclassMultiReadTest{
/**
*多线程读取文件测试
*@paramargs
*/
publicstaticvoidmain(String[]args){
//TODOAuto-generatedmethodstub
finalintDOWN_THREAD_NUM=10;//起10个线程去读取指定文件
finalStringOUT_FILE_NAME="d:\倚天屠龙记.txt";
finalStringkeywords="无忌";
//jdk1.5线程辅助类,让主线程等待所有子线程执行完毕后使用的类,
//另外一个解决方案:自己写定时器,个人建议用这个类
CountDownLatchdoneSignal=newCountDownLatch(DOWN_THREAD_NUM);
RandomAccessFile[]outArr=newRandomAccessFile[DOWN_THREAD_NUM];
try{
longlength=newFile(OUT_FILE_NAME).length();
System.out.println("文件总长度:"+length+"字节");
//每线程应该读取的字节数
longnumPerThred=length/DOWN_THREAD_NUM;
System.out.println("每个线程读取的字节数:"+numPerThred+"字节");
//整个文件整除后剩下的余数
longleft=length%DOWN_THREAD_NUM;
for(inti=0;i<DOWN_THREAD_NUM;i++){
//为每个线程打开一个输入流、一个RandomAccessFile对象,
//让每个线程分别负责读取文件的不同部分
outArr[i]=newRandomAccessFile(OUT_FILE_NAME,"rw");
if(i!=0){
//
//isArr[i]=newFileInputStream("d:/勇敢的心.rmvb");
//以指定输出文件创建多个RandomAccessFile对象
}
if(i==DOWN_THREAD_NUM-1){
////最后一个线程读取指定numPerThred+left个字节
//System.out.println("第"+i+"个线程读取从"+i*numPerThred+"到"+((i+1)*numPerThred+left)+"的位置");
newReadThread(i*numPerThred,(i+1)*numPerThred
+left,outArr[i],keywords,doneSignal).start();
}else{
//每个线程负责读取一定的numPerThred个字节
//System.out.println("第"+i+"个线程读取从"+i*numPerThred+"到"+((i+1)*numPerThred)+"的位置");
newReadThread(i*numPerThred,(i+1)*numPerThred,
outArr[i],keywords,doneSignal).start();
}
}
}catch(Exceptione){
e.printStackTrace();
}
//finally{
//
//}
//确认所有线程任务完成,开始执行主线程的操作
try{
doneSignal.await();
}catch(InterruptedExceptione){
//TODOAuto-generatedcatchblock
e.printStackTrace();
}
//这里需要做个判断,所有做read工作线程全部执行完。
KeyWordsCountk=KeyWordsCount.getCountObject();
//Map<String,Integer>resultMap=k.getMap();
System.out.println("指定关键字出现的次数:"+k.getCount());
}
}
 
 
packagecom.thread.multipl.mysolution;
/**
*统计关键字的对象
 
*
*/
publicclassKeyWordsCount{
privatestaticKeyWordsCountkc;
privateintcount=0;
privateKeyWordsCount(){
}
publicstaticsynchronizedKeyWordsCountgetCountObject(){
if(kc==null){
kc=newKeyWordsCount();
}
returnkc;
}
publicsynchronizedvoidaddCount(intcount){
System.out.println("增加次数:"+count);
this.count+=count;
}
publicintgetCount(){
returncount;
}
publicvoidsetCount(intcount){
this.count=count;
}
}
 
 
运行结果如下:
 
引用
文件总长度:2012606字节
每个线程读取的字节数:201260字节
Thread[Thread-0,5,main] 需要读的次数:787
Thread[Thread-1,5,main] 需要读的次数:787
Thread[Thread-2,5,main] 需要读的次数:787
Thread[Thread-3,5,main] 需要读的次数:787
Thread[Thread-4,5,main] 需要读的次数:787
Thread[Thread-5,5,main] 需要读的次数:787
Thread[Thread-6,5,main] 需要读的次数:787
Thread[Thread-7,5,main] 需要读的次数:787
Thread[Thread-8,5,main] 需要读的次数:787
Thread[Thread-9,5,main] 需要读的次数:787
增加次数:0
增加次数:146
增加次数:432
增加次数:539
增加次数:587
增加次数:717
增加次数:631
增加次数:467
增加次数:665
增加次数:538
指定关键字出现的次数:4722
 
 
我用10个线程去解析金庸大师写的《倚天屠龙记》,“无忌”这个词在这部小说中一共出现了4722次。实在找不到再大一些的文件了。倚天屠龙记.txt的大小4M出头。
 
关于CountDownLatch类的作用说明:
在API文档中,已经说明是一个辅助类。用于控制主线程与子线程之间切换的一个工具类。用法网上去搜下。ITEYE里也有人讨论过。我在这里使用它解决这样的问题:在确保10个线程都完成文件的解析工作后,系统调用主线程做剩下该做的事情,即:输出“出现的次数”。不确保这点的话,会导致执行完第4个线程,后面的线程还没开始,系统已经做最后一步输出统计结果,这样就达不到我们要的效果。