资讯

精准传达 • 有效沟通

从品牌网站建设到网络营销策划,从策略到执行的一站式服务

PHP上亿数据 php大量数据处理

php处理大文件文件

我前几天有一个面试,面试题就是有这样一道题。先把自己的思路说一下,因为信息量非常的大,所以我采用了分表,分成24张表,每个小时一张,虽然凌晨时刻的表可能很少数据,但这样sum字段的问题就容易解决了,我理解的sum字段是一个小时同一个用户在相同的环境的登陆次数。这样理解不知对否,请网友自行甄辨。然后我通过PHP中的fgets函数一行一行的数据取出,入表。实验了几万条数据是没有问题的,但是上亿条数据可能够呛。这一点也请网友注意,我也是新手。只是看到这里没有答案,给大家一个参考。废话不多,看流程:

网站建设哪家好,找成都创新互联公司!专注于网页设计、网站建设、微信开发、重庆小程序开发、集团企业网站建设等服务项目。为回馈新老客户创新互联还提供了钟楼免费建站欢迎大家使用!

日志文件(access.log)格式:

200 /alipeng.gif?zoneid=2bannerid=44clentid=6materialid=64redirect=http%3a%2f%2f;time=1384444800.832ip=127.0.0.1user_agent=Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.48 Safari/537.36utrace=a6dbdd2f6a37b946165b7ae98dcd4f79

502 /alipeng.gif?zoneid=2bannerid=44clentid=6materialid=64redirect=http%3a%2f%2f;time=1384444800.904ip=127.0.0.1user_agent=Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.48 Safari/537.36utrace=a6dbdd2f6a37b946165b7ae98dcd4f79

配置文件cfg.php:

define(HOST,'localhost');//主机名

define(USER,'root');//数据库账号

define(PASS,'111111');//数据库密码

define(DBNAME,'test');//所用的数据库

define(CHARSET,'utf8');//使用的字符集

具体代码test.php:

?php

header("content-type:text/html;charset=utf-8");

require './cfg.php';

$link = mysql_connect(HOST,USER,PASS) or die('连接数据库失败');

//程序中自动建库和建表,这样一定程度上拖慢了程序的速度

//创建数据库

$crdb="create database if not exists ".DBNAME;

if(!mysql_query($crdb)){

die('创建数据库失败');

}

//链接数据库

mysql_select_db(DBNAME) or die('选择数据库失败');

mysql_set_charset(CHARSET);

//因为数据量很大我将数据按小时分表,分成24个表,每小时一个表,这样num字段的值也好做统计

//数据循环建表

for($i=0;$i24;$i++){

if($i10){

$tbhz='0'.$i;//如果前10张表,表后缀应该是00-09

}else{

$tbhz=$i;

}

$ctbsql="create table if not exists logininfo_{$tbhz}(

id int not null auto_increment primary key,

zoneid int not null default 0,

bannerid int not null default 0,

clentid int not null default 0,

materialid int not null default 0,

redirect char(200) not null default '',

time char(16) not null default '',

user_agent char(200) not null default '',

utrace char(32) not null default '',

sum int not null default 0

)TYPE=MyISAM DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci";

mysql_query($ctbsql);

}

//打开文件

$file=fopen("./access.log",'r') or die("打开文件失败");

//对文件内容进行循环,直到文件末尾才停止

while (!feof($file)){

//每次读取一行

$line = fgets($file,1024);

//状态是200的进行写入数据库操作

if(preg_match('/^200/',$line)){

$pinfo=parse_url($line);//url信息

$ext=$pinfo['query'];//取得传递的各个参数

$parray=explode('',$ext);//根据分解为数组

//因为分解为数组后并不是要的值,所以要对值进行一次截取,将等号及等号左边的都去掉

foreach($parray as $val){

$narray[]=ltrim(strstr($val,'='),'=');

}

$narray[8]=rtrim($narray[8],'_');

//截取时间的秒数

$getmun=substr($parray[5],5,10);

$time=date('Y-m-d H',$getmun);//将秒数转化为时间类型。

//得到表后缀

$tbhz=date('H',$getmun);

$sql="insert into logininfo_{$tbhz} values(null,'{$narray[0]}','{$narray[1]}','{$narray[2]}','{$narray[3]}','{$narray[4]}','{$time}','{$narray[7]}','{$narray[8]}',0)";

//echo $sql;

$res=mysql_query($sql);//执行插入

if(!$res || !mysql_affected_rows()0){

die('写入数据库失败');

}

unset($narray);//循环一次将narray销毁,为下一次循环做准备

//var_dump(parse_url($line)['query']);

}

}

fclose($file);//关闭

//因为sum字段还是0,下面代码段需要处理sum字段的值

//24张表循环处理

for($i=0;$i24;$i++){

if($i10){

$tbhz='0'.$i;//如果前10张表,表后缀应该是00-09

}else{

$tbhz=$i;

}

//该sql语句是把同一个小时内,并且符合条件相等的登陆的总次数和需要的登陆信息查出,为下面修改sum做准备

$sql="SELECT COUNT('zoneid') AS sum,zoneid,bannerid,clentid,materialid,redirect,user_agent,utrace FROM logininfo_{$tbhz} GROUP BY zoneid,bannerid,clentid,materialid,redirect,user_agent,utrace";

//发送查询sql

$res=mysql_query($sql);

if($res  mysql_num_rows($res)0){

while($row=mysql_fetch_assoc($res)){

//修改sum字段,即同一小时内的登陆次数

$upsql="update logininfo_{$tbhz} set sum='{$row['sum']}' where zoneid='{$row['zoneid']}' and bannerid='{$row['bannerid']}' and clentid='{$row['clentid']}' and materialid='{$row['materialid']}' and redirect='{$row['redirect']}' and user_agent='{$row['user_agent']}' and utrace='{$row['utrace']}'";

//发送修改sql,执行修改sum

$upres=mysql_query($upsql);

if(!$upres){

die('修改登陆sum失败');

}

}

}

}

echo '数据成功入表';

使用说明:

将配置文件cfg.php中的连接数据库账号、密码修改为自己本机的(默认新增的库名是test)

直接运行test1.php

php+mysql可以处理亿级的数据吗

理论上是可以的,但效率上就有问题了,这么大量的数据一般不会放一张表里面,都会考虑分表,然后考虑索引、数据库主从、服务器配置等,提高查询效率php+mysql可以处理亿级的数据吗

1亿条数据如何分表100张到Mysql数据库中(PHP)

下面通过创建100张表来演示下1亿条数据的分表过程,具体请看下文代码。

当数据量猛增的时候,大家都会选择库表散列等等方式去优化数据读写速度。笔者做了一个简单的尝试,1亿条数据,分100张表。具体实现过程如下:

首先创建100张表:

$i=0;

while($i=99){

echo

"$newNumber

\r\n";

$sql="CREATE

TABLE

`code_".$i."`

(

`full_code`

char(10)

NOT

NULL,

`create_time`

int(10)

unsigned

NOT

NULL,

PRIMARY

KEY

(`full_code`),

)

ENGINE=MyISAM

DEFAULT

CHARSET=utf8";

mysql_query($sql);

$i++;

下面说一下我的分表规则,full_code作为主键,我们对full_code做hash

函数如下:

$table_name=get_hash_table('code',$full_code);

function

get_hash_table($table,$code,$s=100){

$hash

=

sprintf("%u",

crc32($code));

echo

$hash;

$hash1

=

intval(fmod($hash,

$s));

return

$table."_".$hash1;

}

这样插入数据前通过get_hash_table获取数据存放的表名。

最后我们使用merge存储引擎来实现一张完整的code表

CREATE

TABLE

IF

NOT

EXISTS

`code`

(

`full_code`

char(10)

NOT

NULL,

`create_time`

int(10)

unsigned

NOT

NULL,

INDEX(full_code)

)

TYPE=MERGE

UNION=(code_0,code_1,code_2.......)

INSERT_METHOD=LAST

;

这样我们通过select

*

from

code就可以得到所有的full_code数据了。

以上介绍就是本文的全部内容,希望对大家有所帮助。


分享标题:PHP上亿数据 php大量数据处理
文章地址:http://cdkjz.cn/article/hpjdsc.html
多年建站经验

多一份参考,总有益处

联系快上网,免费获得专属《策划方案》及报价

咨询相关问题或预约面谈,可以通过以下方式与我们联系

大客户专线   成都:13518219792   座机:028-86922220