在SparkStreamingjob中如何读取Kafkamessages及其offsetRange-快上网网站建设公司

在SparkStreamingjob中如何读取Kafkamessages及其offsetRange

本篇文章为大家展示了在Spark Streaming job中如何读取Kafka messages及其offsetRange，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

创新互联是一家集网站建设,红安企业网站建设,红安品牌网站建设,网站定制,红安网站建设报价,网络营销,网络优化,红安网站推广为一体的创新建站企业，帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿，时刻以成就客户成长自我，坚持不断学习、思考、沉淀、净化自己，让我们为更多的企业打造出实用型网站。

在Spark Streaming job中读取Kafka topic(s)中的messages时，有时我们会需要同步记录下每次读取的messages的offsetRange。要达到这一目的，下面这两段代码（代码1和代码2）都是正确的，而且是等价的。

代码1（正确）：

-----------------------

JavaPairInputDStream messages = KafkaUtils.createDirectStream(

jssc,

String.class,

StringDecoder.class,

kafkaParams,

topicsSet

);

messages.foreachRDD(

new Function, Void>() {

@Override

public Void call(JavaPairRDD rdd) throws Exception {

OffsetRange[] offsets = ((HasOffsetRanges) rdd.rdd()).offsetRanges();

JavaRDD valueRDD = rdd.values();

long msgNum = processEachRDD(valueRDD, outputFolderPath, definedDuration);

if (msgNum > 0 && zkPathRoot!= null) {

writeOffsetToZookeeper(zkClient, zkPathRoot, offsets);

}

return null;

}

});

代码2（正确）：

-----------------------

JavaPairInputDStream messages = KafkaUtils.createDirectStream(

jssc,

String.class,

StringDecoder.class,

kafkaParams,

topicsSet

);

final AtomicReference offsetRanges=new AtomicReference();

lines = messages.transformToPair(new Function, JavaPairRDD>() {

@Override

public JavaPairRDD call(JavaPairRDD rdd) throws Exception {

OffsetRange[] offsets = ((HasOffsetRanges) rdd.rdd()).offsetRanges();

offsetRanges.set(offsets);

return rdd;

}

}).map(new Function, String>() {

@Override

public String call(Tuple2 tuple2) {

return tuple2._2();

}

});

lines.foreachRDD(new Function, Void>() {

@Override

public Void call(JavaRDD rdd) throws Exception {

long msgNum = processEachRDD(rdd, outputFolderPath, definedDuration);

if (msgNum > 0 && zkPathRoot!= null) {

OffsetRange[] offsets = offsetRanges.get();

writeOffsetToZookeeper(zkClient, zkPathRoot, offsets);

}

return null;

}

});

但是要注意，下面这两段代码（代码3和代码4）是错误的，它们都会抛出一个exception：java.lang.ClassCastException: org.apache.spark.rdd.MapPartitionsRDD cannot be cast to org.apache.spark.streaming.kafka.HasOffsetRanges

代码3（错误）：

-----------------------

JavaPairInputDStream messages = KafkaUtils.createDirectStream(

jssc,

String.class,

StringDecoder.class,

kafkaParams,

topicsSet

);

messages.transform(new Function, JavaRDD>() {

@Override

public JavaRDD call(JavaPairRDD rdd) throws Exception {

return rdd.values（）;

}

}).foreachRDD(new Function, Void>() {

@Override

public Void call(JavaRDD rdd) throws Exception {

long msgNum = processEachRDD(rdd, outputFolderPath, definedDuration);

if (msgNum > 0 && zkPathRoot!= null) {

OffsetRange[] offsets = offsetRanges.get();

writeOffsetToZookeeper(zkClient, zkPathRoot, offsets);

}

return null;

}

});

代码4（错误）：

-----------------------

JavaPairInputDStream messages = KafkaUtils.createDirectStream(

jssc,

String.class,

StringDecoder.class,

kafkaParams,

topicsSet

);

messages.map(new Function, String>() {

@Override

public String call(Tuple2 tuple2) {

return tuple2._2();

}

}).foreachRDD(new Function, Void>() {

@Override

public Void call(JavaRDD rdd) throws Exception {

long msgNum = processEachRDD(rdd, outputFolderPath, definedDuration);

if (msgNum > 0 && zkPathRoot!= null) {

OffsetRange[] offsets = offsetRanges.get();

writeOffsetToZookeeper(zkClient, zkPathRoot, offsets);

}

return null;

}

});

上述内容就是在Spark Streaming job中如何读取Kafka messages及其offsetRange，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注创新互联行业资讯频道。

当前名称：在SparkStreamingjob中如何读取Kafkamessages及其offsetRange
转载来源：http://cdkjz.cn/article/gejdho.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

在SparkStreamingjob中如何读取Kafkamessages及其offsetRange

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

在SparkStreamingjob中如何读取Kafkamessages及其offsetRange

相关资讯

php怎么添加cookie伪造登陆抓取数据-创新互联

高性能服务器开发基础系列（七）——开源一款即时通讯软件的源码-创新互联

如何解决mysql导入数据库文件太大的问题-创新互联

nagios介绍及Server安装(五)-创新互联

php中设置session的方法-创新互联

怎么让SQL语句运行得更快-创新互联

如何在CentOS中自行编译升级Git-创新互联

一文带读懂zookeeper的选举机制-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接