Articles of apache spark

Spark – Grouper par HAVING avec la syntaxe dataframe?

Quelle est la syntaxe pour utiliser un groupby-have dans Spark sans sql / hiveContext? Je sais que je peux faire DataFrame df = some_df df.registreTempTable(“df”); df1 = sqlContext.sql(“SELECT * FROM df GROUP BY col1 HAVING some stuff”) mais comment puis-je le faire avec une syntaxe comme df = df.select(df.col(“*”)).groupBy(df.col(“col1”)).having(“some stuff”) Ce .having() ne semble pas […]

Mésortingques personnalisées en streaming Spark

Je travaille sur un programme Spark Streaming qui récupère un stream Kafka, effectue une transformation très simple sur le stream, puis insère les données dans une firebase database (voltdb, le cas échéant). J’essaie de mesurer le taux d’insertion de lignes dans la firebase database. Je pense que les mésortingques peuvent être utiles (avec JMX). Cependant, […]

Comment se faire passer «requirejs une authentification» lors de la connexion au cluster Cassandra distant à l’aide de SparkConf

J’essaie d’utiliser Apache Spark et Cassandra pour l’parsing des données. J’ai donc écrit un code Java pour accéder à la cassandra qui tourne sur une machine distante. J’ai utilisé le code Java suivant. public class JavaDemo implements Serializable { private transient SparkConf conf; private JavaDemo(SparkConf conf) { this.conf = conf; } private void run() { […]

JavaSparkContext non sérialisable

J’utilise spark avec cassandra, et j’ai un JavaRDD de clients. Et pour chaque client, je veux choisir parmi cassandra ses interactions comme ceci: avaPairRDD<String, List> a = client.mapToPair(new PairFunction<String, String, List>() { @Override public Tuple2<String, List> call(Ssortingng s) throws Exception { List b = javaFunctions(sc) .cassandraTable(CASSANDRA_SCHEMA, “interaction_by_month_customer”) .where(“ctid =?”, s) .map(new Function() { @Override public […]

Spark 2.0.0 Arrays.asList ne fonctionne pas – types incompatibles

Le code suivant fonctionne avec Spark 1.5.2 mais pas avec Spark 2.0.0. J’utilise Java 1.8. final SparkConf sparkConf = new SparkConf(); sparkConf.setMaster(“local[4]”); // Four threads final JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf); final JavaRDD javaRDDLines = javaSparkContext.textFile(“4300.txt”); final JavaRDD javaRDDWords = javaRDDLines.flatMap(line -> Arrays.asList(line.split(” “))); Je reçois l’erreur suivante Error:(46, 66) java: incompatible types: no instance(s) […]

apache spark: erreur de version d’Akka par le build jar avec toutes les dépendances

J’ai construit un fichier JAR à partir de mon application spark avec maven (MVN Clean Comstack Assembly: single) et le fichier pom suivant: 4.0.0 mgm.tp.bigdata ma-spark 0.0.1-SNAPSHOT jar ma-spark http://maven.apache.org UTF-8 cloudera https://repository.cloudera.com/artifactory/cloudera-repos/ junit junit 3.8.1 test org.apache.spark spark-core_2.10 1.1.0-cdh5.2.5 mgm.tp.bigdata ma-commons 0.0.1-SNAPSHOT maven-assembly-plugin mgm.tp.bigdata.ma_spark.SparkMain jar-with-dependencies si je lance mon application avec java -jar ma-spark-0.0.1-SNAPSHOT-jar-with-dependencies.jar […]

parquet.io.ParquetDecodingException: Impossible de lire la valeur à 0 dans le bloc -1 du fichier

J’ai enregistré une table de firebase database distante dans Hive à l’aide de la méthode saveAsTable . Désormais, lorsque j’essaie d’accéder aux données de la table Hive à l’aide de la commande CLI, select * from table_name . Cela me donne l’erreur ci-dessous: 2016-06-15 10:49:36,866 WARN [HiveServer2-Handler-Pool: Thread-96]: thrift.ThriftCLIService (ThriftCLIService.java:FetchResults(681)) – Error fetching results: org.apache.hive.service.cli.HiveSQLException: […]

Spark – Sérialisation d’un object avec un membre non sérialisable

Je vais poser cette question dans le contexte de Spark, car c’est ce à quoi je suis confronté, mais c’est peut-être un simple problème de Java. Dans notre travail d’étincelle, nous avons un Resolver qui doit être utilisé par tous nos travailleurs (il est utilisé dans un fichier UDF). Le problème est que ce n’est […]

Spark: lit un inputStream au lieu d’un fichier

J’utilise SparkSQL dans une application Java pour effectuer certains traitements sur des fichiers CSV en utilisant Databricks pour l’parsing. Les données que je traite proviennent de différentes sources (URL distante, fichier local, Google Cloud Storage) et j’ai l’habitude de tout transformer en InputStream afin de pouvoir parsingr et traiter les données sans savoir d’où elles […]

spark 1.4.0 java.lang.NoSuchMethodError: com.google.common.base.Stopwatch.elapsedMillis () J

J’utilise spark 1.4.0 / hadoop 2.6.0 (uniquement pour les fichiers hdfs) et lors de l’exécution de l’exemple Scala SparkPageRank ( examples / src / main / scala / org / apache / spark / examples / SparkPageRank.scala ), erreur suivante: Exception in thread “main” java.lang.NoSuchMethodError: com.google.common.base.Stopwatch.elapsedMillis()J at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:245) at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:313) at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:207) at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219) at […]