Quelle est la syntaxe pour utiliser un groupby-have dans Spark sans sql / hiveContext? Je sais que je peux faire DataFrame df = some_df df.registreTempTable(“df”); df1 = sqlContext.sql(“SELECT * FROM df GROUP BY col1 HAVING some stuff”) mais comment puis-je le faire avec une syntaxe comme df = df.select(df.col(“*”)).groupBy(df.col(“col1”)).having(“some stuff”) Ce .having() ne semble pas […]
Je travaille sur un programme Spark Streaming qui récupère un stream Kafka, effectue une transformation très simple sur le stream, puis insère les données dans une firebase database (voltdb, le cas échéant). J’essaie de mesurer le taux d’insertion de lignes dans la firebase database. Je pense que les mésortingques peuvent être utiles (avec JMX). Cependant, […]
J’essaie d’utiliser Apache Spark et Cassandra pour l’parsing des données. J’ai donc écrit un code Java pour accéder à la cassandra qui tourne sur une machine distante. J’ai utilisé le code Java suivant. public class JavaDemo implements Serializable { private transient SparkConf conf; private JavaDemo(SparkConf conf) { this.conf = conf; } private void run() { […]
J’utilise spark avec cassandra, et j’ai un JavaRDD de clients. Et pour chaque client, je veux choisir parmi cassandra ses interactions comme ceci: avaPairRDD<String, List> a = client.mapToPair(new PairFunction<String, String, List>() { @Override public Tuple2<String, List> call(Ssortingng s) throws Exception { List b = javaFunctions(sc) .cassandraTable(CASSANDRA_SCHEMA, “interaction_by_month_customer”) .where(“ctid =?”, s) .map(new Function() { @Override public […]
Le code suivant fonctionne avec Spark 1.5.2 mais pas avec Spark 2.0.0. J’utilise Java 1.8. final SparkConf sparkConf = new SparkConf(); sparkConf.setMaster(“local[4]”); // Four threads final JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf); final JavaRDD javaRDDLines = javaSparkContext.textFile(“4300.txt”); final JavaRDD javaRDDWords = javaRDDLines.flatMap(line -> Arrays.asList(line.split(” “))); Je reçois l’erreur suivante Error:(46, 66) java: incompatible types: no instance(s) […]
J’ai construit un fichier JAR à partir de mon application spark avec maven (MVN Clean Comstack Assembly: single) et le fichier pom suivant: 4.0.0 mgm.tp.bigdata ma-spark 0.0.1-SNAPSHOT jar ma-spark http://maven.apache.org UTF-8 cloudera https://repository.cloudera.com/artifactory/cloudera-repos/ junit junit 3.8.1 test org.apache.spark spark-core_2.10 1.1.0-cdh5.2.5 mgm.tp.bigdata ma-commons 0.0.1-SNAPSHOT maven-assembly-plugin mgm.tp.bigdata.ma_spark.SparkMain jar-with-dependencies si je lance mon application avec java -jar ma-spark-0.0.1-SNAPSHOT-jar-with-dependencies.jar […]
J’ai enregistré une table de firebase database distante dans Hive à l’aide de la méthode saveAsTable . Désormais, lorsque j’essaie d’accéder aux données de la table Hive à l’aide de la commande CLI, select * from table_name . Cela me donne l’erreur ci-dessous: 2016-06-15 10:49:36,866 WARN [HiveServer2-Handler-Pool: Thread-96]: thrift.ThriftCLIService (ThriftCLIService.java:FetchResults(681)) – Error fetching results: org.apache.hive.service.cli.HiveSQLException: […]
Je vais poser cette question dans le contexte de Spark, car c’est ce à quoi je suis confronté, mais c’est peut-être un simple problème de Java. Dans notre travail d’étincelle, nous avons un Resolver qui doit être utilisé par tous nos travailleurs (il est utilisé dans un fichier UDF). Le problème est que ce n’est […]
J’utilise SparkSQL dans une application Java pour effectuer certains traitements sur des fichiers CSV en utilisant Databricks pour l’parsing. Les données que je traite proviennent de différentes sources (URL distante, fichier local, Google Cloud Storage) et j’ai l’habitude de tout transformer en InputStream afin de pouvoir parsingr et traiter les données sans savoir d’où elles […]
J’utilise spark 1.4.0 / hadoop 2.6.0 (uniquement pour les fichiers hdfs) et lors de l’exécution de l’exemple Scala SparkPageRank ( examples / src / main / scala / org / apache / spark / examples / SparkPageRank.scala ), erreur suivante: Exception in thread “main” java.lang.NoSuchMethodError: com.google.common.base.Stopwatch.elapsedMillis()J at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:245) at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:313) at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:207) at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219) at […]