marzo 2021 – Aironman techblog

Es mejor usar repartition() en un Dataframe o partitionBy() en un RDD antes de ejecutar una operacion larga y costosa. operaciones como join(), cogroup(), groupWith(), join(),leftOuterJoin(), rightOuterJoin(), groupByKey(), reduceByKey(), combineByKey(), lookup() pueden ganar mucho si acertamos en el particionamiento. val moviePairs = ratings.as("ratings1").join(ratings.as("ratings2"), $"ratings1.userId" === $"ratings2.userId" && $"ratings1.movieId" < $"ratings2.movieId").select($"ratings1.movieId".alias("movie1"),$"ratings2.movieId".alias("movie2"),$"ratings1.rating".alias("rating1"),$"ratings2.rating".alias("rating2")).repartition(100).as[MoviePairs] Hay que jugar con ese…

	Acerca de la entrega… en Acerca de la entrega y procesa…
	Acerca de la estruct… en Acerca de las estructuras de d…
	Encrypting messages… en Cifrar y descifrar mensajes…
	CONCEPTUAL IMPROVEME… en Sobre componentes de una arqui…
	Mejoras conceptuales… en Sobre componentes de una arqui…

	Acerca de la entrega… en Acerca de la entrega y procesa…
	Acerca de la estruct… en Acerca de las estructuras de d…
	Encrypting messages… en Cifrar y descifrar mensajes…
	CONCEPTUAL IMPROVEME… en Sobre componentes de una arqui…
	Mejoras conceptuales… en Sobre componentes de una arqui…

Aironman techblog

Mes: marzo 2021

Ajustando el número de particiones en un trabajo Spark