Search Results: mastering-apache-spark

Mastering Apache Spark

Author: Mike Frampton

Publisher: Packt Publishing Ltd

ISBN: 1783987154

Category: Computers

Page: 318

View: 7447

Gain expertise in processing and storing data by using advanced techniques with Apache Spark About This Book Explore the integration of Apache Spark with third party applications such as H20, Databricks and Titan Evaluate how Cassandra and Hbase can be used for storage An advanced guide with a combination of instructions and practical examples to extend the most up-to date Spark functionalities Who This Book Is For If you are a developer with some experience with Spark and want to strengthen your knowledge of how to get around in the world of Spark, then this book is ideal for you. Basic knowledge of Linux, Hadoop and Spark is assumed. Reasonable knowledge of Scala is expected. What You Will Learn Extend the tools available for processing and storage Examine clustering and classification using MLlib Discover Spark stream processing via Flume, HDFS Create a schema in Spark SQL, and learn how a Spark schema can be populated with data Study Spark based graph processing using Spark GraphX Combine Spark with H20 and deep learning and learn why it is useful Evaluate how graph storage works with Apache Spark, Titan, HBase and Cassandra Use Apache Spark in the cloud with Databricks and AWS In Detail Apache Spark is an in-memory cluster based parallel processing system that provides a wide range of functionality like graph processing, machine learning, stream processing and SQL. It operates at unprecedented speeds, is easy to use and offers a rich set of data transformations. This book aims to take your limited knowledge of Spark to the next level by teaching you how to expand Spark functionality. The book commences with an overview of the Spark eco-system. You will learn how to use MLlib to create a fully working neural net for handwriting recognition. You will then discover how stream processing can be tuned for optimal performance and to ensure parallel processing. The book extends to show how to incorporate H20 for machine learning, Titan for graph based storage, Databricks for cloud-based Spark. Intermediate Scala based code examples are provided for Apache Spark module processing in a CentOS Linux and Databricks cloud environment. Style and approach This book is an extensive guide to Apache Spark modules and tools and shows how Spark's functionality can be extended for real-time processing and storage with worked examples.

Mastering Apache Spark 2.x

Author: Romeo Kienzler

Publisher: Packt Publishing Ltd

ISBN: 178528522X

Category: Computers

Page: 354

View: 5763

Advanced analytics on your Big Data with latest Apache Spark 2.x About This Book An advanced guide with a combination of instructions and practical examples to extend the most up-to date Spark functionalities. Extend your data processing capabilities to process huge chunk of data in minimum time using advanced concepts in Spark. Master the art of real-time processing with the help of Apache Spark 2.x Who This Book Is For If you are a developer with some experience with Spark and want to strengthen your knowledge of how to get around in the world of Spark, then this book is ideal for you. Basic knowledge of Linux, Hadoop and Spark is assumed. Reasonable knowledge of Scala is expected. What You Will Learn Examine Advanced Machine Learning and DeepLearning with MLlib, SparkML, SystemML, H2O and DeepLearning4J Study highly optimised unified batch and real-time data processing using SparkSQL and Structured Streaming Evaluate large-scale Graph Processing and Analysis using GraphX and GraphFrames Apply Apache Spark in Elastic deployments using Jupyter and Zeppelin Notebooks, Docker, Kubernetes and the IBM Cloud Understand internal details of cost based optimizers used in Catalyst, SystemML and GraphFrames Learn how specific parameter settings affect overall performance of an Apache Spark cluster Leverage Scala, R and python for your data science projects In Detail Apache Spark is an in-memory cluster-based parallel processing system that provides a wide range of functionalities such as graph processing, machine learning, stream processing, and SQL. This book aims to take your knowledge of Spark to the next level by teaching you how to expand Spark's functionality and implement your data flows and machine/deep learning programs on top of the platform. The book commences with an overview of the Spark ecosystem. It will introduce you to Project Tungsten and Catalyst, two of the major advancements of Apache Spark 2.x. You will understand how memory management and binary processing, cache-aware computation, and code generation are used to speed things up dramatically. The book extends to show how to incorporate H20, SystemML, and Deeplearning4j for machine learning, and Jupyter Notebooks and Kubernetes/Docker for cloud-based Spark. During the course of the book, you will learn about the latest enhancements to Apache Spark 2.x, such as interactive querying of live data and unifying DataFrames and Datasets. You will also learn about the updates on the APIs and how DataFrames and Datasets affect SQL, machine learning, graph processing, and streaming. You will learn to use Spark as a big data operating system, understand how to implement advanced analytics on the new APIs, and explore how easy it is to use Spark in day-to-day tasks. Style and approach This book is an extensive guide to Apache Spark modules and tools and shows how Spark's functionality can be extended for real-time processing and storage with worked examples.

Apache Spark 2: Data Processing and Real-Time Analytics

Master complex big data processing, stream analytics, and machine learning with Apache Spark

Author: Romeo Kienzler,Md. Rezaul Karim,Sridhar Alla,Siamak Amirghodsi,Meenakshi Rajendran,Broderick Hall,Shuen Mei

Publisher: Packt Publishing Ltd

ISBN: 1789959918

Category: Computers

Page: 616

View: 7740

Build efficient data flow and machine learning programs with this flexible, multi-functional open-source cluster-computing framework Key Features Master the art of real-time big data processing and machine learning Explore a wide range of use-cases to analyze large data Discover ways to optimize your work by using many features of Spark 2.x and Scala Book Description Apache Spark is an in-memory, cluster-based data processing system that provides a wide range of functionalities such as big data processing, analytics, machine learning, and more. With this Learning Path, you can take your knowledge of Apache Spark to the next level by learning how to expand Spark's functionality and building your own data flow and machine learning programs on this platform. You will work with the different modules in Apache Spark, such as interactive querying with Spark SQL, using DataFrames and datasets, implementing streaming analytics with Spark Streaming, and applying machine learning and deep learning techniques on Spark using MLlib and various external tools. By the end of this elaborately designed Learning Path, you will have all the knowledge you need to master Apache Spark, and build your own big data processing and analytics pipeline quickly and without any hassle. This Learning Path includes content from the following Packt products: Mastering Apache Spark 2.x by Romeo Kienzler Scala and Spark for Big Data Analytics by Md. Rezaul Karim, Sridhar Alla Apache Spark 2.x Machine Learning Cookbook by Siamak Amirghodsi, Meenakshi Rajendran, Broderick Hall, Shuen MeiCookbook What you will learn Get to grips with all the features of Apache Spark 2.x Perform highly optimized real-time big data processing Use ML and DL techniques with Spark MLlib and third-party tools Analyze structured and unstructured data using SparkSQL and GraphX Understand tuning, debugging, and monitoring of big data applications Build scalable and fault-tolerant streaming applications Develop scalable recommendation engines Who this book is for If you are an intermediate-level Spark developer looking to master the advanced capabilities and use-cases of Apache Spark 2.x, this Learning Path is ideal for you. Big data professionals who want to learn how to integrate and use the features of Apache Spark and build a strong big data pipeline will also find this Learning Path useful. To grasp the concepts explained in this Learning Path, you must know the fundamentals of Apache Spark and Scala.

Apache Spark 2.x for Java Developers

Author: Sourav Gulati,Sumit Kumar

Publisher: Packt Publishing Ltd

ISBN: 178712942X

Category: Computers

Page: 350

View: 1572

Unleash the data processing and analytics capability of Apache Spark with the language of choice: Java About This Book Perform big data processing with Spark—without having to learn Scala! Use the Spark Java API to implement efficient enterprise-grade applications for data processing and analytics Go beyond mainstream data processing by adding querying capability, Machine Learning, and graph processing using Spark Who This Book Is For If you are a Java developer interested in learning to use the popular Apache Spark framework, this book is the resource you need to get started. Apache Spark developers who are looking to build enterprise-grade applications in Java will also find this book very useful. What You Will Learn Process data using different file formats such as XML, JSON, CSV, and plain and delimited text, using the Spark core Library. Perform analytics on data from various data sources such as Kafka, and Flume using Spark Streaming Library Learn SQL schema creation and the analysis of structured data using various SQL functions including Windowing functions in the Spark SQL Library Explore Spark Mlib APIs while implementing Machine Learning techniques to solve real-world problems Get to know Spark GraphX so you understand various graph-based analytics that can be performed with Spark In Detail Apache Spark is the buzzword in the big data industry right now, especially with the increasing need for real-time streaming and data processing. While Spark is built on Scala, the Spark Java API exposes all the Spark features available in the Scala version for Java developers. This book will show you how you can implement various functionalities of the Apache Spark framework in Java, without stepping out of your comfort zone. The book starts with an introduction to the Apache Spark 2.x ecosystem, followed by explaining how to install and configure Spark, and refreshes the Java concepts that will be useful to you when consuming Apache Spark's APIs. You will explore RDD and its associated common Action and Transformation Java APIs, set up a production-like clustered environment, and work with Spark SQL. Moving on, you will perform near-real-time processing with Spark streaming, Machine Learning analytics with Spark MLlib, and graph processing with GraphX, all using various Java packages. By the end of the book, you will have a solid foundation in implementing components in the Spark framework in Java to build fast, real-time applications. Style and approach This practical guide teaches readers the fundamentals of the Apache Spark framework and how to implement components using the Java language. It is a unique blend of theory and practical examples, and is written in a way that will gradually build your knowledge of Apache Spark.

Programmieren mit Scala

Author: Dean Wampler,Alex Payne

Publisher: O'Reilly Germany

ISBN: 3897216485

Category: Computers

Page: 480

View: 717

Sie ist elegant, schlank, modern und flexibel: Die Rede ist von Scala, der neuen Programmiersprache für die Java Virtual Machine (JVM). Sie vereint die Vorzüge funktionaler und objektorientierter Programmierung, ist typsicherer als Java, lässt sich nahtlos in die Java-Welt integrieren – und eine in Scala entwickelte Anwendung benötigt oft nur einen Bruchteil der Codezeilen ihres Java-Pendants. Kein Wunder, dass immer mehr Firmen, deren große, geschäftskritische Anwendungen auf Java basieren, auf Scala umsteigen, um ihre Produktivität und die Skalierbarkeit ihrer Software zu erhöhen. Das wollen Sie auch? Dann lassen Sie sich von den Scala-Profis Dean Wampler und Alex Payne zeigen, wie es geht. Ihre Werkzeugkiste: Schon bevor Sie loslegen, sind Sie weiter, als Sie denken: Sie können Ihre Java-Programme weiter verwenden, Java-Bibliotheken nutzen, Java von Scala aus aufrufen und Scala von Java aus. Auch Ihre bevorzugten Entwicklungswerkzeuge wie NetBeans, IntelliJ IDEA oder Eclipse stehen Ihnen weiter zur Verfügung, dazu Kommandozeilen-Tools, Plugins für Editoren, Werkzeuge von Drittanbietern – und natürlich Ihre Programmiererfahrung. In Programmieren mit Scala erfahren Sie, wie Sie sich all das zunutze machen. Das Hybridmodell: Die Paradigmen "funktional" und "objektorientiert" sind keine Gegensätze, sondern ergänzen sich unter dem Scala-Dach zu einem sehr produktiven Ganzen. Nutzen Sie die Vorteile funktionaler Programmierung, wann immer sich das anbietet – und seien Sie so frei, auf die guten alten Seiteneffekte zu bauen, wenn Sie das für nötig halten. Futter für die Profis: Skalierbare Nebenläufigkeit mit Aktoren, Aufzucht und Pflege von XML mit Scala, Domainspezifische Sprachen, Tipps zum richtigen Anwendungsdesign – das sind nur ein paar der fortgeschrittenen Themen, in die Sie mit den beiden Autoren eintauchen. Danach sind Sie auch Profi im Programmieren mit Scala.

Mastering Apache Cassandra - Second Edition

Author: Nishant Neeraj

Publisher: Packt Publishing Ltd

ISBN: 1784396257

Category: Computers

Page: 350

View: 9831

The book is aimed at intermediate developers with an understanding of core database concepts who want to become a master at implementing Cassandra for their application.

Mastering Apache Cassandra 3.x

An expert guide to improving database scalability and availability without compromising performance, 3rd Edition

Author: Aaron Ploetz,Tejaswi Malepati,Nishant Neeraj

Publisher: Packt Publishing Ltd

ISBN: 1789132800

Category: Computers

Page: 348

View: 8403

Build, manage, and configure high-performing, reliable NoSQL database for your applications with Cassandra Key Features Write programs more efficiently using Cassandra's features with the help of examples Configure Cassandra and fine-tune its parameters depending on your needs Integrate Cassandra database with Apache Spark and build strong data analytics pipeline Book Description With ever-increasing rates of data creation, the demand for storing data fast and reliably becomes a need. Apache Cassandra is the perfect choice for building fault-tolerant and scalable databases. Mastering Apache Cassandra 3.x teaches you how to build and architect your clusters, configure and work with your nodes, and program in a high-throughput environment, helping you understand the power of Cassandra as per the new features. Once you’ve covered a brief recap of the basics, you’ll move on to deploying and monitoring a production setup and optimizing and integrating it with other software. You’ll work with the advanced features of CQL and the new storage engine in order to understand how they function on the server-side. You’ll explore the integration and interaction of Cassandra components, followed by discovering features such as token allocation algorithm, CQL3, vnodes, lightweight transactions, and data modelling in detail. Last but not least you will get to grips with Apache Spark. By the end of this book, you’ll be able to analyse big data, and build and manage high-performance databases for your application. What you will learn Write programs more efficiently using Cassandra's features more efficiently Exploit the given infrastructure, improve performance, and tweak the Java Virtual Machine (JVM) Use CQL3 in your application in order to simplify working with Cassandra Configure Cassandra and fine-tune its parameters depending on your needs Set up a cluster and learn how to scale it Monitor a Cassandra cluster in different ways Use Apache Spark and other big data processing tools Who this book is for Mastering Apache Cassandra 3.x is for you if you are a big data administrator, database administrator, architect, or developer who wants to build a high-performing, scalable, and fault-tolerant database. Prior knowledge of core concepts of databases is required.

Spring im Einsatz

Author: Craig Walls

Publisher: Carl Hanser Verlag GmbH Co KG

ISBN: 3446429468

Category: Computers

Page: 428

View: 437

SPRING IM EINSATZ // - Spring 3.0 auf den Punkt gebracht: Die zentralen Konzepte anschaulich und unterhaltsam erklärt. - Praxis-Know-how für den Projekteinsatz: Lernen Sie Spring mit Hilfe der zahlreichen Codebeispiele aktiv kennen. - Im Internet: Der vollständige Quellcode für die Applikationen dieses Buches Das Spring-Framework gehört zum obligatorischen Grundwissen eines Java-Entwicklers. Spring 3 führt leistungsfähige neue Features wie die Spring Expression Language (SpEL), neue Annotationen für IoC-Container und den lang ersehnten Support für REST ein. Es gibt keinen besseren Weg, um sich Spring anzueignen, als dieses Buch - egal ob Sie Spring gerade erst entdecken oder sich mit den neuen 3.0-Features vertraut machen wollen. Craig Walls setzt in dieser gründlich überarbeiteten 2. Auflage den anschaulichen und praxisorientierten Stil der Vorauflage fort. Er bringt als Autor sein Geschick für treffende und unterhaltsame Beispiele ein, die das Augenmerk direkt auf die Features und Techniken richten, die Sie wirklich brauchen. Diese Auflage hebt die wichtigsten Aspekte von Spring 3.0 hervor: REST, Remote-Services, Messaging, Security, MVC, Web Flow und vieles mehr. Das finden Sie in diesem Buch: - Die Arbeit mit Annotationen, um die Konfiguration zu reduzieren - Die Arbeit mit REST-konformen Ressourcen - Spring Expression Language (SpEL) - Security, Web Flow usw. AUS DEM INHALT: Spring ins kalte Wasser, Verschalten von Beans, Die XML-Konfiguration in Spring minimalisieren, Aspektorientierung, Zugriff auf die Datenbank, Transaktionen verwalten, Webapplikationen mit Spring MVC erstellen, Die Arbeit mit Spring Web Flow, Spring absichern, Die Arbeit mit Remote-Diensten, Spring und REST, Messaging in Spring, Verwalten von Spring-Beans mit JMX

Big Data in der Praxis

Lösungen mit Hadoop, Spark, HBase und Hive. Daten speichern, aufbereiten, visualisieren. 2. erweiterte Auflage

Author: Jonas Freiknecht,Stefan Papp

Publisher: Carl Hanser Verlag GmbH Co KG

ISBN: 3446456015

Category: Computers

Page: 551

View: 1781

Diese komplett überarbeitete Neuauflage bringt Ihnen das Thema Big Data auf sehr praktische Art und Weise nahe. Sie lernen Technologien, Tools und Methoden kennen, entwickeln Beispiel-Lösungen und erfahren, wie Sie bestehende Systeme vorausschauend auf die mit Big Data einhergehenden Herausforderungen vorbereiten. Dazu werden Sie neben den bekannten Apache-Projekten wie Hadoop, Hive und HBase auch einige weniger bekannte Frameworks wie Apache UIMA oder Apache OpenNLP kennenlernen, um gezielt die Verarbeitung unstrukturierter Daten zu lernen. Alle hier verwendeten Software-Komponenten stehen im vollen Umfang kostenlos im Internet zur Verfügung. Gemeinsam mit den Autoren bauen Sie Schritt für Schritt viele kleinere Projekte auf bis hin zu einer fertigen und funktionstüchtigen Implementierung. Ziel des Buches ist es, Sie auf den Effekt und den Mehrwert der neuen Möglichkeiten aufmerksam zu machen, sodass Sie diese konstruktiv in Ihr Unternehmen tragen können und für sich und Ihre Kollegen somit ein Bewusstsein für den Wert Ihrer Daten schaffen Die zweite Auflage ergänzt das Buch um zahlreiche neue Themen wie Apache Spark, Apache Kafka und weitere Technologien, die vor allem darauf abzielen, Antwortzeiten kurz zu halten und so ein interaktives Arbeiten zu ermöglichen. Ebenso werden die für Firmen so wichtigen Themen Data Governance und Sicherheit behandelt. Im Internet: 18 fertige Beispiel-Projekte auf Basis von Hadoop, HBase, Hive und D3.js plus Videotutorials

Statistik-Workshop für Programmierer

Author: Allen B. Downey

Publisher: O'Reilly Germany

ISBN: 3868993436

Category: Computers

Page: 160

View: 5968

Wenn Sie programmieren können, beherrschen Sie bereits Techniken, um aus Daten Wissen zu extrahieren. Diese kompakte Einführung in die Statistik zeigt Ihnen, wie Sie rechnergestützt, anstatt auf mathematischem Weg Datenanalysen mit Python durchführen können. Praktischer Programmier-Workshop statt grauer Theorie: Das Buch führt Sie anhand eines durchgängigen Fallbeispiels durch eine vollständige Datenanalyse -- von der Datensammlung über die Berechnung statistischer Kennwerte und Identifikation von Mustern bis hin zum Testen statistischer Hypothesen. Gleichzeitig werden Sie mit statistischen Verteilungen, den Regeln der Wahrscheinlichkeitsrechnung, Visualisierungsmöglichkeiten und vielen anderen Arbeitstechniken und Konzepten vertraut gemacht. Statistik-Konzepte zum Ausprobieren: Entwickeln Sie über das Schreiben und Testen von Code ein Verständnis für die Grundlagen von Wahrscheinlichkeitsrechnung und Statistik: Überprüfen Sie das Verhalten statistischer Merkmale durch Zufallsexperimente, zum Beispiel indem Sie Stichproben aus unterschiedlichen Verteilungen ziehen. Nutzen Sie Simulationen, um Konzepte zu verstehen, die auf mathematischem Weg nur schwer zugänglich sind. Lernen Sie etwas über Themen, die in Einführungen üblicherweise nicht vermittelt werden, beispielsweise über die Bayessche Schätzung. Nutzen Sie Python zur Bereinigung und Aufbereitung von Rohdaten aus nahezu beliebigen Quellen. Beantworten Sie mit den Mitteln der Inferenzstatistik Fragestellungen zu realen Daten.

Einführung in Apache Solr

Author: Markus Klose,Daniel Wrigley

Publisher: O'Reilly Germany

ISBN: 3955614220

Category: Computers

Page: 336

View: 9383

Eine leistungsfähige Volltextsuche ist heute auf Websites, in Online-Shops oder auch im Unternehmen nicht mehr Kür, sondern Pflicht. Gefragt ist eine flexible Suchtechnologie, die auf unterschiedlichsten Systemen genutzt werden kann. Hier kommt Apache Solr ins Spiel: Dieser Open-Source-Suchserver bietet Entwicklern auf Basis von Standard-Webtechnologien eine mächtige und dabei einfach zu integrierende und zu benutzende Search Engine. Einführung in Apache Solr bietet einen fundierten Einstieg in die Suchtechnologie: Der Leser wird in die Lage versetzt, eine individuelle Suchlösung auf Basis von Apache Solr aufzusetzen. Beschrieben wird, aus welchen Komponenten Solr sich zusammensetzt, wie die Indexierung konfiguriert und manipuliert werden kann und welche Einstellungsmöglichkeiten es für die Suche gibt. Mit zahlreichen Beispielkonfigurationen, Tipps und Pitfalls aus der Praxis der Autoren

Einführung in SQL

Author: Alan Beaulieu

Publisher: O'Reilly Germany

ISBN: 3897219387

Category: Computers

Page: 353

View: 8222

SQL kann Spaß machen! Es ist ein erhebendes Gefühl, eine verworrene Datenmanipulation oder einen komplizierten Report mit einer einzigen Anweisung zu bewältigen und so einen Haufen Arbeit vom Tisch zu bekommen. Einführung in SQL bietet einen frischen Blick auf die Sprache, deren Grundlagen jeder Entwickler beherrschen muss. Die aktualisierte 2. Auflage deckt die Versionen MySQL 6.0, Oracle 11g und Microsoft SQL Server 2008 ab. Außerdem enthält sie neue Kapitel zu Views und Metadaten. SQL-Basics - in null Komma nichts durchstarten: Mit diesem leicht verständlichen Tutorial können Sie SQL systematisch und gründlich lernen, ohne sich zu langweilen. Es führt Sie rasch durch die Basics der Sprache und vermittelt darüber hinaus eine Reihe von häufig genutzten fortgeschrittenen Features. Mehr aus SQL-Befehlen herausholen: Alan Beaulieu will mehr vermitteln als die simple Anwendung von SQL-Befehlen: Er legt Wert auf ein tiefes Verständnis der SQL-Features und behandelt daher auch den Umgang mit Mengen, Abfragen innerhalb von Abfragen oder die überaus nützlichen eingebauten Funktionen von SQL. Die MySQL-Beispieldatenbank: Es gibt zwar viele Datenbankprodukte auf dem Markt, aber welches wäre zum Erlernen von SQL besser geeignet als MySQL, das weit verbreitete relationale Datenbanksystem? Der Autor hilft Ihnen, eine MySQL-Datenbank anzulegen, und nutzt diese für die Beispiele in diesem Buch. Übungen mit Lösungen: Zu jedem Thema finden Sie im Buch gut durchdachte Übungen mit Lösungen. So ist sichergestellt, dass Sie schnell Erfolgserlebnisse haben und das Gelernte auch praktisch umsetzen können.

Big Data in der Praxis

Beispiellösungen mit Hadoop und NoSQL. Daten speichern, aufbereiten, visualisieren

Author: Jonas Freiknecht

Publisher: Carl Hanser Verlag GmbH Co KG

ISBN: 3446441778

Category: Computers

Page: 448

View: 3604

BIG DATA IN DER PRAXIS // - Für Analysten, BI-Verantwortliche, Data-Scientists, Consultants - Auf der DVD finden Sie: 18 fertige Projekte, die im Buch Schritt für Schritt entwickelt werden; Videotutorials u.a. zur Installation von Hadoop, Hive, HBase (Gesamtdauer: 80 Min.); Testdatensätze für die Wissensdatenbank Dieses Buch bringt Ihnen das Thema Big Data auf sehr praktische Art und Weise nahe. Sie lernen Technologien, Tools und Methoden kennen, entwickeln Beispiel-Lösungen und bekommen aufgezeigt, wie Sie bestehende Systeme vorausschauend auf die mit dem Big Data-Trend einhergehenden Herausforderungen vorbereiten. Dazu werden Sie neben den bekannten Apache-Projekten wie Hadoop, Hive und HBase auch einige weniger bekannte Frameworks wie Apache UIMA oder Apache OpenNLP kennenlernen, um gezielt die Verarbeitung unstrukturierter Daten zu behandeln. Alle hier verwendeten Software-Komponenten stehen im vollen Umfang kostenlos im Internet zur Verfügung. Gemeinsam mit dem Autor werden Sie ganz konkret Schritt für Schritt viele kleinere Projekte aufbauen bis hin zu einer fertigen und funktionstüchtigen Implementierung. Ziel des Buches ist es, Sie auf den Effekt und den Mehrwert der neuen Möglichkeiten aufmerksam zu machen, sodass Sie diese konstruktiv in Ihr Unternehmen tragen können und für sich und Ihre Kollegen somit ein Bewusstsein für den Wert Ihrer Daten schaffen. AUS DEM INHALT // Einführung rund um Big Data // Hadoop installieren, konfigurieren & bedienen // HDFS, Map-Reduce & YARN: Daten speichern und verarbeiten // Hadoop-Ecosystem: Überblick über dessen Komponenten // Einführung in NoSQL // HBase installieren, einrichten & auf Daten zugreifen // Data-Warehousing mit Apache Hive // HiveQL als Abfragesprache, Hive Security, Hive & JDBC // Datenimport aus relationalen Datenbanken mit Sqoop // Big Data-Visualisierung: Diagrammarten, Tipps & Trends // Visualisierungs-Frameworks im Vergleich // D3.js: Entwicklung einiger Beispieldiagramme // Entwicklung einer abschließenden Big Data-Analyse-Lösung // Troubleshooting für die Arbeit mit Hadoop, Hive & HBase

Entwurfsmuster von Kopf bis Fuß

Author: Eric Freeman,Elisabeth Robson,Kathy Sierra,Bert Bates

Publisher: O'Reilly Media

ISBN: 3955619877

Category: Computers

Page: 696

View: 8841

Jetzt aktuell zu Java 8: Dieses Buch ist ein moderner Klassiker zum Thema Entwurfsmuster. Mit dem einzigartigen Von Kopf bis Fuß-Lernkonzept gelingt es den Autoren, die anspruchsvolle Materie witzig, leicht verständlich und dennoch gründlich darzustellen. Jede Seite ist ein Kunstwerk für sich, mit vielen visuellen Überraschungen, originellen Comic-Zeichnungen, humorvollen Dialogen und geistreichen Selbstlernkontrollen. Spätestens, wenn es mal wieder heißt "Spitzen Sie Ihren Bleistift", wird dem Leser klar, dass bei diesem Buch sein Mitmachen gefragt ist. Das ist nicht nur unterhaltsam, sondern auch effektiv: Komplexe Sachverhalte lassen sich nach Erkenntnis der modernen Lernwissenschaft am gründlichsten über mehrere verschiedene Kanäle verstehen. Das Buch verspricht dem Leser daher nicht nur Spaß beim Lernen, er wird nach der Lektüre auch die Herausforderungen des Software-Designs meistern können.

SQL für Dummies

Author: Allen G. Taylor

Publisher: John Wiley & Sons

ISBN: 3527810897

Category: Computers

Page: 440

View: 9739

Daten und Datenbanken sind quasi überall. Mit der Standardabfragesprache SQL können Daten in relationalen Datenbanken einfach, strukturiert und zielsicher abgefragt werden. Erfahren Sie in diesem Buch, welches kein Vorwissen voraussetzt, wie man Datenbanken erstellt, wie man Daten ordnet und abfragt und wie man SQL-Anweisungen in Programme und Websites einbindet. Nutzen Sie dieses Buch auch als Nachschlagewerk. Ganz wichtig: Sie lernen auch, wie Sie Ihre Datenbanken und Daten schützen und wie Sie typische Fehler vermeiden.

High Performance MySQL

Author: Baron Schwartz,Peter Zaitsev,Vadim Tkachenko,Jeremy D. Zawodny,Arjen Lentz,Derek J. Balling

Publisher: O'Reilly Germany

ISBN: 3897218356

Category: Computers

Page: 768

View: 1512

Einführungen in MySQL gibt es viele. Wer aber größere MySQL-Server betreut, die verlässlich laufen müssen, egal was Programmierer oder Benutzer auf sie loslassen, der braucht weiter reichende Informationen. In High Performance MySQL beschreiben sechs anerkannte Experten mit langjähriger Erfahrung auf großen Systemen alle Stellschrauben, an denen MySQL-Admins drehen können, um Sicherheit, Performance, Datenintegrität und Robustheit zu erhöhen. Von Profis für Profis Hier geht es nicht um kleine Webauftritte mit Datenbankanbindung! Lernen Sie stattdessen fortgeschrittene Techniken kennen, mit denen Sie MySQLs Potenzial voll ausreizen können -- um große, skalierbare Systeme zu entwerfen, zu optimieren und zu sichern. Behandelt werden Benchmarking, Indizes, Storage-Engines, Replikationen, Lastverteilung und Hochverfügbarkeit, Backups, Sicherheit... und zu jedem Aspekt die richtigen Werkzeuge, mit denen sich Ihre Ziele am besten realisieren lassen. Praxiserprobt muss es sein Der eine ist MySQL-Guru bei Yahoo!, der andere Angestellter Nr. 25 bei MySQL AB und dort nacheinander für das MySQL-Manual, die Trainingskurse und die Entwicklung des Supports zuständig, wieder ein anderer war bei MySQL AB im High-Performance-Team – die Autoren dieses Buchs wissen, wovon sie sprechen. Graue Theorie finden Sie woanders, hier geht es um bewährte Techniken aus der Praxis. Die erste Auflage von „High Performance MySQL“ wurde hoch gelobt und hat schon unzähligen Lesern wertvolle Dienste geleistet. Nun war es an der Zeit, dieses anerkannte Handbuch einmal komplett zu aktualisieren, um nützliches Referenzmaterial zu erweitern, neue Features der Versionen MySQL 5.0 und 5.1 zu ergänzen und zahlreiche Themen wie die Optimierung der Storage-Engine InnoDB zu vertiefen.

Machine Learning mit Python

Das Praxis-Handbuch für Data Science, Predictive Analytics und Deep Learning

Author: Sebastian Raschka

Publisher: MITP-Verlags GmbH & Co. KG

ISBN: 3958454240

Category: Computers

Page: 424

View: 5777

To be or not to bop

Memoiren - Dizzy Gillespie

Author: Dizzy Gillespie,Al Frazer

Publisher: N.A

ISBN: 9783854450184

Category: Jazz musicians

Page: 451

View: 559

Mastering Spark for Data Science

Author: Andrew Morgan,Antoine Amend,David George,Matthew Hallett

Publisher: Packt Publishing Ltd

ISBN: 1785888285

Category: Computers

Page: 560

View: 5508

Master the techniques and sophisticated analytics used to construct Spark-based solutions that scale to deliver production-grade data science products About This Book Develop and apply advanced analytical techniques with Spark Learn how to tell a compelling story with data science using Spark's ecosystem Explore data at scale and work with cutting edge data science methods Who This Book Is For This book is for those who have beginner-level familiarity with the Spark architecture and data science applications, especially those who are looking for a challenge and want to learn cutting edge techniques. This book assumes working knowledge of data science, common machine learning methods, and popular data science tools, and assumes you have previously run proof of concept studies and built prototypes. What You Will Learn Learn the design patterns that integrate Spark into industrialized data science pipelines See how commercial data scientists design scalable code and reusable code for data science services Explore cutting edge data science methods so that you can study trends and causality Discover advanced programming techniques using RDD and the DataFrame and Dataset APIs Find out how Spark can be used as a universal ingestion engine tool and as a web scraper Practice the implementation of advanced topics in graph processing, such as community detection and contact chaining Get to know the best practices when performing Extended Exploratory Data Analysis, commonly used in commercial data science teams Study advanced Spark concepts, solution design patterns, and integration architectures Demonstrate powerful data science pipelines In Detail Data science seeks to transform the world using data, and this is typically achieved through disrupting and changing real processes in real industries. In order to operate at this level you need to build data science solutions of substance –solutions that solve real problems. Spark has emerged as the big data platform of choice for data scientists due to its speed, scalability, and easy-to-use APIs. This book deep dives into using Spark to deliver production-grade data science solutions. This process is demonstrated by exploring the construction of a sophisticated global news analysis service that uses Spark to generate continuous geopolitical and current affairs insights.You will learn all about the core Spark APIs and take a comprehensive tour of advanced libraries, including Spark SQL, Spark Streaming, MLlib, and more. You will be introduced to advanced techniques and methods that will help you to construct commercial-grade data products. Focusing on a sequence of tutorials that deliver a working news intelligence service, you will learn about advanced Spark architectures, how to work with geographic data in Spark, and how to tune Spark algorithms so they scale linearly. Style and approach This is an advanced guide for those with beginner-level familiarity with the Spark architecture and working with Data Science applications. Mastering Spark for Data Science is a practical tutorial that uses core Spark APIs and takes a deep dive into advanced libraries including: Spark SQL, visual streaming, and MLlib. This book expands on titles like: Machine Learning with Spark and Learning Spark. It is the next learning curve for those comfortable with Spark and looking to improve their skills.

Mastering Mesos

Author: Dipa Dubhashi,Akhil Das

Publisher: Packt Publishing Ltd

ISBN: 1785885375

Category: Computers

Page: 352

View: 1578

The ultimate guide to managing, building, and deploying large-scale clusters with Apache Mesos About This Book Master the architecture of Mesos and intelligently distribute your task across clusters of machines Explore a wide range of tools and platforms that Mesos works with This real-world comprehensive and robust tutorial will help you become an expert Who This Book Is For The book aims to serve DevOps engineers and system administrators who are familiar with the basics of managing a Linux system and its tools What You Will Learn Understand the Mesos architecture Manually spin up a Mesos cluster on a distributed infrastructure Deploy a multi-node Mesos cluster using your favorite DevOps See the nuts and bolts of scheduling, service discovery, failure handling, security, monitoring, and debugging in an enterprise-grade, production cluster deployment Use Mesos to deploy big data frameworks, containerized applications, or even custom build your own applications effortlessly In Detail Apache Mesos is open source cluster management software that provides efficient resource isolations and resource sharing distributed applications or frameworks. This book will take you on a journey to enhance your knowledge from amateur to master level, showing you how to improve the efficiency, management, and development of Mesos clusters. The architecture is quite complex and this book will explore the difficulties and complexities of working with Mesos. We begin by introducing Mesos, explaining its architecture and functionality. Next, we provide a comprehensive overview of Mesos features and advanced topics such as high availability, fault tolerance, scaling, and efficiency. Furthermore, you will learn to set up multi-node Mesos clusters on private and public clouds. We will also introduce several Mesos-based scheduling and management frameworks or applications to enable the easy deployment, discovery, load balancing, and failure handling of long-running services. Next, you will find out how a Mesos cluster can be easily set up and monitored using the standard deployment and configuration management tools. This advanced guide will show you how to deploy important big data processing frameworks such as Hadoop, Spark, and Storm on Mesos and big data storage frameworks such as Cassandra, Elasticsearch, and Kafka. Style and approach This advanced guide provides a detailed step-by-step account of deploying a Mesos cluster. It will demystify the concepts behind Mesos.

Find eBook