推奨, 2024

エディタの選択

Apache Kafkaが大量データのために車輪を磨く仕組み

Anonim

大量のデータに関連する最大の課題の1つとして、しばしば説明されていますが、その前にデータを取り込んでエンタープライズユーザーが利用できるようにする必要があります。 Apache Kafkaが登場したのは、これはLinkedInで最初に開発されたKafkaは、Webサイト、アプリケーション、センサーからのリアルタイムのデータストリームを管理するためのオープンソースシステムです。

本質的に、例えば、ユーザ活動、ログ、アプリケーション・メトリック、株式ティッカー、デバイス計測などの大量のデータを収集し、エンタープライズ・ユーザーによる消費のためのリアルタイム・ストリームとして利用できるようにする「中枢神経系」[

] [

]さらに読む:最高の白色LEDスマート・バルブ]カフカは、オンプレミスの実装の場合はActiveMQやRabbitMQ、クラウドの顧客の場合はAmazon Web ServicesのKinesisと比較されることが多いと、共同設立者のStephen O'Grady

「これは高品質のオープンソースプロジェクトであるため、より目に見えるようになっていますが、IoTなどのサービス負荷を軽減するために高速度の情報ストリームを処理する能力がますます要求されているため、また、カフカは、LinkedInで考え始めて以来、Netflix、Uber、Cisco、Goldman Sachsなどの企業から高い評価を得ています。 IBMの新しいStreaming Analyticsサービスは、数ミリ秒の応答時間で数百万件のイベントを分析することを目標としています。また、即刻の意思決定。ベータ版のIBM Message Hubは、RESTまたはApache Kafka API(アプリケーション・プログラミング・インターフェース)を使用して他のアプリケーションと通信するオプションを使用して、クラウド・アプリケーション用にスケーラブルで分散型の高スループットの非同期メッセージングを提供します。昨年、カフカのクリエイターのうち3人が、企業が本物の生産でそれを使用するのを支援するスタートアップであるコンフルエントを立ち上げました。

「LinkedInの爆発的な成長段階では、 Kafkaのクリエイターの1人であり、Confluentの共同創業者の1人であるNeha Narkhede氏は述べています。 "カフカ氏は、データを社内に移動してそれを利用する必要がある人々に数秒以内に連続して自由に流れる流れとして利用可能である」とNarkhedeは説明した。 「それは規模でそれを実現する」

LinkedInの影響は "変容的"だったと彼女は言った。今日では、LinkedInは生産現場で最大のカフカ展開を続けています。コンフルエントは、大企業が生産システム用にカフカを運営するのを手伝うため、サブスクリプションによって高度な管理ソフトウェアを提供しています。 Narkhede氏によると、顧客の中には大手の大型小売店と「米国最大のクレジットカード発行会社の1つ」があります。

後者はこの技術をリアルタイム詐欺防止のために使用しています。 > Kafkaは、さまざまな種類のデータをすばやく統合するのに役立つ「信じられないほど速いメッセージング・バス」と、451 Researchのアナリスト、Jason Stamperは述べています。 「それが最も人気のある選択肢の1つとして浮上している理由です。」ActiveMQとRabbitMQに加えて、同様の機能を提供する別の製品はApache Flumeです。 StormとSpark Streamingは多くの点でも同様です。商業空間では、IBM InfoSphere Streams、InformaticaのUltra Messaging Streaming Edition、SASのEvent Stream Processing Engine(ESP)、Software AGのApama、TibcoのStreamBase、 SAPのAleri、Stamper氏。より小さい競合企業には、DataTorrent、Splunk、Loggly、Logentries、X15ソフトウェア、Sumo Logic、Glassbeamが含まれます。

クラウドでは、AWSのKinesisストリーム処理サービスは、「RedshiftデータウェアハウスやS3ストレージプラットフォームのようなものと統合することの利点がある」と同氏は話す。

Teradataの新しく発表されたListenerはもう一つの候補であり、カフカForrester Researchのブライアン・プレジデント兼アナリスト、ブライアン・ホプキンス氏は述べています。

一般的に、リアルタイムデータの傾向は著しいとHopkins氏は言います。

2013年までは、大量のデータがHadoopに埋め込まれていたことを示しています。 「スマートフォンやその他の情報源からのデータは、企業にリアルタイムで消費者と関わり、文脈上の経験を提供する機会を与えています。前記。これは、データをより早く理解する能力にかかっています。

"Internet of Thingsはモバイルの第二の波のようなものです"とHopkins氏は説明します。

「2014年まではHadoopのすべてであり、その後はSparkでした」と彼は言いました。「すべてのベンダーはデータの雪崩に遭っています。 「現在、Hadoop、Spark、Kafkaです。これらは、この最新の分析アーキテクチャにおけるデータ処理パイプラインの3つの同等のピアです。」

Top