Apache Beam คืออะไร? [ปิด]

Viswa 02/08/2016. 2 answers, 11.776 views
apache-beam

ฉันกำลังจะผ่านเสา Apache และพบคำว่า Beam ใหม่ ใครสามารถอธิบายได้ว่า Apache Beam คืออะไร? ฉันพยายามใช้ Google แต่ไม่สามารถรับคำตอบได้ชัดเจน

2 Comments
3 Jens 02/08/2016
อ่านที่นี่: wiki.apache.org/incubator/BeamProposal
3 Joel 02/10/2016
สิ่งที่ใกล้เคียงที่สุดคือ Spark (ทั้งแบทช์และสตรีมมิ่ง) นี่คือการเปรียบเทียบที่ดีระหว่าง Apache Beam (ก่อนหน้านี้เรียกว่า Google DataFlow) และการประมวลผล Spark cloud.google.com/dataflow/blog/...

2 Answers


Frances 01/10/2017.

Apache Beam เป็นแบบโอเพ่นซอร์สแบบครบวงจรสำหรับการกำหนดและดำเนินการกระบวนการประมวลผลแบบขนานและสตรีมมิงแบบขนานรวมถึงชุด SDK เฉพาะภาษาสำหรับสร้างท่อและรันเนอร์เฉพาะรันไทม์เพื่อใช้งานได้

History: โมเดลที่อยู่เบื้องหลัง Beam ได้รับการพัฒนาจากโครงการประมวลผลข้อมูลภายในของ Google รวมถึง MapReduce , FlumeJava และ Millwheel โมเดลนี้เดิมเรียกว่า " Dataflow Model " และใช้งานเป็น Google Cloud Dataflow เป็นครั้งแรกรวมถึง Java SDK ใน GitHub สำหรับการเขียนท่อและบริการที่มีการจัดการอย่างเต็มที่เพื่อใช้งานได้บน Google Cloud Platform คนอื่น ๆ ในชุมชนเริ่มเขียนบทขยายรวมถึง Spark Runner , Flink Runner และ Scala SDK ในเดือนมกราคมปี พ.ศ. 2559 Google และพาร์ทเนอร์หลายรายได้ส่งแบบจำลอง Dataflow Programming Model และ SDKs เป็น ข้อเสนอของ Apache Incubator ภายใต้ชื่อ Apache Beam (การประมวลผลแบบแบทช์ / แบทช์) Apache Beam จบการศึกษา จากการบ่มเพาะในเดือนธันวาคม 2559

แหล่งข้อมูลเพิ่มเติมสำหรับการเรียนรู้ Beam Model:

2 comments
Minudika 02/28/2016
สวัสดีฉันกำลังติดตามประเด็นปัญหานี้ : apache.org/jira/browse/ZEPPELIN-682 ซึ่งได้รับการ sugessted สำหรับ GSOC 2016 คุณสามารถกรุณาให้ฉันแหล่งข้อมูลบางอย่างเพื่อทำความคุ้นเคยกับ Apache Beam? ขอบคุณ
Pierre Mage 02/28/2016
@Minudika Apache Beam Java SDK อาจจะไม่สามารถใช้งานได้ก่อนเดือนมีนาคม - พฤษภาคม 2016 และ Python SDK ก่อนฤดูร้อน 2016 คุณอาจเริ่มที่นั่น: mail-archives.apache.org/mod_mbox/incubator-beam-dev/ ...

nealmcb 06/21/2017.

Apache Beam (Batch + strEAM) เป็นโมเดลและชุด API สำหรับการทำแบทช์และการประมวลผลข้อมูลแบบสตรีมมิ่ง เปิดตัวโดย Google (กับ Cloudera และ PayPal) ในปีพ. ศ. 2563 ผ่านโครงการบ่มเพาะของ Apache

Data Data / Beam & Spark: การเปรียบเทียบรูปแบบการเขียนโปรแกรม - Cloud Dataflow ขัดต่อ Beam API กับ Apache Spark ซึ่งประสบความสำเร็จอย่างมหาศาลในการนำเสนอ API ที่มีความยืดหยุ่นทันสมัยและชุดเทคนิคการเพิ่มประสิทธิภาพสำหรับแบทช์และสตรีมมิ่งไปยังโลก Hadoop และ เกิน.

บีมพยายามใช้ทุกขั้นตอนต่อไปผ่านทางแบบจำลองที่ทำให้ง่ายต่อการอธิบายแง่มุมต่าง ๆ ของการ out-of-order processing ซึ่งมักเป็นปัญหาเมื่อรวมการประมวลผลแบบแบทช์และสตรีมมิ่งตามที่อธิบายไว้ใน " Programming Model Comparison "

โดยเฉพาะอย่างยิ่งการอ้างอิงจากการเปรียบเทียบรูปแบบ Dataflow ได้รับการออกแบบมาเพื่อตอบสนองความหรูหราและในรูปแบบที่จำเพาะมากขึ้นมีประสิทธิภาพและง่ายต่อการรักษา:

... สี่คำถามที่สำคัญทุกปฏิบัติงานการประมวลผลข้อมูลต้องพยายามที่จะตอบเมื่อมีการสร้างท่อของพวกเขา:

  • ผลการคำนวณอะไร ผลรวมการรวมฮีสโตแกรมแบบจำลองการเรียนรู้ของเครื่อง?
  • ในกรณีที่มีการคำนวณผลลัพธ์ในช่วงเวลาใด เวลาแต่ละเหตุการณ์มีผลต่อผลลัพธ์หรือไม่? ผลลัพธ์มีการรวมกันในหน้าต่างที่กำหนดเซสชันหรือหน้าต่างส่วนกลางเดียวหรือไม่?
  • เมื่อเวลาในการประมวลผลมีผลเป็นรูปธรรม? เวลาที่แต่ละเหตุการณ์เกิดขึ้นภายในระบบมีผลต่อผลลัพธ์หรือไม่? ผลที่ได้คือเมื่อไหร่? เก็งกำไรเมื่อข้อมูลมีวิวัฒนาการ? เมื่อข้อมูลมาถึงล่าช้าและผลการค้นหาต้องได้รับการแก้ไข? การรวมกันของเหล่านี้บ้างไหม
  • การปรับแต่งผลลัพธ์มีความสัมพันธ์อย่างไร? หากข้อมูลเพิ่มเติมมาถึงและผลการเปลี่ยนแปลงพวกเขาเป็นอิสระและแตกต่างกันพวกเขาสร้างขึ้นด้วยกัน ฯลฯ ?

ท่อที่อธิบายไว้ใน Beam สามารถเรียกใช้งานได้ใน Spark, Flink, การเสนอข้อมูลของ Googleflow ในระบบคลาวด์และ "runtimes" อื่น ๆ รวมถึงตัวเลือกเครื่องท้องถิ่น "Direct"

ได้รับการสนับสนุนจากสถาปัตยกรรมหลายภาษา Java SDK มีวางจำหน่ายแล้วในขณะนี้ Dataflow Python SDK กำลังใกล้จะได้รับการเผยแพร่แล้วและอื่น ๆ จะได้รับการคาดหมายสำหรับ Scala เป็นต้น

ดูแหล่งที่มาที่ Mirror of Apache Beam

Related questions

Hot questions

Language

Popular Tags