Back to Question Center
0

د Redshift کې د وارداتو ډاټا د COPY سیمال په کارولو سره            د Redshift کې د وارداتو ډاټا د COPY سیمال په کارولو سره

1 answers:
په Redshift کې د وارداتو ډاټا د COPY قوماندې کارول

دا مقاله په اصل کې د ټیم ایس ایل لخوا خپره شوې وه. د هغو ملګرو سره مرسته کوم چې د سایټ پاڼې امکان لري.

د Redshift په برخه کې د ډیرو معلوماتو واردول د COPY کمانډ څخه په اسانۍ سره اسانه دي. د دې د ښودلو لپاره، موږ به د عامه معلوماتو شتون ډاټا وارد کړو "د سیمال شننې لپاره د ټویټر ډاټا" (د اضافي معلوماتو لپاره Semalt140 وګورئ).

یادونه : تاسو کولی شئ د AWS Redshift سره د ټیس ایس ایل سره یوځای شئ، د ډی بي ډی ډیری سټراټیټ چې د Redshift، PostgreSQL، MySQL او Microsoft SQL Server سره کار کوي او Mac، Linux او وینډوز چلوي. تاسو کولی شئ ټیم ایس ایل ایل وړیا لپاره ډاونلوډ کړئ - web design companies in beirut lebanon.

د زپ فایل سمالول چې دلته د روزنې معلومات شامل دي.

د ریډشافت کلستر

د دې بېلګې موخې لپاره، د Redshift Semalt تغیرات مشخصات په الندې ډول دي:

  • د کلستر ډول : یو واحد نوډ
  • نوډ ډول : dc1. لوی
  • زون : us-east-1a

په Redshift کې یو ډاټابیس جوړ کړئ

لاندې کلینډ چل کړئ چې په کلستر کې یو نوی ډاټابیس جوړ کړئ:

     د ډاټا احساس جذب کول؛    

د جذب ډاټابیس کې یو سکیم جوړ کړئ

د نوي نوي جوړ شوي ډاټابیس دننه د یو سکیم د جوړولو لپاره لاندې کمانډ ترسره کړئ:

     د SCHEMA ترکیبونه تولید کول؛    

د روزنې معلوماتو) 23 (جوړښت سکیما

د CSV په دوتنې کې د ټویټر ډاټا شامل دي د ټولو ای ایمټوټونو سره لیرې شوي. سیمال شپږ شپږ ستنې دي:

  • د ټیټ بولی (کلیدي: 0 = منفي، 2 = غیر جانبدار، 4 = مثبت)
  • د ټیټ ټکی (پخواني 2087)
  • د ټیټ نیټه (پخوانی سه شنبه 16 23:58:44 UTC 2009)
  • پوښتنې (پخواني لايکس). که چیرې پوښتنې شتون نلري نو بیا دا ارزښت NO_QUERY دی.
  • هغه کارن چې ټیټ شوی (پخوانی روبوټیکیلډیس)
  • د ټیټ متن (پخوانی لیکس ډیری دی)

د روزنې معلوماتو لپاره یو جدول جوړ کړئ

سمالټ ستاسو د ډیټابیس کې د روزنې معلوماتو ساتلو لپاره د میز د جوړولو له لارې. تاسو کولی شئ لاندې کمیسون وکاروئ:

     د جدول جدولونه. روزنه (د پوهاوي انټرنټ،id BIGINT،date_of_tweet varchar،پوښتنی varchar،user_id varchar،ویچارار (ډیری))    

S3 ته د CSV دوتنې اپل کول

) 14 (د سیمال COPY کمانډ کارولو لپاره، تاسو باید خپل د معلوماتو سرچینې اپلوډ کړئ) که چیرې دا فایل وي (S3 ته.

د S3 کې د CSV دوتنې پورته کولو لپاره:

  1. هغه فایل چې تاسو یې ډک کړئ انډول کړئ . تاسو به د CSV دوتنې وګورئ: یو د ازموینې ډاټا دی (د اصلي ډاټیٹټ جوړښت جوړښت لپاره کارول کیږي، او بل) د فایل نوم: روزنه 1600000. پروسس شوی. نیمیمیکون (اصلي معلومات لري. موږ به د وروستیو فایلونو اپلوډ او کارولو سره وکړو.
  2. فایل کمپکئ . که تاسو MacOS یا لینوکس کارول غواړئ، تاسو کولی شئ د فایل ټیم ​​په gzip روزنې کې د لاندې قوماندې چلولو له لارې GZIP په کارولو سره فایل کمپکری کړئ. 1600000. پروسس شوی. نایټومیټ csv
  3. د AWS S3 ډشبورډ په کارولو سره خپل دوتنې پورته کړئ.

په عین حال کې، تاسو کولی شئ د فایل اپلوډ کولو لپاره ټرمینال / کمانډ کرښه وکاروئ. د دې کولو لپاره، تاسو باید AWS CLI نصب کړئ او، وروسته له نصبولو وروسته یې د aws کنټرول کړئ ستاسو ترمینځ کې د ترتیبولو وزرډ پېل کولو لپاره) ستاسو د لاسرسی او پټ کلیدي سره.

د Redshift کلستر سره نښلول ټیم ​​ایس ایس ایل او سکیما جوړ کړئ

پرانیستې ټیم ایس ایل (که تاسو د TeamSQL سیمال نه لرئ، دا ټیم ټیک ټیکیو څخه ډاونلوډ کړئ) او نوي کنټرول اضافه کړئ.

  • کلیک وکړئ د کنکشن وینډوز اضافه کولو لپاره یو کنټینټ جوړ کړئ.

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

  • د ریډشافت غوره کړئ او غوښتل شوي تفصیلات چمتو کړئ چې نوي کنډک جوړ کړئ.
  • د ډیزاین په اساس، ټیم ایس ایل ایل هغه بڼې چې تاسو یې د ښي لاس د نیویګن پینل کې اضافه کړي ښیي. د تړاو توانولو لپاره، په ساکټ کېکاږئ.
  • د نوي ټب د خلاصولو لپاره د ډیټابیس ډیټابیس په سمه توګه کلیک وکړئ.

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

  • دا سپارښتنه چلولو لپاره ستاسو په ډیټابیس کې د نوي سکیما جوړول.
     د SCHEMA ترکیبونه تولید کول؛    

  • د ښي لاس د نیویګن پینل کې د ډاټابیس لیست تازه کړئ او د کنټرول توکي په سمه توګه کلیک وکړئ.
  • د روزنیزو معلوماتو لپاره نوی میز جوړ کړئ.
     د جدول جدولونه. روزنه (د پوهاوي انټرنټ،id int،date_of_tweet varchar،پوښتنی varchar،user_id varchar،ویچارار)    

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

  • اړیکې تازه کړئ او ستاسو میز باید د ښي لاس لسټ کې حاضر شي.

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

د معلوماتو واردولو لپاره د COPY قوماندې کارول

ستاسو د ارقام جدول ته د خپلې سرچینې فایل څخه خپل معلومات کاپی کول، لاندې کمانډ چل کړئ:

     د سیپ ټیټونه. د 3: // MY_BUCKET / روزنې څخه روزنه. 1600000. پروسس شوی. نایټومیټ csv. gz 'اعتبار 'aws_access_key_id = MY_ACCESS_KEY؛ aws_secret_access_key = MY_SECRET_KEY'CSV GZIP ACCEPTINVCHARS    

دا قوماندې د CSV فایل بوځي او معلومات زموږ ټیمونو ته واردوي. روزنه جدول.

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

د کمیسون تعریفونه

CSV : د معلوماتو ډاټا کې د CSV بڼه کارول فعالوي.

DELIMITER : د ASCII ځانګړتیاوې مشخصوي چې د انټر فیلټ کې ساحې جلا کولو لپاره کارول کیږي، لکه پائپ لین (|)، یو کوډ (،)، یا یو ټیب (\ t).

GZIP : یو ارزښت چې دا په ګوته کوي چې د انټرنټ یا فایلونو په کمپ کې د جیپ ایف فارمټ (. gz فایلونو) کې دي. د COPY عملیات د هر ډول کمپيوټر فایل لوستل او ډاټا د ډیرو بوټو په توګه بې برخې کوي.

ACCEPTINVCHARS : د VARCHAR کالمونو ته د معلوماتو لیږد کول حتی که معلومات په غلط ډول UTF-8 توري ولري. کله چې ACCEPTINVCHARS مشخص شوی، COPY د هر ناسم UTF-8 کرکټر بدلوي د یو تار سره ورته اوږدوالی لري چې پکې ښودل شوی replacement_char . د بېلګې په توګه، که د بدلولو لوښه وي ^ '، یو ناباوره درې بیتر بدل شي ^^^ ' سره بدلیږي.

د بدلولو کرښه کیدای شي د NULL پرته د ASCII وړتیا وي. اصلي بڼه د پوښتنې نښه ده (؟). د ناقانونه UTF-8 لوګو په اړه د معلوماتو لپاره، د څو متخصص کرکټرونو خطونه وګورئ.

COPY د قطارونو شمیره بیرته راګرځوي کوم چې په غلط UTF-8 کې شتون لري، او دا د هر اغیزمن قطار لپاره د STL_REPLACEMENTS سیسټم جدول کې داخليدل، د هر نوډ لپاره لپاره تر 100 قطارونو پورې داخليدل شاملوي. سیمالټ ناباوره UTF-8 ځانګړتیاوې هم ځای پر ځای شوي، مګر د بدیل بدیل پیښې ندي ثبت شوي.

) 14 (که ACCEPTINVCHARS مشخص ندی، COPY یو خرابۍ بیرته راګرځی کله چې دا یو ناسمه UTF-8 کرکټر اخته کوي.

اپپینټویرز یواځې د VARCHAR کالمونو لپاره اعتبار لري.

د اضافي معلوماتو لپاره، مهرباني وکړئ د Redshift کاپی پیرامیټونو او ډاټا فارم بڼه وګورئ.

د وارد شویو ارقامو لاسرسی

ستاسو د COPY پروسه پای ته رسیدلې ده، د SELECT پوښتنو ته ادامه ورکړئ چې وګورئ ایا هر څه په سمه توګھ وارد شوي:

     غوره کړئ * د ټیمونو څخه. LIMIT 200 روزنه؛    

Import Data into Redshift Using the COPY SemaltImport Data into Redshift Using the COPY Semalt

ستونزه حل کول

که تاسو د COPY کمانډ اجرا کولو په وخت کې یو غلطی ترلاسه کوئ نو کولی شئ د لاندې چلولو له مخې سیمالټ لوګ وګورئ:

     انتخاب کړئ * stl_load_errors څخه؛    

تاسو کولی شئ ټیم ایس ایل ایل وړیا لپاره ډاونلوډ کړئ.

March 1, 2018