Skip to main content

Pemrograman Paralel dengan CUDA

CUDA (Compute Unified Device Architecture) adalah suatu skema yang dibuat oleh NVIDIA agar NVIDIA selaku GPU (Graphic Processing Unit) mampu melakukan komputasi tidak hanya untuk pengolahan grafis namun juga untuk tujuan umum. Jadi, dengan CUDA, kita dapat memanfaatkan cukup banyak processor yang dimiliki oleh NVIDIA untuk berbagai perhitungan. GPU yang ada  saat ini seperti ATI pun sudah memiliki banyak processor di dalamnya. Pada ATI, skema yang mereka bangun disebut ATI Stream.

Saat ini pemrograman paralel menjadi sangat penting karena kebutuhan kemampuan komputasi komputer yang terus meningkat seperti kemampuan multitasking dan pengolahan grafis yang andal. Metode saat ini dalam peningkatan peforma komputer juga berbeda dengan masa lampau dimana peningkatan clock dari processor yang diutamakan. Peningkatan clock juga dibatasi oleh kemampuan fisik dari perangkat digital yaitu persoalan daya dan panas. Pada 2005 berbagai industri komputer mulai menawakan komputer dengan beberapa core mulai dari 2, 3, 4, 6, dst. Pada awal perkembangan GPU dengan banyak core, pemanfaatan GPU hanya dapat dilakukan dengan antarmuka seperti OpenGL dan DirectX dimana antarmuka tersebut dikhususkan hanya untuk pengolahan grafis.

Seri-seri terbaru dari NVIDIA saat ini telah mendukung CUDA tepatnya keluaran setelah tahun 2006. Untuk daftar dari seri yang mendukung CUDA dapat dilihat pada http://nvidia.com/cuda. Sebagai tahap awal dalam belajar pemrograman paralel dengan memanfaatkan CUDA sebaiknya menggunakan bahasa pemrograman C atau C++. CUDA C telah menjadi bahasa pemrograman khusus pertama yang dikembangkan oleh suatu perusahaan GPU untuk memfasilitasi general-purpose computing pada GPU. Beberapa hal yang perlu dipersiapkan dalam penggunaan CUDA C untuk membuat suatu aplikasi adalah sebagai berikut.

  • CUDA-enabled graphics processor 
  • NVIDIA device driver
  • CUDA development toolkit
  • Standard C compiler

Kebutuhan seperti toolkit dan driver dapat diunduh di http://developer.nvidia.com/cuda-downloads. CUDA C menyediakan kebutuhan tersebut untuk Windows, Linux, dan Mac. Jika telah memasang CUDA toolkit pada komputer Anda maka akan ada aplikasi compiler yang dapat Anda gunakan yaitu nvcc. Selain itu, jika Anda menggunakan Windows sebaiknya Anda juga memasang Visual Studio untuk kemudahan pembuatan aplikasi dan ada program bernama cl.exe dari Visual Studio yang diperlukan dalam kompilasi.

Hal khusus dalam kode program yang menggunakan CUDA C adalah adanya kernel call. Sebagai contoh adalah cuplikan kode berikut.

#include 
__global__ void kernel( void ) {
}
int main( void ) {
    kernel<<<1>>>();
    printf( "Hello, World!\n" );
    return 0;
}

Penambahan variabel __global__ pada fungsi kernel() berfungsi untuk menunjukkan pada compiler bahwa program tersebut dikompilasi untuk berjalan pada device dan bukan pada host. Selanjutnya kita akan melihat contoh program lagi dimana terdapat bagian pengiriman nilai.

#include 
#include "book.h"
__global__ void add( int a, int b, int *c ) {
    *c = a + b;
}
int main( void ) {
    int c;
    int *dev_c;
    HANDLE_ERROR( cudaMalloc( (void**)&dev_c, sizeof(int) ) );
    add<<<1>>>( 2, 7, dev_c );
    HANDLE_ERROR( cudaMemcpy( &c, dev_c, sizeof(int), cudaMemcpyDeviceToHost   ) );
    printf( "2 + 7 = %d\n", c );
    cudaFree( dev_c );
    return 0;
}

Variabel dev_c adalah variabel yang akan digunakan untuk menampung nilai yang akan dilewatkan dari host ke device dan setelah itu nilai tersebut akan diambil dari device dan dikirim ke host. Metode pengalokasian memori memanfaatkan fungsi cudaMalloc() yang fungsinya mirip malloc() pada C. Untuk mengambil nilai dari device memanfaakan fungsi cudaMemcpy().

Sekarang bagaimanakah paralel pada GPU? Kita lihat program penjumlahan vektor berikut ini.

#include "../common/book.h"
#define N 10

__global__ void add( int *a, int *b, int *c ) {
 int tid = blockIdx.x; 

 // handle the data at this index
 if (tid < N) {
  c[tid] = a[tid] + b[tid]; 
 }
}

int main( void ) { 
int a[N], b[N], c[N]; 
int *dev_a, *dev_b, *dev_c; 

// allocate the memory on the GPU 
HANDLE_ERROR( cudaMalloc( (void**)&dev_a, N * sizeof(int) ) ); 
HANDLE_ERROR( cudaMalloc( (void**)&dev_b, N * sizeof(int) ) );
HANDLE_ERROR( cudaMalloc( (void**)&dev_c, N * sizeof(int) ) ); 

// fill the arrays 'a' and 'b' on the CPU 
for (int i = 0; i < N; i++) { a[i] = -i; b[i] = i * i; } 

// copy the arrays 'a' and 'b' to the GPU 
HANDLE_ERROR( cudaMemcpy( dev_a, a, N * sizeof(int), cudaMemcpyHostToDevice ) ); 
HANDLE_ERROR( cudaMemcpy( dev_b, b, N * sizeof(int), cudaMemcpyHostToDevice ) );

add<<< N,1 >>>( dev_a, dev_b, dev_c );

// copy the array 'c' back from the GPU to the CPU 
HANDLE_ERROR( cudaMemcpy( c, dev_c, N * sizeof(int), cudaMemcpyDeviceToHost ) ); 

// display the results 
for (int i = 0; i < N; i++) { printf( "%d + %d = %d\n", a[i], b[i], c[i] ); } 

// free the memory allocated on the GPU 
cudaFree( dev_a ); cudaFree( dev_b ); cudaFree( dev_c ); return 0; 

Program yang dapat dijadikan paralel adalah program yang digunakan untuk menghasilkan satu nilai dimana nilai keluarannya tersebut tidak dipengaruhi oleh nilai lain dari komputasi dengan fungsi yang sama. Contohnya adalah dalam program penjumlahan vektor ini. Dalam penjumlahan vektor nilai c(0) adalah penjumlahan antara a(0) dan b(0) dan tidak dipengaruhi oleh nilai c(1), c(2), dst.

Pada program ini juga terdapat bagian yang bertuliskan add<<<N,1>>>. Bagian ini menunjukkan bahwa program memanfaatkan N buah thread. Nilai N buah ini diperoleh dari:

N buah block x 1 thread per block

Untuk menentukan jumlah thread yang akan digunakan dapat diatur dengan mengubah kedua nilai tersebut. Fungsi add<<<1,N>>> akan menghasilkan penggunaan jumlah thread yang sama dengan fungsi ini add<<<N,1>>>. Jumlah block dan thread per block tentu saja terbatas dan untuk setiap device akan berbeda jumlahnya. Anda dapat melihatnya menggunakan fungsi properti dari CUDA. Program di atas juga hanya menggunakan 1 thread pada setiap block. Oleh karena itu identifikasi posisi cukup dengan mengambil posisi block yang menjalankan komputasi dengan memanggil variabel blockIdx.x.

Hal lain yang akan menjadi penting dalam pemanfaatan CUDA ada kemampuan untuk merepresentasikan array 2D atau 3D dalam array 1D. Kemampuan ini akan mempermudah kita dalam pembuatan program untuk pengalokasian memori serta pengaturan jumlah thread. Untuk belajar lebih jauh lagi tentang pemrograman paralel dengan CUDA dapat mempelajari berbagai bahan untuk belajar yang disediakan oleh NVIDIA seperti pada http://developer.nvidia.com//suggested-reading dan http://developer.nvidia.com/cuda-training.


Comments

Popular posts from this blog

Rangkaian Sensor Infrared dengan Photo Dioda

Keunggulan photodioda dibandingkan LDR adalah photodioda lebih tidak rentan terhadap noise karena hanya menerima sinar infrared, sedangkan LDR menerima seluruh cahaya yang ada termasuk infrared. Rangkaian yang akan kita gunakan adalah seperti gambar di bawah ini. Pada saat intensitas Infrared yang diterima Photodiode besar maka tahanan Photodiode menjadi kecil, sedangkan jika intensitas Infrared yang diterima Photodiode kecil maka tahanan yang dimiliki photodiode besar. Jika  tahanan photodiode kecil  maka tegangan  V- akan kecil . Misal tahanan photodiode mengecil menjadi 10kOhm. Maka dengan teorema pembagi tegangan: V- = Rrx/(Rrx + R2) x Vcc V- = 10 / (10+10) x Vcc V- = (1/2) x 5 Volt V- = 2.5 Volt Sedangkan jika  tahanan photodiode besar  maka tegangan  V- akan besar  (mendekati nilai Vcc). Misal tahanan photodiode menjadi 150kOhm. Maka dengan teorema pembagi tegangan: V- = Rrx/(Rrx + R2) x Vcc V- = 150 / (150+10) x Vcc V- = (150/160) x 5

Rangkaian Sensor Cahaya dengan LDR

LDR(Light Depending Resistor) adalah resistor yang nilai hambatannya bergantung dari intensitas cahaya yang ia terima. Jika intensitas cahaya rendah (gelap) maka nilai resistansinya akan menjadi sangat besar (mencapai 1MOhm atau lebih), sedangkan jika intensitas cahaya tinggi (terang) nilai resistansinya menjadi kecil (mencapai 10kOhm atau kurang). Sifat ini dapat kita pergunakan dalam rangkaian sensor cahaya. Misalkan jika kita menginginkan sensor cahaya yang akan menyalakan lampu indikasi ketika ada cahaya dan mematikan lampu indikasi ketika tidak ada cahaya. Kita dapat menggunakan rangkaian seperti gambar di bawah ini. Transistor NPN berfungsi sebagai gate. Arus dari kolektor akan mengalir menuju emitor jika arus dari base besar namun jika arus pada base kecil maka arus dari kolektor tidak akan menuju emitor. Pada rangkaian sensor cahaya dengan LDR, ketika intensitas cahaya tinggi (terang) maka arus dari VCC akan melewati LDR kemudian melewati RESISTOR dan masuk ke

Installing APCu in PHP 7

APCu is one of caching application for PHP. In this case, I use PHP 7.0 on Ubuntu 16.04. In PHP 7.0, this application is provided via PEAR. First, install PEAR. $ sudo apt-get install php-pear Install APCu. If an error occured state that there's no phpize, you need to install PHP 7.0-dev which provide phpize support. $ sudo apt-get install php7.0-dev $ sudo pecl install apcu Create APCu module configuration in PHP modules directory. $ sudo echo "extension = apcu.so" >> /etc/php/7.0/mods-available/apcu.ini Add that configuration to PHP FPM and CLI. $ sudo ln -s /etc/php/7.0/mods-available/apcu.ini /etc/php/7.0/fpm/conf.d/30-apcu.ini $ sudo ln -s /etc/php/7.0/mods-available/apcu.ini /etc/php/7.0/cli/conf.d/30-apcu.ini Restart PHP FPM.

Configuring Swap Memory on Ubuntu Using Ansible

If we maintain a Linux machine with a low memory capacity while we are required to run an application with high memory consumption, enabling swap memory is an option. Ansible can be utilized as a helper tool to automate the creation of swap memory. A swap file can be allocated in the available storage of the machine. The swap file then can be assigned as a swap memory. Firstly, we should prepare the inventory file. The following snippet is an example, you must provide your own configuration. [server] 192.168.1.2 [server:vars] ansible_user=root ansible_ssh_private_key_file=~/.ssh/id_rsa Secondly, we need to prepare the task file that contains not only the tasks but also some variables and connection information. For instance, we set /swapfile  as the name of our swap file. We also set the swap memory size to 2GB and the swappiness level to 60. - hosts: server become: true vars: swap_vars: size: 2G swappiness: 60 For simplicity, we only check the exi

Setting Up Next.js Project With ESLint, Typescript, and AirBnB Configuration

If we initiate a Next.js project using the  create-next-app tool, our project will be included with ESLint configuration that we can apply using yarn run lint . By default, the tool installs eslint-config-next and extends next/core-web-vitals in the ESLint configuration. The Next.js configuration has been integrated with linting rules for React and several other libraries and tools. yarn create next-app --typescript For additional configuration such as AirBnB, it is also possible. First, we need to install the peer dependencies of eslint-config-airbnb . We also add support for Typescript using eslint-config-airbnb-typescript . yarn add --dev eslint-config-airbnb eslint-plugin-import eslint-plugin-jsx-a11y eslint-plugin-react eslint-plugin-react-hooks yarn add --dev eslint-config-airbnb-typescript @typescript-eslint/eslint-plugin @typescript-eslint/parser After that, we can update the .eslintrc.json file for the new configuration. { "extends": [ "airb

Managing MongoDB Records Using NestJS and Mongoose

NestJS is a framework for developing Node.js-based applications. It provides an additional abstraction layer on top of Express or other HTTP handlers and gives developers a stable foundation to build applications with structured procedures. Meanwhile, Mongoose is a schema modeling helper based on Node.js for MongoDB. There are several main steps to be performed for allowing our program to handle MongoDB records. First, we need to add the dependencies which are @nestjs/mongoose , mongoose , and @types/mongoose . Then, we need to define the connection configuration on the application module decorator. import { MongooseModule } from '@nestjs/mongoose'; @Module({ imports: [ MongooseModule.forRoot('mongodb://localhost:27017/mydb'), ], controllers: [AppController], providers: [AppService], }) Next, we create the schema definition using helpers provided by NestJS and Mongoose. The following snippet is an example with a declaration of index setting and an o