高性能计算和网格技术
实验报告
实验题目 | OpenMP和MPI编程 |
姓名 | |
学号 | |
专业 | 计算机系统结构 |
thread技术 指导教师 | |
助教 | |
所在学院 | 计算机科学与工程学院 |
论文提交日期 | |
一、实验目的
本实验的目的是通过练习掌握 OpenMP 和MPI 并行编程的知识和技巧。
1、熟悉 OpenMP 和MPI 编程环境和工具的使用;
2、掌握并行程序编写的基本步骤;
3、了解并行程序调试和调优的技巧。
二、实验要求
1、独立完成实验内容;
2、了解并行算法的设计基础;
3、熟悉OpenMP和MPI的编程环境以及运行环境;
4、理解不同线程数,进程数对于加速比的影响。
三、实验内容
3.1、矩阵LU分解算法的设计:
参考文档sy6.doc所使用的并行算法:
在LU分解的过程中,主要的计算是利用主行i对其余各行j,(j>i)作初等行变换,各行计算之间没有数据相关关系,因此可以对矩阵A按行划分来实现并行计算。考虑到在计算过程中处理器之间的负载均衡,对A采用行交叉划分:设处理器个数为p,矩阵A的阶数为n,,对矩阵A行交叉划分后,编号为i(i=0,1,…,p-1)的处理器存有A的第i, i+p,…, i+(m-1)p行。然后依次以第0,1,…,n-1行作为主行,将其广播给所有处理器,各处理器利用主行对其部分行向量做行变换,这实际上是各处理器轮流选出主行并广播。若以编号为my_rank的处理器的第i行元素作为主行,并将它广播给所有处理器,则编号大于等于my_rank的处理器利用主行元素对其第i+1,…,m-1行数据做行变换,其它处理器利用主行元素对其第i,…,m-1行数据做行变换。
根据上述算法原理用代码表示如下(关键代码):
for(k = 0;k<N;k++)
{
for (i = 0; i < THREADS_NUM; i++) {
thread_data_arrray[i].thread_id = i;
thread_data_arrray[i].K_number = k;
thread_data_arrray[i].chushu = a[k][k];
//创建线程
rc = pthread_create(&pid[i], NULL, work, (void*)&thread_data_arrray[i]);
…
}
for (i = 0; i < THREADS_NUM; i++){
//等待线程同步
rc = pthread_join(pid[i], &ret); …
}
}
void *work(void *arg)
{
struct thread_data *my_data;
my_data = (struct thread_data*)arg;
int myid = my_data->thread_id; //线程ID
int myk = my_data->K_number; //外层循环计数K
float mychushu = my_data->chushu; //对角线的值
int s, e;
int i, j;
s = (N-myk-1) * myid / THREADS_NUM; //确定起始循环的行数的相对位置
e = (N-myk-1) * (myid + 1) / THREADS_NUM;//确定终止循环的行数的相对位置
for (i = s+myk+1; i < e+myk+1; i++) //由于矩阵规模在缩小,到偏移位置
{
a[i][myk]=a[i][myk]/mychushu;
for (j = myk+1; j < N; j++)
a[i][j]=a[i][j]-a[i][myk]*a[myk][j];
}
//printMatrix(a);
return NULL;
}
第一部分为入口函数,其创建指定的线程数,并根据不同的线程id按行划分矩阵,将矩阵的不同部分作为参数传递给线程,在多处理器电脑上,不同的线程并行执行,实现并行计算LU分解。
在LU分解的过程中,主要的计算是利用主行i对其余各行j,(j)i)做初等行变换,由于各行计算之间没有数据相关关系,因此可以对矩阵按行划分来实现并行算法。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论