MPICH2でのノード間並列計算について 2007.07.02
- mpdを使用する場合,mpiexec + TORQUEでノード間並列を行う場合
- 名前解決に関して/etc/hostsファイルで,自分のホスト名がループバック(127.0.0.1)で解決されると問題が生じた.
- とりあえずhostsファイルを書き換えて対応した.未確認だが,DNSサーバで名前解決できるようにしてもよいと思われる.
- 例えば,以下のようにする.
# Do not remove the following line, or various programs
# that require network functionality will fail.
192.168.1.57 calckoshilab004
127.0.0.1 calckoshilab004 localhost.localdomain localhost
::1 calckoshilab004 localhost.localdomain localhost
192.168.1.54 calckoshilab001
192.168.1.55 mpiclub_master
192.168.1.56 calckoshilab003
これを設定しないと,次のようなエラーが表示された.
[unset]: connect failed with connection refused
[unset]: Unable to connect to calckoshilab004 on 37217
[unset]: aborting job:
Fatal error in MPI_Init: Other MPI error, error stack:
MPIR_Init_thread(247): Initialization failed
MPID_Init(71)........: channel initialization failed
MPID_Init(274).......: PMI_Init returned -1
mpiexec: Warning: task 1 exited with status 1.
mpiexec + TORQUE使用時の/var/spool/torque/mom_log
pbs_mom;Job;159.localhost;scan_for_terminated: job 159.localhost task 3 terminated, sid 22710
by Jun ARAI, 2007