ubuntu---NVIDIA驱动+CUDA安装完可能会遇见的问题
如果稍不注意:系统内核、GCC、下载的版本不对应、安装过程中选项选择不正确,在NVIDIA驱动 + CUDA 安装完后可能会遇见⼀些问题。
⼀、
可能的操作:
(1)nivida驱动安装完之后,重启电脑,发现GPU⽆法正常使⽤,出现⽆法登录桌⾯系统、分辨率改变等问题。
(2)CUDA安装完之后,重启电脑,发现GPU⽆法正常使⽤,出现⽆法登录桌⾯系统。
(3)系统软件升级之后(⼀般是使⽤了 sudo apt-get update),重启,在登陆界⾯输⼊密码后,回车,闪现⼀次⿊屏和⼀些代码,然后⼜重新回到登陆界⾯。
(4)点了ubuntu系统⾃动提⽰的软件升级以后,重启电脑导致。
(5)ubuntu 正常使⽤过程中,有些使⽤/安装需要软件升级,⽆意操作,更新软件的同时更新了内核。
可能的原因分析:
1、主⽬录下的.Xauthority⽂件拥有者变成了root,从⽽以⽤户登陆的时候⽆法都取.Xauthority⽂件。从⽽造成⽤户登陆不进⼊系统桌⾯。
说明:Xauthority,是startx脚本记录⽂件。Xserver启动时,读⽂件~/.Xauthority,读⼊对应其display的记录。当⼀个需要显⽰的客户程序启动调⽤XOpenDisplay()也读这个⽂件,并把到的magic code 发送给Xserver。
当Xserver验证这个magic code正确以后,就同意连接啦。观察startx脚本也可以看到,每次startx运⾏,都在调⽤xinit以前使⽤了xauth的add 命令添加了⼀个新的记录到~/.Xauthority,⽤来这次运⾏X使⽤认证
#系统的Xauthority⽂件出现了问题,当前⽤户⽆权限调⽤他,所以使⽤rm -rf .Xauthority删除他,也有说使⽤sudo chown usrname
.Xauthority将权修改为当前⽤户的。
2、系统软件升级后与Nvidia的驱动冲突。
解决⽅法
针对可能的原因分析1:
将.Xauthority的拥有者改为登陆⽤户。
操作过程:
开机后在登陆界⾯按下shift + ctrl + F1进⼊tty命令⾏终端登陆后输⼊:
$ cd ~
$ sudo chown hp:hp .Xauthority (若为其他⽤户名修改成相应的名称即可)
然后再次输⼊: ls .Xauthority -l
成功后显⽰如下: -rw------- 1 hp hp 80 1⽉2710:41 .Xauthority
此时拥有者已经变为⽤户。按下shift + ctrl + F7切换回图形登陆界⾯登陆即可。
参考:blog.csdn/u010925447/article/details/72236387
另,参考:
进⼊shell,在home⽬录下到.xsession-errors⽂件
# cd home 查看是否有.xsession-errors
cd ~
ls -a
#⽤vi打开.xsession-errors⽂件
vi .xsession-errors
接着你就可以看到⾥⾯的⽇志信息,按照⽇志⾥⾯的信息去google,也许可以解决驱动安装的办法。
针对可能的原因分析2:
出现这个问题最⼤的可能原因是安装的Nvidia驱动和系统或者硬件有不兼容,下载新的驱动⼀般可以解决问题。卸载驱动,升级或者降级内核版本。
卸载:由于登陆进⼊不到图形⽤户界⾯(GUI),但我们可以进⼊到⽂本⽤户界⾯(TUI)。
卸载NVIDIA驱动,重新安装 unity 桌⾯。参考以下⼏种⽅式:
进⼊到shell,开始卸载NVIDIA驱动:
sudo apt-get remove --purge nvidia-*  #sudo apt-get remove --purge nvidia-331-updates卸载指定版本
sudo apt-get install ubuntu-desktop
sudo rm /etc/f
echo 'nouveau' | sudo tee -a /etc/modules
#重启系统
sudo reboot
----------------------------------
sudo apt-get purge nvidia-*
sudo apt-get autoremove
sudo apt-get --purge remove nvidia-*
remove 之后,nvidia-smi 看驱动是否还在。
如果还在,说明没卸载掉:
查看nouveau模块是否被加载。如果什么都没输出,则执⾏下⼀步。
根本问题在于参数: --no-opengl-filessudo /etc/init.d/lightdm stop
sudo ./NVIDIA-Linux-x86_64-375.20.run --no-opengl-files
sudo /etc/init.d/lightdm start
即可以正常登录界⾯了!!
----------------------------------
(1) 按ALT + F1进⼊命令⾏模式,查显卡驱动.run的安装⽂件存放位置:
find . -name NVIDIA-Linux-x86_64-375.39.run
(2) 跳转到该⽂件所在位置,运⾏如下命令卸载该驱动:
sudo bash ./NVIDIA-Linux-x86_64-375.39.run –uninstall
$ sudo apt-get autoremove --purge nvidia-* #把nvidia驱动清个⼲⼲净净
$ sudo reboot        #⼀定记得重启,不然你会后悔的!
在登陆界⾯状态下,按Ctrl + Alt + f1,进⼊TUI执⾏
sudo /usr/bin/nvidia-uninstall
然后重启
sudo reboot
如果装完之后出现循环登录,可以卸载之后添加--no-opengl-files选项重新安装⼀次
卸载NVidia驱动
sudo ./un –uninstall #⽤下载的安装程序进⾏卸载。如果安装的是官⽹下载的驱动,则重新运⾏run⽂件来卸载
或者
nvidia-uninstall #⽤安装出来的可执⾏脚本卸载
当输⼊安装指令时,不要简单地输⼊ sudo ./....run,⽽是输⼊:
sudo ./NVIDIA.run -no-x-check -no-nouveau-check -no-opengl-files
-no-x-check:安装驱动时关闭X服务
-no-nouveau-check:安装驱动时禁⽤nouveau
-no-opengl-files:只安装驱动⽂件,不安装OpenGL⽂件
这样再reboot,就不会出现循环登录的问题。
如果在安装CUDA时候⼀起安装的Nvidia驱动。
-----------------------------------------------------------
Description
This package includes over 100+ CUDA examples that demonstrate
various CUDA programming principles, and efficient CUDA
implementation of algorithms in specific application domains.
The NVIDIA CUDA Samples License Agreement is available in
Do you accept the previously read EULA?
accept/decline/quit: accept
Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 367.48?
(y)es/(n)o/(q)uit: y    # 单独安装nvidia驱动,这⾥选择 n
Install the CUDA 8.0 Toolkit?
(y)es/(n)o/(q)uit: y
Enter Toolkit Location
[ default is /usr/local/cuda-8.0 ]:
Do you want to install a symbolic link at /usr/local/cuda?
(y)es/(n)o/(q)uit: y
Install the CUDA 8.0 Samples?
(y)es/(n)o/(q)uit: y
Enter CUDA Samples Location
[ default is /home/c302 ]:
Installing the CUDA Toolkit in /usr/local/cuda-8.0 ...
Installing the CUDA Samples in /home/c302 ...
Copying samples to /home/c302/NVIDIA_CUDA-8.0_
Finished copying samples.
===========
= Summary =
===========
Driver:  Not Selected
Toolkit:  Installed in /usr/local/cuda-8.0
Samples:  Installed in /home/c302
Please make sure that
-  PATH includes /usr/local/cuda-8.0/bin
-  LD_LIBRARY_PATH includes /usr/local/cuda-8.0/lib64, or, add /usr/local/cuda-8.0/lib64 to /etc/f and run ldconfig as root
To uninstall the CUDA Toolkit, run the uninstall script in /usr/local/cuda-8.0/bin
Please see CUDA_Installation_Guide_Linux.pdf in /usr/local/cuda-8.0/doc/pdf for detailed information on setting up CUDA.
***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 361.00is required for CUDA 8.0 functionality to work. To install the driver using this installer, run the following command, replacing <CudaInstaller> with the name of this run file:
sudo <CudaInstaller>.run -silent -driver
Logfile is /tmp/cuda_install_9045.log
--------------------------------------------------------
这种,可以采⽤⼀起卸载 CUDA 以及 NVIDIA驱动的形式卸载NVIDIA驱动。
  参考⼀:
CUDA安装:  sudo apt install nvidia-cuda-toolkit
卸载CUDA:  sudo apt purge --autoremove cuda
sudo apt purge --autoremove nvidia-cuda-toolkit  #sudo apt-get purge --auto-remove nvidia-cuda-toolkit
session下载
  参考⼆:
卸载CUDA很简单,⼀条命令就可以了,主要执⾏的是CUDA⾃带的卸载脚本,要根据⾃⼰的cuda版本到卸载脚本:
sudo /usr/local/cuda-8.0/bin/uninstall_cuda_8.0.pl
卸载之后,还有⼀些残留的⽂件夹,之前安装的是CUDA 8.0。可以⼀并删除:
sudo rm -rf /usr/local/cuda-8.0/
cd /usr/local/cuda6.5/bin/
sudo ./uninstall_****
  参考三:
卸载CUDA
只针对对于.run⽅式安装的,其他的没有进⾏测试
打开终端,输⼊:sudo /usr/local/cuda-10.0/bin/uninstall_cuda_10.0.pl
执⾏完后,删除cuda⽂件即可
同时卸载nvidia驱动:sudo /usr/bin/nvidia-uninstall
卸载cuDNN
打开终端,输⼊:
sudo rm -rf /usr/local/cuda/lib64/libcudnn
sudo rm -rf /usr/local/cuda/include/cudnn.h
然后,可以选择把⾃⼰下载的⽂件也删除掉,这个需要到⾃⼰存放⽂件的地⽅删除了,不同的⼈存放的地⽅可能不同,在这不过多累述。
打开~/.bashrc, 删除:
export PATH=$PATH:/opt/cuda/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/cuda/lib:/opt/cuda/lib64
  参考四:
sudo apt-get remove cuda
sudo apt-get autoclean
然后在⽬录切换到/esr/local/下
cd /usr/local/
sudo rm -r cuda-9.0
  参考五:
sudo ./CUDA-x86_64-X.X.run --uninstall
⼆、验证CUDA Toolkit :$ nvcc -V ,会输出CUDA的版本信息,但如果是这样的:
   The program 'nvcc' is currently not installed. You can install it by typing:
   sudo apt-get install nvidia-cuda-toolkit  # sudo apt-get remove nvidia-cuda-toolkit
(1)可能是 Install the CUDA 8.0 Toolkit?  这⼀步没安装,选择了 n。可以尝试: sudo apt-get install nvidia-cuda-toolkit ,在查看cat /usr/local/cuda-10. 与 nvcc --version 显⽰版本是否⼀致。
(2)可能是环境配置没有成功,重设置环境变量,使其在系统中⽣效。@blog.csdn/qlulibin/article/details/78714596
查看路径 /usr/local/cuda-9.0/bin 下是否有 nvcc 这个可执⾏⽂件,有则说明cuda安装是成功的。
配置环境:
  export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-9.0/lib64
  export PATH=$PATH:/usr/local/cuda-9.0/bin
  export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-9.0
sudo ldconfig 径设置是⽣效的。
卸载完,⼀定要检验:是否已经卸载完毕。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。