nltk 无法下载数据集

发布于 2023-01-06  55 次阅读


问题描述

在 Jupyter Notebook 中使用 nltk 下载数据集时报错: [nltk_data] Error loading reuters: <urlopen error [Errno 111] ,但手动去网站上下载是没问题的。

问题解决

网上搜索后得知可能是代理问题。在 Jupyter 中的代码无法自动走系统代理(Clash),需要手动设置,于是搜索相关方法:

import nltk
nltk.set_proxy('http://127.0.0.1:7890') # 走系统代理
nltk.download('reuters', './nltk_data/') #to specify download location, optionally add the argument: download_dir='/specify/desired/path/'
nltk.data.path.append(r'./nltk_data')

这里的代理端口针对具体环境而定。我的系统环境是 Linux Mint ,代理工具是 Clash 。