用于解析科学文章中作者信息的正则表达式
Regular expression for parsing authors information from a scientic article
我想创建一个工具,用它来自动解析一些文本。我正在使用javascript和正则表达式。
例如,我有以下文本:
Aa Aaa 1, Bb Bbb 2 and Cc Ccc 1
1 Institut xx Xx, Some University, Xxxx 14, US-10000 NewYork, USA; E-Mails: aa.aaa@edu.com; cc.ccc@edu.com
2 Institut zz Zzz, Some University2, Zzzz 20, US-10000 NewYork, USA; E-Mail: bb.bbb@edu.com
我想解析这些信息
对于每个作者(名字和姓氏):
- 隶属关系
- 电子邮件地址
所以在我的例子中,我希望有:
Aa Aaa - Institut xx Xx, Some University, Xxxx 14, US-10000 NewYork, USA - aa.aaa@edu.com
Bb Bbb - Institut zz Zzz, Some University2, Zzzz 20, US-10000 NewYork, USA - bb.bbb@edu.com
Cc Ccc - Institut xx Xx, Some University, Xxxx 14, US-10000 NewYork, USA - cc.ccc@edu.com
它看起来很复杂,所以如果我认为我应该将我的问题分成几个更简单的问题,请告诉我。
谢谢。
这是可行的任务。
我不用JavaScript编写代码,但我希望SO的人能为你克隆以下Perl代码:
$_ = "'n'n" . $input;
1 while s/^(.*?'n?)'n{1,2}'s*([^'d]+)'s+('d+)'s*?(?:'s*and|[,'n's])(.*?)(?<='n)('3's+)([^'n]*)('n.*$|$)/$1$2 - $6'n'n$4$5$6$7/gs;
s/'n'n.*$//s;
print $_;
在这里查看并测试 Perl 代码。
相关文章:
- java.net和javascript之间正则表达式的差异
- Grunt匹配正则表达式
- 不同浏览器中的空白字符正则表达式行为
- 正则表达式在字符串中找到base64
- 子字符串/正则表达式以获取字符串中保存的 SRC 值
- 调用正则表达式匹配的函数
- 使用正则表达式评估电子邮件地址时出现性能问题
- Javascript 正则表达式 : ^[^/s/]+[a-z]{1,}[0-9]*[-_]*[^/][
- JavaScript正则表达式文本与RegExp对象
- 正则表达式只允许 x 个整数
- 使用正则表达式将输入格式设置为单字符逗号、单字符逗号等
- 改进用于验证付款金额的正则表达式
- 正则表达式与数字中的第二个点匹配
- 键按正则表达式以查找具有负值的小数
- 一个正则表达式,用于从JS中的HTML标记中删除id、样式和类属性
- 信用卡信息的正则表达式不应允许使用字符
- 用于解析科学文章中作者信息的正则表达式
- javascript正则表达式来查找特定的html标记详细信息
- 检索具有深入信息的正则表达式结果
- 用于解析来自PING命令的信息的Javascript正则表达式